1 pontos por GN⁺ 2024-12-25 | 1 comentários | Compartilhar no WhatsApp

Ciência da Computação > Aprendizado de Máquina

  • Título: Adversarial Policies Beat Superhuman Go AIs
  • Autores: Tony T. Wang, Adam Gleave, Tom Tseng, Kellin Pelrine, Nora Belrose, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell
  • Data de envio: 1 de novembro de 2022 (v1), última revisão em 13 de julho de 2023 (v4)

Resumo

  • A equipe treinou uma política adversária contra o sistema de IA de Go de ponta KataGo e alcançou uma taxa de vitória acima de 97% contra o KataGo em configuração superhumana.
  • As políticas adversárias não vencem por jogar Go bem; elas induzem o KataGo a cometer erros graves.
  • O ataque se transfere em zero-shot para outras IAs de Go superhumanas e é suficientemente interpretável para que especialistas humanos possam derrotar consistentemente a IA superhumana sem ajuda algorítmica.
  • A vulnerabilidade central persistiu até mesmo em agentes KataGo treinados de forma adversarial para resistir ao ataque.
  • Os resultados mostram que até sistemas de IA superhumanos podem ter modos de falha surpreendentes.

Informações adicionais

  • Status do artigo: Aceito no ICML 2023
  • Tópicos: Aprendizado de Máquina (cs.LG); Inteligência Artificial (cs.AI); Criptografia e Segurança (cs.CR); Aprendizado de Máquina (stat.ML)
  • Classificação ACM: I.2.6
  • Citação: arXiv:2211.00241 [cs.LG] (ou esta versão arXiv:2211.00241v4 [cs.LG])
  • Histórico de submissão:
    • [v1] 1 de novembro de 2022
    • [v2] 9 de janeiro de 2023
    • [v3] 18 de fevereiro de 2023
    • [v4] 13 de julho de 2023

Acesso ao artigo

  • Acesso ao artigo em PDF e em outros formatos
  • Oferece artigos relacionados e ferramentas de citação

Informações do arXiv

  • arXiv é uma plataforma para compartilhamento de artigos de pesquisa que disponibiliza trabalhos de várias áreas.

1 comentários

 
GN⁺ 2024-12-25
Opinião do Hacker News
  • Um usuário disse que o artigo parece impressionante à primeira vista, mas é difícil de entender. Ele sabe um pouco sobre Go e IA de Go e bastante sobre xadrez e IA de xadrez, e ainda assim achou a explicação insuficiente e com muitos termos técnicos, o que o torna difícil de compreender.

    • Ele acha que o artigo está escondendo suas ideias, que podem ser surpreendentes e simples.
  • Apresentou casos de canto (edge cases) no xadrez e comparou as avaliações de Stockfish e Lc0.

    • No primeiro caso, Stockfish e Lc0 avaliam que as brancas estão ligeiramente em vantagem.
    • No segundo e no terceiro casos, ambos avaliam que as pretas vencem.
    • No quarto caso, Lc0 entende, mas Stockfish não.
  • Comentou que, no Go, um amador pode ser um adversário desafiador por causa de uma jogada imprevisível.

    • Uma jogada de forma não convencional pode ser eficaz às vezes.
  • Lembrou que os jogadores de xadrez melhoraram suas estratégias contra computadores desde o Deep Blue.

    • No Go, como o espaço é maior, pode haver mais estratégias anti-computador.
    • É uma forma de explorar as fragilidades da função de avaliação.
  • Também mencionou que mais cálculo no xadrez leva à vitória.

    • O Elo é uma métrica de vitória/derrota, e confundi-lo com dificuldade pode levar a conclusões erradas.
  • Mencionou uma versão do trabalho revisada entre 2022 e 2023 e que pode ter visto isso antes.

    • Fica curioso para saber o quão eficaz essa abordagem é para engines de xadrez no estilo Leela.
  • Disse que também há esperança para humanos.

  • Afirmou que o trabalho será usado para incorporar defesa contra estratégias adversariais em IA de Go.

    • É simples curiosidade, mas reflete o estado geral do desenvolvimento de IA.
  • Comentou que a conclusão de que “nossos resultados mostram que sistemas de IA sobre-humanos também podem ter modos de falha surpreendentes” está em branco.

    • Isso não diz nada sobre uma futura “superinteligência”, e ela pode ou não apresentar esses “modos de falha”.