Ciência da Computação > Aprendizado de Máquina
- Título: Adversarial Policies Beat Superhuman Go AIs
- Autores: Tony T. Wang, Adam Gleave, Tom Tseng, Kellin Pelrine, Nora Belrose, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell
- Data de envio: 1 de novembro de 2022 (v1), última revisão em 13 de julho de 2023 (v4)
Resumo
- A equipe treinou uma política adversária contra o sistema de IA de Go de ponta KataGo e alcançou uma taxa de vitória acima de 97% contra o KataGo em configuração superhumana.
- As políticas adversárias não vencem por jogar Go bem; elas induzem o KataGo a cometer erros graves.
- O ataque se transfere em zero-shot para outras IAs de Go superhumanas e é suficientemente interpretável para que especialistas humanos possam derrotar consistentemente a IA superhumana sem ajuda algorítmica.
- A vulnerabilidade central persistiu até mesmo em agentes KataGo treinados de forma adversarial para resistir ao ataque.
- Os resultados mostram que até sistemas de IA superhumanos podem ter modos de falha surpreendentes.
Informações adicionais
- Status do artigo: Aceito no ICML 2023
- Tópicos: Aprendizado de Máquina (cs.LG); Inteligência Artificial (cs.AI); Criptografia e Segurança (cs.CR); Aprendizado de Máquina (stat.ML)
- Classificação ACM: I.2.6
- Citação: arXiv:2211.00241 [cs.LG] (ou esta versão arXiv:2211.00241v4 [cs.LG])
- Histórico de submissão:
- [v1] 1 de novembro de 2022
- [v2] 9 de janeiro de 2023
- [v3] 18 de fevereiro de 2023
- [v4] 13 de julho de 2023
Acesso ao artigo
- Acesso ao artigo em PDF e em outros formatos
- Oferece artigos relacionados e ferramentas de citação
Informações do arXiv
- arXiv é uma plataforma para compartilhamento de artigos de pesquisa que disponibiliza trabalhos de várias áreas.
1 comentários
Opinião do Hacker News
Um usuário disse que o artigo parece impressionante à primeira vista, mas é difícil de entender. Ele sabe um pouco sobre Go e IA de Go e bastante sobre xadrez e IA de xadrez, e ainda assim achou a explicação insuficiente e com muitos termos técnicos, o que o torna difícil de compreender.
Apresentou casos de canto (edge cases) no xadrez e comparou as avaliações de Stockfish e Lc0.
Comentou que, no Go, um amador pode ser um adversário desafiador por causa de uma jogada imprevisível.
Lembrou que os jogadores de xadrez melhoraram suas estratégias contra computadores desde o Deep Blue.
Também mencionou que mais cálculo no xadrez leva à vitória.
Mencionou uma versão do trabalho revisada entre 2022 e 2023 e que pode ter visto isso antes.
Disse que também há esperança para humanos.
Afirmou que o trabalho será usado para incorporar defesa contra estratégias adversariais em IA de Go.
Comentou que a conclusão de que “nossos resultados mostram que sistemas de IA sobre-humanos também podem ter modos de falha surpreendentes” está em branco.