1 pontos por GN⁺ 4 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O clássico jogo de dedução Batalha Naval foi reconfigurado em formato de perguntas e respostas em linguagem natural, criando um testbed para medir a capacidade de agentes de IA de fazer boas perguntas em ambientes incertos
  • A dinâmica ocorre com uma pessoa no papel de capitão (captain), que pergunta pela posição de navios ocultos, e um colega no papel de observador (spotter), que responde em tempo real; com dados de partidas jogadas por mais de 40 pessoas, foi criado o dataset BattleshipQA
  • Mesmo sem treinamento prévio, modelos grandes como o GPT-5 venceram em menos turnos do que humanos, mas modelos pequenos tinham dificuldade para formular perguntas úteis, levando à aplicação de uma estratégia de inferência Monte Carlo
  • O Llama 4 Scout passou de 8% de taxa de vitória contra humanos para 82%, superando o GPT-5 com custo de cerca de 1%
  • O estudo mostra que modelos menores podem superar modelos maiores com melhor custo-benefício e sugere potencial em áreas de descoberta científica que exigem busca por needle-in-a-haystack

Contexto da pesquisa: limites da exploração de informação por agentes de IA

  • Em 2026, as expectativas em torno de agentes de IA estão mais altas do que nunca, com modelos de linguagem (LMs) sendo usados em tarefas bem definidas como atendimento ao cliente e desenvolvimento de software
  • Já áreas como diagnóstico médico e descoberta científica, em que é preciso explorar amplamente soluções em ambientes incertos, ainda são desafiadoras para LMs
  • Para analisar problemas centrais dos LMs em situações de alto risco, pesquisadores do MIT CSAIL e da Harvard SEAS adotaram o Batalha Naval, usado na ciência cognitiva para estudar a exploração humana de informação, como teste

O jogo Collaborative Battleship e o dataset BattleshipQA

  • O jogo foi reestruturado com foco em perguntas e respostas em linguagem natural; um participante assume o papel de capitão, perguntando pela posição dos navios ocultos, enquanto outro atua como observador, respondendo em tempo real
  • Mais de 40 pessoas jogaram em conjunto, gerando uma coleta de perguntas e respostas sim/não que formou o dataset BattleshipQA
  • Esses dados serviram como referência comparativa para testar LMs de ponta, como o GPT-5, e modelos menores, como o Llama 4 Scout
  • Mesmo sem treinamento prévio, os melhores LMs conseguiram “vencer” o jogo em menos turnos do que humanos, enquanto sistemas pequenos se mostraram muito menos racionais

Fazendo perguntas melhores — estratégia de inferência Monte Carlo

  • O problema central era que muitos modelos não conseguiam gerar perguntas úteis
  • Foi dada a cada modelo uma estratégia de inferência Monte Carlo que mede, a cada resposta, a probabilidade de acerto entre as opções, levando a resultados em que eles vencem jogadores comuns independentemente do tamanho do modelo
  • O LM trata possíveis palpites como partículas (particles) individuais e, a cada resposta do observador, aumenta o peso dos palpites que parecem mais plausíveis, de forma adaptativa
    • Isso funciona como uma bola de jogo que infla ou encolhe a cada turno, permitindo que o capitão extraia muito mais informação do observador
  • O Llama 4 Scout, que como modelo pequeno tinha só 8% de vitórias contra humanos, alcançou 82% após a melhoria da estratégia de inferência, superando o GPT-5 com custo de cerca de 1%

Respondendo com mais precisão — conversão para código Python

  • O GPT-5 foi um observador confiável, mas sistemas menores tinham o hábito de responder incorretamente sobre a posição dos navios
  • As perguntas do capitão foram convertidas automaticamente em comandos codificados, induzindo o LM observador a verificar a resposta, o que elevou a precisão média em 15%
    • Ex.: "Há um navio que ocupa duas linhas na coluna 1?" → conversão em um comando que explora a área correspondente e avalia a largura da peça no jogo
  • Ao dar instruções claras em Python, linguagem que os modelos entendem especialmente bem, a taxa de acerto subiu bastante
    • O modelo leve GPT-4o-mini teve melhora de cerca de 30%, e o modelo grande Claude 4 Opus subiu cerca de 8 pontos
  • Com base no sucesso da estratégia de auto-formalization, em que o LM gera código para verificar soluções, o estudo sugere que melhorar a busca e a coleta de informação pode levar a soluções melhores

Expansão para outro jogo — Guess Who?

  • A mesma técnica foi aplicada ao Guess Who?, em que é preciso restringir 100 opções para descobrir um personagem oculto
  • O Llama 4 Scout subiu de 30% para mais de 72%, e o GPT-4o de 62% para 90%, com o GPT-5 atuando como observador em cada jogo
  • Os modelos ainda têm dificuldade para responder a perguntas complexas melhor do que humanos
    • O GPT-5 vence um jogador médio de Batalha Naval e melhora um pouco com a técnica, mas, ao contrário do xadrez, ainda é difícil para todos os modelos vencer jogadores especialistas

Desafios restantes e próximos passos

  • Agentes de IA mostram potencial em buscas needle-in-a-haystack por soluções raras em espaços enormes de possibilidades
    • Isso pode torná-los bons assistentes de pesquisa em tarefas científicas como identificar estruturas moleculares de compostos
  • O Collaborative Battleship é um testbed relativamente simples, e ainda será necessário validar os resultados em ambientes mais complexos, com mais opções a considerar
  • Os próximos planos incluem estudar a eficácia da colaboração entre humanos e IA, usar fine-tuning baseado em simulação de jogos e obter capacidades de raciocínio mais avançadas com mais recursos computacionais
  • À medida que os agentes se tornam mais autônomos, os problemas sociais — como rastrear um terreno comum, resolver mal-entendidos e se adaptar ao parceiro — passam a ser os mais difíceis; a avaliação é que o verdadeiro gargalo não está apenas em calcular a pergunta ideal, mas em usar a resposta da forma mais eficaz

Ainda não há comentários.

Ainda não há comentários.