Ensinando agentes de IA a fazer perguntas melhores usando o jogo 'Batalha Naval'

(news.mit.edu)

1 pontos por GN⁺ 2026-06-04 | Ainda não há comentários. | Compartilhar no WhatsApp

O clássico jogo de dedução Batalha Naval foi reconfigurado em formato de perguntas e respostas em linguagem natural, criando um testbed para medir a capacidade de agentes de IA de fazer boas perguntas em ambientes incertos
A dinâmica ocorre com uma pessoa no papel de capitão (captain), que pergunta pela posição de navios ocultos, e um colega no papel de observador (spotter), que responde em tempo real; com dados de partidas jogadas por mais de 40 pessoas, foi criado o dataset BattleshipQA
Mesmo sem treinamento prévio, modelos grandes como o GPT-5 venceram em menos turnos do que humanos, mas modelos pequenos tinham dificuldade para formular perguntas úteis, levando à aplicação de uma estratégia de inferência Monte Carlo
O Llama 4 Scout passou de 8% de taxa de vitória contra humanos para 82%, superando o GPT-5 com custo de cerca de 1%
O estudo mostra que modelos menores podem superar modelos maiores com melhor custo-benefício e sugere potencial em áreas de descoberta científica que exigem busca por needle-in-a-haystack

Contexto da pesquisa: limites da exploração de informação por agentes de IA

Em 2026, as expectativas em torno de agentes de IA estão mais altas do que nunca, com modelos de linguagem (LMs) sendo usados em tarefas bem definidas como atendimento ao cliente e desenvolvimento de software
Já áreas como diagnóstico médico e descoberta científica, em que é preciso explorar amplamente soluções em ambientes incertos, ainda são desafiadoras para LMs
Para analisar problemas centrais dos LMs em situações de alto risco, pesquisadores do MIT CSAIL e da Harvard SEAS adotaram o Batalha Naval, usado na ciência cognitiva para estudar a exploração humana de informação, como teste

O jogo foi reestruturado com foco em perguntas e respostas em linguagem natural; um participante assume o papel de capitão, perguntando pela posição dos navios ocultos, enquanto outro atua como observador, respondendo em tempo real
Mais de 40 pessoas jogaram em conjunto, gerando uma coleta de perguntas e respostas sim/não que formou o dataset BattleshipQA
Esses dados serviram como referência comparativa para testar LMs de ponta, como o GPT-5, e modelos menores, como o Llama 4 Scout
Mesmo sem treinamento prévio, os melhores LMs conseguiram “vencer” o jogo em menos turnos do que humanos, enquanto sistemas pequenos se mostraram muito menos racionais

O problema central era que muitos modelos não conseguiam gerar perguntas úteis
Foi dada a cada modelo uma estratégia de inferência Monte Carlo que mede, a cada resposta, a probabilidade de acerto entre as opções, levando a resultados em que eles vencem jogadores comuns independentemente do tamanho do modelo
O LM trata possíveis palpites como partículas (particles) individuais e, a cada resposta do observador, aumenta o peso dos palpites que parecem mais plausíveis, de forma adaptativa
- Isso funciona como uma bola de jogo que infla ou encolhe a cada turno, permitindo que o capitão extraia muito mais informação do observador
O Llama 4 Scout, que como modelo pequeno tinha só 8% de vitórias contra humanos, alcançou 82% após a melhoria da estratégia de inferência, superando o GPT-5 com custo de cerca de 1%

O GPT-5 foi um observador confiável, mas sistemas menores tinham o hábito de responder incorretamente sobre a posição dos navios
As perguntas do capitão foram convertidas automaticamente em comandos codificados, induzindo o LM observador a verificar a resposta, o que elevou a precisão média em 15%
- Ex.: "Há um navio que ocupa duas linhas na coluna 1?" → conversão em um comando que explora a área correspondente e avalia a largura da peça no jogo
Ao dar instruções claras em Python, linguagem que os modelos entendem especialmente bem, a taxa de acerto subiu bastante
- O modelo leve GPT-4o-mini teve melhora de cerca de 30%, e o modelo grande Claude 4 Opus subiu cerca de 8 pontos
Com base no sucesso da estratégia de auto-formalization, em que o LM gera código para verificar soluções, o estudo sugere que melhorar a busca e a coleta de informação pode levar a soluções melhores

A mesma técnica foi aplicada ao Guess Who?, em que é preciso restringir 100 opções para descobrir um personagem oculto
O Llama 4 Scout subiu de 30% para mais de 72%, e o GPT-4o de 62% para 90%, com o GPT-5 atuando como observador em cada jogo
Os modelos ainda têm dificuldade para responder a perguntas complexas melhor do que humanos
- O GPT-5 vence um jogador médio de Batalha Naval e melhora um pouco com a técnica, mas, ao contrário do xadrez, ainda é difícil para todos os modelos vencer jogadores especialistas

Agentes de IA mostram potencial em buscas needle-in-a-haystack por soluções raras em espaços enormes de possibilidades
- Isso pode torná-los bons assistentes de pesquisa em tarefas científicas como identificar estruturas moleculares de compostos
O Collaborative Battleship é um testbed relativamente simples, e ainda será necessário validar os resultados em ambientes mais complexos, com mais opções a considerar
Os próximos planos incluem estudar a eficácia da colaboração entre humanos e IA, usar fine-tuning baseado em simulação de jogos e obter capacidades de raciocínio mais avançadas com mais recursos computacionais
À medida que os agentes se tornam mais autônomos, os problemas sociais — como rastrear um terreno comum, resolver mal-entendidos e se adaptar ao parceiro — passam a ser os mais difíceis; a avaliação é que o verdadeiro gargalo não está apenas em calcular a pergunta ideal, mas em usar a resposta da forma mais eficaz