- LLMs disputam suas habilidades no pôquer no primeiro torneio de dinheiro real do mundo, idealizado para verificar a capacidade de raciocínio da IA em jogos de informação incompleta
- No momento, o Grok 4 está em 1º lugar, seguido por Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1 e OpenAI o3
- Em formato de cash game de Texas Hold'em $10/$20, com 4 mesas de 9 jogadores acontecendo simultaneamente, vence o modelo que acumular mais capital ao longo de uma semana
- Todos os modelos participantes usam o mesmo prompt de sistema e, em cada momento de decisão, o LLM gera seu julgamento e sua ação com base na mão, stack, estatísticas dos oponentes e anotações
- O torneio acontece apenas com competição entre modelos, sem jogadores humanos, permitindo comparar diretamente a eficiência dos algoritmos e os resultados de aprendizado
- Após o torneio, os datasets de raciocínio por mão e os processos de pensamento de cada modelo são analisados e usados para avaliar a qualidade do pensamento estratégico dos LLMs
- Este experimento é uma tentativa de verificar a confiabilidade do raciocínio da IA e seu potencial de aprendizado estratégico, sendo visto como uma nova forma de pesquisa para entender o pensamento probabilístico centrado no humano
Visão geral do PokerBattle.ai
- O PokerBattle.ai é o primeiro torneio de pôquer valendo dinheiro para LLMs
- Os participantes não são humanos, mas modelos de linguagem, e cada modelo executa sua própria estratégia de pôquer
- Há premiação em dinheiro real, criando uma estrutura em que o resultado da competição está ligado financeiramente
- O projeto foi concebido como uma plataforma experimental para verificar a capacidade de julgamento estratégico da IA
- Por meio do pôquer, um jogo de informação incompleta, avalia a capacidade de raciocínio e adaptação dos modelos
- O foco está na avaliação de ações baseadas em tomada de decisão, e não apenas na geração de linguagem
Visão geral e objetivo da competição
- O pôquer é um jogo em que informação incompleta e julgamento probabilístico são centrais, com uma estrutura complexa de tomada de decisão que lida com o equilíbrio entre risco e recompensa
- A competição foi organizada para testar se os LLMs conseguem interpretar esse tipo de problema de forma racional e construir uma estratégia consistente
- O objetivo também é verificar se os LLMs conseguem executar de forma integrada métodos tradicionais de estudo de pôquer, como análise de mãos, cálculos matemáticos e uso de solvers
Como funciona
- Todas as partidas acontecem em formato de confronto direto entre LLMs
- Não há participação de jogadores humanos, e cada modelo decide suas ações de forma independente
- Os resultados são calculados automaticamente segundo as regras do pôquer, determinando vitórias, derrotas e premiação
- A execução em tempo real e a divulgação dos resultados garantem transparência
- Os logs de ação e as escolhas estratégicas de cada modelo ficam registrados para análise
- Fase 1: coleta de dados (27 a 31 de outubro)
- Fase 2: análise das mãos e do raciocínio
- Na fase 1, ocorre um torneio online em tempo real, com coleta dos dados de jogo de cada LLM
- Depois, os reasoning traces de cada modelo são analisados para comparar sua capacidade de julgamento estratégico
Regras do torneio
- Formato do jogo: Texas Hold'em, blinds de $10/$20, sem ante/straddle
- Estrutura: 4 mesas simultâneas de 9 jogadores
- Gestão de stack: recarga automática ao cair abaixo de 100bb
- Condição de vitória: após uma semana, vence o modelo com o maior bankroll
Como os modelos operam
- Todos os LLMs participantes operam com base no mesmo prompt de sistema
- A cada turno, o modelo recebe como entrada as seguintes informações:
- Informações da mão atual (posição, stack, cartas)
- Estatísticas de jogo dos oponentes (VPIP, PFR, 3bet etc.)
- Anotações sobre os oponentes escritas em mãos anteriores
- Saída do modelo:
- Raciocínio lógico sobre a decisão
- Ação a executar (call, raise, fold etc.)
- Resumo para espectadores (reasoning summary)
- Há limite de tokens e, em caso de erro de resposta ou timeout, o resultado é fold automático
Organizador
- Max Pavlov — especialista em gestão de produto e entusiasta de deep learning, IA e pôquer
- Ele concebeu o projeto para explorar até que ponto os LLMs conseguem implementar pensamento probabilístico complexo e raciocínio estratégico ao estilo humano
2 comentários
Uau, se houver algum artigo, entrevista ou palestra pública dessa pessoa que faz ajuste de modelos, eu gostaria de ver.
Comentários do Hacker News
Tenho doutorado em teoria algorítmica dos jogos e pesquisei pôquer
Por esses motivos, hoje é tecnicamente impossível um LLM jogar pôquer com força. Ao contrário do xadrez, o pôquer não tem uma estratégia ótima determinística e exige manutenção de consistência
A parte mais difícil foi escrever a simulação de Monte Carlo de forma eficiente. Era preciso atribuir pesos probabilísticos com base no histórico de mãos dos jogadores e refletir a aleatoriedade única de cada um
Não usei teoria dos jogos, mas, se tivesse usado, teria sido muito melhor. LLMs não têm a menor chance de entender esse tipo de conceito
No futuro, a habilidade de um LLM de chamar um engine de jogo externo vai se tornar importante. Mas, nesse caso, no fim das contas é o engine que está jogando. Já existem bots de pôquer em nível profissional
O Pluribus é limitado a stacks fixos, e tanto o treinamento quanto o jogo exigem enorme poder computacional
Não concordo com a afirmação de que LLMs não conseguem aprender estratégias mistas. LLMs produzem distribuições de tokens e fazem amostragem aleatória delas
Pôquer é um jogo de soma zero, então a sorte pode ter um papel grande no começo. Se foi apenas um único torneio, a confiabilidade estatística é baixa
Além disso, há coisas estranhas nos dados — o total é $20 maior, alguns números de mãos estão faltando e existem potes de $0 apesar de haver ante de $30.
Isso levanta dúvidas sobre a confiabilidade dos resultados
Se os LLMs pudessem conversar entre si e blefar, isso seria um experimento realmente interessante. Também pareceria divertido de assistir
Sou especialista em jogos de informação incompleta, e este experimento é muito interessante
Jogos como pôquer ou Diplomacy são muito mais difíceis que xadrez, e pôquer com 3 ou mais jogadores, em especial, não é de soma zero, então equilíbrio de Nash não existe
Jogos assim se parecem com a tomada de decisão no mundo real, então são um ótimo campo de testes para pesquisa com LLMs
Os melhores AIs de pôquer atualmente são baseados em Counterfactual Regret Minimization (CFR), combinados com busca em tempo real
Noam Brown expandiu essa abordagem com busca em tempo de teste para criar o Pluribus, que venceu profissionais
Depois disso, ele entrou na OpenAI, e parece que essas ideias também influenciaram o recurso de “thinking” do modelo o1-preview
A pesquisa em IA para pôquer está tendo grande influência nos avanços recentes de IA
Na faculdade, ganhei US$ 500 mil com uma IA de pôquer e depois criei o PokerTableRatings.com para detectar trapaça
Vendi a empresa para a Zynga e trabalhei como CTO do Zynga Poker; mais recentemente, estou desenvolvendo uma plataforma de aprendizado baseada no Pluribus por meio do pokerskill.com
Nós, da TEN Protocol, realizamos um torneio de pôquer entre LLMs usando blockchain e geração de aleatoriedade baseada em TEE
Cinco LLMs disputaram vários campeonatos ao longo de meses, e a partida mais longa durou mais de 50 horas
Veja captura de tela do jogo, resumo no Twitter e link do artigo
Se quiser, podemos abrir um novo torneio para assistir
Fico curioso para saber se os LLMs vão continuar melhorando. Eu também gostaria de participar diretamente
Mas, no estado atual, eles ainda erram até o reconhecimento básico de mãos. Por exemplo, dizem “top pair” quando na verdade não é
Sou o criador do rs-poker. Para um LLM jogar pôquer bem, ele precisa de matemática, mentira e aleatoriedade, mas hoje ainda falta em todos esses pontos
Sabemos como calcular a jogada ótima, mas o custo computacional é alto demais
Ainda assim, pode haver uma forma de resolver pôquer com modelos de attention baseados em BERT. Seriam necessários datasets melhores e treinamento de modelos dedicados. Se houver interesse, entrem em contato (elliott.neil.clark@gmail.com)
Parece que daria para treiná-los razoavelmente bem até com uma estrutura de aprendizado simples
Este experimento mostra que LLMs são fortes apenas em tarefas como compressão ou OCR, e não em raciocínio lógico
Por exemplo, erros básicos como “se o board emparelhar, uma sequência pode se completar” acontecem com frequência
Nesse nível, acho que ainda estamos longe da AGI
A estrutura de prompt usada pelos LLMs para jogar foi divulgada
Em cada turno, o prompt de sistema é o mesmo, e o LLM consulta estatísticas dos jogadores (VPIP, PFR, 3bet etc.) e notas anteriores
A resposta inclui motivo, ação e resumo, e há limite de tokens. Se houver problema, o resultado é tratado como fold
É um pouco decepcionante que um modelo veja diretamente as estatísticas dos outros modelos.
Seria mais interessante se eles tivessem que decidir só com base em notas e contexto. Talvez isso tenha sido para reduzir custos
Acho que este experimento é uma ideia absolutamente genial
Com este desenho experimental, parece difícil a IA evoluir estratégias novas. Tratar o pôquer como texto lembra o problema da matemática: falta de compreensão abstrata da realidade
Se conversa e blefe fossem permitidos, acho que seria um experimento hilário e muito interessante 😄