- GPT-5, Claude, Gemini, Grok e DeepSeek, cinco grandes modelos de linguagem, realizaram negociações virtuais de ações por 8 meses com base em dados reais de mercado
- Cada modelo operou os principais papéis com US$ 100 mil em capital simulado, em base diária, com todas as decisões e mudanças de portfólio registradas
- Como resultado, Grok teve o maior retorno, DeepSeek ficou em um 2º lugar por pequena margem, e Gemini terminou em último com um portfólio focado em ações não tecnológicas
- O experimento foi conduzido de 3 de fevereiro de 2025 a 20 de outubro de 2025, com um ambiente de API filtrada por tempo para que os modelos acessassem apenas dados posteriores ao seu ponto de treinamento
- Os pesquisadores pretendem usar este experimento como ponto de partida e verificar de forma sistemática a capacidade dos LLMs em análise financeira por meio de negociação em tempo real e experimentos com controle de variáveis
Visão geral do AI Trade Arena
- AI Trade Arena é uma plataforma experimental criada para avaliar a capacidade dos LLMs de analisar e prever dados financeiros
- Desenvolvida em conjunto por Kam e Josh
- Projetada para que os modelos realizem negociações de ações com base em notícias, demonstrações financeiras e dados de mercado
- A plataforma acompanha os ativos em carteira, histórico de negociações e desempenho de cada modelo, e torna público todo o processo de negociação em uma demo interativa
Primeiro experimento: negociação de ações com 5 LLMs
- Os modelos testados foram GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4 e DeepSeek
- Cada modelo recebeu US$ 100 mil em capital simulado
- Negociação de opções foi excluída; apenas ações principais foram negociadas
- Todas as negociações foram feitas com base em preços históricos reais, e os modelos puderam acessar apenas as informações disponíveis naquele momento
- API de notícias, informações financeiras corporativas e dados de mercado foram fornecidos com filtragem temporal
- O período do experimento foi de 3 de fevereiro de 2025 a 20 de outubro de 2025, ao longo de cerca de 8 meses
Conceito e limitações do backtesting
- Backtest é um método de verificar o desempenho de um algoritmo de negociação usando dados do passado
- Simula quais decisões o LLM teria tomado em momentos passados
- As APIs foram separadas por série temporal para evitar vazamento de dados futuros
- Vantagens
- Permite avaliar modelos em larga escala
- Testa rapidamente diversos cenários
- Possibilita obter resultados estatisticamente significativos
- Desvantagens
- Não reproduz completamente o ambiente competitivo e de liquidez do mercado real
- Há risco de slippage, restrições de volume de negociação e vazamento de dados futuros
- Existe possibilidade de overfitting aos dados históricos
Resultados e observações do experimento
- Todos os modelos foram testados apenas em períodos posteriores ao corte dos dados de treinamento
- Isso foi definido para impedir que negociassem com base na memorização de resultados passados do mercado
- Grok teve o melhor desempenho, com DeepSeek em um 2º lugar por pequena margem
- A maioria dos modelos montou portfólios centrados em ações de tecnologia e registrou retornos elevados
- Gemini teve maior peso em ações não tecnológicas e ficou com o pior desempenho
- Os pesquisadores divulgaram todo o processo e as justificativas das negociações para garantir transparência
- É possível verificar diretamente na interface o fundamento de cada operação
Próximos planos
- Os pesquisadores pretendem expandir o trabalho de backtests para experimentos de negociação em tempo real
- Abordagem em 3 etapas: backtest de cenários passados → negociação simulada em tempo real → negociação no mercado real
- O objetivo é compreender de forma sistemática a capacidade de análise do mercado financeiro e a qualidade da tomada de decisão dos LLMs
- Usar dados de mercado como métricas de avaliação baseadas na realidade
- Tentar distinguir sorte de habilidade por meio de análises como análise de fatores Barra
- Os registros de negociação podem ajudar a identificar a diferença entre julgamentos baseados em memorização e raciocínio real
- Exemplo: distinguir entre simplesmente lembrar da Nvidia e comprá-la, e obter insight fundamental ao analisar um relatório 10-K
- Por meio dessa análise transparente da tomada de decisão, é possível melhorar a configuração de ferramentas e os fluxos de trabalho dos modelos
Participação e exploração de dados
- Na demo interativa do site, é possível explorar diretamente as negociações, estratégias e processo de raciocínio de cada modelo
- Os pesquisadores estão planejando experimentos adicionais e coletando opiniões por meio da comunidade no Discord e mensagens diretas no Twitter
1 comentários
Opiniões no Hacker News
O Grok teve o melhor desempenho, e o DeepSeek ficou em um segundo lugar apertado
Parece que a maioria dos modelos obteve bons resultados por manter um portfólio concentrado em ações de tecnologia
Já o Gemini ficou em último por ter uma fatia maior de ações fora de tecnologia
Não sou investidor nem pesquisador, mas isso me parece um caso de métrica mal escolhida
O problema é que não dá para prever quando virá uma correção
Se o conjunto de dados não inclui um mercado em queda, o modelo não terá como aprender esse cenário
Seria mais interessante dividir os dados ao meio, treinar em uma parte e testar na outra
Isso também lembra que até hedge funds conseguem superar o mercado por 2 a 4 anos, mas por mais de 10 anos isso é quase impossível
Seria mais significativo reentreinar os modelos por período e fazer backtesting
Trabalhei no passado com uma API de corretora para trading algorítmico, e muitas estratégias que iam bem no backtest fracassavam no mercado real
Até mesmo o paper trading em tempo real se comporta de forma diferente do mercado de verdade
O DeepSeek teve bom desempenho por manter muitas ações de tecnologia sem vender, mas uma estratégia concentrada em um único setor é arriscada
Como só era possível negociar uma vez por dia, isso nem chega a ser um experimento de tomada de decisão em tempo real
Se um LLM conseguisse realmente trocar de setor no momento certo, isso sim seria impressionante
e há também impacto de mercado (market impact) quando outros participantes cancelam ordens ou passam a seguir o fluxo
Nada disso acontece em paper trading
Se cada modelo foi executado só uma vez, isso não é um backtest de verdade
Se você olha apenas o resultado de um único período, até uma estratégia simples como “compre ações relacionadas a IA” pode parecer boa por acaso
Só faria sentido estatístico rodar 100 execuções independentes em 10 janelas de mercado diferentes
Do jeito que está, o experimento não passa de um gerador de números aleatórios muito caro
Por exemplo, rodar o Claude por 8 meses custou de 200 a 300 dólares
Eu queria escalar isso para obter resultados estatisticamente significativos
Do jeito que está, parece quase uma matéria guiada pelo resultado
Até escolhendo ações aleatoriamente há uma boa chance de superar o S&P 500
Mas ninguém seguiria essa estratégia cegamente pelos próximos 15 anos
Também existe o leaderboard em andamento do nof1.ai
Os resultados estão aquém do esperado, e a maioria das IAs vem perdendo dinheiro ao tentar fazer operações curtas com as ações de tecnologia da Mag7
Estamos tentando suprir isso com um experimento parecido em rallies.ai/arena
Mesmo assim, o dashboard de comentários de investimento em tempo real do nof1 é divertido de acompanhar
Sou o autor (OP)
Eu sabia das limitações de backtest e de capital virtual, mas ainda assim quis mostrar como os modelos percebem o mercado
Isso não significa que eles consigam bater o mercado no longo prazo
Ter um portfólio com beta alto em um mercado de alta não é exatamente um grande feito
Nós também estamos conduzindo um experimento em tempo real com ações e opções
Os modelos têm acesso a várias ferramentas, como filings da SEC, fundamentos, preços em tempo real e dados de opções
Na minha visão, backtesting com LLM não faz sentido, porque eles já memorizaram praticamente todos os dados históricos
Por isso estamos fazendo um forward test; ainda há poucos dados, mas os resultados iniciais são interessantes
rallies.ai/arena
Já houve um experimento parecido com criptomoedas, usando capital real e trading em tempo real
Link relacionado
Na minha opinião, é praticamente impossível impedir vazamento de dados futuros em LLMs
A própria pesquisa acadêmica já apontou essa dificuldade, e eu mesmo senti isso na prática trabalhando com modelos preditivos
Backtesting tem pouco valor porque é diferente do trading real
Além disso, 8 meses é um período curto demais
Para mim, o que importa mais é o mercado daqui a 8 anos, não daqui a 8 meses
Mesmo apagando o nome do ativo, o modelo pode ter sido treinado a ponto de adivinhar que é a NVDA só pelo formato do gráfico
É difícil confiar nos resultados de backtest desses modelos
Só faria sentido um experimento ao vivo de 8 meses, levando em conta os custos reais
rallies.ai/arena
Essa abordagem está totalmente errada
Eu trabalho justamente como pesquisador que usa LLMs em trading
LLMs são ingênuos, fáceis de persuadir e não determinísticos
Se você repetir o mesmo experimento 10 vezes, pode obter um resultado diferente em cada uma
O jeito certo é primeiro construir um algoritmo de trading determinístico e depois colocar o LLM por cima como ferramenta auxiliar
Colocar o LLM diretamente no pipeline de trading só adiciona incerteza desnecessária
Ele pode ter valor para análise de sentimento ou para conectar rapidamente tarefas auxiliares de ML
Mas experimentos como este são um caso clássico de aplicar IA sem entender o domínio
Uma pesquisa realmente útil controlaria variáveis como exposição setorial e repetiria milhares de vezes para analisar os padrões de viés de cada LLM
Se um LLM dissesse por conta própria “vou projetar um algoritmo quant” e realmente conseguisse fazê-lo, aí sim isso seria surpreendente