11 pontos por GN⁺ 2025-12-06 | 1 comentários | Compartilhar no WhatsApp
  • GPT-5, Claude, Gemini, Grok e DeepSeek, cinco grandes modelos de linguagem, realizaram negociações virtuais de ações por 8 meses com base em dados reais de mercado
  • Cada modelo operou os principais papéis com US$ 100 mil em capital simulado, em base diária, com todas as decisões e mudanças de portfólio registradas
  • Como resultado, Grok teve o maior retorno, DeepSeek ficou em um 2º lugar por pequena margem, e Gemini terminou em último com um portfólio focado em ações não tecnológicas
  • O experimento foi conduzido de 3 de fevereiro de 2025 a 20 de outubro de 2025, com um ambiente de API filtrada por tempo para que os modelos acessassem apenas dados posteriores ao seu ponto de treinamento
  • Os pesquisadores pretendem usar este experimento como ponto de partida e verificar de forma sistemática a capacidade dos LLMs em análise financeira por meio de negociação em tempo real e experimentos com controle de variáveis

Visão geral do AI Trade Arena

  • AI Trade Arena é uma plataforma experimental criada para avaliar a capacidade dos LLMs de analisar e prever dados financeiros
    • Desenvolvida em conjunto por Kam e Josh
    • Projetada para que os modelos realizem negociações de ações com base em notícias, demonstrações financeiras e dados de mercado
  • A plataforma acompanha os ativos em carteira, histórico de negociações e desempenho de cada modelo, e torna público todo o processo de negociação em uma demo interativa

Primeiro experimento: negociação de ações com 5 LLMs

  • Os modelos testados foram GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4 e DeepSeek
    • Cada modelo recebeu US$ 100 mil em capital simulado
    • Negociação de opções foi excluída; apenas ações principais foram negociadas
  • Todas as negociações foram feitas com base em preços históricos reais, e os modelos puderam acessar apenas as informações disponíveis naquele momento
    • API de notícias, informações financeiras corporativas e dados de mercado foram fornecidos com filtragem temporal
  • O período do experimento foi de 3 de fevereiro de 2025 a 20 de outubro de 2025, ao longo de cerca de 8 meses

Conceito e limitações do backtesting

  • Backtest é um método de verificar o desempenho de um algoritmo de negociação usando dados do passado
    • Simula quais decisões o LLM teria tomado em momentos passados
    • As APIs foram separadas por série temporal para evitar vazamento de dados futuros
  • Vantagens
    • Permite avaliar modelos em larga escala
    • Testa rapidamente diversos cenários
    • Possibilita obter resultados estatisticamente significativos
  • Desvantagens
    • Não reproduz completamente o ambiente competitivo e de liquidez do mercado real
    • Há risco de slippage, restrições de volume de negociação e vazamento de dados futuros
    • Existe possibilidade de overfitting aos dados históricos

Resultados e observações do experimento

  • Todos os modelos foram testados apenas em períodos posteriores ao corte dos dados de treinamento
    • Isso foi definido para impedir que negociassem com base na memorização de resultados passados do mercado
  • Grok teve o melhor desempenho, com DeepSeek em um 2º lugar por pequena margem
    • A maioria dos modelos montou portfólios centrados em ações de tecnologia e registrou retornos elevados
    • Gemini teve maior peso em ações não tecnológicas e ficou com o pior desempenho
  • Os pesquisadores divulgaram todo o processo e as justificativas das negociações para garantir transparência
    • É possível verificar diretamente na interface o fundamento de cada operação

Próximos planos

  • Os pesquisadores pretendem expandir o trabalho de backtests para experimentos de negociação em tempo real
    • Abordagem em 3 etapas: backtest de cenários passados → negociação simulada em tempo real → negociação no mercado real
  • O objetivo é compreender de forma sistemática a capacidade de análise do mercado financeiro e a qualidade da tomada de decisão dos LLMs
    • Usar dados de mercado como métricas de avaliação baseadas na realidade
    • Tentar distinguir sorte de habilidade por meio de análises como análise de fatores Barra
  • Os registros de negociação podem ajudar a identificar a diferença entre julgamentos baseados em memorização e raciocínio real
    • Exemplo: distinguir entre simplesmente lembrar da Nvidia e comprá-la, e obter insight fundamental ao analisar um relatório 10-K
  • Por meio dessa análise transparente da tomada de decisão, é possível melhorar a configuração de ferramentas e os fluxos de trabalho dos modelos

Participação e exploração de dados

  • Na demo interativa do site, é possível explorar diretamente as negociações, estratégias e processo de raciocínio de cada modelo
  • Os pesquisadores estão planejando experimentos adicionais e coletando opiniões por meio da comunidade no Discord e mensagens diretas no Twitter

1 comentários

 
GN⁺ 2025-12-06
Opiniões no Hacker News
  • O Grok teve o melhor desempenho, e o DeepSeek ficou em um segundo lugar apertado
    Parece que a maioria dos modelos obteve bons resultados por manter um portfólio concentrado em ações de tecnologia
    Já o Gemini ficou em último por ter uma fatia maior de ações fora de tecnologia
    Não sou investidor nem pesquisador, mas isso me parece um caso de métrica mal escolhida

    • Se você acreditar que o setor de tecnologia continuará subindo, dá para bater a média do mercado
      O problema é que não dá para prever quando virá uma correção
      Se o conjunto de dados não inclui um mercado em queda, o modelo não terá como aprender esse cenário
      Seria mais interessante dividir os dados ao meio, treinar em uma parte e testar na outra
      Isso também lembra que até hedge funds conseguem superar o mercado por 2 a 4 anos, mas por mais de 10 anos isso é quase impossível
    • Uma abordagem mais válida seria criar 100 portfólios para cada modelo e rodar uma simulação de Monte Carlo para ver o desempenho médio
    • Seria bom repetir esse estudo também em um mercado de baixa (bear market)
    • O próprio S&P 500 também tem um peso grande em tecnologia e é um índice difícil de bater no longo prazo
    • Este experimento parece mostrar apenas o desempenho recente, sem considerar o contexto de cada momento
      Seria mais significativo reentreinar os modelos por período e fazer backtesting
  • Trabalhei no passado com uma API de corretora para trading algorítmico, e muitas estratégias que iam bem no backtest fracassavam no mercado real
    Até mesmo o paper trading em tempo real se comporta de forma diferente do mercado de verdade
    O DeepSeek teve bom desempenho por manter muitas ações de tecnologia sem vender, mas uma estratégia concentrada em um único setor é arriscada
    Como só era possível negociar uma vez por dia, isso nem chega a ser um experimento de tomada de decisão em tempo real
    Se um LLM conseguisse realmente trocar de setor no momento certo, isso sim seria impressionante

    • No mercado real, ordens podem ser casadas primeiro por market makers (front running),
      e há também impacto de mercado (market impact) quando outros participantes cancelam ordens ou passam a seguir o fluxo
      Nada disso acontece em paper trading
    • Quando há dinheiro real em jogo, fatores emocionais entram em cena e fica difícil confiar totalmente na decisão da máquina
    • Se você testar estratégias demais, alguma pode acabar se ajustando ao histórico por acaso, então backtest sozinho não significa nada
    • Eu mesmo cheguei a multiplicar meu dinheiro em duas ou três vezes usando paper trading no ThinkOrSwim, mas fracassei completamente no mercado real
  • Se cada modelo foi executado só uma vez, isso não é um backtest de verdade
    Se você olha apenas o resultado de um único período, até uma estratégia simples como “compre ações relacionadas a IA” pode parecer boa por acaso
    Só faria sentido estatístico rodar 100 execuções independentes em 10 janelas de mercado diferentes
    Do jeito que está, o experimento não passa de um gerador de números aleatórios muito caro

    • O orçamento era limitado, então não foi possível executar os modelos muitas vezes
      Por exemplo, rodar o Claude por 8 meses custou de 200 a 300 dólares
      Eu queria escalar isso para obter resultados estatisticamente significativos
    • O artigo também diz explicitamente que os resultados não são estatisticamente significativos, mas isso deveria estar mais enfatizado
      Do jeito que está, parece quase uma matéria guiada pelo resultado
    • Também é um problema não haver outras métricas além do retorno total
      Até escolhendo ações aleatoriamente há uma boa chance de superar o S&P 500
    • No extremo, também daria para fazer um experimento do tipo: “em 1º de janeiro de 2010, quais ações eu deveria comprar para ter o maior retorno 15 anos depois?”
      Mas ninguém seguiria essa estratégia cegamente pelos próximos 15 anos
    • O resultado de uma única execução, na prática, é só um random walk
  • Também existe o leaderboard em andamento do nof1.ai
    Os resultados estão aquém do esperado, e a maioria das IAs vem perdendo dinheiro ao tentar fazer operações curtas com as ações de tecnologia da Mag7

    • A limitação do nof1 é que ele quase não usa dados de análise empresarial que um investidor real consultaria
      Estamos tentando suprir isso com um experimento parecido em rallies.ai/arena
    • Vi ontem no X (Twitter) que isso estava viralizando e achei que fossem os resultados do nof1, mas era um experimento totalmente diferente
      Mesmo assim, o dashboard de comentários de investimento em tempo real do nof1 é divertido de acompanhar
    • Pelo site, parece que os modelos só podem negociar algumas poucas ações de tecnologia e a moeda XYZ100
    • Fico pensando se aquele “modelo misterioso” não seria o modelo deles mesmos
    • Como a informação de preço se espalha rápido demais, os resultados dependem bastante da arquitetura do agente e do loop de feedback
  • Sou o autor (OP)
    Eu sabia das limitações de backtest e de capital virtual, mas ainda assim quis mostrar como os modelos percebem o mercado
    Isso não significa que eles consigam bater o mercado no longo prazo

    • Também seria interessante fazer um experimento controlado comparando com participantes humanos
    • Como não há dinheiro real sendo negociado, não existe nenhum impacto de mercado
    • Sem divulgar o retorno ajustado ao risco, o resultado perde muito significado
      Ter um portfólio com beta alto em um mercado de alta não é exatamente um grande feito
    • Em vez de “DeepSeek came close to second”, o correto seria “came in a close second”
    • Como doutor em pesquisa de mercados de capitais, acho que seria preciso calcular o retorno anormal (alfa) para avaliar se houve realmente desempenho acima do esperado
  • Nós também estamos conduzindo um experimento em tempo real com ações e opções
    Os modelos têm acesso a várias ferramentas, como filings da SEC, fundamentos, preços em tempo real e dados de opções
    Na minha visão, backtesting com LLM não faz sentido, porque eles já memorizaram praticamente todos os dados históricos
    Por isso estamos fazendo um forward test; ainda há poucos dados, mas os resultados iniciais são interessantes
    rallies.ai/arena

    • Há quem questione se dá para confiar nisso se o código ou os prompts não forem open source
    • Fiquei curioso sobre por que o Qwen teve um desempenho muito pior que os outros modelos
  • Já houve um experimento parecido com criptomoedas, usando capital real e trading em tempo real
    Link relacionado
    Na minha opinião, é praticamente impossível impedir vazamento de dados futuros em LLMs
    A própria pesquisa acadêmica já apontou essa dificuldade, e eu mesmo senti isso na prática trabalhando com modelos preditivos

  • Backtesting tem pouco valor porque é diferente do trading real
    Além disso, 8 meses é um período curto demais
    Para mim, o que importa mais é o mercado daqui a 8 anos, não daqui a 8 meses

    • Para fazer backtest com LLM, seria preciso higienizar completamente os dados históricos
      Mesmo apagando o nome do ativo, o modelo pode ter sido treinado a ponto de adivinhar que é a NVDA só pelo formato do gráfico
  • É difícil confiar nos resultados de backtest desses modelos
    Só faria sentido um experimento ao vivo de 8 meses, levando em conta os custos reais

    • No momento, estamos fazendo um experimento ao vivo com ações e opções
      rallies.ai/arena
  • Essa abordagem está totalmente errada
    Eu trabalho justamente como pesquisador que usa LLMs em trading
    LLMs são ingênuos, fáceis de persuadir e não determinísticos
    Se você repetir o mesmo experimento 10 vezes, pode obter um resultado diferente em cada uma
    O jeito certo é primeiro construir um algoritmo de trading determinístico e depois colocar o LLM por cima como ferramenta auxiliar
    Colocar o LLM diretamente no pipeline de trading só adiciona incerteza desnecessária
    Ele pode ter valor para análise de sentimento ou para conectar rapidamente tarefas auxiliares de ML
    Mas experimentos como este são um caso clássico de aplicar IA sem entender o domínio
    Uma pesquisa realmente útil controlaria variáveis como exposição setorial e repetiria milhares de vezes para analisar os padrões de viés de cada LLM
    Se um LLM dissesse por conta própria “vou projetar um algoritmo quant” e realmente conseguisse fazê-lo, aí sim isso seria surpreendente