- Há 9 meses, ao concluir que a IA já conseguia fazer análise de segurança de código em um nível capaz de realmente substituir pessoas, foi criada uma startup
- No início, ao trocar do GPT-4o para o Claude 3.5 Sonnet, houve uma grande melhora qualitativa na explicação de vulnerabilidades de segurança e na avaliação de gravidade
- Mas, depois disso, a maioria dos modelos, incluindo Claude 3.6 e 3.7, não mostrou melhorias reais em benchmarks internos nem na capacidade de detectar bugs
- Os ganhos de desempenho vieram principalmente de melhorias gerais de engenharia, e não do próprio modelo de IA
- Outras startups também tiveram experiências parecidas, e a maioria passou pelo ciclo de novo anúncio de modelo → bom desempenho em benchmark → ganho real mínimo
- O autor considera que o avanço atual dos modelos de IA ainda não chegou a um nível significativo em utilidade econômica ou capacidade de generalização
Distância entre benchmarks de IA e desempenho real
- Modelos de IA tiram boas notas em provas, mas isso quase não se reflete na capacidade de trabalho real
- Os benchmarks se concentram principalmente em problemas curtos e isolados, sendo inadequados para aplicações reais
- Como exemplo, o modelo Claude tem dificuldade de manter memória de longo prazo a ponto de não conseguir terminar um jogo de Pokémon
- Benchmarks como ‘Humanity’s Last Exam’ parecem importantes à primeira vista, mas não avaliam adequadamente a utilidade real
- O autor pretende, daqui em diante, confiar apenas em benchmarks baseados em uso real, como Claude Plays Pokemon, para avaliar desempenho de IA
Problemas de confiabilidade dos laboratórios de IA
- Os laboratórios de IA estão em uma competição de escala civilizacional, e alguns têm incentivo para exagerar desempenho ou divulgar seletivamente apenas os bons resultados
- Na prática, os benchmarks usados por OpenAI, Anthropic e outros são, em sua maioria, baseados em conjuntos de teste públicos e podem ser manipulados
- Fora avaliações semi-privadas como ARC-AGI, quase todos os resultados podem estar baseados em datasets já vistos no treinamento
- A interpretação mais otimista é que o problema não seja um limite técnico, mas sim trapaça humana
Razões estruturais pelas quais benchmarks não refletem a utilidade real
- Testes de QI em humanos têm correlação com diversos resultados reais, mas benchmarks de IA não
- A maioria dos benchmarks de IA é composta por quebra-cabeças independentes ou por problemas de resolução de curto prazo
- A IA é muito fraca em memória, percepção de contexto e acompanhamento de objetivos, que são exigidos em problemas reais
- Benchmarks são convenientes para desenvolvimento e avaliação, mas têm baixa relação com a capacidade total no mundo real
Modelos de IA podem ser inteligentes, mas ter o desempenho limitado por problemas de alignment
- A empresa do autor usa IA em revisões reais de segurança de código, mas o modelo não entende bem o contexto da tarefa
- O modelo não consegue seguir a orientação de reportar apenas problemas que afetam o serviço real e frequentemente gera alertas desnecessários
- Isso acontece porque o modelo foi treinado para preferir respostas que “parecem inteligentes”
- Em conversas isso pode funcionar bem, mas ao ser combinado com sistemas, os erros se acumulam e viram um problema
- Tentar corrigir apenas os sintomas externos é arriscado no longo prazo, e é preciso resolver o problema fundamental de alignment
Considerações finais e implicações sociais
- Hoje, o desempenho real da IA fica abaixo das expectativas infladas, e isso bate com a ‘experiência vivida’ de muitos usuários
- Antes que sistemas de IA desalinhados passem a afetar a sociedade como um todo, é necessário um entendimento e um projeto mais fundamentais
- Mais do que benchmarks simples orientados a resultado, avaliações qualitativas baseadas em cenários reais de uso são importantes
5 comentários
Concordo. Uso bastante o modelo Claude 3.7 no Perplexity, mas recentemente também tenho usado o Gemini 2.5 e realmente sinto, na prática, que o desempenho é muito bom.
Por que ultimamente só aparecem notícias que parecem de jornal econômico?
Eu gostei muito, na verdade...
Hoje em dia parece que tem que colocar um título nesse nível pra gerar clique.
Opiniões do Hacker News
Minha mãe disse que Paul Newman teve problemas com álcool. Quando perguntei ao ChatGPT, ele respondeu que Paul Newman não era particularmente conhecido por problemas com álcool
Recentemente, no USAMO, modelos SOTA tiveram uma pontuação média de 5%. Isso sugere que os modelos de IA na verdade não estão resolvendo os problemas, mas sim memorizando resultados anteriores
LLMs tendem a querer relatar alguma coisa, então muitas vezes exageram
É interessante ler as reações a este texto. Isso mostra que nossa reação coletiva é muito diversa e baseada em anedotas
Minha experiência pessoal coincide com a opinião do autor
A melhora nos resultados de benchmark e a falta de melhora em tarefas reais refletem a natureza dos LLMs
Usei o gemini 2.5 no fim de semana e ele foi excelente
Mesmo que o desenvolvimento de LLMs parasse agora, continuaríamos encontrando novos usos pelos próximos 10 anos
Como alguém que usa LLMs e plugins de assistência para programação, sinto que GPT/Claude pioraram nos últimos 12 meses