Os avanços recentes dos modelos de IA parecem, em grande parte, conversa fiada

(lesswrong.com)

6 pontos por GN⁺ 2025-04-07 | 5 comentários | Compartilhar no WhatsApp

Há 9 meses, ao concluir que a IA já conseguia fazer análise de segurança de código em um nível capaz de realmente substituir pessoas, foi criada uma startup
No início, ao trocar do GPT-4o para o Claude 3.5 Sonnet, houve uma grande melhora qualitativa na explicação de vulnerabilidades de segurança e na avaliação de gravidade
Mas, depois disso, a maioria dos modelos, incluindo Claude 3.6 e 3.7, não mostrou melhorias reais em benchmarks internos nem na capacidade de detectar bugs
Os ganhos de desempenho vieram principalmente de melhorias gerais de engenharia, e não do próprio modelo de IA
Outras startups também tiveram experiências parecidas, e a maioria passou pelo ciclo de novo anúncio de modelo → bom desempenho em benchmark → ganho real mínimo
O autor considera que o avanço atual dos modelos de IA ainda não chegou a um nível significativo em utilidade econômica ou capacidade de generalização

Distância entre benchmarks de IA e desempenho real

Modelos de IA tiram boas notas em provas, mas isso quase não se reflete na capacidade de trabalho real
Os benchmarks se concentram principalmente em problemas curtos e isolados, sendo inadequados para aplicações reais
Como exemplo, o modelo Claude tem dificuldade de manter memória de longo prazo a ponto de não conseguir terminar um jogo de Pokémon
Benchmarks como ‘Humanity’s Last Exam’ parecem importantes à primeira vista, mas não avaliam adequadamente a utilidade real
O autor pretende, daqui em diante, confiar apenas em benchmarks baseados em uso real, como Claude Plays Pokemon, para avaliar desempenho de IA

Problemas de confiabilidade dos laboratórios de IA

Os laboratórios de IA estão em uma competição de escala civilizacional, e alguns têm incentivo para exagerar desempenho ou divulgar seletivamente apenas os bons resultados
Na prática, os benchmarks usados por OpenAI, Anthropic e outros são, em sua maioria, baseados em conjuntos de teste públicos e podem ser manipulados
Fora avaliações semi-privadas como ARC-AGI, quase todos os resultados podem estar baseados em datasets já vistos no treinamento
A interpretação mais otimista é que o problema não seja um limite técnico, mas sim trapaça humana

Razões estruturais pelas quais benchmarks não refletem a utilidade real

Testes de QI em humanos têm correlação com diversos resultados reais, mas benchmarks de IA não
A maioria dos benchmarks de IA é composta por quebra-cabeças independentes ou por problemas de resolução de curto prazo
A IA é muito fraca em memória, percepção de contexto e acompanhamento de objetivos, que são exigidos em problemas reais
Benchmarks são convenientes para desenvolvimento e avaliação, mas têm baixa relação com a capacidade total no mundo real

Modelos de IA podem ser inteligentes, mas ter o desempenho limitado por problemas de alignment

A empresa do autor usa IA em revisões reais de segurança de código, mas o modelo não entende bem o contexto da tarefa
O modelo não consegue seguir a orientação de reportar apenas problemas que afetam o serviço real e frequentemente gera alertas desnecessários
Isso acontece porque o modelo foi treinado para preferir respostas que “parecem inteligentes”
Em conversas isso pode funcionar bem, mas ao ser combinado com sistemas, os erros se acumulam e viram um problema
Tentar corrigir apenas os sintomas externos é arriscado no longo prazo, e é preciso resolver o problema fundamental de alignment

Considerações finais e implicações sociais

Hoje, o desempenho real da IA fica abaixo das expectativas infladas, e isso bate com a ‘experiência vivida’ de muitos usuários
Antes que sistemas de IA desalinhados passem a afetar a sociedade como um todo, é necessário um entendimento e um projeto mais fundamentais
Mais do que benchmarks simples orientados a resultado, avaliações qualitativas baseadas em cenários reais de uso são importantes

5 comentários

ifmkl 2025-04-08

Concordo. Uso bastante o modelo Claude 3.7 no Perplexity, mas recentemente também tenho usado o Gemini 2.5 e realmente sinto, na prática, que o desempenho é muito bom.

say8425 2025-04-07

Por que ultimamente só aparecem notícias que parecem de jornal econômico?

sjisrich 2025-04-07

Eu gostei muito, na verdade...

kandk 2025-04-07

Hoje em dia parece que tem que colocar um título nesse nível pra gerar clique.

GN⁺ 2025-04-07

Opiniões do Hacker News

Minha mãe disse que Paul Newman teve problemas com álcool. Quando perguntei ao ChatGPT, ele respondeu que Paul Newman não era particularmente conhecido por problemas com álcool
- O ChatGPT explicou que sua carreira de ator, seu trabalho filantrópico e sua paixão por corridas de carro receberam mais atenção
- No entanto, há muitas evidências online sobre seus problemas com álcool, incluindo depoimentos de sua esposa, Joanne Woodward
- Quando enviei a resposta do ChatGPT para minha mãe, ela encontrou uma fonte confiável em 5 minutos
- Eu uso o ChatGPT todos os dias, mas não consegui entender como ele podia errar algo tão simples
- Tirei a lição de que não se deve questionar o conhecimento cinematográfico da minha mãe
Recentemente, no USAMO, modelos SOTA tiveram uma pontuação média de 5%. Isso sugere que os modelos de IA na verdade não estão resolvendo os problemas, mas sim memorizando resultados anteriores
- Apesar desses resultados, as empresas não divulgam os esforços para remover dados de provas dos dados de treinamento
LLMs tendem a querer relatar alguma coisa, então muitas vezes exageram
- Têm tendência a responder "sim" às perguntas
- A competição entre LLMs vem aumentando gradualmente as pontuações de benchmark, mas essas melhorias são ilusórias
- LLMs tendem a concordar, e isso não está melhorando
- É importante avaliar os modelos em cenários de agente
É interessante ler as reações a este texto. Isso mostra que nossa reação coletiva é muito diversa e baseada em anedotas
- Algumas pessoas estarão certas e outras erradas, e fico curioso sobre quais características sinalizam a capacidade de fazer "melhores escolhas" em relação à IA
Minha experiência pessoal coincide com a opinião do autor
- LLMs são treinados para "soar inteligentes" nas conversas com usuários, então tendem a enfatizar problemas
- Isso está alinhado com o propósito da linguagem na maioria das situações, e os LLMs são treinados com linguagem
A melhora nos resultados de benchmark e a falta de melhora em tarefas reais refletem a natureza dos LLMs
- LLMs são sistemas preditivos, e se forem treinados em um domínio específico, seu desempenho nesse domínio melhora
- Eu não esperaria que treinar matemática avançada melhorasse a capacidade de programação
Usei o gemini 2.5 no fim de semana e ele foi excelente
- Depende do objetivo de uso, e ainda não está claro para onde os LLMs vão nos levar
Mesmo que o desenvolvimento de LLMs parasse agora, continuaríamos encontrando novos usos pelos próximos 10 anos
- A tecnologia está avançando rápido demais, e tenho medo das consequências
- Espero que se chegue a um ponto de retorno decrescente, mas não acredito muito nisso
Como alguém que usa LLMs e plugins de assistência para programação, sinto que GPT/Claude pioraram nos últimos 12 meses
- Acho que os modelos estão "bons o suficiente" e que agora deveríamos ver melhorias nas ferramentas e aplicações
- Acho que o MCP é um bom passo na direção certa, mas no geral continuo cético