- Um grande estudo liderado pelo Oxford Internet Institute (OII), com a participação de 42 pesquisadores do mundo todo, constatou falta de rigor científico nos benchmarks usados para avaliar grandes modelos de linguagem (LLMs)
- A análise de 445 benchmarks de IA mostrou que mais da metade tem definições conceituais pouco claras ou métodos de análise fracos, formando uma estrutura em que é difícil chegar a conclusões confiáveis
- Entre os estudos analisados, apenas 16% usaram métodos estatísticos, e em muitos casos conceitos abstratos como “raciocínio” ou “inofensividade” não estavam claramente definidos
- Os pesquisadores apresentaram 8 recomendações de melhoria, incluindo clareza nas definições, avaliações representativas e fortalecimento da análise estatística, além de divulgar a ferramenta Construct Validity Checklist para esse fim
- Garantir a validade científica dos benchmarks de IA surge como uma questão central para o avanço da tecnologia de IA e a confiabilidade regulatória
Visão geral do estudo
- Trata-se de uma pesquisa liderada pelo Oxford Internet Institute (OII), com participação de instituições importantes como EPFL, Stanford, TUM, UC Berkeley e Yale
- O artigo se chama Measuring What Matters: Construct Validity in Large Language Model Benchmarks e está programado para ser apresentado na NeurIPS 2025
- O estudo analisou de forma sistemática 445 benchmarks de IA para avaliar a validade científica dos critérios de avaliação
Principais descobertas
- Falta de rigor estatístico: entre os estudos revisados, apenas 16% usaram métodos de comparação estatística
- Existe a possibilidade de que diferenças de desempenho entre modelos ou alegações de superioridade sejam resultados do acaso
- Definições ambíguas ou controversas: cerca de metade dos benchmarks não define claramente conceitos abstratos como “raciocínio” e “inofensividade”
- A ausência de definições conceituais claras gera desalinhamento entre o objetivo da avaliação e o que de fato está sendo medido
Exemplos de problemas
- Confusão com regras de formato: ao resolver um quebra-cabeça lógico simples, se o sistema for obrigado a enviar a resposta em um formato complexo, ele pode ser considerado falho por erro de formatação mesmo acertando a resposta
- Desempenho frágil: há casos em que o modelo vai bem em problemas matemáticos simples, mas falha quando números ou a estrutura das frases mudam só um pouco
- Alegações sem fundamento: obter nota alta em questões de exames médicos pode levar à interpretação equivocada de que o sistema tem especialização em nível de médico
Recomendações de melhoria
- Os pesquisadores entendem que o problema pode ser resolvido e apresentaram 8 recomendações inspiradas em metodologias de validação da psicometria e da medicina
- Definir e isolar (Define and isolate): definir com clareza o conceito medido e controlar fatores irrelevantes
- Construir avaliações representativas (Build representative evaluations): refletir ambientes reais e cobrir toda a faixa da habilidade-alvo
- Fortalecer a análise e a justificativa (Strengthen analysis and justification): relatar incerteza estatística, realizar análise de erros e apresentar evidências da validade do benchmark
- Com a Construct Validity Checklist, pesquisadores, desenvolvedores e órgãos reguladores podem verificar previamente a validade do design de um benchmark
Importância do estudo
- Benchmarks atuam como ferramentas centrais para definir direções da pesquisa em IA, competição entre modelos e critérios de políticas e regulação
- Benchmarks com base científica fraca trazem o risco de provocar equívocos sobre desempenho e segurança da IA
- Este estudo é apresentado como um modelo de cooperação internacional para garantir a confiabilidade da avaliação em IA
Outras informações
- O artigo será apresentado de 2 a 7 de dezembro de 2025 na NeurIPS 2025
- O estudo recebeu apoio de diversas instituições, incluindo a bolsa Clarendon, ESRC, EPSRC e o Meta LLM Evaluation Research Grant
- O OII é uma instituição que, nos últimos 25 anos, vem pesquisando os impactos sociais de novas tecnologias como inteligência artificial, plataformas digitais e sistemas autônomos
1 comentários
Comentários do Hacker News
Trabalho em um laboratório cuidando de benchmarks de LLM e avaliação humana
Sinceramente, hoje essa área é praticamente uma terra sem lei. Não existe uma solução decente, e os pesquisadores também não querem ficar presos só em benchmarking
No fim, em nível de produto, o método mais realista continua sendo o teste A/B tradicional. Porque ele permite medir métricas diretas em larga escala
Claro, existe também coisa do tipo “benchmarketing”, mas a maioria realmente quer criar bons benchmarks. Só que isso é difícil demais ou até impossível
Mesmo com métricas mensuráveis bem claras, o tratamento estatístico é péssimo. Na maioria das vezes só comparam diferença de médias, e nem dá para confiar no cálculo de p-value
Além disso, quase não há correlação com o desempenho em workloads reais. Experimentos em produção têm ruído demais, então é fácil deixar perdas passarem batido
No caso da IA, é ainda pior. O que está sendo medido é vago, e existe incentivo para fazer medição de ruído para agradar o mercado. Nessa situação, é natural que benchmarks de LLM sejam uma bagunça
O B pode subir a pontuação simplesmente por “enganar as pessoas”. O caso do 4o da OpenAI é um exemplo representativo
Sob uma visão mais generosa, o ponto é que é difícil fazer benchmark da própria inteligência. Se já é difícil avaliar a adequação de uma pessoa a um trabalho com perguntas padronizadas, com IA isso é ainda mais difícil
Trabalho com TTS (Text-to-Speech), e aqui também é um campo ainda mais caótico do que LLM
As demos são perfeitas, mas quando você gera centenas de minutos, começam a aparecer drift de volume, variações de velocidade e erros de pronúncia o tempo todo
O maior problema é que não existe benchmark padrão para síntese de voz de longa duração.
Organizei um texto propondo esses critérios em Death of Demo
Escrevi sobre o projeto Humanity’s Last Exam
A ideia é fazer crowdsourcing de questões difíceis com especialistas do mundo todo para testar modelos de IA
Achei interessante que até problemas fáceis para humanos ainda continuam difíceis para IA
No fim, acho que o futuro do treinamento de IA depende da experiência no mundo real (meatspace) e de anotações de raciocínio
Acho que benchmark é parecido com pontuação do SAT. Não é uma previsão perfeita, mas serve como um sinal aproximado
Os LLMs estão evoluindo em uma direção significativa, e os benchmarks refletem isso até certo ponto
O elo mais fraco do boom atual de LLM é o benchmark
Comparações entre modelos estão quase no nível de uma confusão pseudocientífica.
Eu uso o ranking do LMArena, mas os resultados entre modelos diferem de forma inexplicável
Os prompts são fortemente acoplados à versão do modelo, então o que funcionava bem no GPT-4 quebra no GPT-5
Por isso, ultimamente estou me inclinando a simplesmente usar Gemini
Esse ajuste baseado em feedback agrava o problema de excesso de confiança dos LLMs
Mas os usuários não querem avaliar por conta própria e preferem rankings em estilo leaderboard
Existe também a forma de usar LLM como juiz, mas isso parece meio errado.
No fim, é necessária uma avaliação baseada em revisores especialistas, mas o custo é alto
No nível do desenvolvedor individual, a solução é criar seus próprios benchmarks
Dá para montar testes com base em problemas de código que você mesmo resolveu e verificar métricas como tok/s ou TTFT
No fim, a avaliação mais realista continua sendo o próprio usuário experimentar
Teve quem usasse como exemplo problemas de prova sem calculadora (AIME) para apontar que benchmarks que lidam só com números pequenos não refletem capacidade real
Mas eu vejo o fato de o modelo aprender técnicas de prova como um humano como um tipo de progresso. Isso é mais próximo de raciocínio humano
Eu quero uma avaliação não gamificada. No estado atual, isso é só um autocompletar inteligente
Houve a proposta de criar entre nós um repositório Git de bugs irritantes para testar LLMs
Por exemplo, tentaram bugs de Yjs/CRDT com Claude Code, GPT5-codex e GLM-4.6, mas no fim só foi possível contornar o problema
Quando os logs de frontend passaram a ser enviados para o backend para que a IA os visse em tempo real, aí sim houve progresso
Porque, se forem públicos, acabam sendo absorvidos como dados de treino e perdem valor.
Manter esses benchmarks pessoais permite enxergar com muito mais frieza a velocidade real do progresso dos modelos
No fim, benchmark é apenas uma especificação de um contexto específico. Só mostra que o código funciona bem em determinada situação, não garante todos os casos
Aplicando isso a LLMs, vira: “benchmarks só mostram tarefas possíveis, mas não provam tarefas impossíveis”
Neste estudo, foram analisados 445 benchmarks, e a maioria teria pouca validade de construto
Para medir inteligência de verdade, seria preciso avaliar a novidade (novelty).
Resolver padrões parecidos com problemas já vistos não passa de memorização
Mas é quase impossível criar problemas totalmente novos evitando centenas de petabytes de dados de treino
Por isso surge a ilusão de inteligência
Na prática, existe uma imensidão de zonas cinzentas entre esses dois conceitos.
Mesmo um problema totalmente novo precisa ter algum grau de semelhança para ser solucionável