Estudo revela fragilidades na forma como sistemas de IA são avaliados

(oii.ox.ac.uk)

4 pontos por GN⁺ 2025-11-09 | 1 comentários | Compartilhar no WhatsApp

Um grande estudo liderado pelo Oxford Internet Institute (OII), com a participação de 42 pesquisadores do mundo todo, constatou falta de rigor científico nos benchmarks usados para avaliar grandes modelos de linguagem (LLMs)
A análise de 445 benchmarks de IA mostrou que mais da metade tem definições conceituais pouco claras ou métodos de análise fracos, formando uma estrutura em que é difícil chegar a conclusões confiáveis
Entre os estudos analisados, apenas 16% usaram métodos estatísticos, e em muitos casos conceitos abstratos como “raciocínio” ou “inofensividade” não estavam claramente definidos
Os pesquisadores apresentaram 8 recomendações de melhoria, incluindo clareza nas definições, avaliações representativas e fortalecimento da análise estatística, além de divulgar a ferramenta Construct Validity Checklist para esse fim
Garantir a validade científica dos benchmarks de IA surge como uma questão central para o avanço da tecnologia de IA e a confiabilidade regulatória

Visão geral do estudo

Trata-se de uma pesquisa liderada pelo Oxford Internet Institute (OII), com participação de instituições importantes como EPFL, Stanford, TUM, UC Berkeley e Yale
O artigo se chama Measuring What Matters: Construct Validity in Large Language Model Benchmarks e está programado para ser apresentado na NeurIPS 2025
O estudo analisou de forma sistemática 445 benchmarks de IA para avaliar a validade científica dos critérios de avaliação

Principais descobertas

Falta de rigor estatístico: entre os estudos revisados, apenas 16% usaram métodos de comparação estatística
- Existe a possibilidade de que diferenças de desempenho entre modelos ou alegações de superioridade sejam resultados do acaso
Definições ambíguas ou controversas: cerca de metade dos benchmarks não define claramente conceitos abstratos como “raciocínio” e “inofensividade”
- A ausência de definições conceituais claras gera desalinhamento entre o objetivo da avaliação e o que de fato está sendo medido

Exemplos de problemas

Confusão com regras de formato: ao resolver um quebra-cabeça lógico simples, se o sistema for obrigado a enviar a resposta em um formato complexo, ele pode ser considerado falho por erro de formatação mesmo acertando a resposta
Desempenho frágil: há casos em que o modelo vai bem em problemas matemáticos simples, mas falha quando números ou a estrutura das frases mudam só um pouco
Alegações sem fundamento: obter nota alta em questões de exames médicos pode levar à interpretação equivocada de que o sistema tem especialização em nível de médico

Recomendações de melhoria

Os pesquisadores entendem que o problema pode ser resolvido e apresentaram 8 recomendações inspiradas em metodologias de validação da psicometria e da medicina
- Definir e isolar (Define and isolate): definir com clareza o conceito medido e controlar fatores irrelevantes
- Construir avaliações representativas (Build representative evaluations): refletir ambientes reais e cobrir toda a faixa da habilidade-alvo
- Fortalecer a análise e a justificativa (Strengthen analysis and justification): relatar incerteza estatística, realizar análise de erros e apresentar evidências da validade do benchmark
Com a Construct Validity Checklist, pesquisadores, desenvolvedores e órgãos reguladores podem verificar previamente a validade do design de um benchmark

Importância do estudo

Benchmarks atuam como ferramentas centrais para definir direções da pesquisa em IA, competição entre modelos e critérios de políticas e regulação
Benchmarks com base científica fraca trazem o risco de provocar equívocos sobre desempenho e segurança da IA
Este estudo é apresentado como um modelo de cooperação internacional para garantir a confiabilidade da avaliação em IA

Outras informações

O artigo será apresentado de 2 a 7 de dezembro de 2025 na NeurIPS 2025
O estudo recebeu apoio de diversas instituições, incluindo a bolsa Clarendon, ESRC, EPSRC e o Meta LLM Evaluation Research Grant
O OII é uma instituição que, nos últimos 25 anos, vem pesquisando os impactos sociais de novas tecnologias como inteligência artificial, plataformas digitais e sistemas autônomos

1 comentários

GN⁺ 2025-11-09

Comentários do Hacker News

Trabalho em um laboratório cuidando de benchmarks de LLM e avaliação humana
Sinceramente, hoje essa área é praticamente uma terra sem lei. Não existe uma solução decente, e os pesquisadores também não querem ficar presos só em benchmarking
No fim, em nível de produto, o método mais realista continua sendo o teste A/B tradicional. Porque ele permite medir métricas diretas em larga escala
Claro, existe também coisa do tipo “benchmarketing”, mas a maioria realmente quer criar bons benchmarks. Só que isso é difícil demais ou até impossível
- Eu cuido de infraestrutura de plataforma em uma hyperscaler, e os benchmarks da nossa área também são uma bagunça
  Mesmo com métricas mensuráveis bem claras, o tratamento estatístico é péssimo. Na maioria das vezes só comparam diferença de médias, e nem dá para confiar no cálculo de p-value
  Além disso, quase não há correlação com o desempenho em workloads reais. Experimentos em produção têm ruído demais, então é fácil deixar perdas passarem batido
  No caso da IA, é ainda pior. O que está sendo medido é vago, e existe incentivo para fazer medição de ruído para agradar o mercado. Nessa situação, é natural que benchmarks de LLM sejam uma bagunça
- Teste A/B também é arriscado. No fim, ele acaba sendo uma forma indireta de otimização por feedback do usuário, e avaliadores humanos podem ser manipulados com facilidade
  O B pode subir a pontuação simplesmente por “enganar as pessoas”. O caso do 4o da OpenAI é um exemplo representativo
- Fiquei chocado ao ver o modelo resolver bem problemas de matemática de ensino fundamental, mas errar quando números ou frases mudavam só um pouco. No fim, isso é só memorização de padrões
- Acho que um problema ainda maior é que empresas de tecnologia e a imprensa não divulgam esses problemas com transparência. Promovem pontuações de benchmark como se fossem métricas objetivas
- Eu também trabalho com avaliação de LLM, e, vendo de forma cínica, a maior parte dos benchmarks são tarefas falsas. Porque quase não existem casos de uso reais
  Sob uma visão mais generosa, o ponto é que é difícil fazer benchmark da própria inteligência. Se já é difícil avaliar a adequação de uma pessoa a um trabalho com perguntas padronizadas, com IA isso é ainda mais difícil
Trabalho com TTS (Text-to-Speech), e aqui também é um campo ainda mais caótico do que LLM
As demos são perfeitas, mas quando você gera centenas de minutos, começam a aparecer drift de volume, variações de velocidade e erros de pronúncia o tempo todo
O maior problema é que não existe benchmark padrão para síntese de voz de longa duração.
Organizei um texto propondo esses critérios em Death of Demo
Escrevi sobre o projeto Humanity’s Last Exam
A ideia é fazer crowdsourcing de questões difíceis com especialistas do mundo todo para testar modelos de IA
Achei interessante que até problemas fáceis para humanos ainda continuam difíceis para IA
No fim, acho que o futuro do treinamento de IA depende da experiência no mundo real (meatspace) e de anotações de raciocínio
- Empresas como Mercor e Micro1 já estão gerando receita anual de 9 dígitos com essa abordagem
Acho que benchmark é parecido com pontuação do SAT. Não é uma previsão perfeita, mas serve como um sinal aproximado
Os LLMs estão evoluindo em uma direção significativa, e os benchmarks refletem isso até certo ponto
- Mas não há motivo para provas feitas para humanos preverem o desempenho de LLM no trabalho. Por exemplo, um problema simples de multiplicação se correlaciona com inteligência humana, mas para computadores isso não significa nada
- É como uma prova para avaliar críticos de arte. A própria tentativa de dar nota objetiva a um resultado subjetivo já é contraditória
- A expressão “claramente evoluiu” embaralha a discussão. Na prática, a própria existência de progresso significativo é alvo de debate
O elo mais fraco do boom atual de LLM é o benchmark
Comparações entre modelos estão quase no nível de uma confusão pseudocientífica.
Eu uso o ranking do LMArena, mas os resultados entre modelos diferem de forma inexplicável
Os prompts são fortemente acoplados à versão do modelo, então o que funcionava bem no GPT-4 quebra no GPT-5
Por isso, ultimamente estou me inclinando a simplesmente usar Gemini
- A avaliação do LMArena é fácil demais de manipular. Avaliadores humanos também se deixam enganar com facilidade por respostas bajuladoras
  Esse ajuste baseado em feedback agrava o problema de excesso de confiança dos LLMs
- Criei um site chamado AImodelReview para comparar as saídas de vários modelos
  Mas os usuários não querem avaliar por conta própria e preferem rankings em estilo leaderboard
  Existe também a forma de usar LLM como juiz, mas isso parece meio errado.
  No fim, é necessária uma avaliação baseada em revisores especialistas, mas o custo é alto
- Isso me lembra como testes psicológicos em humanos também são difíceis de construir
No nível do desenvolvedor individual, a solução é criar seus próprios benchmarks
Dá para montar testes com base em problemas de código que você mesmo resolveu e verificar métricas como tok/s ou TTFT
- Como eu só uso LLM em ambiente de wrapper de agente, meu benchmark é simples. Eu testo o trabalho com um modelo novo e julgo no feeling se passou ou falhou
  No fim, a avaliação mais realista continua sendo o próprio usuário experimentar
- Se você adicionar avaliações ao GitHub da OpenAI, o próximo modelo vai ficar melhor justamente nesse problema
- Esse tipo de avaliação própria é chamado de evals, e é indispensável em qualquer projeto sério de IA
- Sites como AI Stupid Level também seguem essa abordagem
- Mas não se deve esquecer que “resolver um problema” pode ser apenas reconhecimento de padrão
Teve quem usasse como exemplo problemas de prova sem calculadora (AIME) para apontar que benchmarks que lidam só com números pequenos não refletem capacidade real
Mas eu vejo o fato de o modelo aprender técnicas de prova como um humano como um tipo de progresso. Isso é mais próximo de raciocínio humano
- Por outro lado, também existe a opinião de que, se for raciocínio real, ele deveria resolver problemas com números grandes
- Quando universitários resolvem problemas com técnica de prova, isso é apenas uma parte da avaliação humana, mas os LLMs empacotam isso como capacidade total
  Eu quero uma avaliação não gamificada. No estado atual, isso é só um autocompletar inteligente
- Problemas de cálculo vão acabar sendo um problema superado quando houver capacidade de uso de ferramentas
- O vídeo Forbidden Technique, que trata dessa discussão, também é interessante
- Se os LLMs puderem usar ferramentas externas como Excel ou Mathematica, eles poderão resolver problemas de cálculo como humanos
Houve a proposta de criar entre nós um repositório Git de bugs irritantes para testar LLMs
Por exemplo, tentaram bugs de Yjs/CRDT com Claude Code, GPT5-codex e GLM-4.6, mas no fim só foi possível contornar o problema
Quando os logs de frontend passaram a ser enviados para o backend para que a IA os visse em tempo real, aí sim houve progresso
- Fazer a IA usar diretamente a biblioteca Playwright foi eficaz para resolver problemas de frontend
- Mas, no fim, esse tipo de proposta talvez seja basicamente oferecer de graça dados de alta qualidade para treinar IA
- Eu também montei minha própria coleção de bugs e fiz o LLM escrever código de teste, mas até agora os modelos mais recentes ainda falham
- Na verdade, a maioria dos usuários experientes de LLM já mantém seus próprios benchmarks privados
  Porque, se forem públicos, acabam sendo absorvidos como dados de treino e perdem valor.
  Manter esses benchmarks pessoais permite enxergar com muito mais frieza a velocidade real do progresso dos modelos
No fim, benchmark é apenas uma especificação de um contexto específico. Só mostra que o código funciona bem em determinada situação, não garante todos os casos
- Como disse Dijkstra, “testes podem mostrar a presença de bugs, mas não podem provar sua ausência”
  Aplicando isso a LLMs, vira: “benchmarks só mostram tarefas possíveis, mas não provam tarefas impossíveis”
Neste estudo, foram analisados 445 benchmarks, e a maioria teria pouca validade de construto
Para medir inteligência de verdade, seria preciso avaliar a novidade (novelty).
Resolver padrões parecidos com problemas já vistos não passa de memorização
Mas é quase impossível criar problemas totalmente novos evitando centenas de petabytes de dados de treino
Por isso surge a ilusão de inteligência
- Dividir resolução de problemas simplesmente entre ‘memória’ e ‘criatividade’ é uma abordagem equivocada
  Na prática, existe uma imensidão de zonas cinzentas entre esses dois conceitos.
  Mesmo um problema totalmente novo precisa ter algum grau de semelhança para ser solucionável

Estudo revela fragilidades na forma como sistemas de IA são avaliados

Visão geral do estudo

Principais descobertas

Exemplos de problemas

Recomendações de melhoria

Importância do estudo

Outras informações

Leituras relacionadas

1 comentários

Comentários do Hacker News