Meta enfrenta polêmica por manipulação de benchmark de IA

(theverge.com)

4 pontos por GN⁺ 2025-04-09 | 2 comentários | Compartilhar no WhatsApp

A Meta anunciou dois novos modelos Llama 4: o modelo pequeno Scout e o modelo de porte médio Maverick
A Meta afirma que o Maverick teve desempenho melhor que o GPT-4o e o Gemini 2.0 Flash
O Maverick ficou em 2º lugar no LMArena, plataforma de comparação de modelos de IA
A pontuação ELO divulgada foi de 1417 pontos, acima do GPT-4o e ligeiramente abaixo do Gemini 2.5 Pro
Uma pontuação ELO alta significa que o modelo vence com mais frequência em avaliações comparativas contra outros modelos

Suspeitas de manipulação de benchmark

Pesquisadores de IA encontraram algo estranho na documentação da Meta
A versão do Maverick usada no LMArena é diferente da versão disponibilizada ao público
A Meta informou que usou no LMArena uma versão experimental otimizada para conversação
Essa versão era um modelo experimental com foco em “desempenho conversacional (conversationality)”

Reação da comunidade e da plataforma

O LMArena declarou oficialmente que a interpretação da Meta sobre sua política não corresponde ao que era esperado
A Meta não indicou claramente que se tratava de uma versão experimental, e por isso o LMArena anunciou mudanças em sua política de leaderboard
A medida busca garantir avaliações justas e reproduzíveis no futuro

Esclarecimento da Meta

Em comunicado por e-mail, a porta-voz da Meta, Ashley Gabriel, explicou que a empresa testa várias versões experimentais
Ela afirmou: “O ‘Llama-4-Maverick-03-26-Experimental’ é um modelo experimental otimizado para conversação e também mostrou ótimo desempenho no LMArena”

2 comentários

ndrgrd 2025-04-10

Como sempre, manipulação em benchmark não pode faltar.

GN⁺ 2025-04-09

Comentários do Hacker News

O lançamento do Llama 4 parece ter sido um grande fracasso para a Meta. O desempenho do modelo não é bom. Toda a cobertura é negativa
- Era mais ou menos o esperado, mas fico curioso sobre o que a Meta vai fazer em seguida. No momento, ela parece estar atrás de outros modelos abertos, e a aposta ambiciosa em MoEs não parece ter dado certo
- Fico me perguntando se o Zuck forçou o lançamento. Ele devia saber que não estava pronto
Fico chocado que empresas que roubaram material protegido por direitos autorais estejam mais uma vez agindo de forma antiética
Foi a primeira vez que a Meta foi pega
Ver as batalhas de amostra (H2H) divulgadas pelo LMArena é o mais esclarecedor. A saída do modelo da Meta é prolixa e tagarela demais. Pelos veredictos, é natural que as pessoas ignorem o ranking do LMArena
O LMArena agora ficou inútil?
- Eu achava que havia o aspecto de executar dois modelos com a mesma consulta fornecida pelo usuário. Isso não deveria poder ser manipulado
- Não entendo o que significa "otimização para conversa". Não sei que vantagem isso dá no LMArena
A Meta está prejudicando a si mesma com uma IA pública ruim que as pessoas podem testar (meta.ai). Eu uso regularmente as versões web do GPT 4o, Deepseek, Grok e Google Gemeni 2.5
- A Meta é sempre a pior, então nem me importo mais
Ninguém vai se surpreender. Além disso, a lei de Goodhart está agindo novamente
O topo do leaderboard está cheio de modelos experimentais de pesos fechados
Acredito que isso foi projetado para bajular mais ou adular mais quem escreve o prompt. Se for verdade, isso me preocupa em relação às pessoas que fazem a comparação

Meta enfrenta polêmica por manipulação de benchmark de IA

Suspeitas de manipulação de benchmark

Reação da comunidade e da plataforma

Esclarecimento da Meta

Leituras relacionadas

2 comentários

Comentários do Hacker News