- A Meta anunciou dois novos modelos Llama 4: o modelo pequeno Scout e o modelo de porte médio Maverick
- A Meta afirma que o Maverick teve desempenho melhor que o GPT-4o e o Gemini 2.0 Flash
- O Maverick ficou em 2º lugar no LMArena, plataforma de comparação de modelos de IA
- A pontuação ELO divulgada foi de 1417 pontos, acima do GPT-4o e ligeiramente abaixo do Gemini 2.5 Pro
- Uma pontuação ELO alta significa que o modelo vence com mais frequência em avaliações comparativas contra outros modelos
Suspeitas de manipulação de benchmark
- Pesquisadores de IA encontraram algo estranho na documentação da Meta
- A versão do Maverick usada no LMArena é diferente da versão disponibilizada ao público
- A Meta informou que usou no LMArena uma versão experimental otimizada para conversação
- Essa versão era um modelo experimental com foco em “desempenho conversacional (conversationality)”
Reação da comunidade e da plataforma
- O LMArena declarou oficialmente que a interpretação da Meta sobre sua política não corresponde ao que era esperado
- A Meta não indicou claramente que se tratava de uma versão experimental, e por isso o LMArena anunciou mudanças em sua política de leaderboard
- A medida busca garantir avaliações justas e reproduzíveis no futuro
Esclarecimento da Meta
- Em comunicado por e-mail, a porta-voz da Meta, Ashley Gabriel, explicou que a empresa testa várias versões experimentais
- Ela afirmou: “O ‘Llama-4-Maverick-03-26-Experimental’ é um modelo experimental otimizado para conversação e também mostrou ótimo desempenho no LMArena”
2 comentários
Como sempre, manipulação em benchmark não pode faltar.
Comentários do Hacker News
meta.ai). Eu uso regularmente as versões web do GPT 4o, Deepseek, Grok e Google Gemeni 2.5