4 pontos por GN⁺ 2025-04-09 | 2 comentários | Compartilhar no WhatsApp
  • A Meta anunciou dois novos modelos Llama 4: o modelo pequeno Scout e o modelo de porte médio Maverick
  • A Meta afirma que o Maverick teve desempenho melhor que o GPT-4o e o Gemini 2.0 Flash
  • O Maverick ficou em 2º lugar no LMArena, plataforma de comparação de modelos de IA
  • A pontuação ELO divulgada foi de 1417 pontos, acima do GPT-4o e ligeiramente abaixo do Gemini 2.5 Pro
  • Uma pontuação ELO alta significa que o modelo vence com mais frequência em avaliações comparativas contra outros modelos

Suspeitas de manipulação de benchmark

  • Pesquisadores de IA encontraram algo estranho na documentação da Meta
  • A versão do Maverick usada no LMArena é diferente da versão disponibilizada ao público
  • A Meta informou que usou no LMArena uma versão experimental otimizada para conversação
  • Essa versão era um modelo experimental com foco em “desempenho conversacional (conversationality)”

Reação da comunidade e da plataforma

  • O LMArena declarou oficialmente que a interpretação da Meta sobre sua política não corresponde ao que era esperado
  • A Meta não indicou claramente que se tratava de uma versão experimental, e por isso o LMArena anunciou mudanças em sua política de leaderboard
  • A medida busca garantir avaliações justas e reproduzíveis no futuro

Esclarecimento da Meta

  • Em comunicado por e-mail, a porta-voz da Meta, Ashley Gabriel, explicou que a empresa testa várias versões experimentais
  • Ela afirmou: “O ‘Llama-4-Maverick-03-26-Experimental’ é um modelo experimental otimizado para conversação e também mostrou ótimo desempenho no LMArena”

2 comentários

 
ndrgrd 2025-04-10

Como sempre, manipulação em benchmark não pode faltar.

 
GN⁺ 2025-04-09
Comentários do Hacker News
  • O lançamento do Llama 4 parece ter sido um grande fracasso para a Meta. O desempenho do modelo não é bom. Toda a cobertura é negativa
    • Era mais ou menos o esperado, mas fico curioso sobre o que a Meta vai fazer em seguida. No momento, ela parece estar atrás de outros modelos abertos, e a aposta ambiciosa em MoEs não parece ter dado certo
    • Fico me perguntando se o Zuck forçou o lançamento. Ele devia saber que não estava pronto
  • Fico chocado que empresas que roubaram material protegido por direitos autorais estejam mais uma vez agindo de forma antiética
  • Foi a primeira vez que a Meta foi pega
  • Ver as batalhas de amostra (H2H) divulgadas pelo LMArena é o mais esclarecedor. A saída do modelo da Meta é prolixa e tagarela demais. Pelos veredictos, é natural que as pessoas ignorem o ranking do LMArena
  • O LMArena agora ficou inútil?
    • Eu achava que havia o aspecto de executar dois modelos com a mesma consulta fornecida pelo usuário. Isso não deveria poder ser manipulado
    • Não entendo o que significa "otimização para conversa". Não sei que vantagem isso dá no LMArena
  • A Meta está prejudicando a si mesma com uma IA pública ruim que as pessoas podem testar (meta.ai). Eu uso regularmente as versões web do GPT 4o, Deepseek, Grok e Google Gemeni 2.5
    • A Meta é sempre a pior, então nem me importo mais
  • Ninguém vai se surpreender. Além disso, a lei de Goodhart está agindo novamente
  • O topo do leaderboard está cheio de modelos experimentais de pesos fechados
  • Acredito que isso foi projetado para bajular mais ou adular mais quem escreve o prompt. Se for verdade, isso me preocupa em relação às pessoas que fazem a comparação