Meta lança o modelo de linguagem Llama 3
(llama.meta.com)- A página do Llama da Meta apresenta a família de modelos Llama como uma IA open source voltada a facilidade de implantação, eficiência de custo, desempenho e escalabilidade em larga escala, cobrindo tanto a linha Llama 4 quanto a Llama 3
- Llama 4 Maverick e Llama 4 Scout são modelos multimodais nativos baseados em early fusion, que pré-treinam conjuntamente tokens de texto e visão, e ambos destacam um contexto de 10M tokens
- A linha Llama 3 se divide em 3.1, 3.2 e 3.3, oferecendo opções por tamanho e uso — 8B, 70B e 405B; 1B, 3B, 11B e 90B; e 70B — para texto, edge e aplicações multimodais
- As comparações de desempenho incluem MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi e MTOB; o Llama 4 Maverick registra 80,5 no MMLU Pro, e o Scout, 74,3
- Casos da Stoque e da Shopify mostram resultados de adoção como redução de 50% nas consultas repetitivas de suporte técnico, aumento de 11% na satisfação interna, aumento de 76% no throughput de tokens e redução de 33% no custo computacional com saída em JSON
Família de modelos Llama e opções por versão
- Llama é uma família de modelos que permite criar de acordo com suas próprias condições, mirando implantação fácil, eficiência de custo, desempenho e escala para bilhões de usuários
- Os principais eixos dos modelos Llama mais recentes são multimodalidade nativa, raciocínio avançado e janelas de contexto longas
- Os cards dos modelos e formatos de prompt podem ser conferidos em Model overview
-
Llama 4: multimodal nativo e contexto de 10M
- Llama 4 é uma família de modelos multimodais nativos que, por meio de early fusion, pré-treina conjuntamente dados de texto e visão sem rótulos
- O Llama 4 Maverick oferece suporte à compreensão de imagens e texto e processa tarefas de formato longo com contexto de 10M tokens
- Memória, personalização e aplicações multimodais são os principais usos
- O Llama 4 Scout é um modelo que fornece inteligência textual e visual, destacando eficiência em uma única GPU H100 e uma janela de contexto de 10M
- A análise de documentos longos é apresentada como o principal caso de uso do Scout
- Detalhes são fornecidos na documentação do modelo Llama 4
-
Llama 3: família de modelos por tamanho e uso
- Llama 3 é uma família de modelos de IA open source que permite fine-tuning, destilação e implantação em qualquer lugar
- O Llama 3.3 é um grande modelo de linguagem open source multilíngue oferecido em 70B, apresentado como uma forma de experimentar desempenho e qualidade no nível de 405B a um custo menor
- Ele é voltado a usos baseados em texto, como geração de dados sintéticos, e detalhes podem ser conferidos na documentação do modelo Llama 3.3
- O Llama 3.2 é uma família de modelos flexível e eficiente em custo, voltada a usos em edge
- 1B e 3B são leves e eficientes em custo, podendo rodar em qualquer lugar
- 11B e 90B são modelos multimodais capazes de inferir imagens em alta resolução e produzir texto
- Detalhes são fornecidos na documentação do modelo Llama 3.2
- O Llama 3.1 é um modelo foundation aberto para flexibilidade e controle, oferecido nos tamanhos 8B, 70B e 405B
- Inclui capacidades de conhecimento geral, ajustabilidade, matemática, uso de ferramentas e tradução multilíngue, sendo usado para resumo de textos, agentes multilíngues e programação
- Detalhes podem ser conferidos na documentação do modelo Llama 3.1
Métricas de desempenho e resultados reais de adoção
-
Benchmarks do Llama 4 e condições de avaliação
- As capacidades do Llama 4 são resumidas como multimodalidade nativa, contexto longo e image grounding
- Todos os modelos Llama 4 utilizam early fusion para possibilitar o pré-treinamento conjunto, em grande escala, de tokens de texto e visão sem rótulos
- Os benchmarks comparam o Llama 4 Maverick e o Llama 4 Scout
- Raciocínio: no MMLU Pro, Maverick 80,5 e Scout 74,3; no GPQA Diamond, Maverick 69,8 e Scout 57,2
- Programação: no LiveCodeBench, Maverick 43,4 e Scout 32,8
- Imagem multimodal: no MMMU, Maverick 73,4 e Scout 69,4; no ChartQA, Maverick 90,0 e Scout 88,8; no DocVQA, ambos 94,4
- Multilíngue: no MMLU Multi, Maverick 84,6 e Scout 74,3
- Contexto longo: no MTOB Half Book, Maverick 54,0 / 46,4 e Scout 42,2 / 36,6; no MTOB Full Book, Maverick 50,8 / 46,7 e Scout 39,7 / 36,3
- Eficiência: o custo por 1M tokens é apresentado como US$ 0,19–US$ 0,49 para ambos
- Segundo a metodologia e as observações, os resultados do Llama são de avaliação 0-shot com temperature 0 e não usam majority voting nem computação paralela em tempo de teste
- Em benchmarks com alta variância, como GPQA Diamond e LiveCodeBench, várias gerações são promediadas para reduzir a incerteza
- Como avaliações especializadas de contexto longo tradicionalmente não são reportadas para modelos gerais, são compartilhados resultados de execuções internas
- O custo de US$ 0,19/Mtok do Llama 4 Maverick é uma estimativa blended de 3:1 assumindo inferência distribuída; em host único, a expectativa é que possa ser oferecido por US$ 0,30–US$ 0,49/Mtok
-
Casos de uso da Stoque e da Shopify
- A Stoque transformou sua inteligência interna com o Llama, permitindo que as equipes encontrassem insights mais rapidamente, reduzissem atritos e trabalhassem com mais eficiência em larga escala
- As consultas repetitivas de suporte técnico caíram 50%, e a conclusão de tarefas administrativas e de suporte aumentou 30%
- A satisfação dos usuários internos aumentou 11%
- A Shopify usa o Llama para geração de páginas de produto, localização de conteúdo e automação de suporte
- Em comparação com o modelo anterior, o throughput de tokens é 76% maior, e a precisão Macro-F1 na detecção de intenção chegou a 97,7%
- A saída em JSON reduziu o custo computacional em 33%
- As proteções de IA generativa ajudam a identificar e mitigar riscos potenciais de forma proativa por meio de proteções em nível de sistema, ajudando desenvolvedores a implantar IA generativa de maneira mais responsável
1 comentários
Comentários no Hacker News
Links de referência: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
A Meta também lançou um console: https://www.meta.ai/
Também anunciou a integração do Meta AI em toda a linha de produtos da Meta: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
Ainda assim, como não incluiu comparações com GPT-4-Turbo ou Claude Opus, parece estar um pouco distante dos modelos de ponta, e será preciso ver como se sai no LLM Arena
A grande diferença provavelmente só apareceria em benchmarks de raciocínio muito difíceis. Como o Llama tem pesos abertos, ao contrário do Opus, deve receber muito fine-tuning e LoRA
Se países e grandes empresas passarem a usar Llama-3/Llama-4 em vez de despejar dinheiro em GPUs para treinar modelos próprios, a expectativa de crescimento das GPUs pode esfriar, a OpenAI teria menos justificativa para captar 100 bilhões de dólares, e a vantagem do Google em IA ficaria menos clara. AMD e Intel poderiam focar em chips de inferência de IA em vez de tentar alcançar a Nvidia em GPUs de treinamento
Os maiores modelos, com mais de 400B, ainda estão em treinamento, e a empresa pretende lançar nos próximos meses vários modelos com multimodalidade, conversa multilíngue, janelas de contexto muito mais longas e capacidades gerais mais fortes
Benchmarks públicos são bons como indicador aproximado, mas desenvolvedores precisam rodar benchmarks customizados alinhados ao próprio caso de uso
A Replicate criou rapidamente uma API do Llama 3 https://replicate.com/blog/run-llama-3-with-an-api, e com o promptfoo https://github.com/typpo/promptfoo dá para comparar Llama 3, Mixtral, GPT, Claude etc. Por exemplo, é possível avaliar Replicate
meta/meta-llama-3-8b-instruct,meta/meta-llama-3-70b-instruct, OpenAIgpt-4-turboe Anthropicclaude-3-opus-20240229com os mesmos promptsAinda está em teste, mas em um conjunto aleatório de perguntas de programação o Llama 3 8B parece bem bom. O ollama agora também suporta o Llama 3 8B, então ficou fácil fazer avaliação local com
ollama:chat:llama3Um bom teste é algo simples, mas que mostre aplicação real, como resolver uma equação quadrática para valores aleatórios de a, b, c. Mesmo sendo um algoritmo que todos os modelos provavelmente conhecem, eles ainda erram e depois fingem que validaram, repetindo a resposta errada. O LLAMA 3 também, mesmo depois de terem apontado o erro várias vezes, disse que “encontrou a solução correta e a verificou de várias formas”, mas a solução real continuava errada como no início, e não houve nenhuma tentativa de verificação
assistantera anexado ao fim da resposta, mas agora deve estar funcionandoDá para rodar com
ollama run llama3, e estão subindo várias versões quantizadas e também os modelos de texto/70BO Llama 3 70B estreou em 5º lugar no famoso ranking do LMSYS Chatbot Arena, empatado com Claude 2 Sonnet, Bard (Gemini Pro) e Command R+, e à frente de Claude 2 Haiku e versões anteriores do GPT-4
Ainda há bastante incerteza na pontuação, então a posição exata só vai ficar mais clara com o tempo e pode mudar. O Llama 3 8B está em 12º, empatado com Claude 1, Mixtral 8x22B e Qwen-1.5-72B. O ranking mais recente pode ser visto em https://arena.lmsys.org/
No ranking apenas em inglês, o Llama 3 70B está entre os primeiros junto com GPT-4 e Claude Opus, o que é ainda mais impressionante. Pode haver influência do fato de o ajuste de segurança estar menos rígido do que antes, reduzindo recusas de prompt, mas mesmo assim é uma melhora realmente útil. Nesse ritmo, o modelo 400B tem grandes chances de ser praticamente dominante
Ao pedir para gerar um rap em chinês, ele produziu algo bem decente, mas logo após a conclusão a resposta foi apagada e substituída pela mensagem “ainda não entende chinês, mas está em desenvolvimento e enviará uma mensagem quando puder conversar em chinês”
Em outros idiomas acontece o mesmo: há geração em idiomas não ingleses, mas quando termina a resposta é apagada e substituída pelo mesmo aviso
O blog tem muitos bons detalhes: https://ai.meta.com/blog/meta-llama-3/
A versão 400B também deve sair, e parece que ficará muito melhor que GPT-4 e Claude Opus. A tendência é de descentralização e vitória do software aberto
Claro, o benchmark foi feito com um checkpoint intermediário e o treinamento ainda está em andamento
Não dá para confiar cegamente em benchmarks, mas não há alegação de que supere GPT-4 ou Opus. Como é um checkpoint intermediário, pode superar no futuro
E também não é open source
Muito obrigado ao Zuck, ao Yann e à equipe da Meta por adotarem uma abordagem aberta e compartilharem pesos do modelo, tokenizer, informações sobre os dados de treinamento etc.
Eles são, de longe, a maior força motriz por trás da explosão de pesquisa aberta que permitiu rodar localmente modelos bem decentes em hardware de consumidor por meio de projetos como llama.cpp, evitando censura ou controle
Não é que eu queira fazer pedidos que cairiam no controle da OpenAI ou da Anthropic, mas não gosto da ideia de uma tecnologia tão poderosa ficar atrás de muros, com gatekeepers controlando como ela pode ser usada. Há muitas pessoas e empresas que acreditam em abertura, mas quando quem faz isso tem centenas de bilhões de dólares em capital, fluxo de caixa sustentável e GPUs no valor de dezenas de bilhões, o impacto é muito maior. O Zuck não precisava escolher esse caminho, e se o Facebook fosse administrado por um executivo profissional no estilo HBS/McKinsey, provavelmente não teria deixado isso tão aberto. Todos ganham muito pelo fato de ele não ter escondido as joias da coroa atrás de uma API centralizada sob o pretexto de riscos de segurança em IA
É uma estratégia da qual Joel Spolsky já falou no passado, embora não esteja claro exatamente quais complementos a Meta poderia vender para modelos de IA. Ainda assim, parece claramente uma escolha estratégica de algum tipo
Há muita coisa pela qual se pode criticar o Zuck, mas falta de sinceridade com a missão não é uma delas
É bom ver a Meta carregando essa tocha aqui, e espero que continue assim
Como não havia comparação direta com o GPT-4 do ChatGPT Plus pago, alinhei os números por conta própria
Para Llama 3 8B / Llama 3 70B / GPT-4, os valores são MMLU 68.4 / 82.0 / 86.5, GPQA 34.2 / 39.5 / 49.1, MATH 30.0 / 50.4 / 72.2, HumanEval 62.2 / 81.7 / 87.6, e DROP 58.4 / 79.7 / 85.4
O ChatGPT gratuito que a maioria usa é baseado no GPT-3.5, bem mais fraco que o GPT-4. Não encontrei números abrangentes de avaliação do GPT-3.5 mais recente, mas o Llama 3 70B provavelmente vence com folga, e até o 8B deve chegar perto. É muito interessante poder rodar e modificar localmente um modelo desse nível. Os números do GPT-4 são de
gpt-4-turbo-2024-04-09 (chatgpt)em https://github.com/openai/simple-evalsPara Llama 3 400B Base / Instruct, os valores são MMLU 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, e DROP 83.5 / -
Para quem quiser testar para programação dentro da IDE, já adicionei o Llama 3 70B na ferramenta de assistência de código https://www.double.bot
Também saiu uma entrevista com o Zuck: https://twitter.com/dwarkesh_sp/status/1780990840179187715
Na época, garantiu com folga o dobro do necessário, e graças a isso acabou sendo, por acaso, uma das poucas empresas com capacidade de GPU para treinar LLMs nessa escala
O model card tem resultados de benchmark comparados com outros modelos Llama, incluindo o Llama 2: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
É impressionante ver que a melhoria de desempenho do Llama 3 em relação ao Llama 2 é dramática. Isso vale mesmo quando comparado ao Llama 2 13B, e o fato de a janela de contexto ter dobrado para 8k também deve abrir muitas novas oportunidades
Ainda assim, os indicadores de desempenho divulgados são impressionantes, e a Meta merece elogios por ter lançado esses modelos