Meta lança o Llama 4

(ai.meta.com)

16 pontos por GN⁺ 2025-04-06 | 2 comentários | Compartilhar no WhatsApp

Scout, Maverick e Behemoth: 3 modelos que compõem o primeiro modelo multimodal nativo baseado em open weights
- Todos os modelos são multimodais e entendem imagem + texto

Llama 4 Scout

17B de parâmetros ativos + 16 Experts
Capacidade de processar contexto ultralongo com suporte a 10M tokens
Modelo leve e eficiente, capaz de rodar em uma única GPU (H100)
Desempenho superior a Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
Excelente desempenho em alinhamento de imagens, resumo de múltiplos documentos e análise de grandes bases de código

Llama 4 Maverick

17B de parâmetros ativos + 128 Experts + 400B de parâmetros totais
Desempenho superior ao GPT-4o e ao Gemini 2.0 Flash
Excelente em todas as áreas, como reasoning, programação e compreensão de imagens
Pontuação ELO de 1417 (com base no LMArena)
Estrutura de custos eficiente em relação ao alto desempenho

Llama 4 Behemoth (prévia)

288B de parâmetros ativos + 16 Experts + cerca de 2T de parâmetros totais
Ainda em treinamento, mas com desempenho superior a GPT-4.5, Claude 3.7 e Gemini 2.0 Pro
Usado como modelo professor no pré-treinamento do modelo Maverick

Scout e Maverick já podem ser baixados a partir de hoje em llama.com e no Hugging Face

# Características técnicas

Arquitetura Mixture of Experts (MoE)

Em vez de usar todos os parâmetros, ativa apenas alguns especialistas, maximizando a eficiência computacional
Implementa uma estrutura de treinamento com inferência rápida, baixo custo e alta qualidade

Multimodal nativo & Early Fusion

Integra texto e dados visuais desde o início para treinamento conjunto
Suporta entrada de até 48 imagens; os testes foram executados com sucesso com até 8 imagens

Processamento de contexto ultralongo (10M Tokens)

O modelo Scout explora a possibilidade de "contexto infinito" com a estrutura iRoPE (interleaved Rotary Position Embedding)
Excelente capacidade de generalização de comprimento para texto e código

Técnicas de treinamento MetaP & FP8

Nova técnica de ajuste de hiperparâmetros para treinamento rápido e eficiente
Garante alta taxa de utilização de FLOPs com precisão FP8 (Behemoth: 390 TFLOPs/GPU)

# Estratégia de pós-processamento e treinamento com RL

Pipeline de pós-processamento em três etapas: SFT → RL online → DPO
Remove dados fáceis e treina com foco em prompts de dificuldade média a alta
Introduz uma estratégia de RL online contínuo para maximizar ganho de desempenho e eficiência de treinamento

# Considerações sobre segurança e ética

Estratégia de proteção em múltiplas camadas

Filtragem e moderação de dados nas etapas pré e pós-treinamento
Llama Guard: verificação de segurança de entrada/saída
Prompt Guard: detecção de jailbreak e ataques de injeção
CyberSecEval: ferramenta para avaliar riscos de segurança em IA generativa

Automação da detecção quantitativa de riscos

Introdução do GOAT (Generative Offensive Agent Testing)
- Simulação de cenários com atacantes intermediários
- Detecção precoce de riscos com testes automatizados de múltiplos turnos

Esforços para reduzir vieses

O Llama 4 melhorou significativamente o viés em relação ao Llama 3
- Taxa de recusa de resposta de 7% → abaixo de 2%
- Desequilíbrio nas respostas < 1%
- Mantém respostas com equilíbrio político em nível semelhante ao do Grok

# Guia de uso dos modelos Llama 4

Scout e Maverick estão ambos disponíveis para download e uso
- llama.com
- Hugging Face
Llama 4 integrado ao serviço Meta AI:
- WhatsApp, Messenger, Instagram DM, meta.ai

# Próximos passos

O LlamaCon 2025, que apresentará mais detalhes técnicos e a visão do projeto, está marcado para 29 de abril
- Inscreva-se no LlamaCon

2 comentários

jjw951215 2025-04-07

Parece ser mais adequado para Apple Silicon com RAM sobrando ou para a linha de NPUs. Para usar em servidores puramente com GPU, o fato de que até o modelo mínimo em quantização int4 exige uma H100 é...

GN⁺ 2025-04-06

Comentários do Hacker News

Visão geral dos modelos Llama 4:
- Llama 4 Scout e Llama 4 Maverick usam um design Mixture-of-Experts (MoE) com 17B de parâmetros ativos cada
- Têm capacidade multimodal, com suporte a entrada de texto e imagem
- Entre os principais destaques estão comprimento de contexto de nível líder do setor, forte desempenho em código/raciocínio e melhor suporte multilíngue
- O cutoff de conhecimento é agosto de 2024
Llama 4 Scout:
- 17B de parâmetros ativos, 16 especialistas, 109B no total
- Adequado para uma única GPU H100 (quantização INT4)
- Janela de contexto de 10M tokens
- Apresenta desempenho melhor que lançamentos anteriores do Llama em tarefas multimodais e é eficiente em termos de recursos
- Usa a arquitetura iRoPE para atenção eficiente em contexto longo
- Testado com até 8 imagens por prompt
Llama 4 Maverick:
- 17B de parâmetros ativos, 128 especialistas, 400B no total
- Janela de contexto de 1M tokens
- Roda em um host H100 DGX em vez de uma única GPU, ou pode ser distribuído para maior eficiência
- Supera GPT-4o e Gemini 2.0 Flash em testes de código, raciocínio e multilíngues, mantendo custo competitivo
- Mantém forte compreensão de imagens e capacidade de raciocínio fundamentado
Llama 4 Behemoth (prévia):
- 288B de parâmetros ativos, 16 especialistas, total próximo de 2T
- Ainda está em treinamento e não foi lançado
- Supera GPT-4.5, Claude Sonnet 3.7 e Gemini 2.0 Pro em benchmarks STEM (por exemplo, MATH-500, GPQA Diamond)
- Funciona como modelo "professor" para Scout e Maverick por meio de destilação conjunta
Outros pontos:
- Arquitetura MoE: apenas 17B de parâmetros são ativados por token, reduzindo o custo de inferência
- Multimodalidade nativa: codificador unificado de texto + visão pré-treinado com grandes volumes de dados sem rótulo
Tópico resumido pelo Llama 4 Maverick:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000
- Resultado: https://gist.github.com/simonw/016ea0fd83fc499f046a94827f9b4946
O resultado obtido com o Scout foi uma saída completamente inútil:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000
- Resultado: https://gist.github.com/simonw/d01cc991d478939e87487d362a8f881f
Rodei o Scout diretamente via Groq, mas havia um limite de 2048 no tamanho da saída:
- hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048
- Resultado: https://gist.github.com/simonw/a205c5fc131a1d4e9cd6c432a07feedb
Os resumos de outros modelos ficaram mais próximos do prompt de sistema. Por exemplo, foi muito melhor em comparação com o Gemini 2.5 Pro:
- https://gist.github.com/simonw/f21ecc7fb2aa13ff682d4ffa11ddcbfd
O modelo Scout menor é muito atraente para Apple Silicon. Ele tem tamanho de 109B, mas é dividido entre 16 especialistas. O processamento real acontece em 17B. Em um MacBook Pro M4 Max, ao perguntar a um modelo local 7B (qwen 2.5 7B instruct) com contexto de 2k, obtive ~60 tokens por segundo. Então, 30 tokens por segundo parecem alcançáveis. O tempo até o primeiro token ainda pode ser lento
O modelo tem uma janela de contexto de 10M tokens. Não está claro o quão bem ele consegue acompanhar contexto nesse tamanho, mas só o fato de não ficar limitado a ~32k já é excelente
Todos os principais LLMs sofrem com problemas de viés. Em especial, tendem para a esquerda em temas políticos e sociais. Isso pode ser consequência dos tipos de dados de treinamento disponíveis na internet
O prompt proposto evita as restrições vistas em lançamentos da OpenAI:
- Entende a intenção do usuário e não tenta ser útil em excesso
- Não recusa prompts políticos
- O Llama 4 tem conhecimento até agosto de 2024 e fala vários idiomas
Foi lançado apenas uma hora depois de haver outra discussão sobre a Meta:
- Independentemente da sua crença em LLMs, não é uma boa ideia confiar no que LeCun diz
- O laboratório de IA liderado por LeCun tem vários problemas
Disponível na Groq:
- Llama 4 Scout está rodando a mais de 460 tokens por segundo, e o Llama 4 Maverick foi lançado hoje
- Llama 4 Scout: $0.11 / M tokens de entrada e $0.34 / M tokens de saída
- Llama 4 Maverick: $0.50 / M tokens de entrada e $0.77 / M tokens de saída
Este é um momento muito interessante. Parece a época em que frameworks JavaScript explodiam em quantidade. Na época, a sensação era de "preciso aprender mais um framework?", mas agora a inovação voltou a avançar rapidamente e, desta vez, parece uma jornada empolgante da qual podemos participar