- Scout, Maverick e Behemoth: 3 modelos que compõem o primeiro modelo multimodal nativo baseado em open weights
- Todos os modelos são multimodais e entendem imagem + texto
Llama 4 Scout
- 17B de parâmetros ativos + 16 Experts
- Capacidade de processar contexto ultralongo com suporte a 10M tokens
- Modelo leve e eficiente, capaz de rodar em uma única GPU (H100)
- Desempenho superior a Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
- Excelente desempenho em alinhamento de imagens, resumo de múltiplos documentos e análise de grandes bases de código
Llama 4 Maverick
- 17B de parâmetros ativos + 128 Experts + 400B de parâmetros totais
- Desempenho superior ao GPT-4o e ao Gemini 2.0 Flash
- Excelente em todas as áreas, como reasoning, programação e compreensão de imagens
- Pontuação ELO de 1417 (com base no LMArena)
- Estrutura de custos eficiente em relação ao alto desempenho
Llama 4 Behemoth (prévia)
- 288B de parâmetros ativos + 16 Experts + cerca de 2T de parâmetros totais
- Ainda em treinamento, mas com desempenho superior a GPT-4.5, Claude 3.7 e Gemini 2.0 Pro
- Usado como modelo professor no pré-treinamento do modelo Maverick
# Características técnicas
Arquitetura Mixture of Experts (MoE)
- Em vez de usar todos os parâmetros, ativa apenas alguns especialistas, maximizando a eficiência computacional
- Implementa uma estrutura de treinamento com inferência rápida, baixo custo e alta qualidade
Multimodal nativo & Early Fusion
- Integra texto e dados visuais desde o início para treinamento conjunto
- Suporta entrada de até 48 imagens; os testes foram executados com sucesso com até 8 imagens
Processamento de contexto ultralongo (10M Tokens)
- O modelo Scout explora a possibilidade de "contexto infinito" com a estrutura iRoPE (interleaved Rotary Position Embedding)
- Excelente capacidade de generalização de comprimento para texto e código
Técnicas de treinamento MetaP & FP8
- Nova técnica de ajuste de hiperparâmetros para treinamento rápido e eficiente
- Garante alta taxa de utilização de FLOPs com precisão FP8 (Behemoth: 390 TFLOPs/GPU)
# Estratégia de pós-processamento e treinamento com RL
- Pipeline de pós-processamento em três etapas: SFT → RL online → DPO
- Remove dados fáceis e treina com foco em prompts de dificuldade média a alta
- Introduz uma estratégia de RL online contínuo para maximizar ganho de desempenho e eficiência de treinamento
# Considerações sobre segurança e ética
Estratégia de proteção em múltiplas camadas
- Filtragem e moderação de dados nas etapas pré e pós-treinamento
- Llama Guard: verificação de segurança de entrada/saída
- Prompt Guard: detecção de jailbreak e ataques de injeção
- CyberSecEval: ferramenta para avaliar riscos de segurança em IA generativa
Automação da detecção quantitativa de riscos
- Introdução do GOAT (Generative Offensive Agent Testing)
- Simulação de cenários com atacantes intermediários
- Detecção precoce de riscos com testes automatizados de múltiplos turnos
Esforços para reduzir vieses
- O Llama 4 melhorou significativamente o viés em relação ao Llama 3
- Taxa de recusa de resposta de 7% → abaixo de 2%
- Desequilíbrio nas respostas < 1%
- Mantém respostas com equilíbrio político em nível semelhante ao do Grok
# Guia de uso dos modelos Llama 4
- Scout e Maverick estão ambos disponíveis para download e uso
- Llama 4 integrado ao serviço Meta AI:
- WhatsApp, Messenger, Instagram DM, meta.ai
# Próximos passos
- O LlamaCon 2025, que apresentará mais detalhes técnicos e a visão do projeto, está marcado para 29 de abril
2 comentários
Parece ser mais adequado para Apple Silicon com RAM sobrando ou para a linha de NPUs. Para usar em servidores puramente com GPU, o fato de que até o modelo mínimo em quantização int4 exige uma H100 é...
Comentários do Hacker News
Visão geral dos modelos Llama 4:
Llama 4 Scout:
Llama 4 Maverick:
Llama 4 Behemoth (prévia):
Outros pontos:
Tópico resumido pelo Llama 4 Maverick:
hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000O resultado obtido com o Scout foi uma saída completamente inútil:
hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000Rodei o Scout diretamente via Groq, mas havia um limite de 2048 no tamanho da saída:
hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048Os resumos de outros modelos ficaram mais próximos do prompt de sistema. Por exemplo, foi muito melhor em comparação com o Gemini 2.5 Pro:
O modelo Scout menor é muito atraente para Apple Silicon. Ele tem tamanho de 109B, mas é dividido entre 16 especialistas. O processamento real acontece em 17B. Em um MacBook Pro M4 Max, ao perguntar a um modelo local 7B (
qwen 2.5 7B instruct) com contexto de 2k, obtive ~60 tokens por segundo. Então, 30 tokens por segundo parecem alcançáveis. O tempo até o primeiro token ainda pode ser lentoO modelo tem uma janela de contexto de 10M tokens. Não está claro o quão bem ele consegue acompanhar contexto nesse tamanho, mas só o fato de não ficar limitado a ~32k já é excelente
Todos os principais LLMs sofrem com problemas de viés. Em especial, tendem para a esquerda em temas políticos e sociais. Isso pode ser consequência dos tipos de dados de treinamento disponíveis na internet
O prompt proposto evita as restrições vistas em lançamentos da OpenAI:
Foi lançado apenas uma hora depois de haver outra discussão sobre a Meta:
Disponível na Groq:
Este é um momento muito interessante. Parece a época em que frameworks JavaScript explodiam em quantidade. Na época, a sensação era de "preciso aprender mais um framework?", mas agora a inovação voltou a avançar rapidamente e, desta vez, parece uma jornada empolgante da qual podemos participar