16 pontos por GN⁺ 2025-04-06 | 2 comentários | Compartilhar no WhatsApp
  • Scout, Maverick e Behemoth: 3 modelos que compõem o primeiro modelo multimodal nativo baseado em open weights
    • Todos os modelos são multimodais e entendem imagem + texto

Llama 4 Scout

  • 17B de parâmetros ativos + 16 Experts
  • Capacidade de processar contexto ultralongo com suporte a 10M tokens
  • Modelo leve e eficiente, capaz de rodar em uma única GPU (H100)
  • Desempenho superior a Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
  • Excelente desempenho em alinhamento de imagens, resumo de múltiplos documentos e análise de grandes bases de código

Llama 4 Maverick

  • 17B de parâmetros ativos + 128 Experts + 400B de parâmetros totais
  • Desempenho superior ao GPT-4o e ao Gemini 2.0 Flash
  • Excelente em todas as áreas, como reasoning, programação e compreensão de imagens
  • Pontuação ELO de 1417 (com base no LMArena)
  • Estrutura de custos eficiente em relação ao alto desempenho

Llama 4 Behemoth (prévia)

  • 288B de parâmetros ativos + 16 Experts + cerca de 2T de parâmetros totais
  • Ainda em treinamento, mas com desempenho superior a GPT-4.5, Claude 3.7 e Gemini 2.0 Pro
  • Usado como modelo professor no pré-treinamento do modelo Maverick

# Características técnicas

Arquitetura Mixture of Experts (MoE)

  • Em vez de usar todos os parâmetros, ativa apenas alguns especialistas, maximizando a eficiência computacional
  • Implementa uma estrutura de treinamento com inferência rápida, baixo custo e alta qualidade

Multimodal nativo & Early Fusion

  • Integra texto e dados visuais desde o início para treinamento conjunto
  • Suporta entrada de até 48 imagens; os testes foram executados com sucesso com até 8 imagens

Processamento de contexto ultralongo (10M Tokens)

  • O modelo Scout explora a possibilidade de "contexto infinito" com a estrutura iRoPE (interleaved Rotary Position Embedding)
  • Excelente capacidade de generalização de comprimento para texto e código

Técnicas de treinamento MetaP & FP8

  • Nova técnica de ajuste de hiperparâmetros para treinamento rápido e eficiente
  • Garante alta taxa de utilização de FLOPs com precisão FP8 (Behemoth: 390 TFLOPs/GPU)

# Estratégia de pós-processamento e treinamento com RL

  • Pipeline de pós-processamento em três etapas: SFT → RL online → DPO
  • Remove dados fáceis e treina com foco em prompts de dificuldade média a alta
  • Introduz uma estratégia de RL online contínuo para maximizar ganho de desempenho e eficiência de treinamento

# Considerações sobre segurança e ética

Estratégia de proteção em múltiplas camadas

  • Filtragem e moderação de dados nas etapas pré e pós-treinamento
  • Llama Guard: verificação de segurança de entrada/saída
  • Prompt Guard: detecção de jailbreak e ataques de injeção
  • CyberSecEval: ferramenta para avaliar riscos de segurança em IA generativa

Automação da detecção quantitativa de riscos

  • Introdução do GOAT (Generative Offensive Agent Testing)
    • Simulação de cenários com atacantes intermediários
    • Detecção precoce de riscos com testes automatizados de múltiplos turnos

Esforços para reduzir vieses

  • O Llama 4 melhorou significativamente o viés em relação ao Llama 3
    • Taxa de recusa de resposta de 7% → abaixo de 2%
    • Desequilíbrio nas respostas < 1%
    • Mantém respostas com equilíbrio político em nível semelhante ao do Grok

# Guia de uso dos modelos Llama 4

  • Scout e Maverick estão ambos disponíveis para download e uso
  • Llama 4 integrado ao serviço Meta AI:
    • WhatsApp, Messenger, Instagram DM, meta.ai

# Próximos passos

  • O LlamaCon 2025, que apresentará mais detalhes técnicos e a visão do projeto, está marcado para 29 de abril

2 comentários

 
jjw951215 2025-04-07

Parece ser mais adequado para Apple Silicon com RAM sobrando ou para a linha de NPUs. Para usar em servidores puramente com GPU, o fato de que até o modelo mínimo em quantização int4 exige uma H100 é...

 
GN⁺ 2025-04-06
Comentários do Hacker News
  • Visão geral dos modelos Llama 4:

    • Llama 4 Scout e Llama 4 Maverick usam um design Mixture-of-Experts (MoE) com 17B de parâmetros ativos cada
    • Têm capacidade multimodal, com suporte a entrada de texto e imagem
    • Entre os principais destaques estão comprimento de contexto de nível líder do setor, forte desempenho em código/raciocínio e melhor suporte multilíngue
    • O cutoff de conhecimento é agosto de 2024
  • Llama 4 Scout:

    • 17B de parâmetros ativos, 16 especialistas, 109B no total
    • Adequado para uma única GPU H100 (quantização INT4)
    • Janela de contexto de 10M tokens
    • Apresenta desempenho melhor que lançamentos anteriores do Llama em tarefas multimodais e é eficiente em termos de recursos
    • Usa a arquitetura iRoPE para atenção eficiente em contexto longo
    • Testado com até 8 imagens por prompt
  • Llama 4 Maverick:

    • 17B de parâmetros ativos, 128 especialistas, 400B no total
    • Janela de contexto de 1M tokens
    • Roda em um host H100 DGX em vez de uma única GPU, ou pode ser distribuído para maior eficiência
    • Supera GPT-4o e Gemini 2.0 Flash em testes de código, raciocínio e multilíngues, mantendo custo competitivo
    • Mantém forte compreensão de imagens e capacidade de raciocínio fundamentado
  • Llama 4 Behemoth (prévia):

    • 288B de parâmetros ativos, 16 especialistas, total próximo de 2T
    • Ainda está em treinamento e não foi lançado
    • Supera GPT-4.5, Claude Sonnet 3.7 e Gemini 2.0 Pro em benchmarks STEM (por exemplo, MATH-500, GPQA Diamond)
    • Funciona como modelo "professor" para Scout e Maverick por meio de destilação conjunta
  • Outros pontos:

    • Arquitetura MoE: apenas 17B de parâmetros são ativados por token, reduzindo o custo de inferência
    • Multimodalidade nativa: codificador unificado de texto + visão pré-treinado com grandes volumes de dados sem rótulo
  • Tópico resumido pelo Llama 4 Maverick:

  • O resultado obtido com o Scout foi uma saída completamente inútil:

  • Rodei o Scout diretamente via Groq, mas havia um limite de 2048 no tamanho da saída:

  • Os resumos de outros modelos ficaram mais próximos do prompt de sistema. Por exemplo, foi muito melhor em comparação com o Gemini 2.5 Pro:

  • O modelo Scout menor é muito atraente para Apple Silicon. Ele tem tamanho de 109B, mas é dividido entre 16 especialistas. O processamento real acontece em 17B. Em um MacBook Pro M4 Max, ao perguntar a um modelo local 7B (qwen 2.5 7B instruct) com contexto de 2k, obtive ~60 tokens por segundo. Então, 30 tokens por segundo parecem alcançáveis. O tempo até o primeiro token ainda pode ser lento

  • O modelo tem uma janela de contexto de 10M tokens. Não está claro o quão bem ele consegue acompanhar contexto nesse tamanho, mas só o fato de não ficar limitado a ~32k já é excelente

  • Todos os principais LLMs sofrem com problemas de viés. Em especial, tendem para a esquerda em temas políticos e sociais. Isso pode ser consequência dos tipos de dados de treinamento disponíveis na internet

  • O prompt proposto evita as restrições vistas em lançamentos da OpenAI:

    • Entende a intenção do usuário e não tenta ser útil em excesso
    • Não recusa prompts políticos
    • O Llama 4 tem conhecimento até agosto de 2024 e fala vários idiomas
  • Foi lançado apenas uma hora depois de haver outra discussão sobre a Meta:

    • Independentemente da sua crença em LLMs, não é uma boa ideia confiar no que LeCun diz
    • O laboratório de IA liderado por LeCun tem vários problemas
  • Disponível na Groq:

    • Llama 4 Scout está rodando a mais de 460 tokens por segundo, e o Llama 4 Maverick foi lançado hoje
    • Llama 4 Scout: $0.11 / M tokens de entrada e $0.34 / M tokens de saída
    • Llama 4 Maverick: $0.50 / M tokens de entrada e $0.77 / M tokens de saída
  • Este é um momento muito interessante. Parece a época em que frameworks JavaScript explodiam em quantidade. Na época, a sensação era de "preciso aprender mais um framework?", mas agora a inovação voltou a avançar rapidamente e, desta vez, parece uma jornada empolgante da qual podemos participar