- A Meta lançou os dois primeiros modelos do Llama 3 (modelos 8B e 70B pré-treinados e ajustados por instruções)
- Eles apresentam desempenho de ponta em uma ampla variedade de benchmarks do setor e oferecem novos recursos, incluindo raciocínio aprimorado
- O objetivo é construir o melhor modelo aberto, no mesmo nível dos melhores modelos proprietários disponíveis atualmente. A Meta pretende incorporar feedback de desenvolvedores e lançar versões com rapidez e frequência
- Introdução de novas ferramentas de confiança e segurança, como Llama Guard 2, Code Shield e CyberSec Eval 2
- Nos próximos meses, a Meta pretende introduzir novos recursos, janelas de contexto mais longas, tamanhos adicionais de modelos, desempenho aprimorado e também compartilhar o artigo de pesquisa do Llama 3
- Em breve estará disponível em AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake e outros, com suporte também em plataformas de hardware da AMD, AWS, Dell, Intel, NVIDIA e Qualcomm
- O Meta AI, construído com a tecnologia do Llama 3, agora é um dos assistentes de IA de mais alto nível do mundo e pode ampliar a inteligência dos usuários e reduzir sua carga de trabalho
Desempenho do Llama 3
- Os modelos Llama 3 de 8B e 70B parâmetros representam um grande salto em relação ao Llama 2 e estabelecem um novo nível de excelência para modelos LLM nessa faixa de escala
- Graças a melhorias no pré-treinamento e no pós-treinamento, os modelos pré-treinados e ajustados por instruções são os melhores atualmente existentes nas faixas de 8B e 70B parâmetros
- As melhorias no processo de pós-treinamento reduziram significativamente a taxa de recusas indevidas, melhoraram o alinhamento e aumentaram a diversidade das respostas do modelo
- Recursos como raciocínio, geração de código e seguimento de instruções também foram muito aprimorados, tornando o Llama 3 mais controlável (
steerable)
- Durante o desenvolvimento do Llama 3, a Meta analisou o desempenho do modelo em benchmarks padrão e também buscou otimizar o desempenho em cenários reais
- Para isso, desenvolveu um novo conjunto de avaliação humana de alta qualidade, contendo 1.800 prompts que cobrem 12 casos de uso principais
- Esse conjunto de avaliação mostrou que o modelo de 70B ajustado para seguir instruções apresenta desempenho forte em cenários reais em comparação com modelos concorrentes de tamanho semelhante
- Os modelos pré-treinados também alcançaram um novo estado da arte nessa escala entre os modelos LLM
- A Meta acredita que, para desenvolver um excelente modelo de linguagem, inovação, escalabilidade e otimização da simplicidade são essenciais
- Ao longo do projeto Llama 3, essa filosofia de design foi aplicada com foco em quatro elementos centrais: arquitetura do modelo, dados de pré-treinamento, escalonamento do pré-treinamento e ajuste fino por instruções
Arquitetura do modelo
- No Llama 3, foi escolhida uma arquitetura de transformer apenas com decodificador, relativamente padrão
- Em comparação com o Llama 2, há algumas melhorias importantes
- O Llama 3 usa um tokenizador com vocabulário de 128K tokens, que codifica a linguagem com muito mais eficiência e melhora significativamente o desempenho do modelo
- Para melhorar a eficiência de inferência dos modelos Llama 3, foi adotado grouped-query attention (GQA) tanto na versão 8B quanto na 70B
- O modelo foi treinado com sequências de 8.192 tokens, usando máscaras para que a self-attention não ultrapasse os limites do documento
Dados de treinamento
- Para treinar o melhor modelo de linguagem, a curadoria de um conjunto de dados de treinamento grande e de alta qualidade é o fator mais importante
- O Llama 3 foi pré-treinado com mais de 15T tokens coletados de fontes publicamente disponíveis
- O conjunto de dados de treinamento é 7 vezes maior do que o usado no Llama 2 e inclui 4 vezes mais código
- Para se preparar para casos de uso multilíngues futuros, mais de 5% do conjunto de pré-treinamento do Llama 3 é composto por dados não ingleses de alta qualidade cobrindo mais de 30 idiomas
Escalonamento do pré-treinamento
- A Meta dedicou esforço considerável ao escalonamento do pré-treinamento para usar de forma eficaz os dados de pré-treinamento nos modelos Llama 3
- Em especial, desenvolveu uma série de leis de escalonamento detalhadas para avaliação em benchmarks downstream
- Essas leis de escalonamento permitem tomar decisões informadas sobre como escolher a mistura ideal de dados e usar da melhor forma os recursos computacionais de treinamento
Ajuste fino por instruções
- Para liberar totalmente o potencial dos modelos pré-treinados em casos de uso de chat, a Meta também inovou em sua abordagem de ajuste por instruções
- A abordagem de pós-treinamento combina supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) e direct policy optimization (DPO)
- A qualidade dos prompts usados em SFT e os rankings de preferência usados em PPO e DPO influenciam de forma desproporcional o desempenho dos modelos alinhados
Construindo com Llama 3
- A visão da Meta é permitir que desenvolvedores personalizem o Llama 3 para dar suporte a casos de uso relevantes, adotem boas práticas com facilidade e aprimorem o ecossistema aberto
- Neste lançamento, foram introduzidas novas ferramentas de confiança e segurança, incluindo componentes atualizados com Llama Guard 2 e Cybersec Eval 2, além do Code Shield, um guardrail em tempo de inferência para filtrar código inseguro gerado por LLMs
- A Meta também desenvolveu o Llama 3 junto com o torchtune, uma nova biblioteca nativa do PyTorch para escrever, ajustar e experimentar com LLMs com facilidade
Abordagem em nível de sistema para desenvolvimento e implantação responsáveis
- Os modelos Llama 3 foram projetados para serem o mais úteis possível, ao mesmo tempo em que garantem uma abordagem de implantação responsável de nível líder no setor
- Para isso, a Meta adotou uma nova abordagem em nível de sistema para o desenvolvimento e a implantação responsáveis do Llama
- Os modelos Llama são tratados como componentes fundamentais de sistemas que os desenvolvedores projetam com objetivos finais específicos em mente
- O ajuste fino por instruções desempenha um papel importante para garantir a segurança do modelo
- Os modelos ajustados por instruções passam por red teaming de segurança por meio de esforços internos e externos
- Esses esforços são iterativos e usados no ajuste fino de segurança dos modelos lançados
- Os modelos Llama Guard servem como base para a segurança de prompts e respostas, e permitem criar facilmente novas classificações de acordo com as necessidades da aplicação
- O novo Llama Guard 2 usa a taxonomia MLCommons anunciada recentemente para oferecer suporte a padrões do setor
- O CyberSecEval 2 amplia a versão anterior ao adicionar medição da propensão de LLMs a abuso de interpretadores de código, capacidades ofensivas de cibersegurança e vulnerabilidade a ataques de prompt injection
- O Code Shield oferece filtragem em tempo de inferência para código inseguro gerado por LLMs, mitigando riscos relacionados a sugestões inseguras de código, abuso de interpretadores de código e execução de comandos de segurança
Implantação em larga escala do Llama 3
- O Llama 3 em breve estará disponível nas principais plataformas, incluindo provedores de nuvem e provedores de API de modelos
- Segundo benchmarks, o tokenizador gera até 15% menos tokens em comparação com o Llama 2, aumentando a eficiência de tokens
- O grouped-query attention (GQA) também foi adicionado ao Llama 3 8B
Planos futuros para o Llama 3
- Os modelos Llama 3 8B e 70B são apenas o começo do plano de lançamento do Llama 3
- Nos próximos meses, a Meta pretende lançar vários modelos com novos recursos, incluindo multimodalidade, capacidade de conversa multilíngue, janelas de contexto muito mais longas e capacidades mais poderosas de forma geral
- Quando o treinamento do Llama 3 for concluído, a Meta também pretende publicar um artigo de pesquisa detalhado
2 comentários
Por enquanto não sei sobre outras nuvens, mas no Azure AI Studio o Llama-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) já apareceu junto com o Mixtral 8x22B.