22 pontos por xguru 2024-04-19 | 2 comentários | Compartilhar no WhatsApp
  • A Meta lançou os dois primeiros modelos do Llama 3 (modelos 8B e 70B pré-treinados e ajustados por instruções)
  • Eles apresentam desempenho de ponta em uma ampla variedade de benchmarks do setor e oferecem novos recursos, incluindo raciocínio aprimorado
  • O objetivo é construir o melhor modelo aberto, no mesmo nível dos melhores modelos proprietários disponíveis atualmente. A Meta pretende incorporar feedback de desenvolvedores e lançar versões com rapidez e frequência
  • Introdução de novas ferramentas de confiança e segurança, como Llama Guard 2, Code Shield e CyberSec Eval 2
  • Nos próximos meses, a Meta pretende introduzir novos recursos, janelas de contexto mais longas, tamanhos adicionais de modelos, desempenho aprimorado e também compartilhar o artigo de pesquisa do Llama 3
  • Em breve estará disponível em AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake e outros, com suporte também em plataformas de hardware da AMD, AWS, Dell, Intel, NVIDIA e Qualcomm
  • O Meta AI, construído com a tecnologia do Llama 3, agora é um dos assistentes de IA de mais alto nível do mundo e pode ampliar a inteligência dos usuários e reduzir sua carga de trabalho

Desempenho do Llama 3

  • Os modelos Llama 3 de 8B e 70B parâmetros representam um grande salto em relação ao Llama 2 e estabelecem um novo nível de excelência para modelos LLM nessa faixa de escala
  • Graças a melhorias no pré-treinamento e no pós-treinamento, os modelos pré-treinados e ajustados por instruções são os melhores atualmente existentes nas faixas de 8B e 70B parâmetros
  • As melhorias no processo de pós-treinamento reduziram significativamente a taxa de recusas indevidas, melhoraram o alinhamento e aumentaram a diversidade das respostas do modelo
  • Recursos como raciocínio, geração de código e seguimento de instruções também foram muito aprimorados, tornando o Llama 3 mais controlável (steerable)
  • Durante o desenvolvimento do Llama 3, a Meta analisou o desempenho do modelo em benchmarks padrão e também buscou otimizar o desempenho em cenários reais
  • Para isso, desenvolveu um novo conjunto de avaliação humana de alta qualidade, contendo 1.800 prompts que cobrem 12 casos de uso principais
  • Esse conjunto de avaliação mostrou que o modelo de 70B ajustado para seguir instruções apresenta desempenho forte em cenários reais em comparação com modelos concorrentes de tamanho semelhante
  • Os modelos pré-treinados também alcançaram um novo estado da arte nessa escala entre os modelos LLM
  • A Meta acredita que, para desenvolver um excelente modelo de linguagem, inovação, escalabilidade e otimização da simplicidade são essenciais
  • Ao longo do projeto Llama 3, essa filosofia de design foi aplicada com foco em quatro elementos centrais: arquitetura do modelo, dados de pré-treinamento, escalonamento do pré-treinamento e ajuste fino por instruções

Arquitetura do modelo

  • No Llama 3, foi escolhida uma arquitetura de transformer apenas com decodificador, relativamente padrão
  • Em comparação com o Llama 2, há algumas melhorias importantes
    • O Llama 3 usa um tokenizador com vocabulário de 128K tokens, que codifica a linguagem com muito mais eficiência e melhora significativamente o desempenho do modelo
    • Para melhorar a eficiência de inferência dos modelos Llama 3, foi adotado grouped-query attention (GQA) tanto na versão 8B quanto na 70B
    • O modelo foi treinado com sequências de 8.192 tokens, usando máscaras para que a self-attention não ultrapasse os limites do documento

Dados de treinamento

  • Para treinar o melhor modelo de linguagem, a curadoria de um conjunto de dados de treinamento grande e de alta qualidade é o fator mais importante
  • O Llama 3 foi pré-treinado com mais de 15T tokens coletados de fontes publicamente disponíveis
  • O conjunto de dados de treinamento é 7 vezes maior do que o usado no Llama 2 e inclui 4 vezes mais código
  • Para se preparar para casos de uso multilíngues futuros, mais de 5% do conjunto de pré-treinamento do Llama 3 é composto por dados não ingleses de alta qualidade cobrindo mais de 30 idiomas

Escalonamento do pré-treinamento

  • A Meta dedicou esforço considerável ao escalonamento do pré-treinamento para usar de forma eficaz os dados de pré-treinamento nos modelos Llama 3
  • Em especial, desenvolveu uma série de leis de escalonamento detalhadas para avaliação em benchmarks downstream
  • Essas leis de escalonamento permitem tomar decisões informadas sobre como escolher a mistura ideal de dados e usar da melhor forma os recursos computacionais de treinamento

Ajuste fino por instruções

  • Para liberar totalmente o potencial dos modelos pré-treinados em casos de uso de chat, a Meta também inovou em sua abordagem de ajuste por instruções
  • A abordagem de pós-treinamento combina supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) e direct policy optimization (DPO)
  • A qualidade dos prompts usados em SFT e os rankings de preferência usados em PPO e DPO influenciam de forma desproporcional o desempenho dos modelos alinhados

Construindo com Llama 3

  • A visão da Meta é permitir que desenvolvedores personalizem o Llama 3 para dar suporte a casos de uso relevantes, adotem boas práticas com facilidade e aprimorem o ecossistema aberto
  • Neste lançamento, foram introduzidas novas ferramentas de confiança e segurança, incluindo componentes atualizados com Llama Guard 2 e Cybersec Eval 2, além do Code Shield, um guardrail em tempo de inferência para filtrar código inseguro gerado por LLMs
  • A Meta também desenvolveu o Llama 3 junto com o torchtune, uma nova biblioteca nativa do PyTorch para escrever, ajustar e experimentar com LLMs com facilidade

Abordagem em nível de sistema para desenvolvimento e implantação responsáveis

  • Os modelos Llama 3 foram projetados para serem o mais úteis possível, ao mesmo tempo em que garantem uma abordagem de implantação responsável de nível líder no setor
  • Para isso, a Meta adotou uma nova abordagem em nível de sistema para o desenvolvimento e a implantação responsáveis do Llama
  • Os modelos Llama são tratados como componentes fundamentais de sistemas que os desenvolvedores projetam com objetivos finais específicos em mente
  • O ajuste fino por instruções desempenha um papel importante para garantir a segurança do modelo
  • Os modelos ajustados por instruções passam por red teaming de segurança por meio de esforços internos e externos
  • Esses esforços são iterativos e usados no ajuste fino de segurança dos modelos lançados
  • Os modelos Llama Guard servem como base para a segurança de prompts e respostas, e permitem criar facilmente novas classificações de acordo com as necessidades da aplicação
  • O novo Llama Guard 2 usa a taxonomia MLCommons anunciada recentemente para oferecer suporte a padrões do setor
  • O CyberSecEval 2 amplia a versão anterior ao adicionar medição da propensão de LLMs a abuso de interpretadores de código, capacidades ofensivas de cibersegurança e vulnerabilidade a ataques de prompt injection
  • O Code Shield oferece filtragem em tempo de inferência para código inseguro gerado por LLMs, mitigando riscos relacionados a sugestões inseguras de código, abuso de interpretadores de código e execução de comandos de segurança

Implantação em larga escala do Llama 3

  • O Llama 3 em breve estará disponível nas principais plataformas, incluindo provedores de nuvem e provedores de API de modelos
  • Segundo benchmarks, o tokenizador gera até 15% menos tokens em comparação com o Llama 2, aumentando a eficiência de tokens
  • O grouped-query attention (GQA) também foi adicionado ao Llama 3 8B

Planos futuros para o Llama 3

  • Os modelos Llama 3 8B e 70B são apenas o começo do plano de lançamento do Llama 3
  • Nos próximos meses, a Meta pretende lançar vários modelos com novos recursos, incluindo multimodalidade, capacidade de conversa multilíngue, janelas de contexto muito mais longas e capacidades mais poderosas de forma geral
  • Quando o treinamento do Llama 3 for concluído, a Meta também pretende publicar um artigo de pesquisa detalhado

2 comentários

 
dormis 2024-04-19

Por enquanto não sei sobre outras nuvens, mas no Azure AI Studio o Llama-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) já apareceu junto com o Mixtral 8x22B.