Meta lança o Llama 3

xguru · 2024-04-19T08:26:25+09:00

A Meta lançou os dois primeiros modelos do Llama 3 (modelos 8B e 70B pré-treinados e ajustados por instruções) Eles apresentam desempenho de ponta em uma ampla variedade de benchmarks do setor e oferecem novos recursos, incluindo raciocínio aprimorado O objetivo é construir o melhor modelo aberto, no mesmo nível dos melhores modelos proprietários disponíveis atualmente. A Meta pretende incorporar feedback de desenvolvedores e lançar versões com rapidez e frequência Introdução de novas ferramentas de confiança e segurança, como Llama Guard 2, Code Shield e CyberSec Eval 2 Nos próximos meses, a Meta pretende introduzir novos recursos, janelas de contexto mais longas, tamanhos adicionais de modelos, desempenho aprimorado e também compartilhar o artigo de pesquisa do Llama 3 Em breve estará disponível em AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake e outros, com suporte também em plataformas de hardware da AMD, AWS, Dell, Intel, NVIDIA e Qualcomm O Meta AI, construído com a tecnologia do Llama 3, agora é um dos assistentes de IA de mais alto nível do mundo e pode ampliar a inteligência dos usuários e reduzir sua carga de trabalho Desempenho do Llama 3 Os modelos Llama 3 de 8B e 70B parâmetros representam um grande salto em relação ao Llama 2 e estabelecem um novo nível de excelência para modelos LLM nessa faixa de escala Graças a melhorias no pré-treinamento e no pós-treinamento, os modelos pré-treinados e ajustados por instruções são os melhores atualmente existentes nas faixas de 8B e 70B parâmetros As melhorias no processo de pós-treinamento reduziram significativamente a taxa de recusas indevidas, melhoraram o alinhamento e aumentaram a diversidade das respostas do modelo Recursos como raciocínio, geração de código e seguimento de instruções também foram muito aprimorados, tornando o Llama 3 mais controlável (steerable) Durante o desenvolvimento do Llama 3, a Meta analisou o desempenho do modelo em benchmarks padrão e também buscou otimizar o desempenho em cenários reais Para isso, desenvolveu um novo conjunto de avaliação humana de alta qualidade, contendo 1.800 prompts que cobrem 12 casos de uso principais Esse conjunto de avaliação mostrou que o modelo de 70B ajustado para seguir instruções apresenta desempenho forte em cenários reais em comparação com modelos concorrentes de tamanho semelhante Os modelos pré-treinados também alcançaram um novo estado da arte nessa escala entre os modelos LLM A Meta acredita que, para desenvolver um excelente modelo de linguagem, inovação, escalabilidade e otimização da simplicidade são essenciais Ao longo do projeto Llama 3, essa filosofia de design foi aplicada com foco em quatro elementos centrais: arquitetura do modelo, dados de pré-treinamento, escalonamento do pré-treinamento e ajuste fino por instruções Arquitetura do modelo No Llama 3, foi escolhida uma arquitetura de transformer apenas com decodificador, relativamente padrão Em comparação com o Llama 2, há algumas melhorias importantes O Llama 3 usa um tokenizador com vocabulário de 128K tokens, que codifica a linguagem com muito mais eficiência e melhora significativamente o desempenho do modelo Para melhorar a eficiência de inferência dos modelos Llama 3, foi adotado grouped-query attention (GQA) tanto na versão 8B quanto na 70B O modelo foi treinado com sequências de 8.192 tokens, usando máscaras para que a self-attention não ultrapasse os limites do documento Dados de treinamento Para treinar o melhor modelo de linguagem, a curadoria de um conjunto de dados de treinamento grande e de alta qualidade é o fator mais importante O Llama 3 foi pré-treinado com mais de 15T tokens coletados de fontes publicamente disponíveis O conjunto de dados de treinamento é 7 vezes maior do que o usado no Llama 2 e inclui 4 vezes mais código Para se preparar para casos de uso multilíngues futuros, mais de 5% do conjunto de pré-treinamento do Llama 3 é composto por dados não ingleses de alta qualidade cobrindo mais de 30 idiomas Escalonamento do pré-treinamento A Meta dedicou esforço considerável ao escalonamento do pré-treinamento para usar de forma eficaz os dados de pré-treinamento nos modelos Llama 3 Em especial, desenvolveu uma série de leis de escalonamento detalhadas para avaliação em benchmarks downstream Essas leis de escalonamento permitem tomar decisões informadas sobre como escolher a mistura ideal de dados e usar da melhor forma os recursos computacionais de treinamento Ajuste fino por instruções Para liberar totalmente o potencial dos modelos pré-treinados em casos de uso de chat, a Meta também inovou em sua abordagem de ajuste por instruções A abordagem de pós-treinamento combina supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) e direct policy optimization (DPO) A qualidade dos prompts usados em SFT e os rankings de preferência usados em PPO e DPO influenciam de forma desproporcional o desempenho dos modelos alinhados Construindo com Llama 3 A visão da Meta é permitir que desenvolvedores personalizem o Llama 3 para dar suporte a casos de uso relevantes, adotem boas práticas com facilidade e aprimorem o ecossistema aberto Neste lançamento, foram introduzidas novas ferramentas de confiança e segurança, incluindo componentes atualizados com Llama Guard 2 e Cybersec Eval 2, além do Code Shield, um guardrail em tempo de inferência para filtrar código inseguro gerado por LLMs A Meta também desenvolveu o Llama 3 junto com o torchtune, uma nova biblioteca nativa do PyTorch para escrever, ajustar e experimentar com LLMs com facilidade Abordagem em nível de sistema para desenvolvimento e implantação responsáveis Os modelos Llama 3 foram projetados para serem o mais úteis possível, ao mesmo tempo em que garantem uma abordagem de implantação responsável de nível líder no setor Para isso, a Meta adotou uma nova abordagem em nível de sistema para o desenvolvimento e a implantação responsáveis do Llama Os modelos Llama são tratados como componentes fundamentais de sistemas que os desenvolvedores projetam com objetivos finais específicos em mente O ajuste fino por instruções desempenha um papel importante para garantir a segurança do modelo Os modelos ajustados por instruções passam por red teaming de segurança por meio de esforços internos e externos Esses esforços são iterativos e usados no ajuste fino de segurança dos modelos lançados Os modelos Llama Guard servem como base para a segurança de prompts e respostas, e permitem criar facilmente novas classificações de acordo com as necessidades da aplicação O novo Llama Guard 2 usa a taxonomia MLCommons anunciada recentemente para oferecer suporte a padrões do setor O CyberSecEval 2 amplia a versão anterior ao adicionar medição da propensão de LLMs a abuso de interpretadores de código, capacidades ofensivas de cibersegurança e vulnerabilidade a ataques de prompt injection O Code Shield oferece filtragem em tempo de inferência para código inseguro gerado por LLMs, mitigando riscos relacionados a sugestões inseguras de código, abuso de interpretadores de código e execução de comandos de segurança Implantação em larga escala do Llama 3 O Llama 3 em breve estará disponível nas principais plataformas, incluindo provedores de nuvem e provedores de API de modelos Segundo benchmarks, o tokenizador gera até 15% menos tokens em comparação com o Llama 2, aumentando a eficiência de tokens O grouped-query attention (GQA) também foi adicionado ao Llama 3 8B Planos futuros para o Llama 3 Os modelos Llama 3 8B e 70B são apenas o começo do plano de lançamento do Llama 3 Nos próximos meses, a Meta pretende lançar vários modelos com novos recursos, incluindo multimodalidade, capacidade de conversa multilíngue, janelas de contexto muito mais longas e capacidades mais poderosas de forma geral Quando o treinamento do Llama 3 for concluído, a Meta também pretende publicar um artigo de pesquisa detalhado

(ai.meta.com)

22 pontos por xguru 2024-04-19 | 2 comentários | Compartilhar no WhatsApp

A Meta lançou os dois primeiros modelos do Llama 3 (modelos 8B e 70B pré-treinados e ajustados por instruções)
Eles apresentam desempenho de ponta em uma ampla variedade de benchmarks do setor e oferecem novos recursos, incluindo raciocínio aprimorado
O objetivo é construir o melhor modelo aberto, no mesmo nível dos melhores modelos proprietários disponíveis atualmente. A Meta pretende incorporar feedback de desenvolvedores e lançar versões com rapidez e frequência
Introdução de novas ferramentas de confiança e segurança, como Llama Guard 2, Code Shield e CyberSec Eval 2
Nos próximos meses, a Meta pretende introduzir novos recursos, janelas de contexto mais longas, tamanhos adicionais de modelos, desempenho aprimorado e também compartilhar o artigo de pesquisa do Llama 3
Em breve estará disponível em AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake e outros, com suporte também em plataformas de hardware da AMD, AWS, Dell, Intel, NVIDIA e Qualcomm
O Meta AI, construído com a tecnologia do Llama 3, agora é um dos assistentes de IA de mais alto nível do mundo e pode ampliar a inteligência dos usuários e reduzir sua carga de trabalho

Desempenho do Llama 3

Os modelos Llama 3 de 8B e 70B parâmetros representam um grande salto em relação ao Llama 2 e estabelecem um novo nível de excelência para modelos LLM nessa faixa de escala
Graças a melhorias no pré-treinamento e no pós-treinamento, os modelos pré-treinados e ajustados por instruções são os melhores atualmente existentes nas faixas de 8B e 70B parâmetros
As melhorias no processo de pós-treinamento reduziram significativamente a taxa de recusas indevidas, melhoraram o alinhamento e aumentaram a diversidade das respostas do modelo
Recursos como raciocínio, geração de código e seguimento de instruções também foram muito aprimorados, tornando o Llama 3 mais controlável (steerable)
Durante o desenvolvimento do Llama 3, a Meta analisou o desempenho do modelo em benchmarks padrão e também buscou otimizar o desempenho em cenários reais
Para isso, desenvolveu um novo conjunto de avaliação humana de alta qualidade, contendo 1.800 prompts que cobrem 12 casos de uso principais
Esse conjunto de avaliação mostrou que o modelo de 70B ajustado para seguir instruções apresenta desempenho forte em cenários reais em comparação com modelos concorrentes de tamanho semelhante
Os modelos pré-treinados também alcançaram um novo estado da arte nessa escala entre os modelos LLM
A Meta acredita que, para desenvolver um excelente modelo de linguagem, inovação, escalabilidade e otimização da simplicidade são essenciais
Ao longo do projeto Llama 3, essa filosofia de design foi aplicada com foco em quatro elementos centrais: arquitetura do modelo, dados de pré-treinamento, escalonamento do pré-treinamento e ajuste fino por instruções

Arquitetura do modelo

No Llama 3, foi escolhida uma arquitetura de transformer apenas com decodificador, relativamente padrão
Em comparação com o Llama 2, há algumas melhorias importantes
- O Llama 3 usa um tokenizador com vocabulário de 128K tokens, que codifica a linguagem com muito mais eficiência e melhora significativamente o desempenho do modelo
- Para melhorar a eficiência de inferência dos modelos Llama 3, foi adotado grouped-query attention (GQA) tanto na versão 8B quanto na 70B
- O modelo foi treinado com sequências de 8.192 tokens, usando máscaras para que a self-attention não ultrapasse os limites do documento

Dados de treinamento

Para treinar o melhor modelo de linguagem, a curadoria de um conjunto de dados de treinamento grande e de alta qualidade é o fator mais importante
O Llama 3 foi pré-treinado com mais de 15T tokens coletados de fontes publicamente disponíveis
O conjunto de dados de treinamento é 7 vezes maior do que o usado no Llama 2 e inclui 4 vezes mais código
Para se preparar para casos de uso multilíngues futuros, mais de 5% do conjunto de pré-treinamento do Llama 3 é composto por dados não ingleses de alta qualidade cobrindo mais de 30 idiomas

Escalonamento do pré-treinamento

A Meta dedicou esforço considerável ao escalonamento do pré-treinamento para usar de forma eficaz os dados de pré-treinamento nos modelos Llama 3
Em especial, desenvolveu uma série de leis de escalonamento detalhadas para avaliação em benchmarks downstream
Essas leis de escalonamento permitem tomar decisões informadas sobre como escolher a mistura ideal de dados e usar da melhor forma os recursos computacionais de treinamento

Ajuste fino por instruções

Para liberar totalmente o potencial dos modelos pré-treinados em casos de uso de chat, a Meta também inovou em sua abordagem de ajuste por instruções
A abordagem de pós-treinamento combina supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) e direct policy optimization (DPO)
A qualidade dos prompts usados em SFT e os rankings de preferência usados em PPO e DPO influenciam de forma desproporcional o desempenho dos modelos alinhados

Construindo com Llama 3

A visão da Meta é permitir que desenvolvedores personalizem o Llama 3 para dar suporte a casos de uso relevantes, adotem boas práticas com facilidade e aprimorem o ecossistema aberto
Neste lançamento, foram introduzidas novas ferramentas de confiança e segurança, incluindo componentes atualizados com Llama Guard 2 e Cybersec Eval 2, além do Code Shield, um guardrail em tempo de inferência para filtrar código inseguro gerado por LLMs
A Meta também desenvolveu o Llama 3 junto com o torchtune, uma nova biblioteca nativa do PyTorch para escrever, ajustar e experimentar com LLMs com facilidade

Abordagem em nível de sistema para desenvolvimento e implantação responsáveis

Os modelos Llama 3 foram projetados para serem o mais úteis possível, ao mesmo tempo em que garantem uma abordagem de implantação responsável de nível líder no setor
Para isso, a Meta adotou uma nova abordagem em nível de sistema para o desenvolvimento e a implantação responsáveis do Llama
Os modelos Llama são tratados como componentes fundamentais de sistemas que os desenvolvedores projetam com objetivos finais específicos em mente
O ajuste fino por instruções desempenha um papel importante para garantir a segurança do modelo
Os modelos ajustados por instruções passam por red teaming de segurança por meio de esforços internos e externos
Esses esforços são iterativos e usados no ajuste fino de segurança dos modelos lançados
Os modelos Llama Guard servem como base para a segurança de prompts e respostas, e permitem criar facilmente novas classificações de acordo com as necessidades da aplicação
O novo Llama Guard 2 usa a taxonomia MLCommons anunciada recentemente para oferecer suporte a padrões do setor
O CyberSecEval 2 amplia a versão anterior ao adicionar medição da propensão de LLMs a abuso de interpretadores de código, capacidades ofensivas de cibersegurança e vulnerabilidade a ataques de prompt injection
O Code Shield oferece filtragem em tempo de inferência para código inseguro gerado por LLMs, mitigando riscos relacionados a sugestões inseguras de código, abuso de interpretadores de código e execução de comandos de segurança

Implantação em larga escala do Llama 3

O Llama 3 em breve estará disponível nas principais plataformas, incluindo provedores de nuvem e provedores de API de modelos
Segundo benchmarks, o tokenizador gera até 15% menos tokens em comparação com o Llama 2, aumentando a eficiência de tokens
O grouped-query attention (GQA) também foi adicionado ao Llama 3 8B

Planos futuros para o Llama 3

Os modelos Llama 3 8B e 70B são apenas o começo do plano de lançamento do Llama 3
Nos próximos meses, a Meta pretende lançar vários modelos com novos recursos, incluindo multimodalidade, capacidade de conversa multilíngue, janelas de contexto muito mais longas e capacidades mais poderosas de forma geral
Quando o treinamento do Llama 3 for concluído, a Meta também pretende publicar um artigo de pesquisa detalhado

2 comentários

dormis 2024-04-19

Por enquanto não sei sobre outras nuvens, mas no Azure AI Studio o Llama-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) já apareceu junto com o Mixtral 8x22B.

xguru 2024-04-19

site oficial: https://llama.meta.com/llama3/
Avaliação de Andrej Karpathy sobre o Meta Llama 3