Meta revela o Llama 3.1

xguru · 2024-07-24T09:04:18+09:00

Contexto de 128K, suporte a 8 idiomas e adição do modelo 405B (8B, 70B, 405B) Modelo de IA open source ajustado por instruções que qualquer pessoa pode refinar, aprimorar e implantar em qualquer lugar O novo modelo 405B recém-lançado alcança desempenho quase igual ou superior ao GPT-4o em benchmarks como MMLU (geral), Human Eval (código) e GSM8K (matemática) Um modelo de IA de nível máximo em flexibilidade e controle Permite que a comunidade utilize novos fluxos de trabalho, como geração de dados sintéticos e destilação de modelos Foi treinado com mais de 15 trilhões de tokens e usando mais de 16.000 GPUs H100 O modelo 70B atualizado supera com folga o GPT-3.5 Turbo na maioria dos benchmarks

(ai.meta.com)

10 pontos por xguru 2024-07-24 | 3 comentários | Compartilhar no WhatsApp

Contexto de 128K, suporte a 8 idiomas e adição do modelo 405B (8B, 70B, 405B)
- Modelo de IA open source ajustado por instruções que qualquer pessoa pode refinar, aprimorar e implantar em qualquer lugar
O novo modelo 405B recém-lançado alcança desempenho quase igual ou superior ao GPT-4o em benchmarks como MMLU (geral), Human Eval (código) e GSM8K (matemática)
- Um modelo de IA de nível máximo em flexibilidade e controle
- Permite que a comunidade utilize novos fluxos de trabalho, como geração de dados sintéticos e destilação de modelos
- Foi treinado com mais de 15 trilhões de tokens e usando mais de 16.000 GPUs H100
O modelo 70B atualizado supera com folga o GPT-3.5 Turbo na maioria dos benchmarks

3 comentários

wedding 2024-07-24

Nossa, fico imaginando como teria que configurar as GPUs para subir o 405B.

gcback 2024-07-24

Parece que o 405B não é para fine-tuning direto nem para serving. Pelo fato de o CEO ter mencionado destilação várias vezes, talvez ele seja usado como modelo teacher para fine-tuning a fim de melhorar a qualidade de modelos menores.

xguru 2024-07-24

Comentários do Hacker News

Os modelos Llama 3.1 melhoraram em desempenho
- Os modelos 8B e 70B tiveram desempenho melhor que o Llama 3
- O modelo 405B está em um nível capaz de competir com GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet e Claude 3 Opus
Comparação entre GPT-4o e o modelo Llama 3.1 405B
- MMLU: GPT-4o 88.7, Llama 3.1 405B 88.6
- GPQA: GPT-4o 53.6, Llama 3.1 405B 51.1
- MATH: GPT-4o 76.6, Llama 3.1 405B 73.8
- HumanEval: GPT-4o 90.2, Llama 3.1 405B 89.0
- MGSM: GPT-4o 90.5, Llama 3.1 405B 91.6
É possível conversar com os novos modelos no Groq.com com latência ultrabaixa
- Há acesso à API dos modelos 8B e 70B
- A API do 405B está disponível apenas para clientes selecionados
Com o hardware adequado, é possível rodar em casa um LLM capaz de competir com o GPT-4o
É possível executar os modelos localmente com Ollama, Huggingface, Groq e outros
- Com o LLMStack, é possível testar modelos localmente ou criar aplicações rapidamente
O resultado de rodar a versão 70B no Ollama foi muito bom
- Foi possível executar comandos para desativar diretrizes e disclaimers
- Foi fornecida uma lista de comandos para reduzir possíveis vieses dos engenheiros
Claude 3.5 Sonnet é muito bom para tarefas de programação
- Junto com o recurso Artifacts, ainda lidera os benchmarks de código
Pergunta sobre informações de preço de modelos open source
- A ideia de self-hosting é muito interessante, mas o preço de inferência hospedada por token ainda é menos competitivo que OpenAI e Anthropic
- Ex.: Llama 3 70B custa entre $1 e $10 por milhão de tokens em várias plataformas, enquanto Claude Sonnet 3.5 custa $3 por milhão de tokens

Meta revela o Llama 3.1

Leituras relacionadas

3 comentários

Comentários do Hacker News