10 pontos por xguru 2024-07-24 | 3 comentários | Compartilhar no WhatsApp
  • Contexto de 128K, suporte a 8 idiomas e adição do modelo 405B (8B, 70B, 405B)
    • Modelo de IA open source ajustado por instruções que qualquer pessoa pode refinar, aprimorar e implantar em qualquer lugar
  • O novo modelo 405B recém-lançado alcança desempenho quase igual ou superior ao GPT-4o em benchmarks como MMLU (geral), Human Eval (código) e GSM8K (matemática)
    • Um modelo de IA de nível máximo em flexibilidade e controle
    • Permite que a comunidade utilize novos fluxos de trabalho, como geração de dados sintéticos e destilação de modelos
    • Foi treinado com mais de 15 trilhões de tokens e usando mais de 16.000 GPUs H100
  • O modelo 70B atualizado supera com folga o GPT-3.5 Turbo na maioria dos benchmarks

3 comentários

 
wedding 2024-07-24

Nossa, fico imaginando como teria que configurar as GPUs para subir o 405B.

 
gcback 2024-07-24

Parece que o 405B não é para fine-tuning direto nem para serving. Pelo fato de o CEO ter mencionado destilação várias vezes, talvez ele seja usado como modelo teacher para fine-tuning a fim de melhorar a qualidade de modelos menores.

 
xguru 2024-07-24

Comentários do Hacker News

  • Os modelos Llama 3.1 melhoraram em desempenho

    • Os modelos 8B e 70B tiveram desempenho melhor que o Llama 3
    • O modelo 405B está em um nível capaz de competir com GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet e Claude 3 Opus
  • Comparação entre GPT-4o e o modelo Llama 3.1 405B

    • MMLU: GPT-4o 88.7, Llama 3.1 405B 88.6
    • GPQA: GPT-4o 53.6, Llama 3.1 405B 51.1
    • MATH: GPT-4o 76.6, Llama 3.1 405B 73.8
    • HumanEval: GPT-4o 90.2, Llama 3.1 405B 89.0
    • MGSM: GPT-4o 90.5, Llama 3.1 405B 91.6
  • É possível conversar com os novos modelos no Groq.com com latência ultrabaixa

    • Há acesso à API dos modelos 8B e 70B
    • A API do 405B está disponível apenas para clientes selecionados
  • Com o hardware adequado, é possível rodar em casa um LLM capaz de competir com o GPT-4o

  • É possível executar os modelos localmente com Ollama, Huggingface, Groq e outros

    • Com o LLMStack, é possível testar modelos localmente ou criar aplicações rapidamente
  • O resultado de rodar a versão 70B no Ollama foi muito bom

    • Foi possível executar comandos para desativar diretrizes e disclaimers
    • Foi fornecida uma lista de comandos para reduzir possíveis vieses dos engenheiros
  • Claude 3.5 Sonnet é muito bom para tarefas de programação

    • Junto com o recurso Artifacts, ainda lidera os benchmarks de código
  • Pergunta sobre informações de preço de modelos open source

    • A ideia de self-hosting é muito interessante, mas o preço de inferência hospedada por token ainda é menos competitivo que OpenAI e Anthropic
    • Ex.: Llama 3 70B custa entre $1 e $10 por milhão de tokens em várias plataformas, enquanto Claude Sonnet 3.5 custa $3 por milhão de tokens