1 pontos por GN⁺ 2024-04-19 | 1 comentários | Compartilhar no WhatsApp
  • A página do Llama da Meta apresenta a família de modelos Llama como uma IA open source voltada a facilidade de implantação, eficiência de custo, desempenho e escalabilidade em larga escala, cobrindo tanto a linha Llama 4 quanto a Llama 3
  • Llama 4 Maverick e Llama 4 Scout são modelos multimodais nativos baseados em early fusion, que pré-treinam conjuntamente tokens de texto e visão, e ambos destacam um contexto de 10M tokens
  • A linha Llama 3 se divide em 3.1, 3.2 e 3.3, oferecendo opções por tamanho e uso — 8B, 70B e 405B; 1B, 3B, 11B e 90B; e 70B — para texto, edge e aplicações multimodais
  • As comparações de desempenho incluem MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi e MTOB; o Llama 4 Maverick registra 80,5 no MMLU Pro, e o Scout, 74,3
  • Casos da Stoque e da Shopify mostram resultados de adoção como redução de 50% nas consultas repetitivas de suporte técnico, aumento de 11% na satisfação interna, aumento de 76% no throughput de tokens e redução de 33% no custo computacional com saída em JSON

Família de modelos Llama e opções por versão

  • Llama é uma família de modelos que permite criar de acordo com suas próprias condições, mirando implantação fácil, eficiência de custo, desempenho e escala para bilhões de usuários
  • Os principais eixos dos modelos Llama mais recentes são multimodalidade nativa, raciocínio avançado e janelas de contexto longas
  • Os cards dos modelos e formatos de prompt podem ser conferidos em Model overview
  • Llama 4: multimodal nativo e contexto de 10M

    • Llama 4 é uma família de modelos multimodais nativos que, por meio de early fusion, pré-treina conjuntamente dados de texto e visão sem rótulos
    • O Llama 4 Maverick oferece suporte à compreensão de imagens e texto e processa tarefas de formato longo com contexto de 10M tokens
    • Memória, personalização e aplicações multimodais são os principais usos
    • O Llama 4 Scout é um modelo que fornece inteligência textual e visual, destacando eficiência em uma única GPU H100 e uma janela de contexto de 10M
    • A análise de documentos longos é apresentada como o principal caso de uso do Scout
    • Detalhes são fornecidos na documentação do modelo Llama 4
  • Llama 3: família de modelos por tamanho e uso

    • Llama 3 é uma família de modelos de IA open source que permite fine-tuning, destilação e implantação em qualquer lugar
    • O Llama 3.3 é um grande modelo de linguagem open source multilíngue oferecido em 70B, apresentado como uma forma de experimentar desempenho e qualidade no nível de 405B a um custo menor
    • Ele é voltado a usos baseados em texto, como geração de dados sintéticos, e detalhes podem ser conferidos na documentação do modelo Llama 3.3
    • O Llama 3.2 é uma família de modelos flexível e eficiente em custo, voltada a usos em edge
      • 1B e 3B são leves e eficientes em custo, podendo rodar em qualquer lugar
      • 11B e 90B são modelos multimodais capazes de inferir imagens em alta resolução e produzir texto
      • Detalhes são fornecidos na documentação do modelo Llama 3.2
    • O Llama 3.1 é um modelo foundation aberto para flexibilidade e controle, oferecido nos tamanhos 8B, 70B e 405B
    • Inclui capacidades de conhecimento geral, ajustabilidade, matemática, uso de ferramentas e tradução multilíngue, sendo usado para resumo de textos, agentes multilíngues e programação
    • Detalhes podem ser conferidos na documentação do modelo Llama 3.1

Métricas de desempenho e resultados reais de adoção

  • Benchmarks do Llama 4 e condições de avaliação

    • As capacidades do Llama 4 são resumidas como multimodalidade nativa, contexto longo e image grounding
    • Todos os modelos Llama 4 utilizam early fusion para possibilitar o pré-treinamento conjunto, em grande escala, de tokens de texto e visão sem rótulos
    • Os benchmarks comparam o Llama 4 Maverick e o Llama 4 Scout
      • Raciocínio: no MMLU Pro, Maverick 80,5 e Scout 74,3; no GPQA Diamond, Maverick 69,8 e Scout 57,2
      • Programação: no LiveCodeBench, Maverick 43,4 e Scout 32,8
      • Imagem multimodal: no MMMU, Maverick 73,4 e Scout 69,4; no ChartQA, Maverick 90,0 e Scout 88,8; no DocVQA, ambos 94,4
      • Multilíngue: no MMLU Multi, Maverick 84,6 e Scout 74,3
      • Contexto longo: no MTOB Half Book, Maverick 54,0 / 46,4 e Scout 42,2 / 36,6; no MTOB Full Book, Maverick 50,8 / 46,7 e Scout 39,7 / 36,3
      • Eficiência: o custo por 1M tokens é apresentado como US$ 0,19–US$ 0,49 para ambos
    • Segundo a metodologia e as observações, os resultados do Llama são de avaliação 0-shot com temperature 0 e não usam majority voting nem computação paralela em tempo de teste
    • Em benchmarks com alta variância, como GPQA Diamond e LiveCodeBench, várias gerações são promediadas para reduzir a incerteza
    • Como avaliações especializadas de contexto longo tradicionalmente não são reportadas para modelos gerais, são compartilhados resultados de execuções internas
    • O custo de US$ 0,19/Mtok do Llama 4 Maverick é uma estimativa blended de 3:1 assumindo inferência distribuída; em host único, a expectativa é que possa ser oferecido por US$ 0,30–US$ 0,49/Mtok
  • Casos de uso da Stoque e da Shopify

    • A Stoque transformou sua inteligência interna com o Llama, permitindo que as equipes encontrassem insights mais rapidamente, reduzissem atritos e trabalhassem com mais eficiência em larga escala
    • As consultas repetitivas de suporte técnico caíram 50%, e a conclusão de tarefas administrativas e de suporte aumentou 30%
    • A satisfação dos usuários internos aumentou 11%
    • A Shopify usa o Llama para geração de páginas de produto, localização de conteúdo e automação de suporte
    • Em comparação com o modelo anterior, o throughput de tokens é 76% maior, e a precisão Macro-F1 na detecção de intenção chegou a 97,7%
    • A saída em JSON reduziu o custo computacional em 33%
    • As proteções de IA generativa ajudam a identificar e mitigar riscos potenciais de forma proativa por meio de proteções em nível de sistema, ajudando desenvolvedores a implantar IA generativa de maneira mais responsável

1 comentários

 
GN⁺ 2024-04-19
Comentários no Hacker News
  • Links de referência: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613

  • A Meta também lançou um console: https://www.meta.ai/
    Também anunciou a integração do Meta AI em toda a linha de produtos da Meta: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
    Ainda assim, como não incluiu comparações com GPT-4-Turbo ou Claude Opus, parece estar um pouco distante dos modelos de ponta, e será preciso ver como se sai no LLM Arena

    • O motivo de não compararem com os melhores modelos provavelmente foi a tentativa de fazer uma comparação “da mesma categoria”. O modelo 70B está na mesma faixa do Sonnet, e se vencer o Sonnet pode chegar perto do Opus ou do GPT-4 na maioria das tarefas
      A grande diferença provavelmente só apareceria em benchmarks de raciocínio muito difíceis. Como o Llama tem pesos abertos, ao contrário do Opus, deve receber muito fine-tuning e LoRA
    • Se o Llama-3-400B ficar no nível do Claude 3 Opus e afins, os perdedores podem ser as ações da Nvidia, a OpenAI e Sam, e o Google; os vencedores podem ser AMD, Intel, universidades e desenvolvedores do mundo todo
      Se países e grandes empresas passarem a usar Llama-3/Llama-4 em vez de despejar dinheiro em GPUs para treinar modelos próprios, a expectativa de crescimento das GPUs pode esfriar, a OpenAI teria menos justificativa para captar 100 bilhões de dólares, e a vantagem do Google em IA ficaria menos clara. AMD e Intel poderiam focar em chips de inferência de IA em vez de tentar alcançar a Nvidia em GPUs de treinamento
    • Também surpreende terem deixado usar sem login. Não era algo que eu esperava da Meta
    • A Meta disse que ainda está treinando variantes maiores mais competitivas
      Os maiores modelos, com mais de 400B, ainda estão em treinamento, e a empresa pretende lançar nos próximos meses vários modelos com multimodalidade, conversa multilíngue, janelas de contexto muito mais longas e capacidades gerais mais fortes
    • Aparece “Meta AI isn't available yet in your country”; queria saber onde está disponível. Na Noruega aparece assim
  • Benchmarks públicos são bons como indicador aproximado, mas desenvolvedores precisam rodar benchmarks customizados alinhados ao próprio caso de uso
    A Replicate criou rapidamente uma API do Llama 3 https://replicate.com/blog/run-llama-3-with-an-api, e com o promptfoo https://github.com/typpo/promptfoo dá para comparar Llama 3, Mixtral, GPT, Claude etc. Por exemplo, é possível avaliar Replicate meta/meta-llama-3-8b-instruct, meta/meta-llama-3-70b-instruct, OpenAI gpt-4-turbo e Anthropic claude-3-opus-20240229 com os mesmos prompts
    Ainda está em teste, mas em um conjunto aleatório de perguntas de programação o Llama 3 8B parece bem bom. O ollama agora também suporta o Llama 3 8B, então ficou fácil fazer avaliação local com ollama:chat:llama3

    • É preciso ter muito cuidado ao testar com problemas que provavelmente já vazaram por inteiro na internet
      Um bom teste é algo simples, mas que mostre aplicação real, como resolver uma equação quadrática para valores aleatórios de a, b, c. Mesmo sendo um algoritmo que todos os modelos provavelmente conhecem, eles ainda erram e depois fingem que validaram, repetindo a resposta errada. O LLAMA 3 também, mesmo depois de terem apontado o erro várias vezes, disse que “encontrou a solução correta e a verificou de várias formas”, mas a solução real continuava errada como no início, e não houve nenhuma tentativa de verificação
    • Havia um problema de vocabulário em que assistant era anexado ao fim da resposta, mas agora deve estar funcionando
      Dá para rodar com ollama run llama3, e estão subindo várias versões quantizadas e também os modelos de texto/70B
  • O Llama 3 70B estreou em 5º lugar no famoso ranking do LMSYS Chatbot Arena, empatado com Claude 2 Sonnet, Bard (Gemini Pro) e Command R+, e à frente de Claude 2 Haiku e versões anteriores do GPT-4
    Ainda há bastante incerteza na pontuação, então a posição exata só vai ficar mais clara com o tempo e pode mudar. O Llama 3 8B está em 12º, empatado com Claude 1, Mixtral 8x22B e Qwen-1.5-72B. O ranking mais recente pode ser visto em https://arena.lmsys.org/
    No ranking apenas em inglês, o Llama 3 70B está entre os primeiros junto com GPT-4 e Claude Opus, o que é ainda mais impressionante. Pode haver influência do fato de o ajuste de segurança estar menos rígido do que antes, reduzindo recusas de prompt, mas mesmo assim é uma melhora realmente útil. Nesse ritmo, o modelo 400B tem grandes chances de ser praticamente dominante

  • Ao pedir para gerar um rap em chinês, ele produziu algo bem decente, mas logo após a conclusão a resposta foi apagada e substituída pela mensagem “ainda não entende chinês, mas está em desenvolvimento e enviará uma mensagem quando puder conversar em chinês”
    Em outros idiomas acontece o mesmo: há geração em idiomas não ingleses, mas quando termina a resposta é apagada e substituída pelo mesmo aviso

    • Parece haver um pós-processador que avalia a qualidade da resposta depois que certo número de tokens é gerado, e, se ficar abaixo do critério, reverte a resposta
    • É só rodar localmente. A versão local não tem esse tipo de proteção
    • Em italiano funciona, mas sempre vem com um aviso de isenção dizendo que a capacidade em idiomas não ingleses ainda está sendo aprimorada, pode haver erros e que ele é mais útil ao ajudar em inglês
    • É estranho esse bug continuar acontecendo mesmo depois de 12 horas
  • O blog tem muitos bons detalhes: https://ai.meta.com/blog/meta-llama-3/
    A versão 400B também deve sair, e parece que ficará muito melhor que GPT-4 e Claude Opus. A tendência é de descentralização e vitória do software aberto

    • Comparando com os números do Claude 3 da Anthropic https://www.anthropic.com/news/claude-3-family, os números do Llama 400B parecem um pouco mais baixos
      Claro, o benchmark foi feito com um checkpoint intermediário e o treinamento ainda está em andamento
    • Nunca foi dito nada disso. Pelo contrário, os benchmarks divulgados ficam abaixo de GPT-4 e Opus
      Não dá para confiar cegamente em benchmarks, mas não há alegação de que supere GPT-4 ou Opus. Como é um checkpoint intermediário, pode superar no futuro
    • Não sei de onde saiu a informação de que o modelo 400B é muito melhor que o GPT-4
    • É difícil chamar isso de descentralização. Pode até rodar em vários lugares, mas há apenas uma fonte de distribuição
      E também não é open source
    • Não é open source nem descentralizado
  • Muito obrigado ao Zuck, ao Yann e à equipe da Meta por adotarem uma abordagem aberta e compartilharem pesos do modelo, tokenizer, informações sobre os dados de treinamento etc.
    Eles são, de longe, a maior força motriz por trás da explosão de pesquisa aberta que permitiu rodar localmente modelos bem decentes em hardware de consumidor por meio de projetos como llama.cpp, evitando censura ou controle
    Não é que eu queira fazer pedidos que cairiam no controle da OpenAI ou da Anthropic, mas não gosto da ideia de uma tecnologia tão poderosa ficar atrás de muros, com gatekeepers controlando como ela pode ser usada. Há muitas pessoas e empresas que acreditam em abertura, mas quando quem faz isso tem centenas de bilhões de dólares em capital, fluxo de caixa sustentável e GPUs no valor de dezenas de bilhões, o impacto é muito maior. O Zuck não precisava escolher esse caminho, e se o Facebook fosse administrado por um executivo profissional no estilo HBS/McKinsey, provavelmente não teria deixado isso tão aberto. Todos ganham muito pelo fato de ele não ter escondido as joias da coroa atrás de uma API centralizada sob o pretexto de riscos de segurança em IA

    • Pelas entrevistas do Zuck, dá para ver que no fundo ele ainda é um engenheiro. Outras big techs perderam esse tipo de liderança
    • Ele ainda tem 39 anos e parece ter ainda mais energia para tocar a empresa, o que é algo bom. Ter um fundador apaixonado me parece uma grande vantagem da Meta em relação às outras big techs
    • É bem possível que isso não seja feito só por boa vontade. Pode ser uma estratégia para transformar o modelo em commodity e vender complementos
      É uma estratégia da qual Joel Spolsky já falou no passado, embora não esteja claro exatamente quais complementos a Meta poderia vender para modelos de IA. Ainda assim, parece claramente uma escolha estratégica de algum tipo
    • É porque ele é um CEO fundador. É diferente dos MBAs de carreira em termos de paixão e autenticidade
      Há muita coisa pela qual se pode criticar o Zuck, mas falta de sinceridade com a missão não é uma delas
    • A Meta também liderou o Open Compute Project. Entrei no Google por causa do compromisso da empresa com open source, mas me decepcionei muito ao ver essa cultura não continuar enquanto construíam soluções em escala de exa
      É bom ver a Meta carregando essa tocha aqui, e espero que continue assim
  • Como não havia comparação direta com o GPT-4 do ChatGPT Plus pago, alinhei os números por conta própria
    Para Llama 3 8B / Llama 3 70B / GPT-4, os valores são MMLU 68.4 / 82.0 / 86.5, GPQA 34.2 / 39.5 / 49.1, MATH 30.0 / 50.4 / 72.2, HumanEval 62.2 / 81.7 / 87.6, e DROP 58.4 / 79.7 / 85.4
    O ChatGPT gratuito que a maioria usa é baseado no GPT-3.5, bem mais fraco que o GPT-4. Não encontrei números abrangentes de avaliação do GPT-3.5 mais recente, mas o Llama 3 70B provavelmente vence com folga, e até o 8B deve chegar perto. É muito interessante poder rodar e modificar localmente um modelo desse nível. Os números do GPT-4 são de gpt-4-turbo-2024-04-09 (chatgpt) em https://github.com/openai/simple-evals

    • No fim de https://ai.meta.com/blog/meta-llama-3/ também há resultados do modelo 400B em andamento. Parece que ele ainda não chegou lá completamente
      Para Llama 3 400B Base / Instruct, os valores são MMLU 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, e DROP 83.5 / -
    • É impressionante quando se considera que o GPT-4 teria 1,8T de parâmetros
    • Estou esperando modelos fine-tuned ou mesclados. Muitos desenvolvedores criaram modelos muito melhores que o modelo base a partir do Llama 2, então espero algo parecido com a nova versão
    • Fico curioso se já existe algum comparativo com o Mixtral 8x22B. O mundo está andando rápido demais
    • Estou especialmente animado com a pontuação no HumanEval. O modelo 400B ainda nem saiu, e também não houve ajuste CodeLlama ainda
      Para quem quiser testar para programação dentro da IDE, já adicionei o Llama 3 70B na ferramenta de assistência de código https://www.double.bot
  • Também saiu uma entrevista com o Zuck: https://twitter.com/dwarkesh_sp/status/1780990840179187715

    • Por volta dos 5 minutos há uma parte interessante: o Zuck diz que, alguns anos atrás, comprou uma quantidade enorme de GPUs H100 para criar um mecanismo de recomendação para o Reels competir com o TikTok
      Na época, garantiu com folga o dobro do necessário, e graças a isso acabou sendo, por acaso, uma das poucas empresas com capacidade de GPU para treinar LLMs nessa escala
    • Parece que 1 ou 2 anos de MMA ajudaram muito mais no carisma do que todo o treinamento de mídia anterior. Ele está bem mais natural nas entrevistas hoje em dia
    • O podcast do Dwarkesh é realmente muito bom no geral
  • O model card tem resultados de benchmark comparados com outros modelos Llama, incluindo o Llama 2: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
    É impressionante ver que a melhoria de desempenho do Llama 3 em relação ao Llama 2 é dramática. Isso vale mesmo quando comparado ao Llama 2 13B, e o fato de a janela de contexto ter dobrado para 8k também deve abrir muitas novas oportunidades

    • Considerando os modelos ajustados para instruções, o Llama 3 8B é consideravelmente melhor até do que o Llama 2 70B
    • É uma pena que o contexto de 8k seja bem menor que o contexto de 64k do Mixtral 8x22B
      Ainda assim, os indicadores de desempenho divulgados são impressionantes, e a Meta merece elogios por ter lançado esses modelos