Llama-3.3-70B-Instruct

(huggingface.co)

2 pontos por GN⁺ 2024-12-07 | 1 comentários | Compartilhar no WhatsApp

O Llama-3.3-70B-Instruct, publicado no Hugging Face, é um modelo multilíngue de geração de texto da Meta, com 70B parâmetros e ajustado por instruções, voltado para IA conversacional e usos de geração de texto
Sua base é um modelo de linguagem autorregressivo com Transformer otimizado, e a versão ajustada é alinhada por SFT e RLHF às preferências de utilidade e segurança
O pré-treinamento usou cerca de 15 trilhões+ de tokens de dados públicos online; o comprimento de contexto é de 128k, o cutoff de conhecimento é dezembro de 2023, e há suporte a 8 idiomas
Para acessar o modelo no Hugging Face, é preciso concordar com o compartilhamento de informações de contato e seguir a Llama 3.3 Community License e a Acceptable Use Policy
Em implantações reais, em vez de usar apenas o modelo isoladamente, deve-se compor um sistema de IA com guardrails de segurança e realizar testes e ajustes de segurança específicos para cada uso

Características do modelo e principais especificações

O Llama 3.3 é um grande modelo de linguagem multilíngue desenvolvido pela Meta, e a versão 70B Instruct é um modelo generativo ajustado por instruções que aceita entrada de texto e produz saída de texto
É otimizado para casos de uso de conversação multilíngue e foi avaliado como superior a diversos modelos de chat open source e fechados em benchmarks gerais da indústria
A arquitetura é um modelo de linguagem autorregressivo baseado em Transformer otimizado
- A versão ajustada usa supervised fine-tuning (SFT) e reinforcement learning with human feedback (RLHF)
- Todas as versões do modelo usam Grouped-Query Attention (GQA) para melhorar a escalabilidade da inferência
Principais especificações
- Parâmetros: 70B
- Entrada: texto multilíngue
- Saída: texto multilíngue e código
- Comprimento de contexto: 128k
- Número de tokens de pré-treinamento: 15T+
- Cutoff de conhecimento: dezembro de 2023
- Data de lançamento: 6 de dezembro de 2024
Os idiomas com suporte são inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês
O modelo é um modelo estático treinado com datasets offline, e futuras versões ajustadas do modelo serão lançadas incorporando feedback da comunidade

Condições de acesso e obrigações de licença

Para acessar o conteúdo deste modelo no Hugging Face, é preciso concordar com o compartilhamento de informações de contato
- As informações fornecidas são coletadas, armazenadas, processadas e compartilhadas de acordo com a Meta Privacy Policy
A licença é o Llama 3.3 Community License Agreement
- Llama Materials incluem o Llama 3.3 da Meta, a documentação e partes deles
- É concedida uma licença limitada, não exclusiva, mundial, intransferível e isenta de royalties para uso, reprodução, distribuição, cópia, criação de obras derivadas e modificação
Há requisitos adicionais ao redistribuir ou distribuir produtos que o incluam
- Ao distribuir Llama Materials ou derivados, ou oferecer produtos/serviços que os incluam, é necessário fornecer uma cópia da licença junto com eles
- Em sites, UIs, posts de blog, páginas about e documentação de produto relacionados, deve-se exibir “Built with Llama” de forma destacada
- Ao usar Llama Materials ou suas saídas/resultados para criar, treinar, fazer fine-tuning ou melhorar um modelo de IA e distribuí-lo, o nome do modelo deve incluir “Llama” no início
- Todas as cópias distribuídas devem manter os avisos de copyright e licença especificados no arquivo de texto “Notice”
Usos comerciais em grande escala têm condições adicionais
- Se, no mês imediatamente anterior à data de lançamento do Llama 3.3, os produtos/serviços oferecidos pelo Licensee ou por afiliadas tiverem mais de 700 milhões de usuários ativos mensais, é preciso solicitar uma licença separada à Meta
- Até que a Meta conceda explicitamente os direitos, esses direitos não podem ser exercidos
O contrato é interpretado segundo as leis do estado da Califórnia, e disputas relacionadas ficam sob jurisdição exclusiva dos tribunais da Califórnia

Escopo permitido e usos proibidos

O Llama 3.3 é destinado a uso comercial e de pesquisa em vários idiomas
- Modelos text-only ajustados por instruções são usados em chats do tipo assistant-like
- Modelos pretrained podem ser adaptados para diversas tarefas de geração de linguagem natural
- As saídas do modelo também podem ser usadas para melhorar outros modelos, incluindo geração de dados sintéticos e distillation
Usos fora do escopo incluem:
- Uso que viole leis ou regulamentos aplicáveis, ou normas de conformidade comercial
- Uso de formas proibidas pela Acceptable Use Policy e pela Llama 3.3 Community License
- Uso fora dos idiomas explicitamente suportados no model card
Embora o modelo tenha sido treinado com uma coleção de idiomas mais ampla que os 8 idiomas suportados, ao usar idiomas adicionais o desenvolvedor deve cumprir a licença e as políticas, além de garantir um uso seguro e responsável
A Acceptable Use Policy proíbe os seguintes usos:
- Violência, terrorismo, exploração infantil, tráfico de pessoas, violência sexual, distribuição de informações ilegais, solicitação sexual e outras atividades criminosas
- Assédio, abuso, ameaças e bullying
- Discriminação ou atos ilegais/nocivos em emprego, crédito, moradia e fornecimento de bens e serviços essenciais
- Exercício profissional sem autorização
- Coletar, processar, divulgar, gerar ou inferir informações sensíveis ou privadas de indivíduos sem direitos legais adequados
- Violação ou uso indevido de direitos de terceiros
- Criação de código malicioso, malware ou vírus de computador, ou interferência na operação de sistemas
- Bypass ou remoção de restrições de uso ou medidas de segurança
Atividades com risco de morte ou dano físico também são proibidas
- Atividades militares, guerra, indústria ou aplicações nucleares, espionagem e atividades sujeitas ao ITAR
- Armas de fogo e armas ilegais, drogas ilícitas e substâncias controladas
- Infraestrutura crítica, tecnologia de transporte e operação de maquinário pesado
- Conteúdo que incentive automutilação ou dano a terceiros, violência, abuso ou dano físico
Também há proibições relacionadas a engano
- Criar ou promover fraude ou desinformação
- Criar conteúdo difamatório
- Criar ou distribuir spam
- Personificação sem consentimento ou direito legal
- Apresentar o uso ou a saída do Llama 3.3 como se tivesse sido criada por uma pessoa
- Gerar engajamento online falso, como avaliações falsas
Modelos multimodais incluídos no Llama 3.3 não concedem os direitos da Section 1(a) a pessoas físicas residentes na UE ou empresas com sede principal na UE
- Essa restrição não se aplica aos usuários finais de produtos/serviços que incluam esses modelos multimodais

Como executar e opções de serving

Este repositório inclui duas versões do Llama-3.3-70B-Instruct: uma para transformers e outra para a base de código original llama
A partir de transformers >= 4.45.0, é possível executar inferência conversacional com a abstração Transformers pipeline ou com classes Auto e a função generate()
- A atualização da instalação é feita com pip install --upgrade transformers
- O exemplo cria um pipeline text-generation com torch.bfloat16 e device_map="auto"
O uso de ferramentas (tool use) no Transformers também é suportado
- Há suporte a vários formatos de uso de ferramentas, e o guia de formato de prompt pode ser visto na documentação de formato de prompt do LLaMA
- O uso de ferramentas pode ser tratado pelos chat templates do Transformers
- Quando o modelo gera uma chamada de ferramenta, adiciona-se tool_calls à mensagem do assistant, acrescenta-se o resultado da execução da ferramenta como uma mensagem com o papel tool e então chama-se generate() novamente
Com bitsandbytes e transformers, é possível carregar checkpoints em 8-bit e 4-bit para otimizar ainda mais a memória
- O carregamento em 8-bit usa BitsAndBytesConfig(load_in_8bit=True)
- O carregamento em 4-bit passa load_in_4bit=True
Para usar a base de código original llama, siga as instruções do repositório Meta Llama
- Os checkpoints originais podem ser baixados no formato huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct
Também são oferecidas opções para apps locais e serving
- O vLLM inicia o servidor com vllm serve "meta-llama/Llama-3.3-70B-Instruct" e é chamado pela API compatível com OpenAI /v1/chat/completions
- O SGLang executa o servidor com python3 -m sglang.launch_server --model-path "meta-llama/Llama-3.3-70B-Instruct" e é chamado por uma API compatível com OpenAI
- O Docker Model Runner usa docker model run hf.co/meta-llama/Llama-3.3-70B-Instruct

Dados de treinamento, computação e emissões

Os dados de pré-treinamento consistem em cerca de 15 trilhões de tokens de fontes públicas
Os dados de fine-tuning incluem datasets públicos de instruções e mais de 25 milhões de exemplos gerados sinteticamente
A atualidade dos dados vai até dezembro de 2023 com base nos dados de pré-treinamento
O treinamento usou bibliotecas de treinamento customizadas, clusters de GPU customizados da Meta e infraestrutura de produção
- Fine-tuning, anotação e avaliação também foram realizados na infraestrutura de produção
Em hardware H100-80GB, foram usados 39,3M horas de GPU acumuladas de computação no treinamento
- O tempo de treinamento do item Llama 3.3 70B é de 7,0M horas de GPU
- O consumo de energia de treinamento é apresentado como 700W por GPU
As emissões de gases de efeito estufa do treinamento são separadas conforme a metodologia de cálculo
- A estimativa total de emissões baseada em localização é de 11.390 tons CO2eq
- As emissões baseadas em localização do item Llama 3.3 70B são de 2.040 tons CO2eq
- Como a Meta mantém emissões líquidas zero nas operações globais desde 2020 e fez matching de 100% do consumo de energia com energia renovável, as emissões de treinamento baseadas em mercado são 0 tons CO2eq
- O uso de energia e a metodologia de cálculo de gases de efeito estufa são apresentados no artigo
- Como a Meta faz o lançamento público do modelo, o uso de energia de treinamento e as emissões de gases de efeito estufa não recaem sobre outros usuários

Posição nos benchmarks

Benchmarks de texto em inglês comparam o Llama 3.3 a modelos anteriores
Principais resultados do Llama-3.3 70B Instruct
- MMLU(CoT): 86.0
- MMLU Pro(CoT): 68.9
- IFEval: 92.1
- GPQA Diamond(CoT): 50.5
- HumanEval: 88.4
- MBPP EvalPlus(base): 87.6
- MATH(CoT): 77.0
- BFCL v2: 77.3
- MGSM: 91.1
Algumas comparações com modelos anteriores e superiores
- No HumanEval, o Llama 3.1 70B Instruct marca 80.5, o Llama-3.3 70B Instruct marca 88.4, e o Llama 3.1 405B Instruct marca 89.0
- No MATH, o Llama 3.1 70B Instruct marca 68.0, o Llama-3.3 70B Instruct marca 77.0, e o Llama 3.1 405B Instruct marca 73.8
- No MGSM, o Llama 3.1 70B Instruct marca 86.9, o Llama-3.3 70B Instruct marca 91.1, e o Llama 3.1 405B Instruct marca 91.6

Avaliação de segurança e responsabilidade de implantação

A abordagem de lançamento responsável da Meta segue três estratégias para gerenciar riscos de confiança e segurança
- Ajudar desenvolvedores a implantar experiências úteis, seguras e flexíveis adequadas aos usuários-alvo e aos casos de uso suportados pelo Llama
- Proteger desenvolvedores contra usuários adversariais que tentem abusar das capacidades do Llama
- Oferecer proteção à comunidade para ajudar a prevenir o mau uso do modelo
O Llama 3.3 foi projetado como tecnologia de base usada em diversos casos de uso
- A segurança do modelo é alinhada a casos de uso gerais e categorias padrão de dano
- Desenvolvedores devem definir políticas adequadas aos seus casos de uso e implantar sistemas Llama com as proteções necessárias
- As orientações relacionadas são fornecidas no Responsible Use Guide
O fine-tuning de segurança do Llama 3.3 Instruct se concentra em fornecer recursos para estudar a robustez do fine-tuning de segurança e em reduzir o ônus dos desenvolvedores na implantação de sistemas de IA seguros
- Os dados de fine-tuning combinam dados gerados por humanos produzidos por fornecedores e dados sintéticos
- Classificadores baseados em LLM são usados para selecionar prompts e respostas de alta qualidade
- A estratégia de dados de segurança inclui prompts borderline e adversariais
- As respostas dos dados de segurança são modificadas para seguir diretrizes de tom de recusa
Grandes modelos de linguagem, incluindo o Llama 3.3, não são projetados para implantação isolada
- Devem ser implantados como parte de um sistema de IA completo, junto com guardrails de segurança adicionais
- Ao criar sistemas agentic, desenvolvedores devem implantar proteções de sistema
- A Meta oferece Llama Guard 3, Prompt Guard e Code Shield como recursos de trust and safety
- Demonstrações de reference implementations incluem essas proteções por padrão
Em recursos de uso de ferramentas, o desenvolvedor é responsável pela integração entre o LLM e as ferramentas/serviços escolhidos
- Deve definir políticas claras específicas ao caso de uso
- Deve avaliar a integridade e os limites de segurança e proteção dos serviços de terceiros
Em recursos multilíngues, o modelo também pode produzir saídas em idiomas além dos 8 suportados
- Para conversar em idiomas que não atenderam aos critérios de segurança e utilidade, é preciso implementar fine-tuning e controles de sistema
- A Meta desaconselha fortemente conversas em idiomas não suportados

Avaliação de riscos e recursos da comunidade

A avaliação foi realizada para casos de uso gerais e funcionalidades específicas
- A avaliação de casos de uso gerais mede riscos de segurança nas aplicações mais comuns, como chatbots, assistentes de programação e chamadas de ferramentas
- Foi construído um dataset adversarial dedicado, e foi avaliado um sistema composto por modelos Llama e Llama Guard 3
- É importante avaliar a aplicação no contexto, e recomenda-se construir datasets de avaliação dedicados para cada caso de uso
Foram realizados treinamentos iterativos de red team
- O objetivo é descobrir riscos por meio de prompting adversarial
- Os resultados do aprendizado são usados para melhorar benchmarks e datasets de safety tuning
- A red team é composta por especialistas em cibersegurança, machine learning adversarial, IA responsável e integrity, além de especialistas em conteúdo multilíngue
Áreas de risco mitigadas com foco
- CBRNE: para avaliar riscos relacionados à proliferação de armas químicas e biológicas, foram feitos testes de uplift para verificar se o uso de modelos da família Llama 3 aumentaria de forma significativa as capacidades de agentes mal-intencionados
- Child Safety: equipes de especialistas avaliaram a capacidade de gerar saídas que poderiam criar riscos à segurança infantil e analisaram a necessidade de mitigação por fine-tuning
- Cyber attack enablement: investigou-se se o modelo aumenta o nível técnico e a velocidade das capacidades humanas em tarefas de hacking, e avaliou-se se ele consegue realizar ataques cibernéticos complexos como agente autônomo no contexto de ataques de ransomware
A Meta participa de consórcios abertos como AI Alliance, Partnership on AI e MLCommons, contribuindo para padronização de segurança e transparência
As ferramentas Purple Llama foram tornadas open source para uso da comunidade, e contribuições da comunidade são recebidas no repositório PurpleLlama no GitHub
O Llama Impact Grants identifica e apoia aplicações do Llama para benefício social em três categorias: educação, clima e inovação aberta
Por meio de mecanismos de denúncia de saídas e do bug bounty program, a tecnologia Llama é continuamente aprimorada com ajuda da comunidade

Limitações e cuidados para desenvolvedores

O valor central do Llama 3.3 é apresentado como abertura, inclusão e utilidade
O modelo foi projetado para ser acessível a pessoas com diferentes origens, experiências e perspectivas
O Llama 3.3 é uma tecnologia nova, e seu uso ainda envolve riscos
- Os testes até agora não incluíram, nem poderiam incluir, todos os cenários
- Como em outros LLMs, saídas potenciais não podem ser previstas antecipadamente
- Em alguns casos, ele pode produzir respostas imprecisas, enviesadas ou de outro modo desagradáveis
Antes de implantar aplicações do modelo Llama 3.3, desenvolvedores devem realizar testes de segurança e ajustes específicos para a aplicação
Materiais relacionados ao desenvolvimento responsável estão disponíveis no Responsible Use Guide, em Trust and Safety e em outros resources

1 comentários

GN⁺ 2024-12-07

Opiniões no Hacker News

Benchmarks: https://www.reddit.com/r/LocalLLaMA/comments/1h85ld5/comment...
Parece ter desempenho parecido ou um pouco melhor que o Llama 3.2 405B, o que é realmente impressionante
Segundo Zuck (https://www.instagram.com/p/DDPm9gqv2cW/), este é o último lançamento da série Llama 3, e o Llama 4 deve sair em 2025, então há expectativa
- Em uma GPU 4090 de 24 GB e memória de CPU 7950x de 64 GB, dividindo o modelo entre GPU/CPU no lm-studio, dá 2,12 tok/s
  Coloquei 40/80 camadas na GPU, e a qualidade da saída parece boa até agora
  Para consultas que você não quer enviar pela rede e em que deseja a melhor resposta possível, essa configuração é utilizável
  Quando houver quantização melhor ou configurações com mais memória de GPU, acho que será possível usar esses modelos grandes localmente como assistentes de programação sólidos
  O modelo usado foi lmstudio-community/Llama-3.3-70B-Instruct-GGUF/Llama-3.3-70B-Instruct-Q4_K_M.gguf
- Só para constar, por causa do esquema de nomes do Llama, não existe um modelo chamado Llama 3.2 405B
  Os modelos 8B/70B/405B são um dos Llama 3, 3.1 ou 3.3 (o 405B não existia no lançamento inicial), e o Llama 3.2 inclui apenas os modelos 1B, 3B, 11B vision e 90B vision
  É uma estrutura bem confusa
- Como o desempenho chega bem perto do 405B, seria interessante comparar o 3.3-70B sem quantização com um 405B quantizado para o mesmo tamanho e ver qual fica à frente
Isso lembra a famosa frase de Steve Jobs para o Dropbox, de que armazenamento era “um recurso, não um produto”
Ao lançar esses modelos poderosos como open source, Zuckerberg está essencialmente transformando IA em commodity, enquanto o modelo de negócio real da Meta continua centrado em plataformas sociais
Eles podem usar esses modelos para fortalecer os serviços Facebook e Instagram e, ao mesmo tempo, se beneficiar de melhorias da comunidade e da atenção gerada
A estratégia não é vender IA, mas usar IA para tornar o negócio principal mais forte
Ao torná-los públicos, eles ganham as vantagens de ampla adoção e desenvolvimento mesmo sem monetizar diretamente os próprios modelos
- Não se deve subestimar o valor de estender a mão de forma mais ativa à comunidade de desenvolvedores
  Pode ser coincidência, mas depois que começaram a lançar esses modelos, passei a ver com mais frequência pessoas no HN chamando a empresa de “Meta”, e ultimamente tenho visto uma postura muito mais positiva do que o normal
  Boa vontade talvez não valha tanto quanto moderação/censura automática barata ou recursos chamativos, mas certamente tem valor
- Tenho pensado há algum tempo sobre qual é exatamente o modelo de negócio do open source, e também me perguntava por que o Google gasta dinheiro com o Chrome
  Depois de ver as declarações de Zuckerberg, ficou claro para mim que, do ponto de vista de uma empresa, open source é útil quando pode aumentar a receita ou reduzir custos
  Exemplos de aumento de receita são Chrome e Visual Studio Code
  Por exemplo, quanto mais pessoas programam, maior a chance de pagarem dinheiro à MSFT, então o VS Code tem o objetivo de tornar a programação o mais atraente possível
  O Chrome é parecido
  Exemplos de redução de custos são Linux e Llama
  Como o próprio Zuckerberg disse, eles não querem que um lado cresça como uma bola de neve graças a um monopólio de LLMs, então preferiram ajudar o lado open source a ganhar tração
- Transforme complementos em commodities: https://gwern.net/complement
- Uma pequena reclamação um pouco diferente da frase “armazenamento é um recurso, não um produto”: troquei de celular recentemente depois de 3 anos e fiquei surpreso ao ver que o armazenamento ainda é, em geral, limitado a algo perto de 128 GB
  Fico pensando se não estão limitando artificialmente a capacidade para empurrar serviços de armazenamento em nuvem
- A Meta melhorou bastante a qualidade dos anúncios
  Tenho visto anúncios no Facebook e Instagram e de fato acabado comprando com frequência; sinceramente, nos últimos mais de 20 anos, acho que nunca tinha clicado intencionalmente em um anúncio
Em vários benchmarks, parece estar quase no nível do GPT-4o: https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
- Além disso, é 25 vezes mais barato, pode ser usado offline, permite remover censura/alinhamento e possibilita fine-tuning e backups
  É um dia triste para a OpenAI e um bom dia para a humanidade
- Parece que este ano está terminando com o mesmo clima em que começou
  A maior parte da evolução da IA está acontecendo em modelos menores
  A verdadeira mudança veio quando as empresas começaram a perceber o valor dos dados de treinamento e a eficiência que supera em muito o tamanho do modelo resultante
- Fico curioso sobre qual versão do GPT-4o foi usada nesse benchmark
  A versão 08-06 parece sair um pouco acima desses dados em vários benchmarks: https://github.com/openai/simple-evals?tab=readme-ov-file#be...
- Isso torna o preço de US$ 200 por mês ainda mais ridículo
Nos nossos benchmarks, saiu muito melhor do que o esperado: https://help.kagi.com/kagi/ai/llm-benchmark.html
Ainda preciso investigar mais, mas é impressionante
- Perguntei “em D&D 5e, meu personagem feiticeiro chegou ao nível 6; o que ele ganha?” e ele inventou de forma plausível bastante coisa
  O GPT-4 também inventou um pouco, e o Claude acertou exatamente
Fiquei curioso porque perdi o fluxo do lado dos modelos no HuggingFace
Quero entender o que dá para fazer com modelos assim
Dá para baixar em um notebook e rodar pelo JupyterLab? Se sim, quais seriam as vantagens? É possível atualizar periodicamente com dados novos da internet etc.? Dá para fazer fine-tuning para usos específicos, como dados geoespaciais? E quão difícil é o fine-tuning, quanto tempo leva?
Se houver respostas para essas perguntas no HuggingFace, seria bom receber a URL
Para mim, o HuggingFace parece o GitHub no começo
Uma minoria usa intensamente, enquanto o resto fica coçando a cabeça sem saber como usar
É uma pergunta de iniciante, mas acho que uma resposta ajudaria muita gente
- Dá, sim
  A comunidade cria versões quantizadas que podem rodar em GPUs de consumidor
  A quantização de 4 bits do Llama 70B roda muito bem em um MacBook Pro, e o Neural Engine, que usa a memória unificada com a CPU, também é bem sólido para esse tipo de uso
  Em GPU é um pouco mais complicado, porque a memória das GPUs de consumidor ainda é pequena
  Fine-tuning também é possível
  Frameworks como o Unsloth tornam isso mais fácil: https://github.com/unslothai/unsloth
  Fine-tuning pode ser bem trabalhoso para fazer direito, porque é preciso entender fatores como taxa de aprendizado, mas há bons materiais na internet e muitos desenvolvedores hobbyistas já conseguiram
  Não é preciso ter doutorado em machine learning, mas é necessário ter dados que possam ser expressos em texto
  Como referência, trabalho na Databricks como diretor de engenharia de model serving
- Dá, sim; não conheço bem o JupyterLab, e vou pular a parte das vantagens
  Atualizações periódicas são praticamente difíceis, e fine-tuning é possível, mas é bem irritante, então é melhor simplesmente pagar alguém para fazer
- O HuggingFace é basicamente parecido com um GitHub para modelos
  Qualquer pessoa pode subir qualquer coisa, mas ele padroniza em certa medida as ferramentas e as formas de distribuição
  Também há uma equipe que ajuda nas integrações para tornar os releases mais fáceis de usar, e eles oferecem bibliotecas para fine-tuning
Tenho acompanhado no OpenRouter o preço por 1 milhão de tokens, e é divertido ver que ele cai a cada poucas atualizações de página: https://openrouter.ai/meta-llama/llama-3.3-70b-instruct
Para quem tiver interesse, coloquei os pesos em bitsandbytes de 4 bits, GGUF e os pesos originais de 16 bits em https://huggingface.co/unsloth
Com o Unsloth, dá para fazer fine-tuning do Llama 3.3 70B com menos de 48 GB de VRAM, 2x mais rápido e usando 70% menos memória
Pelo que me lembro, abrir o Llama como open source é um dos melhores exemplos de execução da estratégia commoditize your complement
Para quem não conhece essa estratégia, deixo o link de “Laws of Tech: Commoditize Your Complement”, do Gwern: https://gwern.net/complement
A Meta continua entregando acima das expectativas
Desde o começo, o objetivo era mirar e desestabilizar OpenAI/Anthropic com uma estratégia de terra arrasada, lançando modelos abertos fortes
Os maiores vencedores somos nós, desenvolvedores
Hoje de manhã passei alguns minutos subindo um servidor de modelos com H100 e coloquei isso em 2 H100 usando a versão com quantização FP8 e também quantização do cache KV; a velocidade e a qualidade parecem promissoras
Estou curioso para ver se benchmarks melhores de seguimento de instruções vão levar a melhorias em chamada de funções e recursos agênticos

Llama-3.3-70B-Instruct

Características do modelo e principais especificações

Condições de acesso e obrigações de licença

Escopo permitido e usos proibidos

Como executar e opções de serving

Dados de treinamento, computação e emissões

Posição nos benchmarks

Avaliação de segurança e responsabilidade de implantação

Avaliação de riscos e recursos da comunidade

Limitações e cuidados para desenvolvedores

Leituras relacionadas

1 comentários

Opiniões no Hacker News