11 pontos por GN⁺ 2024-09-26 | 1 comentários | Compartilhar no WhatsApp
  • Meta lança o Llama 3.2

    • Inclui LLMs de visão pequenos e médios (11B e 90B) e modelos leves somente de texto (1B e 3B)
    • Disponível em hardware da Qualcomm e da MediaTek, com otimização para processadores Arm
    • Modelos adequados para tarefas de resumo, seguimento de instruções e reescrita
  • Características dos modelos Llama 3.2

    • Os modelos de visão 11B e 90B se destacam em tarefas de compreensão de imagem
    • Permitem ajuste fino para aplicações personalizadas com torchtune
    • Permitem implantação local com torchchat
    • Disponíveis por meio do assistente inteligente Meta AI
  • Implantação do Llama Stack

    • Simplifica o trabalho com modelos Llama em ambientes de nó único, on-premises, nuvem e on-device
    • Implantado em parceria com AWS, Databricks, Dell Technologies, Fireworks, Infosys e Together AI
  • Download dos modelos Llama 3.2

    • Disponível para download em llama.com e Hugging Face
    • Desenvolvimento imediato disponível em plataformas parceiras como AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud e Snowflake
  • Desempenho do Llama 3.2

    • Os modelos 11B e 90B são adequados para compreensão em nível de documento, geração de legendas de imagem e tarefas com base visual
    • Os modelos 1B e 3B oferecem geração de texto multilíngue e recursos de chamada de ferramentas
    • Quando executados localmente, oferecem resposta imediata e maior privacidade
  • Avaliação dos modelos

    • Desempenho avaliado em mais de 150 conjuntos de dados de benchmark
    • Desempenho competitivo com Claude 3 Haiku e GPT4o-mini
  • Modelos de visão

    • Introdução de uma nova arquitetura de modelo para suportar entrada de imagem
    • Mantêm capacidades somente de texto, ao mesmo tempo em que combinam prompts de imagem e texto para compreensão e raciocínio aprofundados
  • Modelos leves

    • Os modelos 1B e 3B foram desenvolvidos usando métodos de poda e destilação de conhecimento
    • Podem ser executados localmente com eficiência
  • Implantação do Llama Stack

    • Fornece uma interface padronizada por meio da API do Llama Stack
    • Simplifica o trabalho com modelos Llama em diversos ambientes
  • Segurança em nível de sistema

    • Lançamento do Llama Guard 3 11B Vision
    • O modelo Llama Guard 3 1B reduz significativamente o custo de implantação
  • Uso do Llama 3.2

    • Fornece aos desenvolvedores as ferramentas e os recursos necessários
    • Com o Llama 3.2 e o Llama Stack, é possível desenvolver aplicações inovadoras

Resumo do GN⁺

  • O Llama 3.2 oferece diversos modelos de visão e texto, incluindo modelos leves que podem ser executados em dispositivos de borda e móveis
  • Por meio de parcerias com Qualcomm, MediaTek, Arm e outras empresas, oferece desempenho otimizado em diferentes hardwares
  • Com a implantação do Llama Stack, ajuda desenvolvedores a usar facilmente modelos Llama em diversos ambientes
  • O Llama 3.2 oferece alta privacidade e resposta imediata, sendo adequado para o desenvolvimento de aplicações locais
  • Oferece desempenho capaz de competir com Claude 3 Haiku e GPT4o-mini, comprovado em diversos benchmarks

1 comentários

 
GN⁺ 2024-09-26
Comentários do Hacker News
  • Surpreso com o desempenho do novo modelo 1B. O tamanho do download é de 1,3 GB

    • Usei para resumir uma base de código inteira. Não é perfeito, mas tem um desempenho impressionante para um modelo pequeno
    • Mais notas podem ser vistas aqui
    • Também testei o modelo de imagem maior. É possível fazer upload de imagens em lmarena.ai por meio de "Direct Chat"
  • No exemplo "The Llama jumped over the ______!", com codificação 1-hot, "wall" é a resposta correta com 100% de probabilidade

    • Se disser que "fence" também é uma possibilidade, está errado. Acho que é por isso que a destilação de modelos funciona bem
    • O modelo original aprende por meio de respostas em texto, mas o modelo filho aprende respostas mais significativas ao imitar as previsões
    • Entendo por que o Llama 3.2 da Meta é pequeno, mas poderoso. Impressionado com a evolução dos modelos
  • Impressionado com a abertura da equipe Llama da Meta. Eles não apenas dão acesso ao modelo, como também divulgam como ele foi construído

    • Não sei como serão os modelos do futuro, mas sou grato pela postura aberta da Meta
  • Pergunta de iniciante: preciso de um modelo com capacidade 10x de um engenheiro de software, mas não preciso de conhecimento humano. Queria saber se existe um modelo assim

  • Testei o modelo 3B no Ollama. Ele é rápido e tem muito conhecimento sobre óptica, biologia e Rust

    • Modelo muito impressionante
  • Post do blog da Ollama: link

  • O modelo llama3.2:3b-instruct-q8_0 tem desempenho melhor que o 3.1 8b-q4. É mais rápido e entrega resultados melhores em um MacBook Pro M1

    • Dá respostas melhores para alguns enigmas e experimentos mentais
    • Removi a instalação do 3.1-8b
    • Lista atual do Ollama:
      • llama3.2:3b-instruct-q8_0: 3.4GB, modificado há 2 horas
      • gemma2:9b-instruct-q4_1: 6.0GB, modificado há 3 dias
      • phi3.5:3.8b-mini-instruct-q8_0: 4.1GB, modificado há 3 dias
      • mxbai-embed-large:latest: 669MB, modificado há 3 meses
  • Pergunta se alguém pode recomendar um cliente web UI para o Ollama

  • Pergunta se existe algum leaderboard com os benchmarks mais recentes de LLMs

    • Livebench e Lmsys estão algumas semanas atrasados e não adicionam os principais modelos
    • Se não existir, está disposto a fazer um por conta própria
  • O modelo 3B foi bem decente em multimodal (norueguês), mas às vezes dá muitas respostas sem sentido. É mais sensível que o 8B, mas mais utilizável que o Gemma 2 2B

    • Para uma pergunta sobre ordenação de listas em Python, foi ok
    • O modelo de visão 90B se recusou a fazer tarefas úteis. Falhou ao recriar uma imagem em HTML ou ao usar os dados da imagem de forma útil
    • Não tive esse problema com o 70B nem com a OpenAI. Há recusas demais