4 pontos por xguru 2024-07-23 | 3 comentários | Compartilhar no WhatsApp
  • A equipe de pesquisa do projeto DataComp for Language Models, da Apple, lançou no Hugging Face a família de modelos abertos DCLM
  • O pacote inclui dois modelos principais, com 7B e 1.4B parâmetros
  • O modelo de 7 bilhões (7B) de parâmetros mostra bom desempenho em benchmarks, superando o Mistral-7B e se aproximando de outros grandes modelos abertos, como Llama 3 e Gemma
  • O projeto se torna verdadeiramente open source ao disponibilizar os pesos do modelo, o código de treinamento e o conjunto de dados de pré-treinamento

DCLM(DataComp for Language Models)

  • O projeto DataComp pode ser descrito como um esforço colaborativo para projetar conjuntos de dados de alta qualidade para treinar modelos de IA, especialmente no domínio multimodal
  • Por meio de experimentos, descobriu-se que a filtragem baseada em modelos — em que modelos de machine learning (ML) filtram e selecionam automaticamente dados de alta qualidade em conjuntos maiores — pode ser fundamental para compor conjuntos de treinamento de alta qualidade
  • O conjunto de dados resultante, DCLM-Baseline, foi usado para treinar do zero novos modelos de linguagem em inglês DCLM, do tipo transformer decoder-only, com 7 bilhões e 1,4 bilhão de parâmetros
  • O modelo de 7 bilhões foi treinado com 2,5 trilhões de tokens usando uma receita de pré-treinamento baseada no framework OpenLM e entregou 63,7% de acurácia em 5-shot no MMLU
  • Isso representa uma melhora de 6,6 pontos percentuais em relação ao anterior modelo de linguagem open data estado da arte, o MAP-Neo, usando 40% menos computação no treinamento

Modelos potentes e menores

  • A versão de 1,4 bilhão (1.4B) de parâmetros também mostrou desempenho impressionante nos testes MMLU, Core e Extended
  • No teste MMLU 5-shot, registrou 41,9%, valor significativamente maior do que o de outros modelos dessa categoria, incluindo o SmolLM lançado recentemente pela Hugging Face
  • No momento, o modelo maior está disponível sob a Sample Code License da Apple, enquanto o menor foi lançado sob Apache 2.0, que permite uso comercial, distribuição e modificação
  • A biblioteca da HF também inclui uma versão instruction-tuned do modelo de 7 bilhões de parâmetros
  • Vale notar que esta é uma pesquisa inicial que destaca a eficácia da curadoria de dados
    • Este modelo não é para dispositivos Apple e pode apresentar certos vieses nos dados de treinamento de teste ou gerar respostas nocivas

3 comentários

 
j2sus91 2024-07-23

Porque o efeito é maximizado quando isso vem no iPhone
A Samsung também está focando em on-device

 
xguru 2024-07-23

Apple lança 8 pequenos modelos de linguagem de IA voltados para uso no dispositivo

A Apple continua focando em modelos pequenos para IA on-device. Quero experimentar logo.

 
godrm 2024-07-23

Acho que a partir do ano que vem vamos poder usar isso para valer mesmo haha