- A equipe de pesquisa do projeto DataComp for Language Models, da Apple, lançou no Hugging Face a família de modelos abertos DCLM
- O pacote inclui dois modelos principais, com 7B e 1.4B parâmetros
- O modelo de 7 bilhões (7B) de parâmetros mostra bom desempenho em benchmarks, superando o Mistral-7B e se aproximando de outros grandes modelos abertos, como Llama 3 e Gemma
- O projeto se torna verdadeiramente open source ao disponibilizar os pesos do modelo, o código de treinamento e o conjunto de dados de pré-treinamento
DCLM(DataComp for Language Models)
- O projeto DataComp pode ser descrito como um esforço colaborativo para projetar conjuntos de dados de alta qualidade para treinar modelos de IA, especialmente no domínio multimodal
- Por meio de experimentos, descobriu-se que a filtragem baseada em modelos — em que modelos de machine learning (ML) filtram e selecionam automaticamente dados de alta qualidade em conjuntos maiores — pode ser fundamental para compor conjuntos de treinamento de alta qualidade
- O conjunto de dados resultante, DCLM-Baseline, foi usado para treinar do zero novos modelos de linguagem em inglês DCLM, do tipo transformer decoder-only, com 7 bilhões e 1,4 bilhão de parâmetros
- O modelo de 7 bilhões foi treinado com 2,5 trilhões de tokens usando uma receita de pré-treinamento baseada no framework OpenLM e entregou 63,7% de acurácia em 5-shot no MMLU
- Isso representa uma melhora de 6,6 pontos percentuais em relação ao anterior modelo de linguagem open data estado da arte, o MAP-Neo, usando 40% menos computação no treinamento
Modelos potentes e menores
- A versão de 1,4 bilhão (1.4B) de parâmetros também mostrou desempenho impressionante nos testes MMLU, Core e Extended
- No teste MMLU 5-shot, registrou 41,9%, valor significativamente maior do que o de outros modelos dessa categoria, incluindo o SmolLM lançado recentemente pela Hugging Face
- No momento, o modelo maior está disponível sob a Sample Code License da Apple, enquanto o menor foi lançado sob Apache 2.0, que permite uso comercial, distribuição e modificação
- A biblioteca da HF também inclui uma versão instruction-tuned do modelo de 7 bilhões de parâmetros
- Vale notar que esta é uma pesquisa inicial que destaca a eficácia da curadoria de dados
- Este modelo não é para dispositivos Apple e pode apresentar certos vieses nos dados de treinamento de teste ou gerar respostas nocivas
3 comentários
Porque o efeito é maximizado quando isso vem no iPhone
A Samsung também está focando em on-device
Apple lança 8 pequenos modelos de linguagem de IA voltados para uso no dispositivo
A Apple continua focando em modelos pequenos para IA on-device. Quero experimentar logo.
Acho que a partir do ano que vem vamos poder usar isso para valer mesmo haha