Apple demonstra força em IA aberta: novos modelos têm desempenho superior ao Mistral

xguru · 2024-07-23T10:51:01+09:00

A equipe de pesquisa do projeto DataComp for Language Models, da Apple, lançou no Hugging Face a família de modelos abertos DCLM O pacote inclui dois modelos principais, com 7B e 1.4B parâmetros O modelo de 7 bilhões (7B) de parâmetros mostra bom desempenho em benchmarks, superando o Mistral-7B e se aproximando de outros grandes modelos abertos, como Llama 3 e Gemma O projeto se torna verdadeiramente open source ao disponibilizar os pesos do modelo, o código de treinamento e o conjunto de dados de pré-treinamento DCLM(DataComp for Language Models) O projeto DataComp pode ser descrito como um esforço colaborativo para projetar conjuntos de dados de alta qualidade para treinar modelos de IA, especialmente no domínio multimodal Por meio de experimentos, descobriu-se que a filtragem baseada em modelos — em que modelos de machine learning (ML) filtram e selecionam automaticamente dados de alta qualidade em conjuntos maiores — pode ser fundamental para compor conjuntos de treinamento de alta qualidade O conjunto de dados resultante, DCLM-Baseline, foi usado para treinar do zero novos modelos de linguagem em inglês DCLM, do tipo transformer decoder-only, com 7 bilhões e 1,4 bilhão de parâmetros O modelo de 7 bilhões foi treinado com 2,5 trilhões de tokens usando uma receita de pré-treinamento baseada no framework OpenLM e entregou 63,7% de acurácia em 5-shot no MMLU Isso representa uma melhora de 6,6 pontos percentuais em relação ao anterior modelo de linguagem open data estado da arte, o MAP-Neo, usando 40% menos computação no treinamento Modelos potentes e menores A versão de 1,4 bilhão (1.4B) de parâmetros também mostrou desempenho impressionante nos testes MMLU, Core e Extended No teste MMLU 5-shot, registrou 41,9%, valor significativamente maior do que o de outros modelos dessa categoria, incluindo o SmolLM lançado recentemente pela Hugging Face No momento, o modelo maior está disponível sob a Sample Code License da Apple, enquanto o menor foi lançado sob Apache 2.0, que permite uso comercial, distribuição e modificação A biblioteca da HF também inclui uma versão instruction-tuned do modelo de 7 bilhões de parâmetros Vale notar que esta é uma pesquisa inicial que destaca a eficácia da curadoria de dados Este modelo não é para dispositivos Apple e pode apresentar certos vieses nos dados de treinamento de teste ou gerar respostas nocivas

(venturebeat.com)

4 pontos por xguru 2024-07-23 | 3 comentários | Compartilhar no WhatsApp

A equipe de pesquisa do projeto DataComp for Language Models, da Apple, lançou no Hugging Face a família de modelos abertos DCLM
O pacote inclui dois modelos principais, com 7B e 1.4B parâmetros
O modelo de 7 bilhões (7B) de parâmetros mostra bom desempenho em benchmarks, superando o Mistral-7B e se aproximando de outros grandes modelos abertos, como Llama 3 e Gemma
O projeto se torna verdadeiramente open source ao disponibilizar os pesos do modelo, o código de treinamento e o conjunto de dados de pré-treinamento

DCLM(DataComp for Language Models)

O projeto DataComp pode ser descrito como um esforço colaborativo para projetar conjuntos de dados de alta qualidade para treinar modelos de IA, especialmente no domínio multimodal
Por meio de experimentos, descobriu-se que a filtragem baseada em modelos — em que modelos de machine learning (ML) filtram e selecionam automaticamente dados de alta qualidade em conjuntos maiores — pode ser fundamental para compor conjuntos de treinamento de alta qualidade
O conjunto de dados resultante, DCLM-Baseline, foi usado para treinar do zero novos modelos de linguagem em inglês DCLM, do tipo transformer decoder-only, com 7 bilhões e 1,4 bilhão de parâmetros
O modelo de 7 bilhões foi treinado com 2,5 trilhões de tokens usando uma receita de pré-treinamento baseada no framework OpenLM e entregou 63,7% de acurácia em 5-shot no MMLU
Isso representa uma melhora de 6,6 pontos percentuais em relação ao anterior modelo de linguagem open data estado da arte, o MAP-Neo, usando 40% menos computação no treinamento

Modelos potentes e menores

A versão de 1,4 bilhão (1.4B) de parâmetros também mostrou desempenho impressionante nos testes MMLU, Core e Extended
No teste MMLU 5-shot, registrou 41,9%, valor significativamente maior do que o de outros modelos dessa categoria, incluindo o SmolLM lançado recentemente pela Hugging Face
No momento, o modelo maior está disponível sob a Sample Code License da Apple, enquanto o menor foi lançado sob Apache 2.0, que permite uso comercial, distribuição e modificação
A biblioteca da HF também inclui uma versão instruction-tuned do modelo de 7 bilhões de parâmetros
Vale notar que esta é uma pesquisa inicial que destaca a eficácia da curadoria de dados
- Este modelo não é para dispositivos Apple e pode apresentar certos vieses nos dados de treinamento de teste ou gerar respostas nocivas

3 comentários

j2sus91 2024-07-23

Porque o efeito é maximizado quando isso vem no iPhone
A Samsung também está focando em on-device

xguru 2024-07-23

Apple lança 8 pequenos modelos de linguagem de IA voltados para uso no dispositivo

A Apple continua focando em modelos pequenos para IA on-device. Quero experimentar logo.

godrm 2024-07-23

Acho que a partir do ano que vem vamos poder usar isso para valer mesmo haha

Apple demonstra força em IA aberta: novos modelos têm desempenho superior ao Mistral

DCLM(DataComp for Language Models)

Modelos potentes e menores

Leituras relacionadas

3 comentários