- A Apple revelou o OpenELM, um modelo de linguagem de IA pequeno o suficiente para rodar diretamente em smartphones
- OpenELM é a sigla de "Open-source Efficient Language Models" e está disponível no Hugging Face sob a Apple Sample Code License
- O código-fonte foi divulgado, mas há algumas restrições na licença, então ele pode não se enquadrar na definição comum de "código aberto"
Características dos modelos OpenELM
- O OpenELM é composto por 8 modelos com entre 270 milhões e 3 bilhões de parâmetros
- Pesquisas recentes estão focadas em criar pequenos modelos de linguagem de IA tão capazes quanto os grandes modelos de alguns anos atrás
- Os modelos OpenELM são oferecidos em dois tipos: versões pré-treinadas (
pretrained) e versões ajustadas por instruções (instruction-tuned)
- OpenELM-270M, OpenELM-450M, OpenELM-1_1B, OpenELM-3B
- OpenELM-270M-Instruct, OpenELM-450M-Instruct, OpenELM-1_1B-Instruct, OpenELM-3B-Instruct
Dados de treinamento e desempenho dos modelos OpenELM
- O OpenELM tem uma janela de contexto de até 2048 tokens
- Foi treinado com cerca de 1,8 trilhão de tokens, incluindo os datasets publicamente disponíveis RefinedWeb, uma versão sem duplicatas do PILE, um subconjunto do RedPajama e um subconjunto do Dolma v1.6
- A estratégia de "layer-wise scaling" da Apple aloca parâmetros de forma mais eficiente em cada camada, economizando recursos computacionais e melhorando o desempenho do modelo
- O OpenELM mostrou precisão 2,36% superior ao OLMo 1B da Allen AI, mesmo usando metade dos tokens de pré-treinamento
Materiais adicionais divulgados e o objetivo da Apple
- A Apple divulgou o código da biblioteca CoreNet usada no treinamento do OpenELM e uma receita de treinamento reproduzível
- De forma incomum para uma grande empresa de tecnologia, também divulgou os pesos para enfatizar a transparência
- Ao divulgar o código-fonte, os pesos do modelo e os materiais de treinamento, o objetivo é "fortalecer e enriquecer a comunidade aberta de pesquisa"
- No entanto, alertou que, por ter sido treinado com datasets públicos, há possibilidade de gerar saídas imprecisas, nocivas, enviesadas ou ofensivas
Perspectivas futuras
- A Apple ainda não integrou novas funções de modelos de linguagem de IA a dispositivos de consumo
- No entanto, especula-se que a atualização do iOS 18, esperada para ser apresentada na WWDC em junho, inclua novos recursos de IA que utilizem processamento no dispositivo para proteger a privacidade dos usuários
- Também existe a possibilidade de que a empresa recorra ao Google ou à OpenAI para processamento de IA fora do dispositivo, mais complexo, a fim de aprimorar a Siri
2 comentários
Estou curioso para ver o tamanho das mudanças com a atualização do iOS 18. Também estou bem ansioso pelo M4 com recursos de IA reforçados!