7 pontos por xguru 2024-04-29 | 2 comentários | Compartilhar no WhatsApp
  • A Apple revelou o OpenELM, um modelo de linguagem de IA pequeno o suficiente para rodar diretamente em smartphones
  • OpenELM é a sigla de "Open-source Efficient Language Models" e está disponível no Hugging Face sob a Apple Sample Code License
  • O código-fonte foi divulgado, mas há algumas restrições na licença, então ele pode não se enquadrar na definição comum de "código aberto"

Características dos modelos OpenELM

  • O OpenELM é composto por 8 modelos com entre 270 milhões e 3 bilhões de parâmetros
  • Pesquisas recentes estão focadas em criar pequenos modelos de linguagem de IA tão capazes quanto os grandes modelos de alguns anos atrás
  • Os modelos OpenELM são oferecidos em dois tipos: versões pré-treinadas (pretrained) e versões ajustadas por instruções (instruction-tuned)
    • OpenELM-270M, OpenELM-450M, OpenELM-1_1B, OpenELM-3B
    • OpenELM-270M-Instruct, OpenELM-450M-Instruct, OpenELM-1_1B-Instruct, OpenELM-3B-Instruct

Dados de treinamento e desempenho dos modelos OpenELM

  • O OpenELM tem uma janela de contexto de até 2048 tokens
  • Foi treinado com cerca de 1,8 trilhão de tokens, incluindo os datasets publicamente disponíveis RefinedWeb, uma versão sem duplicatas do PILE, um subconjunto do RedPajama e um subconjunto do Dolma v1.6
  • A estratégia de "layer-wise scaling" da Apple aloca parâmetros de forma mais eficiente em cada camada, economizando recursos computacionais e melhorando o desempenho do modelo
  • O OpenELM mostrou precisão 2,36% superior ao OLMo 1B da Allen AI, mesmo usando metade dos tokens de pré-treinamento

Materiais adicionais divulgados e o objetivo da Apple

  • A Apple divulgou o código da biblioteca CoreNet usada no treinamento do OpenELM e uma receita de treinamento reproduzível
  • De forma incomum para uma grande empresa de tecnologia, também divulgou os pesos para enfatizar a transparência
  • Ao divulgar o código-fonte, os pesos do modelo e os materiais de treinamento, o objetivo é "fortalecer e enriquecer a comunidade aberta de pesquisa"
  • No entanto, alertou que, por ter sido treinado com datasets públicos, há possibilidade de gerar saídas imprecisas, nocivas, enviesadas ou ofensivas

Perspectivas futuras

  • A Apple ainda não integrou novas funções de modelos de linguagem de IA a dispositivos de consumo
  • No entanto, especula-se que a atualização do iOS 18, esperada para ser apresentada na WWDC em junho, inclua novos recursos de IA que utilizem processamento no dispositivo para proteger a privacidade dos usuários
  • Também existe a possibilidade de que a empresa recorra ao Google ou à OpenAI para processamento de IA fora do dispositivo, mais complexo, a fim de aprimorar a Siri

2 comentários

 
[Este comentário foi ocultado.]
 
tsboard 2024-04-29

Estou curioso para ver o tamanho das mudanças com a atualização do iOS 18. Também estou bem ansioso pelo M4 com recursos de IA reforçados!