Um LLM verdadeiramente aberto, chegou o Hello OLMo
(blog.allenai.org)-
A AI2 lançou o modelo OLMo 7B. Trata-se de um modelo de linguagem de grande porte de código aberto no verdadeiro sentido do termo, já que disponibiliza junto os dados de pré-treinamento e o código de treinamento.
- Isso permite que pesquisadores e desenvolvedores usem o melhor modelo aberto para avançar coletivamente a ciência dos modelos de linguagem.
- Yann LeCun, cientista de IA da Meta, mencionou que a comunidade open source pode construir o futuro da IA da forma mais rápida e eficaz.
-
Principais características do framework OLMo:
- Dados completos de pré-treinamento: usa o dataset Dolma da AI2 e inclui também o código que gera os dados de treinamento.
- Código de treinamento e pesos do modelo: fornece os pesos completos do modelo, código de inferência, métricas de treinamento e logs de treinamento para 4 variantes de modelo na escala de 7B.
- Avaliação: sob o projeto Catwalk, também foram abertos mais de 500 checkpoints, código de avaliação e outras ferramentas de avaliação usadas no desenvolvimento.
-
Com o OLMo, pesquisadores e desenvolvedores de IA podem ter as seguintes experiências:
- Análises mais precisas: é possível trabalhar mais rapidamente com base em uma visão completa dos dados de treinamento.
- Redução das emissões de carbono: ao abrir todo o ecossistema de treinamento e avaliação, é possível reduzir o retrabalho.
- Resultados contínuos: ao abrir o modelo e os datasets, torna-se possível aprender com modelos anteriores e evoluir a partir deles.
-
O desenvolvimento do OLMo foi possível graças à colaboração com AMD, CSC (Lumi Supercomputer), University of Washington, Databricks e outros.
Opinião do GN⁺
- A divulgação dos dados de treinamento e do código para aumentar a transparência dos modelos de IA parece ter grande importância. No entanto, como podem existir problemas como viés nos dados, também parece necessário avaliá-los.
- A ativação do ecossistema open source de modelos de linguagem deve acelerar o avanço tecnológico. Ainda assim, será preciso observar que resultados ele poderá alcançar na competição com os modelos fechados de IA das grandes empresas de tecnologia.
- Para garantir os enormes recursos computacionais necessários ao desenvolvimento de IA, a colaboração com diversas instituições parece extremamente importante. Isso deve servir como um bom exemplo de modelo de cooperação entre academia e indústria.
- Espera-se que o OLMo impulsione pesquisas científicas sobre os princípios de funcionamento dos modelos de linguagem. Isso poderá levar ao desenvolvimento de IAs mais seguras e confiáveis.
1 comentários
Comentários no Hacker News