Um LLM verdadeiramente aberto, chegou o Hello OLMo

(blog.allenai.org)

7 pontos por GN⁺ 2024-04-09 | 1 comentários | Compartilhar no WhatsApp

A AI2 lançou o modelo OLMo 7B. Trata-se de um modelo de linguagem de grande porte de código aberto no verdadeiro sentido do termo, já que disponibiliza junto os dados de pré-treinamento e o código de treinamento.
- Isso permite que pesquisadores e desenvolvedores usem o melhor modelo aberto para avançar coletivamente a ciência dos modelos de linguagem.
- Yann LeCun, cientista de IA da Meta, mencionou que a comunidade open source pode construir o futuro da IA da forma mais rápida e eficaz.
Principais características do framework OLMo:
- Dados completos de pré-treinamento: usa o dataset Dolma da AI2 e inclui também o código que gera os dados de treinamento.
- Código de treinamento e pesos do modelo: fornece os pesos completos do modelo, código de inferência, métricas de treinamento e logs de treinamento para 4 variantes de modelo na escala de 7B.
- Avaliação: sob o projeto Catwalk, também foram abertos mais de 500 checkpoints, código de avaliação e outras ferramentas de avaliação usadas no desenvolvimento.
Com o OLMo, pesquisadores e desenvolvedores de IA podem ter as seguintes experiências:
- Análises mais precisas: é possível trabalhar mais rapidamente com base em uma visão completa dos dados de treinamento.
- Redução das emissões de carbono: ao abrir todo o ecossistema de treinamento e avaliação, é possível reduzir o retrabalho.
- Resultados contínuos: ao abrir o modelo e os datasets, torna-se possível aprender com modelos anteriores e evoluir a partir deles.
O desenvolvimento do OLMo foi possível graças à colaboração com AMD, CSC (Lumi Supercomputer), University of Washington, Databricks e outros.

Opinião do GN⁺

A divulgação dos dados de treinamento e do código para aumentar a transparência dos modelos de IA parece ter grande importância. No entanto, como podem existir problemas como viés nos dados, também parece necessário avaliá-los.
A ativação do ecossistema open source de modelos de linguagem deve acelerar o avanço tecnológico. Ainda assim, será preciso observar que resultados ele poderá alcançar na competição com os modelos fechados de IA das grandes empresas de tecnologia.
Para garantir os enormes recursos computacionais necessários ao desenvolvimento de IA, a colaboração com diversas instituições parece extremamente importante. Isso deve servir como um bom exemplo de modelo de cooperação entre academia e indústria.
Espera-se que o OLMo impulsione pesquisas científicas sobre os princípios de funcionamento dos modelos de linguagem. Isso poderá levar ao desenvolvimento de IAs mais seguras e confiáveis.

1 comentários

GN⁺ 2024-04-09

Comentários no Hacker News

Ao usar o LLM, é preciso informar aos autores para qual finalidade ele será usado. Isso está especificado na licença.
Se você criar derivados, precisa enviar um Derivative Impact Report à AI2 ou fornecer informações semelhantes por escrito. A AI2 pode divulgar essas informações publicamente.
É preciso divulgar com transparência a finalidade de uso dos derivados.
O Derivative Impact Report não existe para punir divulgações feitas de boa-fé. Se houver abertura de processo relacionado a isso, o contrato é encerrado imediatamente.
É um dos verdadeiros modelos open source. A maioria só divulga os pesos, enquanto este é aberto de ponta a ponta.
Surpreende que não haja menção a uma comparação com o Mistral 7b.
Parece que o "The Pile" não foi incluído nos dados de treinamento. Do ponto de vista jurídico, isso pode ser mais saudável do que outros LLMs "abertos".
Qual é o significado real da classificação de risco aplicada ao dataset? Falta explicação na página da licença. Isso quer dizer risco de incompatibilidade de licença para uso como dataset de treinamento?
Ele mostra uma velocidade surpreendentemente alta mesmo com tamanho pequeno.
Será que é um dos primeiros LLMs de destaque treinados com sucesso em GPU AMD? Fico curioso sobre quão tranquilo foi o processo e se houve dificuldades.
Neste modelo e em modelos semelhantes, aparece o problema de "tokens repetidos" durante a inferência. Isso acontece com frequência quando a janela de contexto fica moderadamente longa.
Parece que durante o treinamento ele cai em algum tipo de mínimo local. A temperatura parece influenciar isso, mas não resolve completamente.
É uma pena que não haja uma tabela comparativa no post do blog.
Pessoalmente, é o LLM mais interessante. É uma ferramenta poderosa que pode substituir buscas e até fazer pesquisa para entregar uma resposta final. Modelos fechados como os da OpenAI e Anthropic não podem ser auditados.
Há casos reais de viés injetado em LLMs (por exemplo, geração de imagens historicamente imprecisas no Google Gemini por causa de um meta-prompt secreto)
Gosto da abordagem da AI2. Ela compartilha sob licença Apache não só os pesos, mas também o código-fonte de treinamento, os dados, as ferramentas de avaliação etc.
Modelos de pesos abertos como o Llama estão alcançando modelos fechados como os da OpenAI. Espero que modelos realmente abertos como o OLMo continuem evoluindo.
Espero que o desenvolvimento de IA open source não seja bloqueado por regulação. No futuro, isso pode se tornar um meio de imprensa da sociedade, então regulá-lo seria parecido com restringir a liberdade de expressão. Menos pressão competitiva prejudicaria a inovação.
É um post de 2 meses atrás.

Um LLM verdadeiramente aberto, chegou o Hello OLMo

Opinião do GN⁺

Leituras relacionadas

1 comentários

Comentários no Hacker News