7 pontos por GN⁺ 2024-04-09 | 1 comentários | Compartilhar no WhatsApp
  • A AI2 lançou o modelo OLMo 7B. Trata-se de um modelo de linguagem de grande porte de código aberto no verdadeiro sentido do termo, já que disponibiliza junto os dados de pré-treinamento e o código de treinamento.

    • Isso permite que pesquisadores e desenvolvedores usem o melhor modelo aberto para avançar coletivamente a ciência dos modelos de linguagem.
    • Yann LeCun, cientista de IA da Meta, mencionou que a comunidade open source pode construir o futuro da IA da forma mais rápida e eficaz.
  • Principais características do framework OLMo:

    • Dados completos de pré-treinamento: usa o dataset Dolma da AI2 e inclui também o código que gera os dados de treinamento.
    • Código de treinamento e pesos do modelo: fornece os pesos completos do modelo, código de inferência, métricas de treinamento e logs de treinamento para 4 variantes de modelo na escala de 7B.
    • Avaliação: sob o projeto Catwalk, também foram abertos mais de 500 checkpoints, código de avaliação e outras ferramentas de avaliação usadas no desenvolvimento.
  • Com o OLMo, pesquisadores e desenvolvedores de IA podem ter as seguintes experiências:

    • Análises mais precisas: é possível trabalhar mais rapidamente com base em uma visão completa dos dados de treinamento.
    • Redução das emissões de carbono: ao abrir todo o ecossistema de treinamento e avaliação, é possível reduzir o retrabalho.
    • Resultados contínuos: ao abrir o modelo e os datasets, torna-se possível aprender com modelos anteriores e evoluir a partir deles.
  • O desenvolvimento do OLMo foi possível graças à colaboração com AMD, CSC (Lumi Supercomputer), University of Washington, Databricks e outros.

Opinião do GN⁺

  • A divulgação dos dados de treinamento e do código para aumentar a transparência dos modelos de IA parece ter grande importância. No entanto, como podem existir problemas como viés nos dados, também parece necessário avaliá-los.
  • A ativação do ecossistema open source de modelos de linguagem deve acelerar o avanço tecnológico. Ainda assim, será preciso observar que resultados ele poderá alcançar na competição com os modelos fechados de IA das grandes empresas de tecnologia.
  • Para garantir os enormes recursos computacionais necessários ao desenvolvimento de IA, a colaboração com diversas instituições parece extremamente importante. Isso deve servir como um bom exemplo de modelo de cooperação entre academia e indústria.
  • Espera-se que o OLMo impulsione pesquisas científicas sobre os princípios de funcionamento dos modelos de linguagem. Isso poderá levar ao desenvolvimento de IAs mais seguras e confiáveis.

1 comentários

 
GN⁺ 2024-04-09
Comentários no Hacker News
  • Ao usar o LLM, é preciso informar aos autores para qual finalidade ele será usado. Isso está especificado na licença.
  • Se você criar derivados, precisa enviar um Derivative Impact Report à AI2 ou fornecer informações semelhantes por escrito. A AI2 pode divulgar essas informações publicamente.
  • É preciso divulgar com transparência a finalidade de uso dos derivados.
  • O Derivative Impact Report não existe para punir divulgações feitas de boa-fé. Se houver abertura de processo relacionado a isso, o contrato é encerrado imediatamente.
  • É um dos verdadeiros modelos open source. A maioria só divulga os pesos, enquanto este é aberto de ponta a ponta.
  • Surpreende que não haja menção a uma comparação com o Mistral 7b.
  • Parece que o "The Pile" não foi incluído nos dados de treinamento. Do ponto de vista jurídico, isso pode ser mais saudável do que outros LLMs "abertos".
  • Qual é o significado real da classificação de risco aplicada ao dataset? Falta explicação na página da licença. Isso quer dizer risco de incompatibilidade de licença para uso como dataset de treinamento?
  • Ele mostra uma velocidade surpreendentemente alta mesmo com tamanho pequeno.
  • Será que é um dos primeiros LLMs de destaque treinados com sucesso em GPU AMD? Fico curioso sobre quão tranquilo foi o processo e se houve dificuldades.
  • Neste modelo e em modelos semelhantes, aparece o problema de "tokens repetidos" durante a inferência. Isso acontece com frequência quando a janela de contexto fica moderadamente longa.
  • Parece que durante o treinamento ele cai em algum tipo de mínimo local. A temperatura parece influenciar isso, mas não resolve completamente.
  • É uma pena que não haja uma tabela comparativa no post do blog.
  • Pessoalmente, é o LLM mais interessante. É uma ferramenta poderosa que pode substituir buscas e até fazer pesquisa para entregar uma resposta final. Modelos fechados como os da OpenAI e Anthropic não podem ser auditados.
  • Há casos reais de viés injetado em LLMs (por exemplo, geração de imagens historicamente imprecisas no Google Gemini por causa de um meta-prompt secreto)
  • Gosto da abordagem da AI2. Ela compartilha sob licença Apache não só os pesos, mas também o código-fonte de treinamento, os dados, as ferramentas de avaliação etc.
  • Modelos de pesos abertos como o Llama estão alcançando modelos fechados como os da OpenAI. Espero que modelos realmente abertos como o OLMo continuem evoluindo.
  • Espero que o desenvolvimento de IA open source não seja bloqueado por regulação. No futuro, isso pode se tornar um meio de imprensa da sociedade, então regulá-lo seria parecido com restringir a liberdade de expressão. Menos pressão competitiva prejudicaria a inovação.
  • É um post de 2 meses atrás.