Databricks lança em código aberto o Dolly 2.0, semelhante ao ChatGPT

xguru · 2023-04-14T10:03:01+09:00

O primeiro LLM ajustado por instruções verdadeiramente aberto do mundo Todo o código de treinamento, o conjunto de dados e os pesos do modelo foram disponibilizados. Ou seja, qualquer pessoa ou empresa pode criar e possuir seu próprio LLM poderoso Ajustado finamente com o conjunto de dados databricks-dolly-15k de instruções geradas por humanos 15.000 pares de prompt/resposta. Qualquer pessoa pode modificar ou expandir, e também usar para fins comerciais (Alpaca, Koala, GPT4All, Vicuna etc. não podem ser usados comercialmente) Esses dados foram escritos diretamente por 5 mil funcionários da Databricks Baseado no modelo de linguagem de 12B parâmetros EleutherAI pythia

(databricks.com)

35 pontos por xguru 2023-04-14 | 1 comentários | Compartilhar no WhatsApp

O primeiro LLM ajustado por instruções verdadeiramente aberto do mundo
Todo o código de treinamento, o conjunto de dados e os pesos do modelo foram disponibilizados. Ou seja, qualquer pessoa ou empresa pode criar e possuir seu próprio LLM poderoso
Ajustado finamente com o conjunto de dados databricks-dolly-15k de instruções geradas por humanos
- 15.000 pares de prompt/resposta. Qualquer pessoa pode modificar ou expandir, e também usar para fins comerciais
  - (Alpaca, Koala, GPT4All, Vicuna etc. não podem ser usados comercialmente)
- Esses dados foram escritos diretamente por 5 mil funcionários da Databricks
Baseado no modelo de linguagem de 12B parâmetros EleutherAI pythia

1 comentários

kuroneko 2023-04-14

É muito engraçado que eles abriram uma conversa com os funcionários para montar um conjunto de perguntas para treinar o LLM, mas como a participação foi muito maior do que o esperado, encerraram antes do prazo com medo de isso atrapalhar o trabalho.

De qualquer forma, acho realmente digno de elogio o fato de uma empresa grande como essa ter feito um investimento ousado e liberado um conjunto de dados de alta qualidade como totalmente open source (CC BY-SA 3.0).
Se empresas assim forem ficando cada vez mais comuns e a participação aumentar aos poucos, será que um dia não surge um modelo open source com nível próximo ao GPT-4 e uso comercial possível?

Databricks lança em código aberto o Dolly 2.0, semelhante ao ChatGPT

Leituras relacionadas

1 comentários