- O primeiro LLM ajustado por instruções verdadeiramente aberto do mundo
- Todo o código de treinamento, o conjunto de dados e os pesos do modelo foram disponibilizados. Ou seja, qualquer pessoa ou empresa pode criar e possuir seu próprio LLM poderoso
- Ajustado finamente com o conjunto de dados
databricks-dolly-15k de instruções geradas por humanos
- 15.000 pares de prompt/resposta. Qualquer pessoa pode modificar ou expandir, e também usar para fins comerciais
- (
Alpaca, Koala, GPT4All, Vicuna etc. não podem ser usados comercialmente)
- Esses dados foram escritos diretamente por 5 mil funcionários da Databricks
- Baseado no modelo de linguagem de 12B parâmetros
EleutherAI pythia
1 comentários
É muito engraçado que eles abriram uma conversa com os funcionários para montar um conjunto de perguntas para treinar o LLM, mas como a participação foi muito maior do que o esperado, encerraram antes do prazo com medo de isso atrapalhar o trabalho.
De qualquer forma, acho realmente digno de elogio o fato de uma empresa grande como essa ter feito um investimento ousado e liberado um conjunto de dados de alta qualidade como totalmente open source (CC BY-SA 3.0).
Se empresas assim forem ficando cada vez mais comuns e a participação aumentar aos poucos, será que um dia não surge um modelo open source com nível próximo ao GPT-4 e uso comercial possível?