- "Dados são o novo petróleo" foi o slogan da última década
- As empresas passaram a entender quanto valor os dados têm, ou podem vir a ter
- As empresas correram para investir nas stacks de dados mais recentes e armazenaram terabytes de dados em data warehouses
- As equipes de ciência de dados precisavam analisar os números e usar os resultados dessas análises em decisões de produto (ou, em alguns casos, em recursos voltados ao cliente, como feeds de recomendação)
- Houve casos de sucesso, mas muitas organizações falharam na execução
- Entre os motivos estão dados em silos (ou equipes de dados isoladas), data warehouses em nuvem caros e queries ruins (algo que agora está diminuindo), além da ausência de pipelines de dados bem estruturados (o que exige um esforço operacional considerável para manter os dados em estado refinado)
- Agora, mesmo com o uso de "IA generativa", os dados ainda são um moat?
- Quando conjuntos de dados sintéticos passam a ocupar uma parcela não nula nos pipelines de treinamento e inferência, o valor dos dados aumenta ou diminui?
- Por um lado, "dados de qualidade continuam sendo importantes"
- Grande parte do foco na melhoria de LLMs está voltada ao modelo e ao tamanho do conjunto de dados
- Já existem evidências iniciais de que os LLMs podem ser fortemente afetados pela qualidade dos dados com que são treinados
- WizardLM, TinyStories e phi-1 são exemplos disso
- Da mesma forma, conjuntos de dados de RLHF também são importantes
- Por outro lado, para fine-tuning de formato de saída e estilo personalizado, "algo em torno de 100 pontos de dados já traz uma melhora significativa"
- Pesquisadores de LLM da Databricks, Meta, Spark e Audible realizaram uma análise empírica sobre a quantidade de dados necessária para fine-tuning
- Esse volume de dados é fácil de gerar ou selecionar manualmente
- Destilação de modelos (Model distillation) é algo real e pode ser feita de forma simples
- É possível usar um LLM para gerar dados sintéticos e então treinar ou fazer fine-tuning do seu próprio LLM, com parte do conhecimento sendo transferida
- Isso é um problema quando você expõe o LLM bruto para terceiros (embora não seja tão problemático para uso interno), mas também significa que dados que não são especialmente únicos podem ser copiados com facilidade
Ainda não há comentários.