Os dados ainda são um moat?

xguru · 2023-10-17T10:46:01+09:00

"Dados são o novo petróleo" foi o slogan da última década As empresas passaram a entender quanto valor os dados têm, ou podem vir a ter As empresas correram para investir nas stacks de dados mais recentes e armazenaram terabytes de dados em data warehouses As equipes de ciência de dados precisavam analisar os números e usar os resultados dessas análises em decisões de produto (ou, em alguns casos, em recursos voltados ao cliente, como feeds de recomendação) Houve casos de sucesso, mas muitas organizações falharam na execução Entre os motivos estão dados em silos (ou equipes de dados isoladas), data warehouses em nuvem caros e queries ruins (algo que agora está diminuindo), além da ausência de pipelines de dados bem estruturados (o que exige um esforço operacional considerável para manter os dados em estado refinado) Agora, mesmo com o uso de "IA generativa", os dados ainda são um moat? Quando conjuntos de dados sintéticos passam a ocupar uma parcela não nula nos pipelines de treinamento e inferência, o valor dos dados aumenta ou diminui? Por um lado, "dados de qualidade continuam sendo importantes" Grande parte do foco na melhoria de LLMs está voltada ao modelo e ao tamanho do conjunto de dados Já existem evidências iniciais de que os LLMs podem ser fortemente afetados pela qualidade dos dados com que são treinados WizardLM, TinyStories e phi-1 são exemplos disso Da mesma forma, conjuntos de dados de RLHF também são importantes Por outro lado, para fine-tuning de formato de saída e estilo personalizado, "algo em torno de 100 pontos de dados já traz uma melhora significativa" Pesquisadores de LLM da Databricks, Meta, Spark e Audible realizaram uma análise empírica sobre a quantidade de dados necessária para fine-tuning Esse volume de dados é fácil de gerar ou selecionar manualmente Destilação de modelos (Model distillation) é algo real e pode ser feita de forma simples É possível usar um LLM para gerar dados sintéticos e então treinar ou fazer fine-tuning do seu próprio LLM, com parte do conhecimento sendo transferida Isso é um problema quando você expõe o LLM bruto para terceiros (embora não seja tão problemático para uso interno), mas também significa que dados que não são especialmente únicos podem ser copiados com facilidade

(matt-rickard.com)

12 pontos por xguru 2023-10-17 | Ainda não há comentários. | Compartilhar no WhatsApp

"Dados são o novo petróleo" foi o slogan da última década
- As empresas passaram a entender quanto valor os dados têm, ou podem vir a ter
- As empresas correram para investir nas stacks de dados mais recentes e armazenaram terabytes de dados em data warehouses
- As equipes de ciência de dados precisavam analisar os números e usar os resultados dessas análises em decisões de produto (ou, em alguns casos, em recursos voltados ao cliente, como feeds de recomendação)
- Houve casos de sucesso, mas muitas organizações falharam na execução
- Entre os motivos estão dados em silos (ou equipes de dados isoladas), data warehouses em nuvem caros e queries ruins (algo que agora está diminuindo), além da ausência de pipelines de dados bem estruturados (o que exige um esforço operacional considerável para manter os dados em estado refinado)
Agora, mesmo com o uso de "IA generativa", os dados ainda são um moat?
Quando conjuntos de dados sintéticos passam a ocupar uma parcela não nula nos pipelines de treinamento e inferência, o valor dos dados aumenta ou diminui?
Por um lado, "dados de qualidade continuam sendo importantes"
- Grande parte do foco na melhoria de LLMs está voltada ao modelo e ao tamanho do conjunto de dados
- Já existem evidências iniciais de que os LLMs podem ser fortemente afetados pela qualidade dos dados com que são treinados
- WizardLM, TinyStories e phi-1 são exemplos disso
- Da mesma forma, conjuntos de dados de RLHF também são importantes
Por outro lado, para fine-tuning de formato de saída e estilo personalizado, "algo em torno de 100 pontos de dados já traz uma melhora significativa"
- Pesquisadores de LLM da Databricks, Meta, Spark e Audible realizaram uma análise empírica sobre a quantidade de dados necessária para fine-tuning
- Esse volume de dados é fácil de gerar ou selecionar manualmente
Destilação de modelos (Model distillation) é algo real e pode ser feita de forma simples
- É possível usar um LLM para gerar dados sintéticos e então treinar ou fazer fine-tuning do seu próprio LLM, com parte do conhecimento sendo transferida
- Isso é um problema quando você expõe o LLM bruto para terceiros (embora não seja tão problemático para uso interno), mas também significa que dados que não são especialmente únicos podem ser copiados com facilidade

Os dados ainda são um moat?

Leituras relacionadas

Ainda não há comentários.