Estratégias de coleta de dados para startups de IA em 2024

(press.airstreet.com)

31 pontos por xguru 2024-04-29 | 1 comentários | Compartilhar no WhatsApp

[ #1 Grandes modelos generativos (Large Generative Models) ]

Geração de dados sintéticos com LLM e LMM

Enquanto os Large Language Models (LLMs) geram saídas de texto, os Large Multi-Modal Models (LMMs) podem gerar dados sintéticos em vários formatos, como texto, código e imagens
São especialmente usados com frequência em áreas onde há escassez de dados reais, alta sensibilidade à privacidade, ou custos elevados de coleta e rotulagem de dados (ex.: NLP, visão computacional, desenvolvimento de sistemas de direção autônoma etc.)
Em geral, dados sintéticos são usados para complementar dados reais ou para ajuste fino (fine-tuning), e não para substituí-los por completo
Por mais sofisticados que sejam, só conseguem gerar aproximações do domínio do problema, e a dependência excessiva pode trazer o risco de overfitting do modelo às características presentes no processo de geração dos dados sintéticos
Métodos de geração de dados sintéticos
1. Autoaperfeiçoamento (Self-improvement): o modelo gera instruções, contexto de entrada e respostas; exemplos inválidos ou muito parecidos com dados existentes são filtrados; os dados restantes são usados para fazer fine-tuning do modelo original
2. Destilação (Distillation): processo de transferir o conhecimento de um modelo professor mais poderoso para um modelo aluno menos poderoso, porém mais eficiente. Mesmo quando os dados sintéticos frequentemente são imprecisos, eles ainda podem contribuir de forma eficaz para o processo de instruction-tuning
A Microsoft lançou uma série de pequenos modelos chamada Phi, treinada principalmente com dados sintéticos gerados por outros LLMs, e eles apresentaram desempenho superior ao da maioria dos modelos de fronteira
A Hugging Face criou o Cosmopedia com o objetivo de reproduzir isso, em resposta à falta de informações sobre a curadoria do conjunto de dados sintéticos de treinamento usado pela Microsoft

Rotulagem de dados e integração de datasets com LLM

Os LLMs mais recentes conseguem rotular datasets de texto em nível equivalente ou superior ao de anotadores humanos
Diferentemente de anotadores humanos, LLMs podem aplicar de forma consistente os mesmos critérios de anotação em grandes datasets, sem fadiga nem viés
Grandes modelos generativos treinados com datasets massivos, como o Segment Anything, frequentemente mostram desempenho melhor em zero-shot do que modelos tradicionais especializados de visão computacional não generativos em tarefas como segmentação semântica (semantic segmentation)
LLMs também podem ser usados para expandir o conjunto de dados reais disponíveis por meio de dataset stitching, integrando diferentes fontes de dados para criar um dataset unificado

LLM como avaliador

O reinforcement learning from human feedback (RLHF) foi a principal técnica de fine-tuning que transformou o GPT-3 em um sistema inovador otimizado para interações conversacionais com usuários por meio de chat
Agora surgiu uma abordagem chamada reinforcement learning from AI feedback (RLAIF), em que LLMs são usados no lugar de humanos para fornecer feedback
A principal vantagem do RLAIF é a possibilidade de escalabilidade e redução de custos ao substituir humanos por máquinas

[ #2 Plataformas de rotulagem de dados ]

No início, usavam-se plataformas de crowdsourcing e terceirização de tarefas como o Amazon Mechanical Turk para realizar rotulagem e limpeza de dados com mão de obra online barata
Mais recentemente, plataformas como V7 e Scale AI, que oferecem recursos automatizados de rotulagem e gestão de dados, evoluíram e ganharam popularidade
Com medidas de conformidade regulatória e garantia de qualidade, essas plataformas ajudam empresas com grande demanda por dados a escalar com mais eficiência e manter maior consistência

Características por plataforma e novos players

A V7 tende a focar em tarefas que exigem alto nível de especialização, como imagem médica, enquanto a Scale cresceu na área de direção autônoma e depois se expandiu para defesa
Novos players como a Invisible vêm atendendo à demanda por profissionais especializados em workflows voltados a LLMs (ex.: fine-tuning supervisionado, RLHF, avaliação humana, red teaming etc.)
Entre os serviços populares de rotulagem de dados estão CVAT, Dataloop, Invisible, Labelbox, Scale AI e V7

Como melhorar a qualidade dos dados anotados por humanos

Muitas plataformas ainda dependem em algum grau de anotadores humanos, por isso é necessário dedicar mais esforço à avaliação da qualidade das saídas à medida que o uso de IA se expande para áreas complexas, subjetivas e socialmente relevantes
É possível estimar o rótulo real a partir das entradas de vários avaliadores e identificar avaliadores "spammers" não confiáveis usando maioria, taxa de concordância e abordagens de modelagem probabilística
Há técnicas para capturar divergências sistemáticas entre avaliadores e usá-las para melhorar o treinamento (ex.: deconvolução de discordância, modelagem com múltiplos anotadores etc.)
Também é possível detectar pontos de dados rotulados incorretamente usando funções de influência e rastreamento de mudanças de previsão durante o treinamento

[ #3 Datasets abertos ]

Desde 2016, houve uma explosão de datasets abertos graças ao movimento de dados abertos e ao reconhecimento, por parte da indústria, da academia e do governo, do valor do compartilhamento de dados
Datasets abertos existem na maioria dos domínios, mas são particularmente acessíveis em visão computacional, NLP, processamento de fala/áudio, controle robótico e navegação
Esse avanço ocorreu com a combinação de esforços da comunidade (ex.: Hugging Face, PyTorch, TensorFlow, Kaggle etc.) e a liberação de grandes datasets por grandes empresas

Pontos a considerar ao usar datasets abertos

Embora sejam gratuitos e úteis para benchmarking, há algumas considerações importantes
Em áreas sensíveis ou muito reguladas, datasets abertos tendem a ser mais escassos, mais antigos e menores
A qualidade e a atualidade dos dados abertos podem variar bastante, o que pode gerar problemas de relevância em áreas que mudam rapidamente
O uso excessivo pode levar a uma dependência exagerada de datasets populares, com risco de overfitting: o modelo vai bem em benchmarks, mas tem desempenho pior em aplicações reais

Recursos úteis de datasets abertos

Grandes empresas como Amazon, Google e Microsoft mantêm vários hubs de dados abertos e mecanismos de busca
A Hugging Face criou um hub de datasets pronto para uso, junto com ferramentas relacionadas
Recurso de busca de datasets do Kaggle
VisualData: hub para datasets de visão computacional
A V7 publicou uma lista com mais de 500 datasets abertos

[ #4 Ambientes de simulação ]

Ambientes de simulação permitem que modelos ou agentes de IA aprendam em ambientes controlados, gerem dados sintéticos e testem sistemas antes da implantação no mundo real
São especialmente úteis para complementar dados reais e explorar edge cases difíceis de encontrar ou caros de reproduzir no mundo real
Isso é particularmente popular em áreas como robótica e veículos autônomos, onde é preciso treinar sistemas com segurança e considerar inúmeras variáveis do mundo real

Pontos a considerar ao construir um ambiente de simulação

Criar e validar do zero uma simulação 3D com modelagem física rica e precisa pode exigir recursos e infraestrutura consideráveis
A NVIDIA criou o ISAAC, uma plataforma robusta de robótica acelerada por GPU, que inclui ambientes de simulação baseados no Omniverse, sua plataforma integrada de workflows 3D gráficos e baseados em física
Para reduzir custos, é possível usar ambientes de simulação open source
O Unreal Engine, da Epic Games, se consolidou como uma ferramenta poderosa para construir ambientes de simulação graças à alta fidelidade gráfica, à simulação física realista e às interfaces de programação flexíveis

Casos de uso e ambientes open source

Applied Intuition: oferece soluções de simulação e validação para desenvolvedores de sistemas de direção autônoma
Sereact: desenvolve software baseado em ambientes de simulação para entender nuances espaciais e físicas na automação de pick-and-pack em armazéns
Wayve: startup britânica de direção autônoma que criou vários ambientes de simulação 4D
Área de direção autônoma: CARLA, LG SVL Simulator, AirSim etc.
Área de robótica: Gazebo, CoppeliaSim, PyBullet, MuJoCo etc.

[ #5 Scraping de web/livros e outros materiais ]

O scraping em grande escala de texto, áudio e vídeo foi um elemento central no desenvolvimento de foundation models
Enquanto grandes empresas usam sistemas proprietários próprios, startups podem aproveitar diversas ferramentas prontas e open source
Evoluíram frameworks de crawling distribuído como Apache Nutch, navegadores headless como Puppeteer e Selenium, bibliotecas de parsing como Beautiful Soup, serviços de proxy e gestão de IP como Luminati, além de tecnologias de OCR baratas e eficazes

Trade-off entre qualidade e quantidade de dados

O trade-off entre qualidade e quantidade dos dados varia conforme o domínio e a aplicação
Modelos de linguagem podem aprender de forma eficaz até com dados relativamente ruidosos e sem curadoria, desde que haja volume suficiente
Já em visão computacional, é possível obter bons resultados expandindo pequenos datasets de alta qualidade com transformações de imagem (ex.: recorte, rotação, adição de ruído etc.)

Curriculum learning e curadoria de datasets

Curriculum learning é uma estratégia de treinamento em que os dados são apresentados ao modelo em uma ordem significativa, indo de exemplos simples para exemplos complexos
Ao imitar a forma como humanos aprendem, aumenta a eficiência ao permitir que o modelo aprenda bons parâmetros iniciais antes de enfrentar exemplos difíceis

Casos

O DBRX, recente LLM aberto SOTA da Databricks, usou essa abordagem para melhorar consideravelmente a qualidade do modelo
A Sync Labs treinou um modelo capaz de resincronizar os lábios de um vídeo com um novo áudio usando grandes quantidades de vídeos de qualidade relativamente baixa
A Metalware combinou um conjunto relativamente pequeno de imagens escaneadas de livros didáticos especializados com o GPT-2 para criar um copiloto para engenheiros de firmware

[ #6 Questões de direitos autorais e possibilidade de licenciamento ]

O amadurecimento do ecossistema de IA desde 2016 trouxe impactos positivos para fundadores, mas também gerou complexidades adicionais
Devido ao scraping massivo da web por provedores de foundation models, empresas de mídia, autores e artistas estão movendo diversas ações de direitos autorais
Esses processos estão atualmente em andamento nos sistemas judiciais da Europa e dos Estados Unidos, tendo como alvo grandes empresas (ex.: Meta, OpenAI) e laboratórios cada vez mais estabelecidos (ex.: Midjourney, Stability)
Isso reforça que startups precisam ter cautela na forma como coletam dados
Se essas empresas perderem as ações, talvez precisem identificar materiais protegidos por direitos autorais nos dados de treinamento e compensar os criadores, ou então destruir esses resultados e recomeçar do zero
Diante disso, algumas empresas estão adotando de forma proativa estratégias de coleta de dados mais amigáveis aos criadores, como firmar parcerias com organizações de mídia ou compensar diretamente artistas pelo uso de conteúdo ou voz

Surgimento de sistemas de certificação para sourcing ético de dados

Estão surgindo sistemas de certificação para dados de treinamento obtidos de forma ética, liderados por nomes como ex-executivos da Stability
Esses sistemas ainda estão em estágio inicial, mas representam uma abordagem interessante e que vale acompanhar

Casos

ElevenLabs: pagamentos para dubladores/locutores e parcerias para dados de voz
Google: firmou um acordo para poder usar dados do Reddit no treinamento do Gemini
OpenAI: parceria para treinar o DALL-E com a biblioteca de imagens, vídeos, músicas e metadados da Shutterstock, além de acordo de licenciamento com a Associated Press para seu arquivo de notícias

[ #7 Menor necessidade de grandes datasets rotulados ]

Desde 2016, com o grande avanço das técnicas de aprendizado não supervisionado e semissupervisionado, startups passaram a conseguir construir modelos robustos mesmo sem os grandes datasets rotulados tradicionalmente considerados indispensáveis
Embora essas abordagens já fossem conhecidas por pesquisadores antes de 2016, sua acessibilidade, sofisticação e praticidade melhoraram muito nos últimos anos
O aprendizado não supervisionado foca em aprender padrões estatísticos e estruturas inerentes aos dados; tradicionalmente foi útil para explorar grandes datasets (ex.: clustering não supervisionado) e hoje é central no pré-treinamento de LLMs
O aprendizado semissupervisionado usa uma pequena quantidade de dados rotulados junto com um grande volume de dados não rotulados, sendo especialmente eficaz para melhorar e elevar o desempenho dos modelos
Essas abordagens podem ser reforçadas com técnicas como contrastive learning e few-shot learning
- Contrastive learning permite ao modelo aprender representações ricas ao distinguir entre pontos de dados semelhantes e não semelhantes, sendo útil para tarefas de visão computacional (ex.: CLIP, da OpenAI)
- Few-shot learning permite que o modelo se adapte a novas tarefas com muito poucos exemplos
O artigo original sobre scaling laws mostrou que modelos maiores são mais habilidosos em few-shot learning
Embora o pré-treinamento não supervisionado exija maiores quantidades de dados não rotulados, essa etapa dá ao modelo a capacidade de resolver tarefas downstream com menos exemplos rotulados do que pequenos modelos não generativos

Limitações e pontos a considerar

Modelos que aproveitam dados não rotulados frequentemente exigem arquiteturas mais complexas
Isso significa trocar custos de rotulagem por custos computacionais
Além de serem mais difíceis de implementar e escalar, tendem a ser menos interpretáveis, o que pode ser uma desvantagem em áreas sensíveis onde é importante entender o processo de decisão
Essa complexidade exige mais recursos computacionais e, em muitos casos, o teto de desempenho é menor do que o de métodos supervisionados

[ #8 Coisas que ainda são cedo demais ]

Data marketplaces

Desde 2016, como coletar, armazenar, processar e compartilhar dados ficou mais fácil e barato, surgiram alguns data marketplaces, mas esse setor não se mostrou muito ativo
Marketplaces e plataformas como Datarade, Dawex, AWS Data Exchange e Snowflake facilitaram encontrar dados de imagem, texto, áudio e vídeo em diversos casos de uso gerais, mas isso serviu principalmente para agregar valor à decisão dos clientes de hospedar seus dados nessas plataformas
Além desses marketplaces, existem empresas como Appen, Scale AI, Invisible e Surge, que oferecem criação e rotulagem de datasets sob medida por meio de mão de obra terceirizada especializada
Ainda assim, continuam valendo as ressalvas sobre especialização e vantagem competitiva de dados proprietários, e há pouca evidência de que startups de IA dependam fortemente desses marketplaces
Eles podem ser convenientes no começo, mas ainda exigem esforço considerável de limpeza, customização, filtragem e subamostragem
Muitas startups preferem construir seus próprios datasets proprietários desde o início e usá-los como vantagem competitiva

Gamificação

A gamificação foi explorada como estratégia de coleta de dados por várias empresas e organizações no contexto de iniciativas de crowdsourcing e ciência cidadã (ex.: Folding@Home)
Porém, com poucas exceções, a gamificação continua sendo um nicho relativamente restrito
Como só atrai um subconjunto específico de usuários motivados por competição em estilo de jogo e com tempo livre, há um limite relativamente baixo para o número potencial de contribuidores
Mesmo entre pessoas motivadas, a qualidade e a precisão dos dados coletados continuam sendo um problema, especialmente no tratamento de edge cases, exigindo validações e controles adicionais

Aprendizado federado

O aprendizado federado (Federated learning, FL), introduzido pelo Google em 2016, trouxe a promessa de treinar modelos em vários servidores distribuídos ou dispositivos móveis sem tirar os dados do local onde estão
Em teoria, isso poderia permitir que startups em áreas sensíveis, como saúde ou finanças, acessassem dados importantes de treinamento por meio de parcerias sem enfrentar os problemas tradicionais de privacidade
No entanto, a adoção de FL em áreas sensíveis para as quais ele foi projetado foi limitada por questões de responsabilidade, propriedade dos dados e transferência internacional de dados; além disso, à medida que modelos e datasets ficaram mais complexos, o overhead computacional e de comunicação ligado ao treinamento distribuído e à agregação tornou-se um gargalo significativo, permanecendo a percepção de que os donos dos dados precisam adotar uma tecnologia bastante complexa para garantir a proposta de valor

[ ## Conclusão ]

Apesar do progresso significativo desde 2016, a coleta de dados continua sendo uma dor para startups
Não parece que a comunidade ou o mercado vá resolver esse problema
A maioria das startups de IA ainda enfrentará dificuldades de coleta de dados no momento da fundação, mas isso também pode ser uma oportunidade de diferenciação
Construir a base certa com criatividade continua sendo uma fonte muito concreta de vantagem competitiva
Os dados em si nunca poderão ser um moat
Com o tempo, concorrentes conseguirão obter seus próprios dados ou encontrar técnicas mais eficientes para alcançar os mesmos resultados
Isso pode ser visto claramente nas avaliações de LLMs do último ano, em que a diferença de desempenho entre modelos pequenos e grandes diminuiu gradualmente
Uma excelente estratégia de coleta de dados é necessária, mas não suficiente
É apenas um dos elementos para o sucesso, ao lado de um produto matador e de uma compreensão genuína dos clientes

1 comentários

thfvkfk 2024-04-29

Obrigado, é muita informação mesmo~

Estratégias de coleta de dados para startups de IA em 2024

[ #1 Grandes modelos generativos (Large Generative Models) ]

Geração de dados sintéticos com LLM e LMM

Rotulagem de dados e integração de datasets com LLM

LLM como avaliador

[ #2 Plataformas de rotulagem de dados ]

Características por plataforma e novos players

Como melhorar a qualidade dos dados anotados por humanos

[ #3 Datasets abertos ]

Pontos a considerar ao usar datasets abertos

Recursos úteis de datasets abertos

[ #4 Ambientes de simulação ]

Pontos a considerar ao construir um ambiente de simulação

Casos de uso e ambientes open source

[ #5 Scraping de web/livros e outros materiais ]

Trade-off entre qualidade e quantidade de dados

Curriculum learning e curadoria de datasets

Casos

[ #6 Questões de direitos autorais e possibilidade de licenciamento ]

Surgimento de sistemas de certificação para sourcing ético de dados

Casos

[ #7 Menor necessidade de grandes datasets rotulados ]

Limitações e pontos a considerar

[ #8 Coisas que ainda são cedo demais ]

Data marketplaces

Gamificação

Aprendizado federado

[ ## Conclusão ]

Leituras relacionadas

1 comentários