[ #1 Grandes modelos generativos (Large Generative Models) ]
Geração de dados sintéticos com LLM e LMM
- Enquanto os Large Language Models (LLMs) geram saídas de texto, os Large Multi-Modal Models (LMMs) podem gerar dados sintéticos em vários formatos, como texto, código e imagens
- São especialmente usados com frequência em áreas onde há escassez de dados reais, alta sensibilidade à privacidade, ou custos elevados de coleta e rotulagem de dados (ex.: NLP, visão computacional, desenvolvimento de sistemas de direção autônoma etc.)
- Em geral, dados sintéticos são usados para complementar dados reais ou para ajuste fino (fine-tuning), e não para substituí-los por completo
- Por mais sofisticados que sejam, só conseguem gerar aproximações do domínio do problema, e a dependência excessiva pode trazer o risco de overfitting do modelo às características presentes no processo de geração dos dados sintéticos
- Métodos de geração de dados sintéticos
- Autoaperfeiçoamento (Self-improvement): o modelo gera instruções, contexto de entrada e respostas; exemplos inválidos ou muito parecidos com dados existentes são filtrados; os dados restantes são usados para fazer fine-tuning do modelo original
- Destilação (Distillation): processo de transferir o conhecimento de um modelo professor mais poderoso para um modelo aluno menos poderoso, porém mais eficiente. Mesmo quando os dados sintéticos frequentemente são imprecisos, eles ainda podem contribuir de forma eficaz para o processo de instruction-tuning
- A Microsoft lançou uma série de pequenos modelos chamada Phi, treinada principalmente com dados sintéticos gerados por outros LLMs, e eles apresentaram desempenho superior ao da maioria dos modelos de fronteira
- A Hugging Face criou o Cosmopedia com o objetivo de reproduzir isso, em resposta à falta de informações sobre a curadoria do conjunto de dados sintéticos de treinamento usado pela Microsoft
Rotulagem de dados e integração de datasets com LLM
- Os LLMs mais recentes conseguem rotular datasets de texto em nível equivalente ou superior ao de anotadores humanos
- Diferentemente de anotadores humanos, LLMs podem aplicar de forma consistente os mesmos critérios de anotação em grandes datasets, sem fadiga nem viés
- Grandes modelos generativos treinados com datasets massivos, como o Segment Anything, frequentemente mostram desempenho melhor em zero-shot do que modelos tradicionais especializados de visão computacional não generativos em tarefas como segmentação semântica (semantic segmentation)
- LLMs também podem ser usados para expandir o conjunto de dados reais disponíveis por meio de dataset stitching, integrando diferentes fontes de dados para criar um dataset unificado
LLM como avaliador
- O reinforcement learning from human feedback (RLHF) foi a principal técnica de fine-tuning que transformou o GPT-3 em um sistema inovador otimizado para interações conversacionais com usuários por meio de chat
- Agora surgiu uma abordagem chamada reinforcement learning from AI feedback (RLAIF), em que LLMs são usados no lugar de humanos para fornecer feedback
- A principal vantagem do RLAIF é a possibilidade de escalabilidade e redução de custos ao substituir humanos por máquinas
[ #2 Plataformas de rotulagem de dados ]
- No início, usavam-se plataformas de crowdsourcing e terceirização de tarefas como o Amazon Mechanical Turk para realizar rotulagem e limpeza de dados com mão de obra online barata
- Mais recentemente, plataformas como V7 e Scale AI, que oferecem recursos automatizados de rotulagem e gestão de dados, evoluíram e ganharam popularidade
- Com medidas de conformidade regulatória e garantia de qualidade, essas plataformas ajudam empresas com grande demanda por dados a escalar com mais eficiência e manter maior consistência
Características por plataforma e novos players
- A V7 tende a focar em tarefas que exigem alto nível de especialização, como imagem médica, enquanto a Scale cresceu na área de direção autônoma e depois se expandiu para defesa
- Novos players como a Invisible vêm atendendo à demanda por profissionais especializados em workflows voltados a LLMs (ex.: fine-tuning supervisionado, RLHF, avaliação humana, red teaming etc.)
- Entre os serviços populares de rotulagem de dados estão CVAT, Dataloop, Invisible, Labelbox, Scale AI e V7
Como melhorar a qualidade dos dados anotados por humanos
- Muitas plataformas ainda dependem em algum grau de anotadores humanos, por isso é necessário dedicar mais esforço à avaliação da qualidade das saídas à medida que o uso de IA se expande para áreas complexas, subjetivas e socialmente relevantes
- É possível estimar o rótulo real a partir das entradas de vários avaliadores e identificar avaliadores "spammers" não confiáveis usando maioria, taxa de concordância e abordagens de modelagem probabilística
- Há técnicas para capturar divergências sistemáticas entre avaliadores e usá-las para melhorar o treinamento (ex.: deconvolução de discordância, modelagem com múltiplos anotadores etc.)
- Também é possível detectar pontos de dados rotulados incorretamente usando funções de influência e rastreamento de mudanças de previsão durante o treinamento
[ #3 Datasets abertos ]
- Desde 2016, houve uma explosão de datasets abertos graças ao movimento de dados abertos e ao reconhecimento, por parte da indústria, da academia e do governo, do valor do compartilhamento de dados
- Datasets abertos existem na maioria dos domínios, mas são particularmente acessíveis em visão computacional, NLP, processamento de fala/áudio, controle robótico e navegação
- Esse avanço ocorreu com a combinação de esforços da comunidade (ex.: Hugging Face, PyTorch, TensorFlow, Kaggle etc.) e a liberação de grandes datasets por grandes empresas
Pontos a considerar ao usar datasets abertos
- Embora sejam gratuitos e úteis para benchmarking, há algumas considerações importantes
- Em áreas sensíveis ou muito reguladas, datasets abertos tendem a ser mais escassos, mais antigos e menores
- A qualidade e a atualidade dos dados abertos podem variar bastante, o que pode gerar problemas de relevância em áreas que mudam rapidamente
- O uso excessivo pode levar a uma dependência exagerada de datasets populares, com risco de overfitting: o modelo vai bem em benchmarks, mas tem desempenho pior em aplicações reais
Recursos úteis de datasets abertos
[ #4 Ambientes de simulação ]
- Ambientes de simulação permitem que modelos ou agentes de IA aprendam em ambientes controlados, gerem dados sintéticos e testem sistemas antes da implantação no mundo real
- São especialmente úteis para complementar dados reais e explorar edge cases difíceis de encontrar ou caros de reproduzir no mundo real
- Isso é particularmente popular em áreas como robótica e veículos autônomos, onde é preciso treinar sistemas com segurança e considerar inúmeras variáveis do mundo real
Pontos a considerar ao construir um ambiente de simulação
- Criar e validar do zero uma simulação 3D com modelagem física rica e precisa pode exigir recursos e infraestrutura consideráveis
- A NVIDIA criou o ISAAC, uma plataforma robusta de robótica acelerada por GPU, que inclui ambientes de simulação baseados no Omniverse, sua plataforma integrada de workflows 3D gráficos e baseados em física
- Para reduzir custos, é possível usar ambientes de simulação open source
- O Unreal Engine, da Epic Games, se consolidou como uma ferramenta poderosa para construir ambientes de simulação graças à alta fidelidade gráfica, à simulação física realista e às interfaces de programação flexíveis
Casos de uso e ambientes open source
- Applied Intuition: oferece soluções de simulação e validação para desenvolvedores de sistemas de direção autônoma
- Sereact: desenvolve software baseado em ambientes de simulação para entender nuances espaciais e físicas na automação de pick-and-pack em armazéns
- Wayve: startup britânica de direção autônoma que criou vários ambientes de simulação 4D
- Área de direção autônoma: CARLA, LG SVL Simulator, AirSim etc.
- Área de robótica: Gazebo, CoppeliaSim, PyBullet, MuJoCo etc.
[ #5 Scraping de web/livros e outros materiais ]
- O scraping em grande escala de texto, áudio e vídeo foi um elemento central no desenvolvimento de foundation models
- Enquanto grandes empresas usam sistemas proprietários próprios, startups podem aproveitar diversas ferramentas prontas e open source
- Evoluíram frameworks de crawling distribuído como Apache Nutch, navegadores headless como Puppeteer e Selenium, bibliotecas de parsing como Beautiful Soup, serviços de proxy e gestão de IP como Luminati, além de tecnologias de OCR baratas e eficazes
Trade-off entre qualidade e quantidade de dados
- O trade-off entre qualidade e quantidade dos dados varia conforme o domínio e a aplicação
- Modelos de linguagem podem aprender de forma eficaz até com dados relativamente ruidosos e sem curadoria, desde que haja volume suficiente
- Já em visão computacional, é possível obter bons resultados expandindo pequenos datasets de alta qualidade com transformações de imagem (ex.: recorte, rotação, adição de ruído etc.)
Curriculum learning e curadoria de datasets
- Curriculum learning é uma estratégia de treinamento em que os dados são apresentados ao modelo em uma ordem significativa, indo de exemplos simples para exemplos complexos
- Ao imitar a forma como humanos aprendem, aumenta a eficiência ao permitir que o modelo aprenda bons parâmetros iniciais antes de enfrentar exemplos difíceis
Casos
- O DBRX, recente LLM aberto SOTA da Databricks, usou essa abordagem para melhorar consideravelmente a qualidade do modelo
- A Sync Labs treinou um modelo capaz de resincronizar os lábios de um vídeo com um novo áudio usando grandes quantidades de vídeos de qualidade relativamente baixa
- A Metalware combinou um conjunto relativamente pequeno de imagens escaneadas de livros didáticos especializados com o GPT-2 para criar um copiloto para engenheiros de firmware
[ #6 Questões de direitos autorais e possibilidade de licenciamento ]
- O amadurecimento do ecossistema de IA desde 2016 trouxe impactos positivos para fundadores, mas também gerou complexidades adicionais
- Devido ao scraping massivo da web por provedores de foundation models, empresas de mídia, autores e artistas estão movendo diversas ações de direitos autorais
- Esses processos estão atualmente em andamento nos sistemas judiciais da Europa e dos Estados Unidos, tendo como alvo grandes empresas (ex.: Meta, OpenAI) e laboratórios cada vez mais estabelecidos (ex.: Midjourney, Stability)
- Isso reforça que startups precisam ter cautela na forma como coletam dados
- Se essas empresas perderem as ações, talvez precisem identificar materiais protegidos por direitos autorais nos dados de treinamento e compensar os criadores, ou então destruir esses resultados e recomeçar do zero
- Diante disso, algumas empresas estão adotando de forma proativa estratégias de coleta de dados mais amigáveis aos criadores, como firmar parcerias com organizações de mídia ou compensar diretamente artistas pelo uso de conteúdo ou voz
Surgimento de sistemas de certificação para sourcing ético de dados
- Estão surgindo sistemas de certificação para dados de treinamento obtidos de forma ética, liderados por nomes como ex-executivos da Stability
- Esses sistemas ainda estão em estágio inicial, mas representam uma abordagem interessante e que vale acompanhar
Casos
- ElevenLabs: pagamentos para dubladores/locutores e parcerias para dados de voz
- Google: firmou um acordo para poder usar dados do Reddit no treinamento do Gemini
- OpenAI: parceria para treinar o DALL-E com a biblioteca de imagens, vídeos, músicas e metadados da Shutterstock, além de acordo de licenciamento com a Associated Press para seu arquivo de notícias
[ #7 Menor necessidade de grandes datasets rotulados ]
- Desde 2016, com o grande avanço das técnicas de aprendizado não supervisionado e semissupervisionado, startups passaram a conseguir construir modelos robustos mesmo sem os grandes datasets rotulados tradicionalmente considerados indispensáveis
- Embora essas abordagens já fossem conhecidas por pesquisadores antes de 2016, sua acessibilidade, sofisticação e praticidade melhoraram muito nos últimos anos
- O aprendizado não supervisionado foca em aprender padrões estatísticos e estruturas inerentes aos dados; tradicionalmente foi útil para explorar grandes datasets (ex.: clustering não supervisionado) e hoje é central no pré-treinamento de LLMs
- O aprendizado semissupervisionado usa uma pequena quantidade de dados rotulados junto com um grande volume de dados não rotulados, sendo especialmente eficaz para melhorar e elevar o desempenho dos modelos
- Essas abordagens podem ser reforçadas com técnicas como contrastive learning e few-shot learning
- Contrastive learning permite ao modelo aprender representações ricas ao distinguir entre pontos de dados semelhantes e não semelhantes, sendo útil para tarefas de visão computacional (ex.: CLIP, da OpenAI)
- Few-shot learning permite que o modelo se adapte a novas tarefas com muito poucos exemplos
- O artigo original sobre scaling laws mostrou que modelos maiores são mais habilidosos em few-shot learning
- Embora o pré-treinamento não supervisionado exija maiores quantidades de dados não rotulados, essa etapa dá ao modelo a capacidade de resolver tarefas downstream com menos exemplos rotulados do que pequenos modelos não generativos
Limitações e pontos a considerar
- Modelos que aproveitam dados não rotulados frequentemente exigem arquiteturas mais complexas
- Isso significa trocar custos de rotulagem por custos computacionais
- Além de serem mais difíceis de implementar e escalar, tendem a ser menos interpretáveis, o que pode ser uma desvantagem em áreas sensíveis onde é importante entender o processo de decisão
- Essa complexidade exige mais recursos computacionais e, em muitos casos, o teto de desempenho é menor do que o de métodos supervisionados
[ #8 Coisas que ainda são cedo demais ]
Data marketplaces
- Desde 2016, como coletar, armazenar, processar e compartilhar dados ficou mais fácil e barato, surgiram alguns data marketplaces, mas esse setor não se mostrou muito ativo
- Marketplaces e plataformas como Datarade, Dawex, AWS Data Exchange e Snowflake facilitaram encontrar dados de imagem, texto, áudio e vídeo em diversos casos de uso gerais, mas isso serviu principalmente para agregar valor à decisão dos clientes de hospedar seus dados nessas plataformas
- Além desses marketplaces, existem empresas como Appen, Scale AI, Invisible e Surge, que oferecem criação e rotulagem de datasets sob medida por meio de mão de obra terceirizada especializada
- Ainda assim, continuam valendo as ressalvas sobre especialização e vantagem competitiva de dados proprietários, e há pouca evidência de que startups de IA dependam fortemente desses marketplaces
- Eles podem ser convenientes no começo, mas ainda exigem esforço considerável de limpeza, customização, filtragem e subamostragem
- Muitas startups preferem construir seus próprios datasets proprietários desde o início e usá-los como vantagem competitiva
Gamificação
- A gamificação foi explorada como estratégia de coleta de dados por várias empresas e organizações no contexto de iniciativas de crowdsourcing e ciência cidadã (ex.: Folding@Home)
- Porém, com poucas exceções, a gamificação continua sendo um nicho relativamente restrito
- Como só atrai um subconjunto específico de usuários motivados por competição em estilo de jogo e com tempo livre, há um limite relativamente baixo para o número potencial de contribuidores
- Mesmo entre pessoas motivadas, a qualidade e a precisão dos dados coletados continuam sendo um problema, especialmente no tratamento de edge cases, exigindo validações e controles adicionais
Aprendizado federado
- O aprendizado federado (Federated learning, FL), introduzido pelo Google em 2016, trouxe a promessa de treinar modelos em vários servidores distribuídos ou dispositivos móveis sem tirar os dados do local onde estão
- Em teoria, isso poderia permitir que startups em áreas sensíveis, como saúde ou finanças, acessassem dados importantes de treinamento por meio de parcerias sem enfrentar os problemas tradicionais de privacidade
- No entanto, a adoção de FL em áreas sensíveis para as quais ele foi projetado foi limitada por questões de responsabilidade, propriedade dos dados e transferência internacional de dados; além disso, à medida que modelos e datasets ficaram mais complexos, o overhead computacional e de comunicação ligado ao treinamento distribuído e à agregação tornou-se um gargalo significativo, permanecendo a percepção de que os donos dos dados precisam adotar uma tecnologia bastante complexa para garantir a proposta de valor
[ ## Conclusão ]
- Apesar do progresso significativo desde 2016, a coleta de dados continua sendo uma dor para startups
- Não parece que a comunidade ou o mercado vá resolver esse problema
- A maioria das startups de IA ainda enfrentará dificuldades de coleta de dados no momento da fundação, mas isso também pode ser uma oportunidade de diferenciação
- Construir a base certa com criatividade continua sendo uma fonte muito concreta de vantagem competitiva
- Os dados em si nunca poderão ser um moat
- Com o tempo, concorrentes conseguirão obter seus próprios dados ou encontrar técnicas mais eficientes para alcançar os mesmos resultados
- Isso pode ser visto claramente nas avaliações de LLMs do último ano, em que a diferença de desempenho entre modelos pequenos e grandes diminuiu gradualmente
- Uma excelente estratégia de coleta de dados é necessária, mas não suficiente
- É apenas um dos elementos para o sucesso, ao lado de um produto matador e de uma compreensão genuína dos clientes
1 comentários
Obrigado, é muita informação mesmo~