- No passado, os LLMs eram treinados principalmente com dados da internet, e em grande parte ainda são, mas isso está se tornando cada vez menos verdadeiro
- O conceito de "simulador da internet" não é útil para prever o comportamento do GPT-5 ou de modelos posteriores
- Os novos modelos já estão indo além dessa definição, e essa mudança está apenas começando
Muro de dados (Data Wall)
- O artigo do GPT-3 da OpenAI, de 2020, descrevia o conjunto de dados de treinamento em detalhes, mas isso já é um vestígio do passado
- Desde 2022, feedback personalizado de usuários passou a ser usado no treinamento de LLMs, e a OpenAI e outras empresas têm sido cada vez mais discretas sobre seus dados de treinamento
- Não sabemos com o que GPT-4, Sora ou GPT-5 foram treinados, mas certamente não foi apenas com dados da internet
- Os treinadores de LLMs esbarraram recentemente em um "muro de dados"
- A OpenAI já possui praticamente todos os dados disponíveis na web, então, para construir LLMs melhores, é necessário obter e gerar dados privados
- Para laboratórios com dinheiro, a resposta é garantir e criar dados privados
- No começo, o foco estava em tornar os dados de treinamento existentes mais úteis ou adicionar dados privados já existentes ao pool de treinamento
- Por exemplo
- Anotação e filtragem: pesquisadores criam anotações sobre os dados de treinamento para focar em dados de alta qualidade e assim construir modelos melhores
- RLHF: laboratórios fazem pessoas avaliarem as saídas do modelo e usam esses dados para ajustar finamente o modelo e incentivar comportamentos úteis
- Dados de uso: diz-se que o ChatGPT gera cerca de 10 bilhões de tokens de dados por dia
- Aquisição de dados: e-mails, logs de chat, manuais proprietários, tickets do JIRA, gravações de chamadas, relatórios internos, contratos e muitos outros dados não estão na internet, e os treinadores de modelos podem adicioná-los aos dados de treinamento
- No entanto, essas técnicas não resolvem completamente o problema de que "LLMs têm dificuldade para gerar saídas diferentes dos dados já existentes"
- LLMs têm dificuldade para realizar tarefas como as seguintes (porque há pouco texto online demonstrando isso)
- Expressar dúvida ou incerteza em uma resposta
- Manter conversas longas sem cair em frases repetitivas ou loops
- Elaborar planos de alto nível que agentes baseados em LLM possam seguir
- Raciocinar como um engenheiro sênior sobre uma grande base de código legada
- Seguir de forma confiável prompts muito longos ou complexos
- Arquiteturas melhores e mais parâmetros podem ajudar a resolver essas limitações, mas OpenAI, Meta, Google, Microsoft e outras empresas estão gastando muito dinheiro para preencher essa lacuna de uma forma mais simples: criando novos exemplos para treinar
LLMs agora estão sendo treinados com dados sob medida
- O relatório técnico do Phi-3 da Microsoft, publicado em abril, é um exemplo recente do aumento de dados sob medida
- O phi-3-mini tem apenas 3,8 bilhões de parâmetros, mas apresenta desempenho competitivo com modelos Mixtral maiores e mais pesados
- Parte dessa melhoria é explicada pela inclusão, nos dados de treinamento, de dados sintéticos de alta qualidade gerados por LLMs maiores
- Dados sintéticos podem preencher lacunas deixadas pelos dados de origem da internet e melhorar o desempenho do modelo para um determinado tamanho
- Dados sintéticos são hoje um tema em destaque na pesquisa com LLMs
- Ainda não está claro até onde é possível treinar LLMs com suas próprias saídas (isso pode virar algo como uma gigantesca cobra de rede neural comendo a própria cauda)
- Mas, no mínimo, dados sintéticos devem ajudar a preencher as lacunas causadas quando LLMs se comportam como "simuladores da internet"
- Por exemplo, se faltam exemplos de treinamento que expressem incerteza, ou se os dados não são representativos e acabam enviesados, é possível gerar exemplos melhores
- No entanto, produzir dados sintéticos excelentes com LLMs é um problema difícil e provavelmente terá limites
- É aí que entra a última grande fonte de dados fora da internet: os humanos
Quantos dados podem ser criados com US$ 1 bilhão por ano?
- Se você pagar, as pessoas vão criar dados de bom grado
- A Scale.ai se define como uma "fábrica de dados para IA" e opera um serviço em que laboratórios pagam pessoas para criar dados
- Diz-se que empresas de IA já pagam mais de US$ 1 bilhão por ano pelos serviços da Scale
- Parte disso é para anotação e avaliação de dados vindos da web ou de LLMs, mas também serve para criar novos dados de treinamento do zero
- A Scale foca em trabalhadores altamente especializados, como acadêmicos em nível de doutorado, advogados, contadores, poetas, escritores e pessoas fluentes em idiomas específicos
- Essas pessoas treinam e testam modelos para empresas como OpenAI, Cohere, Anthropic e Google, recebendo remuneração por hora mais alta
- Empresas como a OpenAI podem pagar especialistas para criar dados novos e de alta qualidade que preencham os espaços vazios deixados pelos dados de origem da internet, e depois usar esses dados no treinamento do modelo
- Um conjunto de dados como "50 mil exemplos de incerteza ponderada quando um Ph.D. recebe uma pergunta cuja resposta não sabe" pode valer muito mais do que seu custo de produção
- É possível entender que os LLMs foram originalmente treinados na internet, e que muitas de suas fraquezas iniciais vieram da miscelânea de coisas publicadas na web
- Mas, à medida que a escala e a influência dos dados de treinamento sob medida aumentam, espera-se que os LLMs ultrapassem amplamente a "simulação da internet"
- Em especial, eles continuarão avançando em coisas que não existem na internet, mas que podem ser demonstradas por meio da criação de mais de US$ 1 bilhão em dados sob medida
- Em outras palavras, esse trem deve continuar andando por um bom tempo
Opinião do GN⁺
- Importância dos dados: para melhorar o desempenho dos LLMs, são necessários dados de diversas fontes. Só os dados da internet têm limites.
- Questão de custo: criar dados sob medida exige muito investimento. Isso pode ser um grande fardo para laboratórios ou empresas menores.
- Limites dos dados sintéticos: dados sintéticos são úteis, mas podem ser diferentes de dados gerados por humanos reais. Isso pode limitar o realismo do modelo.
- Perspectiva futura: espera-se que o avanço dos LLMs com uso de dados sob medida e dados sintéticos continue. Isso pode trazer inovação para várias áreas.
- Cenário competitivo: grandes empresas como OpenAI, Google e Microsoft estão investindo na criação de dados sob medida, e a competição tende a se intensificar.
2 comentários
No fim, essa tal de data wall só vira um problema quando há compute suficiente; na verdade, olhando para a eficiência energética e para o fornecimento, o limite do aumento de compute — ou seja, a questão da quantidade de energia elétrica — tende a se tornar mais importante.
Comentários do Hacker News