LLMs não são mais treinados apenas "na internet"

(allenpike.com)

20 pontos por GN⁺ 2024-06-03 | 2 comentários | Compartilhar no WhatsApp

No passado, os LLMs eram treinados principalmente com dados da internet, e em grande parte ainda são, mas isso está se tornando cada vez menos verdadeiro
O conceito de "simulador da internet" não é útil para prever o comportamento do GPT-5 ou de modelos posteriores
- Os novos modelos já estão indo além dessa definição, e essa mudança está apenas começando

Muro de dados (Data Wall)

O artigo do GPT-3 da OpenAI, de 2020, descrevia o conjunto de dados de treinamento em detalhes, mas isso já é um vestígio do passado
- Desde 2022, feedback personalizado de usuários passou a ser usado no treinamento de LLMs, e a OpenAI e outras empresas têm sido cada vez mais discretas sobre seus dados de treinamento
- Não sabemos com o que GPT-4, Sora ou GPT-5 foram treinados, mas certamente não foi apenas com dados da internet
Os treinadores de LLMs esbarraram recentemente em um "muro de dados"
- A OpenAI já possui praticamente todos os dados disponíveis na web, então, para construir LLMs melhores, é necessário obter e gerar dados privados
Para laboratórios com dinheiro, a resposta é garantir e criar dados privados
- No começo, o foco estava em tornar os dados de treinamento existentes mais úteis ou adicionar dados privados já existentes ao pool de treinamento
- Por exemplo
  1. Anotação e filtragem: pesquisadores criam anotações sobre os dados de treinamento para focar em dados de alta qualidade e assim construir modelos melhores
  2. RLHF: laboratórios fazem pessoas avaliarem as saídas do modelo e usam esses dados para ajustar finamente o modelo e incentivar comportamentos úteis
  3. Dados de uso: diz-se que o ChatGPT gera cerca de 10 bilhões de tokens de dados por dia
  4. Aquisição de dados: e-mails, logs de chat, manuais proprietários, tickets do JIRA, gravações de chamadas, relatórios internos, contratos e muitos outros dados não estão na internet, e os treinadores de modelos podem adicioná-los aos dados de treinamento
No entanto, essas técnicas não resolvem completamente o problema de que "LLMs têm dificuldade para gerar saídas diferentes dos dados já existentes"
- LLMs têm dificuldade para realizar tarefas como as seguintes (porque há pouco texto online demonstrando isso)
  1. Expressar dúvida ou incerteza em uma resposta
  2. Manter conversas longas sem cair em frases repetitivas ou loops
  3. Elaborar planos de alto nível que agentes baseados em LLM possam seguir
  4. Raciocinar como um engenheiro sênior sobre uma grande base de código legada
  5. Seguir de forma confiável prompts muito longos ou complexos
Arquiteturas melhores e mais parâmetros podem ajudar a resolver essas limitações, mas OpenAI, Meta, Google, Microsoft e outras empresas estão gastando muito dinheiro para preencher essa lacuna de uma forma mais simples: criando novos exemplos para treinar

LLMs agora estão sendo treinados com dados sob medida

O relatório técnico do Phi-3 da Microsoft, publicado em abril, é um exemplo recente do aumento de dados sob medida
- O phi-3-mini tem apenas 3,8 bilhões de parâmetros, mas apresenta desempenho competitivo com modelos Mixtral maiores e mais pesados
- Parte dessa melhoria é explicada pela inclusão, nos dados de treinamento, de dados sintéticos de alta qualidade gerados por LLMs maiores
- Dados sintéticos podem preencher lacunas deixadas pelos dados de origem da internet e melhorar o desempenho do modelo para um determinado tamanho
Dados sintéticos são hoje um tema em destaque na pesquisa com LLMs
- Ainda não está claro até onde é possível treinar LLMs com suas próprias saídas (isso pode virar algo como uma gigantesca cobra de rede neural comendo a própria cauda)
- Mas, no mínimo, dados sintéticos devem ajudar a preencher as lacunas causadas quando LLMs se comportam como "simuladores da internet"
  - Por exemplo, se faltam exemplos de treinamento que expressem incerteza, ou se os dados não são representativos e acabam enviesados, é possível gerar exemplos melhores
No entanto, produzir dados sintéticos excelentes com LLMs é um problema difícil e provavelmente terá limites
- É aí que entra a última grande fonte de dados fora da internet: os humanos

Quantos dados podem ser criados com US$ 1 bilhão por ano?

Se você pagar, as pessoas vão criar dados de bom grado
- A Scale.ai se define como uma "fábrica de dados para IA" e opera um serviço em que laboratórios pagam pessoas para criar dados
- Diz-se que empresas de IA já pagam mais de US$ 1 bilhão por ano pelos serviços da Scale
- Parte disso é para anotação e avaliação de dados vindos da web ou de LLMs, mas também serve para criar novos dados de treinamento do zero
- A Scale foca em trabalhadores altamente especializados, como acadêmicos em nível de doutorado, advogados, contadores, poetas, escritores e pessoas fluentes em idiomas específicos
- Essas pessoas treinam e testam modelos para empresas como OpenAI, Cohere, Anthropic e Google, recebendo remuneração por hora mais alta
Empresas como a OpenAI podem pagar especialistas para criar dados novos e de alta qualidade que preencham os espaços vazios deixados pelos dados de origem da internet, e depois usar esses dados no treinamento do modelo
- Um conjunto de dados como "50 mil exemplos de incerteza ponderada quando um Ph.D. recebe uma pergunta cuja resposta não sabe" pode valer muito mais do que seu custo de produção
É possível entender que os LLMs foram originalmente treinados na internet, e que muitas de suas fraquezas iniciais vieram da miscelânea de coisas publicadas na web
Mas, à medida que a escala e a influência dos dados de treinamento sob medida aumentam, espera-se que os LLMs ultrapassem amplamente a "simulação da internet"
- Em especial, eles continuarão avançando em coisas que não existem na internet, mas que podem ser demonstradas por meio da criação de mais de US$ 1 bilhão em dados sob medida
Em outras palavras, esse trem deve continuar andando por um bom tempo

Opinião do GN⁺

Importância dos dados: para melhorar o desempenho dos LLMs, são necessários dados de diversas fontes. Só os dados da internet têm limites.
Questão de custo: criar dados sob medida exige muito investimento. Isso pode ser um grande fardo para laboratórios ou empresas menores.
Limites dos dados sintéticos: dados sintéticos são úteis, mas podem ser diferentes de dados gerados por humanos reais. Isso pode limitar o realismo do modelo.
Perspectiva futura: espera-se que o avanço dos LLMs com uso de dados sob medida e dados sintéticos continue. Isso pode trazer inovação para várias áreas.
Cenário competitivo: grandes empresas como OpenAI, Google e Microsoft estão investindo na criação de dados sob medida, e a competição tende a se intensificar.

2 comentários

bytebrawlers 2024-06-04

No fim, essa tal de data wall só vira um problema quando há compute suficiente; na verdade, olhando para a eficiência energética e para o fornecimento, o limite do aumento de compute — ou seja, a questão da quantidade de energia elétrica — tende a se tornar mais importante.

GN⁺ 2024-06-03

Comentários do Hacker News

Este texto aponta alguns pontos bons e, em especial, o Phi-3 é uma tecnologia muito interessante. É estranho não mencionar arquiteturas mais recentes como Anthropic, Mistral e FAIR.
Os LLMs modernos não são treinados apenas com dados coletados da web, mas com muitos conjuntos de dados personalizados criados por várias pessoas. Isso mostra potencial de crescimento, mas há o risco de escalar indefinidamente na direção errada.
É um problema que humanos gerem dados enviesados. Como exemplo de que LLMs não conseguem produzir respostas originais, eles não conseguem sugerir várias formas de induzir alguém a clicar no botão de inscrição do YouTube.
Os dados usados no treinamento de LLMs foram fornecidos por programadores indianos de baixa remuneração. Hoje, especialistas fornecem os dados, mas existe a possibilidade de isso migrar para trabalhadores de baixa remuneração.
A razão pela qual sistemas especialistas fracassaram é que era preciso continuar pagando os especialistas. A parceria entre OpenAI e MS busca alcançar AGI (inteligência artificial geral), mas há limitações práticas.
Treinar modelos multimodais continua sendo um desafio. Gargalos são causados por outros problemas, não pela falta de dados.
Um conjunto de dados como "50.000 exemplos de como expressar incerteza com cautela sobre perguntas que Ph.D.s não sabem" pode ter um valor maior do que seu custo de produção.
Espero que, por causa do investimento em tecnologia, surja um programa tipo WPA para fazer escritores qualificados escreverem. Isso poderia criar um acervo de obras humanas de alta qualidade.
Parece que os próximos grandes avanços da IA não terão relação com dados.
OpenAI e outras pagarão grandes quantias a empresas que prometeram manter seus dados privados. Empresas como Slack, Atlassian e Dropbox se enquadram nisso.