Os segredos dos dados de treinamento da OpenAI revelados pelo GPT-OSS

(fi-le.net)

4 pontos por GN⁺ 2025-10-06 | 2 comentários | Compartilhar no WhatsApp

A OpenAI passou recentemente a permitir algum acesso aos segredos de seus dados de treinamento por meio de um modelo com pesos abertos
Durante a análise do GPT-5, foram encontradas evidências de que expressões de sites adultos estavam incluídas nos dados de treinamento
Ao analisar certos tokens anômalos (glitch tokens), é possível inferir propriedades dos dados de treinamento da família de modelos GPT
Spam/conteúdo impróprio coletado no Github e em outras fontes também aparece refletido em alguns tokens
A divulgação de pesos abertos pode ampliar a inferência sobre dados de treinamento e os vetores de ataque

Visão geral

Com a recente divulgação dos pesos do GPT-oss pela OpenAI, surgiu uma situação em que se torna possível estimar parcialmente quais foram exatamente os dados de treinamento
Oficialmente, eles são descritos apenas como um "dataset de texto com trilhões de tokens focado em STEM, programação e conhecimento geral", sem divulgação detalhada das fontes reais dos dados
Porém, uma análise estrutural dos parâmetros públicos do modelo permite obter informações implícitas

Experimentos e identificação de tokens anômalos

Ao pedir ao modelo GPT-5 (GPT-5-2025-08-07) que repetisse entradas Unicode incomuns, como uma palavra em abecásio (Abkhaz), ele respondeu inesperadamente com uma palavra em Malayalam
Os experimentos mostraram que essa entrada não era aleatória, mas sim um glitch token capaz de induzir vulnerabilidades no modelo
O GPT-5 e os modelos recentes da OpenAI usam o tokenizador o200k e, ao analisar a distribuição da norma L2 de cada embedding de token, observou-se que
- cerca de 936 tokens com norma L2 muito baixa são tokens que quase não apareceram no treinamento, tokens especiais ou alguns bytes Unicode
- já os tokens com norma L2 alta são, em sua maioria, palavras frequentemente usadas em código em inglês, explicações e raciocínio

O que são os tokens não ASCII de alta norma

Muitos dos tokens não ASCII com norma L2 elevada são compostos por chinês, abecásio, armênio, tailandês e idiomas regionais da Índia
Em especial, vários tokens em chinês correspondem a sites adultos, sites de apostas ou nomes de sites políticos (ex.: .tieba, 凤凰大参考 etc.)
Foi apontado que palavras desse tipo estão super-representadas (overrepresented) no tokenizador da família GPT
Alguns tokens parecem ter entrado por meio de spam na internet ou coleta automatizada de dados, incluindo nomes de cidades específicas e expressões ligadas a futebol

Uso de glitch tokens

Inseriram-se glitch tokens em modelos das famílias GPT-5 e GPT-oss para avaliar se o modelo reconhecia o significado ou o idioma associado a esses tokens
Em testes reais de entrada, foi observado que, para alguns tokens sensíveis, o modelo compreende o significado ou gera respostas relacionadas
Isso constitui um tipo de membership inference, reforçando que esses tokens foram incluídos nos dados de treinamento
Dessa forma, torna-se possível inferir aproximadamente quais dados foram usados no treinamento do modelo

Análise da origem dos dados de treinamento e implicações

Como muitos glitch tokens aparecem com frequência em buscas no Github, levantou-se a possibilidade de que parte dos dados de treinamento tenha sido coletada do Github
- Há correlação entre os resultados de busca por token no Github e a taxa de reconhecimento pelo modelo (Spearman ρ=0.448)
No entanto, distribuir modelos com pesos abertos contribui não apenas para inferências anômalas sobre os dados de treinamento, mas também para a ampliação de vetores de ataque de segurança
Laboratórios de Frontier AI precisam de medidas adicionais de segurança, como impedir o registro no tokenizador de strings anômalas ou raras

Apêndice: expansão da pesquisa sobre glitch tokens

Glitch tokens também podem ser usados para identificação de modelos (inferir qual modelo um determinado API/serviço está usando), entre outras aplicações
A pesquisa está se expandindo para temas mais profundos, como número de ciclos de treinamento, eficiência de amostragem e análise adicional de distribuição via embeddings e camadas iniciais
Também foi mencionado que, na família GPT-4o, glitch tokens podem provocar saída em repetição infinita, criando risco de uso em ataques de negação de serviço (DoS)
Para casos detalhados e tabelas, consulte o repositório associado no Github

Referências e conclusão

Como estudos empíricos representativos, são citados a MIT Technology Review e blogs técnicos chineses, entre outros
Em conclusão, a distribuição de modelos com pesos abertos oferece uma nova forma de inferir detalhes dos dados de treinamento embutidos no modelo, com grandes implicações para segurança de dados e privacidade
Desenvolvedores de modelos devem adotar estratégias proativas de bloqueio para evitar que dados sensíveis ou anômalos entrem no tokenizador e nos dados de treinamento

2 comentários

aer0700 2025-10-07

Do ponto de vista científico, se a intenção é ensinar à IA conhecimento geral sobre o mundo, não parece haver necessidade de filtrar especificamente sites adultos.
Por outro lado, do ponto de vista de criar um produto e oferecer aos clientes um chatbot confiável, faz sentido filtrar comunidades de baixa qualidade e sites adultos.
Fico curioso sobre qual foi exatamente o julgamento feito pelo PM da OpenAI e quais foram os bastidores dessa decisão.

GN⁺ 2025-10-06

Comentários do Hacker News

O artigo diz que “o GPT-5 foi treinado com frases vindas de sites adultos”, mas, na prática, a questão é que o GPT-5 foi treinado com frases que também aparecem em sites adultos; no máximo há a especulação de que a fonte dos dados contendo essas frases poderia ter sido o GitHub
- Anúncios de sites adultos chineses estão amplamente espalhados em conteúdo gratuito reaproveitado ou pirateado; esses materiais são distribuídos por lugares como GitHub, shadow libraries e YouTube, e pelo mesmo motivo o modelo Whisper às vezes gera essas frases de propaganda quando recebe áudio em branco
- Essa parte é abordada no fim do blog
Fiquei em dúvida se a expressão “o GPT-5 foi treinado com frases de sites adultos” significa mesmo que vieram desses sites, ou apenas que esse tipo de frase era comum nos dados de treino; blogspam, link farms e marketing de afiliados são comuns em sites adultos/de apostas, então é natural que muitas frases relacionadas acabem misturadas
- A nuance dá a entender que essa pessoa conhece bem sites adultos
Sobre a afirmação de que “há cerca de 936 tokens com valores de norma L2 muito pequenos, o que significa que esses tokens não foram usados no treinamento do GPT-oss e foram suprimidos por weight decay”, fiquei curioso se embeddings e parâmetros de norma ainda costumam ser excluídos de weight decay; no código de exemplo do minGPT isso de fato é explicado assim ver código do minGPT
- Uma hipótese é que esses tokens tenham sido inicializados com a média do dataset + ruído e, por não terem aparecido durante o treinamento, seus valores nunca mudaram; não sei se isso ainda é técnica atual, mas em vídeos do Karpathy esse tipo de truque aparece para evitar uma queda brusca da loss no início do gradient descent
- Senti falta, no artigo, de uma explicação melhor de como esse padrão é encontrado nos dados de treinamento; ele mostra mais o resultado do que o processo, e isso deixou o conteúdo um pouco aquém
Um ponto interessante do artigo é que dá para descobrir qual modelo de linguagem está sendo usado por meio de “glitch tokens”; ao colocá-los no prompt e observar a reação, a identidade do modelo aparece
- Dá para imaginar que no futuro isso vire um fluxo de pentest para identificar a impressão digital de LLMs, o tipo de modelo e até possíveis vulnerabilidades de segurança
- Pensei algo parecido: talvez isso ajude a revelar quais modelos estão sendo usados em vários agentic flows; quando um modelo chama outros submodelos, talvez seja possível reconstruir a estrutura completa de chamadas rastreando a reação a glitches em cada etapa
- Mas talvez esse tipo de engenharia reversa só seja possível porque podemos ver diretamente o tokenizer; os tokenizers do Claude ou do Gemini são públicos? Se não forem, talvez isso já barre esse tipo de ataque
Fiquei curioso se existem pesquisas sobre engenharia reversa de LLMs, especialmente modelos fechados expostos só por API, ou sobre como inferir a composição dos dados de treino; por exemplo, como estimar os dados de treinamento do Claude Sonnet 4.5, e se também há estudos que revelem tendências do modelo pré-treinado mesmo depois de RLHF; também queria entender se, em modelos como GPT-4o, certos vieses desaparecem de fato ou apenas ficam escondidos mais no fundo do modelo
- Há artigos relacionados arXiv:2403.06634, arXiv:2311.17035, e também me lembrei de já ter visto uma entrevista com Nicholas Carlini
- Viés é um termo muito humano, então discutir isso desse jeito parece levar a debates sem fim; se já existissem LLMs quando o systemd foi lançado, eles provavelmente responderiam com base em informações antigas por haver menos material disponível na época; LLMs apenas reproduzem os dados que recebem, e apagar informação dos dados tende até a sair mais barato do que fazer uma curadoria refinada do dataset
O token “xadder” parecia estranho, mas na prática pode ser um erro de digitação de “xpadder” (a ferramenta para gamepad), o nome de várias ferramentas, um parâmetro de chamadas XLib, uma implementação de full adder no Xilinx Vivado etc.; também aparece como apelido em fóruns
A tradução das frases em chinês apresentada no artigo está imprecisa demais para dar confiança no significado, então isso faz pensar que a própria matriz de dados pode estar incorreta; o autor precisaria de validação cruzada de um nativo experiente em chinês
- Houve o feedback de que, se alguém publicar uma tradução melhor, ela será incorporada
Como o escopo é tão amplo a ponto de “desperdiçar” espaço de tokens com tokens de anúncio “de baixa qualidade” e afins, fiquei pensando se já houve tentativas de reduzir o espaço de tokens para melhorar o desempenho de modelos quantizados; ver tokens de anúncio me trouxe essa ideia
- Alguns modelos de 30b parâmetros que, na prática, ativam só algo como 3b por vez talvez já sejam justamente uma versão dessa ideia
Posso estar entendendo errado, mas o artigo parece insinuar quase como escândalo que a OpenAI usou dados de sites adultos no treinamento; só que o Google também indexa sites adultos e os reflete na busca, então não vejo muito bem o que seria diferente no caso de LLMs
- Na verdade isso nem é novidade; no repositório gpt-tokens já havia exemplos, cerca de um ano atrás, de frases em chinês relacionadas a sites adultos encontradas no Gpt-4o; esse ponto já era conhecido há tempos
- O ponto central é que, se uma frase específica postada no GitHub aparece exposta dentro do modelo, então há grande chance de o GitHub ter feito parte dos dados de treino
- Pessoalmente, não senti essa nuance no artigo
- Do ponto de vista das empresas, parece razoável remover esse tipo de dado dos conjuntos de treino com antecedência, especialmente frases ligadas a conteúdo adulto, por questões de censura ou conformidade com políticas
Testei os casos do artigo no Gemini 2.5 pro e quase todos foram tratados sem problemas; isso me faz pensar que o modelo do Google talvez seja vulnerável a glitch tokens completamente diferentes, e a discussão técnica do artigo me pareceu um pouco difícil
- glitch tokens funcionam de forma diferente em cada tokenizer; o Gemini usa um tokenizer diferente do dos modelos da OpenAI; a origem dos glitch tokens da OpenAI também é interessante: ao treinar os tokenizers iniciais, strings populares dos dados usados (por exemplo, apelidos de usuários ativos do Reddit) recebiam inteiros, e um exemplo sorteado aleatoriamente disso foi “davidjl”; mais explicações