4 pontos por GN⁺ 2025-10-06 | 2 comentários | Compartilhar no WhatsApp
  • A OpenAI passou recentemente a permitir algum acesso aos segredos de seus dados de treinamento por meio de um modelo com pesos abertos
  • Durante a análise do GPT-5, foram encontradas evidências de que expressões de sites adultos estavam incluídas nos dados de treinamento
  • Ao analisar certos tokens anômalos (glitch tokens), é possível inferir propriedades dos dados de treinamento da família de modelos GPT
  • Spam/conteúdo impróprio coletado no Github e em outras fontes também aparece refletido em alguns tokens
  • A divulgação de pesos abertos pode ampliar a inferência sobre dados de treinamento e os vetores de ataque

Visão geral

  • Com a recente divulgação dos pesos do GPT-oss pela OpenAI, surgiu uma situação em que se torna possível estimar parcialmente quais foram exatamente os dados de treinamento
  • Oficialmente, eles são descritos apenas como um "dataset de texto com trilhões de tokens focado em STEM, programação e conhecimento geral", sem divulgação detalhada das fontes reais dos dados
  • Porém, uma análise estrutural dos parâmetros públicos do modelo permite obter informações implícitas

Experimentos e identificação de tokens anômalos

  • Ao pedir ao modelo GPT-5 (GPT-5-2025-08-07) que repetisse entradas Unicode incomuns, como uma palavra em abecásio (Abkhaz), ele respondeu inesperadamente com uma palavra em Malayalam
  • Os experimentos mostraram que essa entrada não era aleatória, mas sim um glitch token capaz de induzir vulnerabilidades no modelo
  • O GPT-5 e os modelos recentes da OpenAI usam o tokenizador o200k e, ao analisar a distribuição da norma L2 de cada embedding de token, observou-se que
    • cerca de 936 tokens com norma L2 muito baixa são tokens que quase não apareceram no treinamento, tokens especiais ou alguns bytes Unicode
    • já os tokens com norma L2 alta são, em sua maioria, palavras frequentemente usadas em código em inglês, explicações e raciocínio

O que são os tokens não ASCII de alta norma

  • Muitos dos tokens não ASCII com norma L2 elevada são compostos por chinês, abecásio, armênio, tailandês e idiomas regionais da Índia
  • Em especial, vários tokens em chinês correspondem a sites adultos, sites de apostas ou nomes de sites políticos (ex.: .tieba, 凤凰大参考 etc.)
  • Foi apontado que palavras desse tipo estão super-representadas (overrepresented) no tokenizador da família GPT
  • Alguns tokens parecem ter entrado por meio de spam na internet ou coleta automatizada de dados, incluindo nomes de cidades específicas e expressões ligadas a futebol

Uso de glitch tokens

  • Inseriram-se glitch tokens em modelos das famílias GPT-5 e GPT-oss para avaliar se o modelo reconhecia o significado ou o idioma associado a esses tokens
  • Em testes reais de entrada, foi observado que, para alguns tokens sensíveis, o modelo compreende o significado ou gera respostas relacionadas
  • Isso constitui um tipo de membership inference, reforçando que esses tokens foram incluídos nos dados de treinamento
  • Dessa forma, torna-se possível inferir aproximadamente quais dados foram usados no treinamento do modelo

Análise da origem dos dados de treinamento e implicações

  • Como muitos glitch tokens aparecem com frequência em buscas no Github, levantou-se a possibilidade de que parte dos dados de treinamento tenha sido coletada do Github
    • correlação entre os resultados de busca por token no Github e a taxa de reconhecimento pelo modelo (Spearman ρ=0.448)
  • No entanto, distribuir modelos com pesos abertos contribui não apenas para inferências anômalas sobre os dados de treinamento, mas também para a ampliação de vetores de ataque de segurança
  • Laboratórios de Frontier AI precisam de medidas adicionais de segurança, como impedir o registro no tokenizador de strings anômalas ou raras

Apêndice: expansão da pesquisa sobre glitch tokens

  • Glitch tokens também podem ser usados para identificação de modelos (inferir qual modelo um determinado API/serviço está usando), entre outras aplicações
  • A pesquisa está se expandindo para temas mais profundos, como número de ciclos de treinamento, eficiência de amostragem e análise adicional de distribuição via embeddings e camadas iniciais
  • Também foi mencionado que, na família GPT-4o, glitch tokens podem provocar saída em repetição infinita, criando risco de uso em ataques de negação de serviço (DoS)
  • Para casos detalhados e tabelas, consulte o repositório associado no Github

Referências e conclusão

  • Como estudos empíricos representativos, são citados a MIT Technology Review e blogs técnicos chineses, entre outros
  • Em conclusão, a distribuição de modelos com pesos abertos oferece uma nova forma de inferir detalhes dos dados de treinamento embutidos no modelo, com grandes implicações para segurança de dados e privacidade
  • Desenvolvedores de modelos devem adotar estratégias proativas de bloqueio para evitar que dados sensíveis ou anômalos entrem no tokenizador e nos dados de treinamento

2 comentários

 
aer0700 2025-10-07

Do ponto de vista científico, se a intenção é ensinar à IA conhecimento geral sobre o mundo, não parece haver necessidade de filtrar especificamente sites adultos.
Por outro lado, do ponto de vista de criar um produto e oferecer aos clientes um chatbot confiável, faz sentido filtrar comunidades de baixa qualidade e sites adultos.
Fico curioso sobre qual foi exatamente o julgamento feito pelo PM da OpenAI e quais foram os bastidores dessa decisão.

 
GN⁺ 2025-10-06
Comentários do Hacker News
  • O artigo diz que “o GPT-5 foi treinado com frases vindas de sites adultos”, mas, na prática, a questão é que o GPT-5 foi treinado com frases que também aparecem em sites adultos; no máximo há a especulação de que a fonte dos dados contendo essas frases poderia ter sido o GitHub
    • Anúncios de sites adultos chineses estão amplamente espalhados em conteúdo gratuito reaproveitado ou pirateado; esses materiais são distribuídos por lugares como GitHub, shadow libraries e YouTube, e pelo mesmo motivo o modelo Whisper às vezes gera essas frases de propaganda quando recebe áudio em branco
    • Essa parte é abordada no fim do blog
  • Fiquei em dúvida se a expressão “o GPT-5 foi treinado com frases de sites adultos” significa mesmo que vieram desses sites, ou apenas que esse tipo de frase era comum nos dados de treino; blogspam, link farms e marketing de afiliados são comuns em sites adultos/de apostas, então é natural que muitas frases relacionadas acabem misturadas
    • A nuance dá a entender que essa pessoa conhece bem sites adultos
  • Sobre a afirmação de que “há cerca de 936 tokens com valores de norma L2 muito pequenos, o que significa que esses tokens não foram usados no treinamento do GPT-oss e foram suprimidos por weight decay”, fiquei curioso se embeddings e parâmetros de norma ainda costumam ser excluídos de weight decay; no código de exemplo do minGPT isso de fato é explicado assim ver código do minGPT
    • Uma hipótese é que esses tokens tenham sido inicializados com a média do dataset + ruído e, por não terem aparecido durante o treinamento, seus valores nunca mudaram; não sei se isso ainda é técnica atual, mas em vídeos do Karpathy esse tipo de truque aparece para evitar uma queda brusca da loss no início do gradient descent
    • Senti falta, no artigo, de uma explicação melhor de como esse padrão é encontrado nos dados de treinamento; ele mostra mais o resultado do que o processo, e isso deixou o conteúdo um pouco aquém
  • Um ponto interessante do artigo é que dá para descobrir qual modelo de linguagem está sendo usado por meio de “glitch tokens”; ao colocá-los no prompt e observar a reação, a identidade do modelo aparece
    • Dá para imaginar que no futuro isso vire um fluxo de pentest para identificar a impressão digital de LLMs, o tipo de modelo e até possíveis vulnerabilidades de segurança
    • Pensei algo parecido: talvez isso ajude a revelar quais modelos estão sendo usados em vários agentic flows; quando um modelo chama outros submodelos, talvez seja possível reconstruir a estrutura completa de chamadas rastreando a reação a glitches em cada etapa
    • Mas talvez esse tipo de engenharia reversa só seja possível porque podemos ver diretamente o tokenizer; os tokenizers do Claude ou do Gemini são públicos? Se não forem, talvez isso já barre esse tipo de ataque
  • Fiquei curioso se existem pesquisas sobre engenharia reversa de LLMs, especialmente modelos fechados expostos só por API, ou sobre como inferir a composição dos dados de treino; por exemplo, como estimar os dados de treinamento do Claude Sonnet 4.5, e se também há estudos que revelem tendências do modelo pré-treinado mesmo depois de RLHF; também queria entender se, em modelos como GPT-4o, certos vieses desaparecem de fato ou apenas ficam escondidos mais no fundo do modelo
    • Há artigos relacionados arXiv:2403.06634, arXiv:2311.17035, e também me lembrei de já ter visto uma entrevista com Nicholas Carlini
    • Viés é um termo muito humano, então discutir isso desse jeito parece levar a debates sem fim; se já existissem LLMs quando o systemd foi lançado, eles provavelmente responderiam com base em informações antigas por haver menos material disponível na época; LLMs apenas reproduzem os dados que recebem, e apagar informação dos dados tende até a sair mais barato do que fazer uma curadoria refinada do dataset
  • O token “xadder” parecia estranho, mas na prática pode ser um erro de digitação de “xpadder” (a ferramenta para gamepad), o nome de várias ferramentas, um parâmetro de chamadas XLib, uma implementação de full adder no Xilinx Vivado etc.; também aparece como apelido em fóruns
  • A tradução das frases em chinês apresentada no artigo está imprecisa demais para dar confiança no significado, então isso faz pensar que a própria matriz de dados pode estar incorreta; o autor precisaria de validação cruzada de um nativo experiente em chinês
    • Houve o feedback de que, se alguém publicar uma tradução melhor, ela será incorporada
  • Como o escopo é tão amplo a ponto de “desperdiçar” espaço de tokens com tokens de anúncio “de baixa qualidade” e afins, fiquei pensando se já houve tentativas de reduzir o espaço de tokens para melhorar o desempenho de modelos quantizados; ver tokens de anúncio me trouxe essa ideia
    • Alguns modelos de 30b parâmetros que, na prática, ativam só algo como 3b por vez talvez já sejam justamente uma versão dessa ideia
  • Posso estar entendendo errado, mas o artigo parece insinuar quase como escândalo que a OpenAI usou dados de sites adultos no treinamento; só que o Google também indexa sites adultos e os reflete na busca, então não vejo muito bem o que seria diferente no caso de LLMs
    • Na verdade isso nem é novidade; no repositório gpt-tokens já havia exemplos, cerca de um ano atrás, de frases em chinês relacionadas a sites adultos encontradas no Gpt-4o; esse ponto já era conhecido há tempos
    • O ponto central é que, se uma frase específica postada no GitHub aparece exposta dentro do modelo, então há grande chance de o GitHub ter feito parte dos dados de treino
    • Pessoalmente, não senti essa nuance no artigo
    • Do ponto de vista das empresas, parece razoável remover esse tipo de dado dos conjuntos de treino com antecedência, especialmente frases ligadas a conteúdo adulto, por questões de censura ou conformidade com políticas
  • Testei os casos do artigo no Gemini 2.5 pro e quase todos foram tratados sem problemas; isso me faz pensar que o modelo do Google talvez seja vulnerável a glitch tokens completamente diferentes, e a discussão técnica do artigo me pareceu um pouco difícil
    • glitch tokens funcionam de forma diferente em cada tokenizer; o Gemini usa um tokenizer diferente do dos modelos da OpenAI; a origem dos glitch tokens da OpenAI também é interessante: ao treinar os tokenizers iniciais, strings populares dos dados usados (por exemplo, apelidos de usuários ativos do Reddit) recebiam inteiros, e um exemplo sorteado aleatoriamente disso foi “davidjl”; mais explicações