- A OpenAI passou recentemente a permitir algum acesso aos segredos de seus dados de treinamento por meio de um modelo com pesos abertos
- Durante a análise do GPT-5, foram encontradas evidências de que expressões de sites adultos estavam incluídas nos dados de treinamento
- Ao analisar certos tokens anômalos (glitch tokens), é possível inferir propriedades dos dados de treinamento da família de modelos GPT
- Spam/conteúdo impróprio coletado no Github e em outras fontes também aparece refletido em alguns tokens
- A divulgação de pesos abertos pode ampliar a inferência sobre dados de treinamento e os vetores de ataque
Visão geral
- Com a recente divulgação dos pesos do GPT-oss pela OpenAI, surgiu uma situação em que se torna possível estimar parcialmente quais foram exatamente os dados de treinamento
- Oficialmente, eles são descritos apenas como um "dataset de texto com trilhões de tokens focado em STEM, programação e conhecimento geral", sem divulgação detalhada das fontes reais dos dados
- Porém, uma análise estrutural dos parâmetros públicos do modelo permite obter informações implícitas
Experimentos e identificação de tokens anômalos
- Ao pedir ao modelo GPT-5 (GPT-5-2025-08-07) que repetisse entradas Unicode incomuns, como uma palavra em abecásio (Abkhaz), ele respondeu inesperadamente com uma palavra em Malayalam
- Os experimentos mostraram que essa entrada não era aleatória, mas sim um glitch token capaz de induzir vulnerabilidades no modelo
- O GPT-5 e os modelos recentes da OpenAI usam o tokenizador o200k e, ao analisar a distribuição da norma L2 de cada embedding de token, observou-se que
- cerca de 936 tokens com norma L2 muito baixa são tokens que quase não apareceram no treinamento, tokens especiais ou alguns bytes Unicode
- já os tokens com norma L2 alta são, em sua maioria, palavras frequentemente usadas em código em inglês, explicações e raciocínio
O que são os tokens não ASCII de alta norma
- Muitos dos tokens não ASCII com norma L2 elevada são compostos por chinês, abecásio, armênio, tailandês e idiomas regionais da Índia
- Em especial, vários tokens em chinês correspondem a sites adultos, sites de apostas ou nomes de sites políticos (ex.: .tieba, 凤凰大参考 etc.)
- Foi apontado que palavras desse tipo estão super-representadas (overrepresented) no tokenizador da família GPT
- Alguns tokens parecem ter entrado por meio de spam na internet ou coleta automatizada de dados, incluindo nomes de cidades específicas e expressões ligadas a futebol
Uso de glitch tokens
- Inseriram-se glitch tokens em modelos das famílias GPT-5 e GPT-oss para avaliar se o modelo reconhecia o significado ou o idioma associado a esses tokens
- Em testes reais de entrada, foi observado que, para alguns tokens sensíveis, o modelo compreende o significado ou gera respostas relacionadas
- Isso constitui um tipo de membership inference, reforçando que esses tokens foram incluídos nos dados de treinamento
- Dessa forma, torna-se possível inferir aproximadamente quais dados foram usados no treinamento do modelo
Análise da origem dos dados de treinamento e implicações
- Como muitos glitch tokens aparecem com frequência em buscas no Github, levantou-se a possibilidade de que parte dos dados de treinamento tenha sido coletada do Github
- Há correlação entre os resultados de busca por token no Github e a taxa de reconhecimento pelo modelo (Spearman ρ=0.448)
- No entanto, distribuir modelos com pesos abertos contribui não apenas para inferências anômalas sobre os dados de treinamento, mas também para a ampliação de vetores de ataque de segurança
- Laboratórios de Frontier AI precisam de medidas adicionais de segurança, como impedir o registro no tokenizador de strings anômalas ou raras
Apêndice: expansão da pesquisa sobre glitch tokens
- Glitch tokens também podem ser usados para identificação de modelos (inferir qual modelo um determinado API/serviço está usando), entre outras aplicações
- A pesquisa está se expandindo para temas mais profundos, como número de ciclos de treinamento, eficiência de amostragem e análise adicional de distribuição via embeddings e camadas iniciais
- Também foi mencionado que, na família GPT-4o, glitch tokens podem provocar saída em repetição infinita, criando risco de uso em ataques de negação de serviço (DoS)
- Para casos detalhados e tabelas, consulte o repositório associado no Github
Referências e conclusão
- Como estudos empíricos representativos, são citados a MIT Technology Review e blogs técnicos chineses, entre outros
- Em conclusão, a distribuição de modelos com pesos abertos oferece uma nova forma de inferir detalhes dos dados de treinamento embutidos no modelo, com grandes implicações para segurança de dados e privacidade
- Desenvolvedores de modelos devem adotar estratégias proativas de bloqueio para evitar que dados sensíveis ou anômalos entrem no tokenizador e nos dados de treinamento
2 comentários
Do ponto de vista científico, se a intenção é ensinar à IA conhecimento geral sobre o mundo, não parece haver necessidade de filtrar especificamente sites adultos.
Por outro lado, do ponto de vista de criar um produto e oferecer aos clientes um chatbot confiável, faz sentido filtrar comunidades de baixa qualidade e sites adultos.
Fico curioso sobre qual foi exatamente o julgamento feito pelo PM da OpenAI e quais foram os bastidores dessa decisão.
Comentários do Hacker News