- Segundo testes feitos pela Rumi com os modelos GPT-o3 e o4-mini,
foi descoberto que marcas d’água com caracteres especiais são inseridas em respostas longas (por exemplo, redação de ensaios). - Essa marca d’água é composta por caracteres Unicode especiais de espaço em branco, como "Narrow No-Break Space (U+202F)".
- É totalmente invisível a olho nu, mas aparece em editores de código como Sublime Text e VS Code, ou em visualizadores de caracteres especiais.
- Mesmo ao copiar e colar, essa marca d’água permanece (por exemplo, continua lá ao colar no Google Docs).
- No entanto, como a marca d’água pode ser removida com um simples find-and-replace, ela não é uma medida de proteção perfeita.
- A OpenAI não anunciou oficialmente esse recurso de marca d’água. (Aparentemente, está sendo testado de forma discreta.)
- Foi relatado que no modelo GPT-4o esse tipo de marca d’água não foi observado.
Além disso
- A marca d’água tende a ser inserida apenas em textos longos (especialmente trabalhos, tarefas ou textos em formato de relatório), e
- quase nunca é inserida em conversas curtas ou em perguntas e respostas comuns.
Resumo em uma linha
"Alguns modelos mais recentes começaram a usar marca d’água com caracteres especiais, mas isso não é perfeito porque é fácil de detectar e remover."
6 comentários
[Atualização] OpenAI respondeu oficialmente ao Lumi
A OpenAI entrou em contato conosco sobre esta publicação para informar que o caractere especial não é uma marca d'água. Segundo a OpenAI, isso é simplesmente uma “peculiaridade do aprendizado por reforço em larga escala”. No entanto, estamos mantendo a publicação no ar para que futuros leitores ainda possam ver esse problema desses caracteres especiais (e potencialmente indesejados) nas respostas do ChatGPT o3/o4.
Desta vez, houve o problema de o o3 estar alucinando demais.
Achei que talvez fosse um desses casos, mas foi interessante eles entrarem em contato diretamente.
Talvez seja para não usar dados gerados por IA como dados de treinamento (model collapse).
Será que não é um bug, e não uma marca d'água? Mesmo supondo que seja um teste, é absurdamente simples em comparação com as tecnologias de watermarking para LLM que estão sendo discutidas atualmente..
Achei que isso apontaria uma tendência peculiar das alegações, mas não foi o caso. Não seria uma solução simples demais?
Hum... será por causa dessa marca d'água? Ultimamente, já aconteceu várias vezes comigo de, no ChatGPT, o coreano aparecer normalmente na tela, mas quando eu copio e colo, ele acaba sendo colado todo corrompido.