Low-background Steel para conteúdo não contaminado por IA

(blog.jgc.org)

1 pontos por GN⁺ 2025-06-11 | 1 comentários | Compartilhar no WhatsApp

O lowbackgroundsteel.ai foi criado em março de 2023 para encontrar materiais de antes de conteúdos gerados por IA começarem a se misturar em massa à web
O nome é uma metáfora tirada do aço e chumbo de baixa radioatividade, não contaminados por radioisótopos de testes nucleares
O low-background steel e o chumbo reais geralmente se referem a metais recuperados de navios afundados antes do Trinity Test, em 1945
O site se concentra em reunir fontes de texto, imagens e vídeos criadas antes do aumento repentino de conteúdo gerado por IA em 2022
Ele aponta para materiais como dumps da Wikipedia anteriores ao lançamento do ChatGPT, o Arctic Code Vault e o Project Gutenberg, e também aceita o envio de outras fontes não contaminadas

Um hub que reúne materiais pré-IA

lowbackgroundsteel.ai é um hub de materiais criado para reunir recursos online que não estejam misturados a conteúdo gerado por IA
Lançado em março de 2023, ele organiza recursos online de antes da disseminação de conteúdos gerados por IA

A metáfora por trás do nome

Low-background Steel se refere a metais não contaminados por radioisótopos provenientes de testes nucleares
Esse aço e chumbo geralmente são recuperados de navios afundados antes do Trinity Test, em 1945
O site aplica esse conceito ao conteúdo e chama de Low-background Steel os materiais não contaminados por conteúdo gerado por IA

O que é coletado e exemplos

O foco da coleta são fontes de texto, imagens e vídeos criadas antes do aumento brusco de conteúdo gerado por IA em 2022
Exemplos atualmente linkados incluem:
- dumps da Wikipedia anteriores ao lançamento do ChatGPT
- Arctic Code Vault
- Project Gutenberg
  - Outras fontes adicionais de materiais

Envio de materiais

Se você conhece outras fontes não contaminadas por conteúdo gerado por IA, pode enviá-las pela página de envio

1 comentários

GN⁺ 2025-06-11

Comentários do Hacker News

Acho que bastaria adicionar um novo plano (plane) ao Unicode, duplicando todos os caracteres necessários para comunicação, mas com um bit de estado adicional
Seriam faixas como definitivamente escrito por humano, somente para olhos humanos, declaradamente gerado por IA, e quem violasse isso iria para a cadeia
Claro que todas as faixas seriam homóglifos visualmente indistinguíveis, virando um canal semioculto mediado por software para divulgação justa
Mesmo copiando e colando de várias fontes, as informações de origem acompanhariam o texto por diferenças sutis de codificação de caracteres; e estou brincando só numa proporção quase igual a 1
- Como acontece com comida, também surgirá valor de mercado para conteúdo totalmente orgânico
  Ou seja, conteúdo escrito, desenhado, composto, editado e curado por humanos
  Só que, como na comida, definir o escopo permitido será um pesadelo, provar que é orgânico será difícil, a certificação dependerá de uma rede de confiança, na prática ele será contaminado justamente pelo que se tentava evitar, e poderá até cobrar mais caro mesmo havendo evidências de que é pior
- O Unicode já tem uma faixa de Tag Characters, criada originalmente para indicar que parte do texto vinha de outro idioma
  Esse uso foi substituído por marcações de nível mais alto, como tags HTML, e foi depreciado, mas os caracteres ainda existem
  O curioso é que eles são invisíveis e uma sequência de caracteres de tag se comporta como um único caractere ao mover o cursor
  Como refletem ASCII, dá para codificar JSON arbitrário ou outros dados ali dentro; então, se não houver problema em irritar pessoas com dados ocultos ou usos depreciados, eles também servem bastante bem para marcar trechos gerados por LLM
  https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
- O problema é como definir gerado por IA
  Pegando dever de casa como exemplo: é claro quando o aluno escreve tudo sozinho com caneta e papel, ou quando manda a IA escrever tudo, mas fica ambíguo se ele pesquisa em uma enciclopédia online que responde com IA, se recebe da IA apenas a estrutura, os pontos principais e a conclusão, ou se escreve por conta própria e usa a IA só para melhorar erros de digitação, gramática e estilo
  Além disso, há o caso de escrever pessoalmente textos sobre vários temas e depois pedir à IA que escolha o melhor
- 12 milissegundos depois que uma lei dessas entrasse em vigor, surgiriam fábricas de digitação na Índia, com trabalhadores humanos copiando manualmente textos de origem IA para fazer “lavagem de dados”
- Se eu escrever um texto em uma língua estrangeira e pedir ao ChatGPT para traduzi-lo para o inglês, isso é conteúdo gerado por IA?
  E se eu fizer OCR com um LLM de um texto escrito no papel?
  E se eu der um esboço muito detalhado e mandar reescrever repetidamente, removendo sem dó qualquer fato incerto?
  E se eu usar IA apenas para corrigir gramática e transformar um inglês ruim em um estilo científico adequado?
  Em todos esses casos, mesmo que o resultado final tenha sido copiado e colado de um LLM, acho que a resposta é claramente “não”
Conteúdo gerado por IA é, essencialmente, regressão à média, e é prejudicial tanto para o aprendizado quanto para a utilidade humana
Não há benefício em publicar algo que a IA consegue gerar; basta perguntar diretamente a ela
Conteúdo de IA pode até ser publicado com uma tag, mas, fora isso, na maioria das vezes se parece muito mais com poluição do que com bem público
- Por essa lógica, por que escrever qualquer coisa, para começo de conversa?
  Os sonetos de Shakespeare também são arranjos de palavras que já existiam, e toda prova matemática, romance ou jornalismo é apenas uma configuração dentro do espaço de arranjos possíveis de símbolos
  O fato de algo poder ser gerado não nega seu valor quando é gerado para um objetivo, contexto e público específicos
- Até alguns anos atrás, essa era uma crença intuitivamente plausível e com alguma base experimental limitada
  Mas, desde então, vários avanços de capacidade surgiram a partir de produções geradas por IA bem curadas, então acho que essa ideia foi refutada de forma decisiva
- Como devemos encarar conteúdo editado ou revisado por IA?
  Hoje em dia, eu dito posts de blog como memorandos de voz, transcrevo e depois coloco no CGPT ou no Claude para ajustar tom e ritmo
- Se você perguntar diretamente, não há a etapa em que um especialista humano revisa o conteúdo e garante com seu nome
  Essa curadoria e garantia têm valor
  Claro que dá para pensar imediatamente “mas será que essas pessoas fariam isso mesmo?”, e eu concordo, mas antes da IA isso também, em geral, não acontecia
  A maior parte do conteúdo da internet já era texto de baixa qualidade produzido às pressas por autores mal pagos e sem especialização, e a IA não muda isso
- Que absurdo
  Você já usou uma ferramenta de deep research?
  Não dá para cair na falácia da utopia
  Humanos também publicam textos lixo
Não tenho certeza de que isso vá se tornar um problema tão grande quanto as pessoas imaginam
No longo prazo, o objetivo provavelmente será fazer a IA aprender com experiência real, como consertar carros de fato, em vez de ler manuais de reparo automotivo
Assim, seria possível obter dados de treinamento sem direitos autorais em volume ilimitado e também contornar naturalmente o problema de dados de treinamento contaminados por IA
- O problema é que alucinações são citadas e acabam recebendo fontes como se fossem fatos
  Por exemplo, basta perguntar: “Qual é o programa de produtividade para MS-DOS que vinha com Connect Four embutido?”
  Existe emulador de MSDOS e eu sei a resposta correta, mas talvez por ser uma pergunta meio obscura, cada IA dá uma resposta diferente toda vez, e nunca vi uma acertar
  Se você pergunta de novo se ela tem certeza, ela muda de ideia
  Quando essas respostas são citadas online e, depois, a IA aprende tomando essa referência circular como fonte, aí a verdade desaparece
  Se você realmente fizer a pergunta acima, ela vira um ótimo exemplo de uma IA repetindo com autoridade uma resposta completamente inventada
- Dizer que é preciso gerar dados diretamente a partir de experiência real pode significar algo muito caro, com riscos operacionais reais associados à obtenção dos dados
  A Waymo ganha experiência rodando carros em vias reais, mas o limite de dados obtidos por unidade de tempo depende do tamanho da frota, e primeiro é preciso chegar a um nível de capacidade seguro o suficiente para operar no mundo real
  Se você for consertar carros começando sem conhecimento além de rollouts on-policy, vai passar um bom tempo estragando muitos carros enquanto aprende, e também terá de pagar humanos para dizer ao robô que ele falhou
  Há um motivo para querermos que mecânicos leiam manuais e recebam treinamento explícito, e essa lógica de custo se aplica igualmente quer o mecânico seja humano ou IA
  Mesmo usando aprendizado por reforço off-policy, se esses dados forem demonstrações de modelos de gerações anteriores, ainda serão dados de treinamento contaminados por IA
- No YouTube há uma quantidade enorme de dados de treinamento com experiência real de conserto de carros, mas tudo isso tem direitos autorais
  É discutível se empresas de IA precisam licenciar esse conteúdo antes de treinar
- Acho que não haverá sistemas de IA que consertem carros antes de existirem robôs humanoides capazes de inteligência geral
  Antes de esses robôs existirem, também não haverá camareiras de IA em hotéis cinco estrelas
  Não quer dizer que a afirmação original esteja errada, mas o intervalo entre hoje e esse ponto é tão inimaginavelmente grande que dizer “não se preocupe com lixo de IA contaminando bancos de dados de frequência de palavras da língua, um dia isso será resolvido” parece um pouco fora do alvo
- Quer dizer que, no longo prazo, o que se quer é AGI?
  Quando a AGI chegar, o spam também vai melhorar?
  https://xkcd.com/810/
Gosto de como o termo escolhido foi extremamente sutil para fazer a preocupação parecer irrelevante
É parecido com a explicação de que, depois do fim dos testes nucleares atmosféricos, a radiação de fundo voltou a níveis próximos dos naturais, de modo que até o aço novo passou a ter sinais radioativos baixos o bastante para que o aço especial de baixo background deixasse de ser necessário na maioria dos usos sensíveis à radiação
Mas não me parece que precisemos de dados “não contaminados”, nem que seja difícil encontrá-los, nem que a saída de LLMs vá infectar tudo de qualquer maneira
Dados de LLM talvez sejam até um pouco melhores do que comentários do Reddit de fundo natural, e também existem lugares como archive.org ou Gutenberg
- Mas dados recentes não contaminados são difíceis de encontrar
  https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
- Hm… a radiação de fundo diminuiu porque paramos de fazer testes nucleares
Por enquanto, não há motivo para acreditar que a contaminação por IA seja um problema real em execuções de treinamento de IA
IAs treinadas com dados de crawling público anteriores a 2022 não são visivelmente melhores do que IAs treinadas com dados de crawling posteriores a 2022
Na verdade, em alguns casos, por motivos desconhecidos, dados de crawling mais recentes têm desempenho por token ligeiramente melhor
- Por trás da ideia de “aço de baixo background” está a noção de que treinar IA com dados sintéticos pode levar ao colapso do modelo, em que a IA fica completamente maluca e inútil
  Isso não aconteceu, ou então todas as empresas de IA têm internamente filtros funcionais para eliminar dados de IA
  Eu apostaria na primeira opção
  Ainda assim, acho possível que exposição excessiva a dados gerados por IA provoque em humanos algo parecido com colapso de modelo, mas isso é mais observação anedótica e intuição
- Esse raciocínio é bem ruim por vários motivos
  O treinamento de LLMs depois de 2022 melhorou muito, e o fato de o efeito negativo do lixo de IA nos dados de treinamento não superar os ganhos de maior escala de parâmetros e técnicas melhores de treinamento não significa que não haja efeito negativo
  “Desempenho melhor” também é uma expressão muito vaga, e ainda não há uma boa resposta para medir isso de forma significativa
  Dá para saber que o Gemini 2.5 é melhor que o GPT-4o, mas distinguir entre Gemini 2.5 e Claude 4 é mais complicado
  O tamanho do efeito dos dados lixo nesta etapa provavelmente é da ordem de pequenas diferenças entre modelos da mesma geração
  Se estamos procurando um efeito pequeno demais para ser facilmente comprovado com dados, neste caso faz sentido partir dos primeiros princípios, e os primeiros princípios dizem claramente que é melhor não treinar com conteúdo gerado por IA
- As pessoas ainda não começaram a gerar conteúdo lixo em grande escala, e acho que isso vai aumentar muito no futuro
Não sou particularmente alérgico a conteúdo de IA, mas a analogia com aço de baixo background é admirável
Excelente
- Eu também não sou alérgico a conteúdo de IA
  O motivo pelo qual criei este site foi acompanhar coisas que eu sei que foram feitas por humanos
- Isso parece menos uma fobia e mais uma tentativa de evitar treinar IA com sua própria saída
  É um tema sobre o qual eu também vinha conversando recentemente com colegas
  Conteúdo pré-IA inevitavelmente ficará mais valioso daqui para a frente, porque é algo que nunca mais poderá ser produzido
  O ideal teria sido carimbar criptograficamente com timestamp todos os dados disponíveis por volta de 2015, mas agora é preciso lidar com a situação como ela é
Hoje estou me sentindo estranhamente como um profeta
https://news.ycombinator.com/item?id=44217676
- Ouvi esse exemplo no Hacker News há pelo menos 1 ano, talvez há ainda mais tempo
  Também há um post de 2 anos atrás: https://news.ycombinator.com/item?id=34085194
- Essa analogia era comum depois do lançamento do ChatGPT
- Acho que essa ideia está realmente errada
  O processo de anotar conteúdo e dados sintéticos vai transformar a saída de IA em um gradiente que torna as saídas futuras melhores
  Isso pode ser menos óbvio nas saídas de LLMs, mas deve ficar muito claro em modelos de imagem e vídeo
  No processo de selecionar as melhores saídas visuais do sistema, os pequenos erros introduzidos e a curadoria baseada em gosto vão conduzir o sistema a um desempenho melhor e a uma generalidade maior
  Se enxergarmos o genoma como uma máquina de síntese e a física como um gradiente probabilístico, isso não é diferente de a vida e a hereditariedade se adaptarem a todos os nichos ecológicos
  Estamos apenas rodando a mesma coisa em alta velocidade
- Mandou bem
  Acho que esse enquadramento de conteúdo sem “contaminação” de IA é algo que já ouvi antes e que já era uma ideia circulando por aí
  Mas você pode dizer tranquilamente que acertou na previsão pelo menos quanto à pertinência da analogia do aço de baixo fundo
Livros usados de papel, especialmente os livros velhos mas ainda utilizáveis chamados “reading copies” ou “ex-library”, estão sendo vendidos a preço de banana no mercado de usados
Recomendo montar sua própria biblioteca física, incluindo obras de referência básicas, e apoiar bibliotecas públicas locais e bibliotecas universitárias
Também é bom ter cópias em papel de artigos das suas áreas de especialização e interesse
A ideia é seguir o modo dos nossos antepassados
A IA já mentiu descaradamente sobre fatos, e, mesmo que eu não tenha conseguido convencer a IA em todos os casos, fiquei feliz por ter uma biblioteca física que me permitiu verificar por conta própria que eu estava certo
Será que essa analogia se encaixa bem?
Produzir aço novo de baixo fundo é extremamente difícil porque partículas radioativas estão por toda parte, mas criar conteúdo sem IA não é difícil
Basta não escrevê-lo com IA
- Provar que uma obra não tem IA é totalmente inviável, ainda que não seja impossível
  Por isso, ninguém além da própria pessoa pode ter certeza
- Produzir aço novo de baixo fundo não é difícil
  É só que reaproveitar é mais barato
- Quem criaria esse conteúdo sem IA, por qual motivo e com que dinheiro?
- É só um título caça-cliques
O próprio nome deste site veio do Y combinator
Exceto por um leve gesto filosófico, uma das capacidades que devemos exigir de modelos de raciocínio é a de encontrar o ponto fixo de uma função que recebe conteúdo como entrada, produz conteúdo como saída e depois consome novamente esse conteúdo
Sou otimista de que, mesmo treinando recursivamente com dados misturados de conteúdo humano original, conteúdo derivado do conteúdo original e conteúdo novamente derivado desse conteúdo derivado, será possível extrair as características e padrões salientes do sistema subjacente

Low-background Steel para conteúdo não contaminado por IA

Um hub que reúne materiais pré-IA

A metáfora por trás do nome

O que é coletado e exemplos

Arctic Code Vault

Project Gutenberg

Envio de materiais

Leituras relacionadas

1 comentários

Comentários do Hacker News