1 pontos por GN⁺ 2025-06-11 | 1 comentários | Compartilhar no WhatsApp
  • O site Low-background Steel serve para reunir materiais não contaminados por conteúdo gerado por IA
  • Este projeto se concentra em textos, imagens e vídeos criados antes da disseminação em massa de conteúdo de IA em 2022
  • Apresenta fontes de referência como Wikipedia, Arctic Code Vault e Project Gutenberg
  • Visitantes do site também podem enviar novos materiais não contaminados
  • Inspirada no conceito de metal puro anterior aos testes nucleares, a ideia coloca foco em manter a confiabilidade e a originalidade

Introdução

  • Low-background Steel é um site que reúne recursos online não contaminados por conteúdo criado por IA
  • O nome do site foi inspirado em Low-background Steel (e chumbo), metais produzidos antes dos testes nucleares e, portanto, sem contaminação radioativa
  • Metais extraídos de navios naufragados antes dos testes nucleares (Trinity Test) são valorizados por terem pouquíssima contaminação radioativa
  • A ideia aplicada aqui é preservar e indicar conteúdo digital puro produzido antes do grande aumento de materiais gerados por IA

Objetivo e contexto

  • O foco está em garantir materiais em formatos originais, como textos, imagens e vídeos, de antes do surgimento do conteúdo gerado por IA em larga escala em 2022
  • Esses materiais incluem bancos de dados abertos de referência e confiáveis, como o dump completo da Wikipedia, o Arctic Code Vault e o Project Gutenberg
  • Usuários do site podem adicionar diretamente novos materiais não contaminados por meio do formulário de envio

Importância do site

  • Em uma era de crescimento explosivo de conteúdo gerado por IA, torna-se importante preservar a originalidade e garantir acesso a informações confiáveis
  • Low-background Steel tem como objetivo fornecer uma referência de dados limpos que possa ser usada sem preocupação com contaminação informacional

Como contribuir

  • Qualquer pessoa pode sugerir a adição de novas fontes de conteúdo não contaminado usando a função de envio do site

Referência

  • Há um link para a explicação da Wikipedia sobre Low-background Steel, que reflete bem a proposta do site
  • O projeto foi lançado em março de 2023 e, na prática, atua como um hub experimental para a preservação de conteúdo online

1 comentários

 
GN⁺ 2025-06-11
Opinião do Hacker News
  • Achei interessante a ideia de adicionar um novo "plane" ao Unicode para duplicar em espelho todos os caracteres úteis e anexar bits de estado extras para diferenciá-los

    • Por exemplo, imagino uma área de “resultado escrito diretamente por humanos” em que usar texto gerado por IA resultaria em punição imediata; uma área “visível apenas para humanos” em que até o treinamento ou acesso por IA seria proibido; e uma faixa de “reconhecidamente gerado por IA” em que toda produção de IA teria obrigatoriamente de usar esse intervalo de caracteres

    • Claro, esses caracteres seriam visualmente difíceis de distinguir e só poderiam ser diferenciados via software, funcionando como um canal sutil

    • Mesmo ao copiar e colar texto, a informação original viajaria junto em pequenas diferenças de codificação de caracteres

    • É quase uma piada, mas acho esse tipo de sistema interessante

    • Como acontece com alimentos orgânicos, acho que se formaria um valor premium para conteúdo “orgânico”, 100% escrito por humanos

      • Mas, como na indústria alimentícia, seria um pesadelo decidir o que é permitido e até onde algo é orgânico
      • A certificação dependeria de redes de confiança e, no fim, resultados de IA contaminados ainda poderiam ser negociados por preços mais altos
    • Acho pouco claro o critério de “texto gerado por IA”, então dei exemplos concretos

        1. Um estudante escreve tudo à mão
        1. Consultou uma enciclopédia online, mas essa enciclopédia usa IA internamente
        1. Pediu à IA para montar a estrutura, os pontos principais e a conclusão de um artigo, e escreveu o texto por conta própria
        1. Pegou um texto próprio e usou IA apenas para ortografia, revisão de frases e ajuste de estilo
        1. A IA redigiu o texto inteiro
        1. Escreveu vários textos por conta própria e depois pediu à IA para escolher o melhor
      • O primeiro e o último caso são claros, mas nos demais é difícil saber até onde considerar isso resultado de IA
    • O Unicode já tinha caracteres de tag para marcar áreas de idioma, mas eles foram abandonados por terem sido superados por marcação de nível mais alto (HTML etc.)

      • Esses caracteres são invisíveis e, ao mover o cursor, vários deles são tratados como se fossem um único caractere
      • Eles correspondem ao ASCII, então é possível inserir JSON arbitrário ou outros dados
      • Dá para usá-los para marcar áreas geradas por LLM, mas isso pode ser incômodo por cair na categoria de dados ocultos ou uso não recomendado
      • Link relacionado: https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
    • Se essa lei entrar em vigor, em 12 milissegundos surgirão “fábricas de digitação” na Índia, com humanos copiando resultados de IA para lavar os dados

    • Por exemplo, se eu escrever algo em uma língua estrangeira e depois pedir ao ChatGPT para traduzir para o inglês, isso conta como conteúdo gerado por IA?

      • E se eu escrever à mão, passar por OCR com um LLM, fornecer à IA um esboço extremamente detalhado e ainda verificar os fatos com rigor?
      • E se eu usar IA apenas para checagem gramatical ou para melhorar a formulação científica? Isso também seria conteúdo gerado por IA?
      • Pelo meu critério, a resposta para todos esses casos é “não”
  • Afirmo que resultados de IA têm inerentemente uma tendência de regressão à média

    • Vejo esse tipo de conteúdo como informação que humanos poderiam obter perguntando diretamente

    • Bastaria marcar toda produção de IA com a tag <AI generated content>; fora isso, ela me parece mais poluição do que benefício público

    • Seguindo essa lógica, a conclusão seria que não haveria necessidade de escrever nada

      • Shakespeare, provas matemáticas, todos os romances e reportagens já são apenas combinações possíveis de palavras
      • Acho que algo tem valor suficiente não só por ser “produzível”, mas por ter sido criado para um propósito, um contexto e um público específicos
    • Essa crença intuitiva já teve, em algum momento, algum suporte experimental

      • Mas avanços recentes obtidos com resultados de IA bem curados mostram que isso já não parece mais verdadeiro
    • O próprio processo de validação e curadoria, com o nome de um especialista humano envolvido, também tem grande valor

      • Na prática, a maior parte do conteúdo da internet já era produzida por pessoas não especialistas e de baixa qualidade e baixo custo, e não vejo a IA necessariamente piorando isso
    • Fico curioso se texto editado por IA ou com estilo alterado por IA ainda pode ser considerado escrito por humanos

      • No meu caso, eu dito posts de blog por voz em um bloco de notas e depois uso CGPT ou Claude para ajustar tom e ritmo
    • Acho isso um absurdo

      • Se você já usou de fato ferramentas de deep research, entende que humanos também produzem muito conteúdo sem valor
      • Espero que não caiam em um mal-entendido utópico
  • Acho que os termos usados neste texto foram escolhidos de forma muito habilidosa para fazer a preocupação parecer menor do que é

    • Desde o fim dos testes nucleares, os níveis de radiação ficaram quase próximos ao natural, a necessidade de novo aço de baixíssima radiação diminuiu, e o aço novo também tem sinal radioativo suficientemente baixo para ser usado na maioria dos casos

    • Por um lado, não acho que dados “não contaminados” sejam necessariamente essenciais

      • Tenho a impressão de que dados de LLM são muito melhores do que comentários comuns do Reddit
      • Ainda me parece fácil encontrar dados “puros” em archive.org, Gutenberg etc.
      • Como resultados de LLM vão acabar se infiltrando em todo lugar, isso parece um fluxo inevitável
    • É verdade que a radiação de fundo caiu justamente porque paramos os testes nucleares

  • Acho que esse assunto não será tão grave quanto o público imagina

    • No longo prazo, a IA vai aprender com experiência real, o que tornará possível um volume infinito de dados de treinamento não autorais e evitará o problema de contaminação por IA

    • Na prática, há uma tendência de alucinações da IA serem citadas e se consolidarem como verdade

      • Ex.: quando perguntei várias vezes a uma IA qual era o programa de produtividade embutido do MS-DOS para connect four, ela sempre deu respostas diferentes, mas todas erradas
      • Essa informação errada acaba sendo citada de novo na web, e a IA passa a aprender esse erro, criando um ciclo
      • Nessa situação, fica difícil saber a verdade
    • Dados de experiência real, como conserto de carros, são caros e arriscados de gerar

      • Assim como um mecânico humano, a IA também teria de começar por manuais e currículos explícitos de treinamento
      • Se aprendesse só com dados de execução real, acabaria estragando carros por tentativa e erro, e nesse processo ainda precisaria de intervenção humana
      • Mesmo no caso de aprendizado por reforço off-policy (RL), esses dados também podem vir de modelos de gerações anteriores, ou seja, de conteúdo feito por IA, então não dá para dizer que seriam totalmente “livres de contaminação por IA”
      • Por isso, experiência real sozinha não resolve completamente os limites de oferta, o custo e o problema da contaminação por IA
    • O YouTube está cheio de dados de experiência real sobre reparo de automóveis, mas há a questão dos direitos autorais

      • Existe discussão sobre se empresas de IA precisam obter licença de copyright antes de usar esse conteúdo
    • Fico em dúvida se, no longo prazo, AGI é mesmo necessária

      • Também questiono o tom de que, quando AGI chegar, até o conteúdo spam vai melhorar de qualidade
      • xkcd relacionado: https://xkcd.com/810/
    • Minha previsão é que, antes de surgirem robôs humanoides com inteligência geral capazes de consertar carros, esse tipo de sistema de IA não vai se tornar realidade

      • O mesmo vale para o surgimento de camareiras de IA em hotéis cinco estrelas
      • Por isso, acho um pouco irrealista a visão de que o problema de contaminação de bases de dados linguísticas vai se resolver sozinho com o tempo
  • No momento, não há evidência de que “contaminação por IA” esteja realmente causando problemas no treinamento de IA

    • IAs treinadas com dados públicos anteriores a 2022 não mostram vantagem de desempenho claramente perceptível sobre IAs treinadas com dados posteriores a 2022

    • Em alguns casos, os dados mais recentes parecem até um pouco melhores

    • A forma de pensar por trás da analogia com “low background steel” é a ideia de que, se uma IA continuar sendo treinada repetidamente com dados sintéticos, chegará a um “colapso do modelo” em que se tornará completamente sem sentido

      • Na prática, isso não aconteceu, e parece que empresas de IA nem operam filtros internos separando e removendo apenas dados de IA
      • Pelo contrário, acho que, se humanos forem expostos em excesso a dados de IA, o colapso do modelo pode acontecer nos próprios humanos
      • Isso é apenas minha experiência e intuição
    • A afirmação acima não é razoável por vários motivos

        1. Desde 2022, as técnicas de treinamento de LLM melhoraram muito, então talvez o efeito negativo dos “resíduos” de IA nos dados simplesmente ainda não seja grande o bastante para aparecer
        1. Avaliações de desempenho são ambíguas e isso só aparece como diferenças sutis entre modelos da mesma geração, como Gemini 2.5 vs Claude 4
      • Efeitos pequenos assim são difíceis de provar com dados, e justamente por isso uma abordagem baseada em princípios é importante
      • Em princípio, o desejável é evitar treinar com conteúdo gerado por IA
    • Ainda não houve uma verdadeira enxurrada desses “resíduos” de contaminação por IA, mas espero que isso aumente drasticamente no futuro

  • Algumas pessoas não têm tanta aversão a conteúdo de IA e consideram a analogia com low-background steel uma sacada brilhante

    • Eu também não tenho tanta aversão a conteúdo de IA e cheguei a criar um site relacionado

      • O objetivo é registrar materiais que se sabe com certeza terem sido feitos por humanos
    • Pessoalmente, mais do que uma fobia de IA, o que me motiva é impedir o fenômeno de a IA voltar a treinar em cima dos próprios resultados

      • Conteúdo da era “pré-IA” é um recurso de escassez crescente, que não pode mais ser produzido de novo
      • Teria sido melhor se por volta de 2015 tivéssemos colocado carimbos de data criptográficos em todos os dados, mas agora pelo menos ainda dá para preservar o que resta
  • Parece que um pensamento meu de hoje demonstrou uma capacidade preditiva quase assustadora

    • Meu comentário antigo

    • Já vi esse caso no Hacker News pelo menos há um ano, ou talvez até mais tempo

    • Era uma analogia muito usada desde o lançamento do ChatGPT

    • Eu já conhecia também o enquadramento de conteúdo sem “contaminação” de IA, mas usar “low background steel” para isso me pareceu uma associação bem original

    • Eu penso diferente

      • Acredito que vamos anotar conteúdo e dados sintéticos, e que as máquinas usarão isso para melhorar gradualmente as produções futuras
      • Mesmo que isso não fique tão evidente em LLMs, em modelos de imagem e vídeo é claro
      • Quando se selecionam apenas os melhores resultados visuais, o resultado melhora aos poucos, e nesse processo a “curadoria alinhada ao gosto” também tem grande papel
      • Assim como em genética e biologia isso se aplica a diversos nichos ecológicos, estamos fazendo as regras do jogo evoluírem rapidamente com máquinas sintéticas
  • Concordo que a analogia com low-background é interessante

  • Duvido que essa analogia seja realmente convincente

    • Na prática, produzir low-background steel novo é quase impossível, enquanto conteúdo sem IA basta simplesmente não usar IA, então a dificuldade é muito menor

    • Na verdade, é quase impossível provar objetivamente que um resultado é AI-free, então ninguém além da própria pessoa pode ter certeza disso

    • Fico me perguntando quem produziria conteúdo sem IA, por quê, e com que dinheiro

    • Acho que é só um título caça-cliques

  • Partindo do fato de que o nome deste site vem de Y combinator, cito como requisito para modelos de inferência a busca pelo ponto fixo de uma função

    • Uma atitude otimista de que um conteúdo transformará a si próprio, tomará esse resultado de volta como entrada e continuará extraindo padrões essenciais
  • Mesmo que a geração de dados enviesados por IA aumente, espero que, ainda que o treinamento misture conteúdo humano original, conteúdo derivado e conteúdo derivado de conteúdo derivado em várias camadas, características essenciais continuem podendo ser extraídas