- O site Low-background Steel serve para reunir materiais não contaminados por conteúdo gerado por IA
- Este projeto se concentra em textos, imagens e vídeos criados antes da disseminação em massa de conteúdo de IA em 2022
- Apresenta fontes de referência como Wikipedia, Arctic Code Vault e Project Gutenberg
- Visitantes do site também podem enviar novos materiais não contaminados
- Inspirada no conceito de metal puro anterior aos testes nucleares, a ideia coloca foco em manter a confiabilidade e a originalidade
Introdução
- Low-background Steel é um site que reúne recursos online não contaminados por conteúdo criado por IA
- O nome do site foi inspirado em Low-background Steel (e chumbo), metais produzidos antes dos testes nucleares e, portanto, sem contaminação radioativa
- Metais extraídos de navios naufragados antes dos testes nucleares (Trinity Test) são valorizados por terem pouquíssima contaminação radioativa
- A ideia aplicada aqui é preservar e indicar conteúdo digital puro produzido antes do grande aumento de materiais gerados por IA
Objetivo e contexto
- O foco está em garantir materiais em formatos originais, como textos, imagens e vídeos, de antes do surgimento do conteúdo gerado por IA em larga escala em 2022
- Esses materiais incluem bancos de dados abertos de referência e confiáveis, como o dump completo da Wikipedia, o Arctic Code Vault e o Project Gutenberg
- Usuários do site podem adicionar diretamente novos materiais não contaminados por meio do formulário de envio
Importância do site
- Em uma era de crescimento explosivo de conteúdo gerado por IA, torna-se importante preservar a originalidade e garantir acesso a informações confiáveis
- Low-background Steel tem como objetivo fornecer uma referência de dados limpos que possa ser usada sem preocupação com contaminação informacional
Como contribuir
- Qualquer pessoa pode sugerir a adição de novas fontes de conteúdo não contaminado usando a função de envio do site
Referência
- Há um link para a explicação da Wikipedia sobre Low-background Steel, que reflete bem a proposta do site
- O projeto foi lançado em março de 2023 e, na prática, atua como um hub experimental para a preservação de conteúdo online
1 comentários
Opinião do Hacker News
Achei interessante a ideia de adicionar um novo "plane" ao Unicode para duplicar em espelho todos os caracteres úteis e anexar bits de estado extras para diferenciá-los
Por exemplo, imagino uma área de “resultado escrito diretamente por humanos” em que usar texto gerado por IA resultaria em punição imediata; uma área “visível apenas para humanos” em que até o treinamento ou acesso por IA seria proibido; e uma faixa de “reconhecidamente gerado por IA” em que toda produção de IA teria obrigatoriamente de usar esse intervalo de caracteres
Claro, esses caracteres seriam visualmente difíceis de distinguir e só poderiam ser diferenciados via software, funcionando como um canal sutil
Mesmo ao copiar e colar texto, a informação original viajaria junto em pequenas diferenças de codificação de caracteres
É quase uma piada, mas acho esse tipo de sistema interessante
Como acontece com alimentos orgânicos, acho que se formaria um valor premium para conteúdo “orgânico”, 100% escrito por humanos
Acho pouco claro o critério de “texto gerado por IA”, então dei exemplos concretos
O Unicode já tinha caracteres de tag para marcar áreas de idioma, mas eles foram abandonados por terem sido superados por marcação de nível mais alto (HTML etc.)
Se essa lei entrar em vigor, em 12 milissegundos surgirão “fábricas de digitação” na Índia, com humanos copiando resultados de IA para lavar os dados
Por exemplo, se eu escrever algo em uma língua estrangeira e depois pedir ao ChatGPT para traduzir para o inglês, isso conta como conteúdo gerado por IA?
Afirmo que resultados de IA têm inerentemente uma tendência de regressão à média
Vejo esse tipo de conteúdo como informação que humanos poderiam obter perguntando diretamente
Bastaria marcar toda produção de IA com a tag <AI generated content>; fora isso, ela me parece mais poluição do que benefício público
Seguindo essa lógica, a conclusão seria que não haveria necessidade de escrever nada
Essa crença intuitiva já teve, em algum momento, algum suporte experimental
O próprio processo de validação e curadoria, com o nome de um especialista humano envolvido, também tem grande valor
Fico curioso se texto editado por IA ou com estilo alterado por IA ainda pode ser considerado escrito por humanos
Acho isso um absurdo
Acho que os termos usados neste texto foram escolhidos de forma muito habilidosa para fazer a preocupação parecer menor do que é
Desde o fim dos testes nucleares, os níveis de radiação ficaram quase próximos ao natural, a necessidade de novo aço de baixíssima radiação diminuiu, e o aço novo também tem sinal radioativo suficientemente baixo para ser usado na maioria dos casos
Por um lado, não acho que dados “não contaminados” sejam necessariamente essenciais
É verdade que a radiação de fundo caiu justamente porque paramos os testes nucleares
Acho que esse assunto não será tão grave quanto o público imagina
No longo prazo, a IA vai aprender com experiência real, o que tornará possível um volume infinito de dados de treinamento não autorais e evitará o problema de contaminação por IA
Na prática, há uma tendência de alucinações da IA serem citadas e se consolidarem como verdade
Dados de experiência real, como conserto de carros, são caros e arriscados de gerar
O YouTube está cheio de dados de experiência real sobre reparo de automóveis, mas há a questão dos direitos autorais
Fico em dúvida se, no longo prazo, AGI é mesmo necessária
Minha previsão é que, antes de surgirem robôs humanoides com inteligência geral capazes de consertar carros, esse tipo de sistema de IA não vai se tornar realidade
No momento, não há evidência de que “contaminação por IA” esteja realmente causando problemas no treinamento de IA
IAs treinadas com dados públicos anteriores a 2022 não mostram vantagem de desempenho claramente perceptível sobre IAs treinadas com dados posteriores a 2022
Em alguns casos, os dados mais recentes parecem até um pouco melhores
A forma de pensar por trás da analogia com “low background steel” é a ideia de que, se uma IA continuar sendo treinada repetidamente com dados sintéticos, chegará a um “colapso do modelo” em que se tornará completamente sem sentido
A afirmação acima não é razoável por vários motivos
Ainda não houve uma verdadeira enxurrada desses “resíduos” de contaminação por IA, mas espero que isso aumente drasticamente no futuro
Algumas pessoas não têm tanta aversão a conteúdo de IA e consideram a analogia com low-background steel uma sacada brilhante
Eu também não tenho tanta aversão a conteúdo de IA e cheguei a criar um site relacionado
Pessoalmente, mais do que uma fobia de IA, o que me motiva é impedir o fenômeno de a IA voltar a treinar em cima dos próprios resultados
Parece que um pensamento meu de hoje demonstrou uma capacidade preditiva quase assustadora
Meu comentário antigo
Já vi esse caso no Hacker News pelo menos há um ano, ou talvez até mais tempo
Era uma analogia muito usada desde o lançamento do ChatGPT
Eu já conhecia também o enquadramento de conteúdo sem “contaminação” de IA, mas usar “low background steel” para isso me pareceu uma associação bem original
Eu penso diferente
Concordo que a analogia com low-background é interessante
Duvido que essa analogia seja realmente convincente
Na prática, produzir low-background steel novo é quase impossível, enquanto conteúdo sem IA basta simplesmente não usar IA, então a dificuldade é muito menor
Na verdade, é quase impossível provar objetivamente que um resultado é AI-free, então ninguém além da própria pessoa pode ter certeza disso
Fico me perguntando quem produziria conteúdo sem IA, por quê, e com que dinheiro
Acho que é só um título caça-cliques
Partindo do fato de que o nome deste site vem de Y combinator, cito como requisito para modelos de inferência a busca pelo ponto fixo de uma função
Mesmo que a geração de dados enviesados por IA aumente, espero que, ainda que o treinamento misture conteúdo humano original, conteúdo derivado e conteúdo derivado de conteúdo derivado em várias camadas, características essenciais continuem podendo ser extraídas