Por que o wordfreq deixou de ser atualizado

(github.com/rspeer)

1 pontos por GN⁺ 2024-09-19 | 1 comentários | Compartilhar no WhatsApp

wordfreq é um snapshot do uso da linguagem observado em várias fontes online até 2021 e foi congelado na versão mais recente porque atualizar os dados depois disso poderia, na verdade, piorar a qualidade
Desde 2021, textos gerados por IA que parecem ter sido escritos por humanos se espalharam amplamente pela web pública, dificultando medir frequências de palavras com base no uso real da linguagem humana
Já havia spam nos dados existentes, mas em geral ele podia ser identificado e gerenciado; saídas de IA generativa, como no caso de “delve” do ChatGPT, podem elevar anormalmente a frequência de certas palavras
O acesso a dados do Twitter e do Reddit, fontes importantes de linguagem conversacional, desapareceu ou ficou caro, e os dados históricos do Twitter também não podiam ser distribuídos externamente por causa dos termos de distribuição
À medida que o campo de processamento de linguagem natural se inclina para IA generativa e dependência de dados fechados, o desenvolvedor não quer que o wordfreq ajude a IA generativa nem seja confundido com esse tipo de trabalho

Complemento de setembro de 2024

O documento sobre a interrupção das atualizações do wordfreq recebeu muita atenção, e o desenvolvedor acredita que as pessoas, em geral, entendem sua posição
Ele não parou de trabalhar em bibliotecas open source; a ferramenta multiuso de correção de Unicode ftfy continua em desenvolvimento
Congelar os dados não é necessariamente um final ruim
- Muitas pessoas têm usado o wordfreq de forma útil, e a versão mais recente não vai desaparecer
- Ele não será mais atualizado porque a avaliação é que uma atualização poderia piorar os dados
- Com o tempo, ele ficará desatualizado, mas não ficará ativamente pior

Snapshot do uso da linguagem até 2021

Os dados do wordfreq são um snapshot do uso da linguagem que podia ser encontrado em várias fontes online até 2021
O motivo para não atualizá-lo mais é a combinação de contaminação dos dados, custos de acesso e mudanças no campo de processamento de linguagem natural

Web pública contaminada por IA generativa

O desenvolvedor avalia que, desde 2021, ficou difícil obter informações confiáveis sobre a linguagem que as pessoas realmente usam
Uma das fontes de dados do wordfreq era a web pública, usada por meio do OSCAR
Hoje, a web em sentido amplo contém muitos textos gerados por grandes modelos de linguagem; incluí-los distorce as frequências de palavras
Também havia spam nas fontes de dados existentes, mas em muitos casos ele era gerenciável e identificável
Grandes modelos de linguagem produzem textos que parecem linguagem com intenção real, e essas saídas se espalham por muitos lugares
Segundo o artigo de Philip Shapira sobre “delve”, o ChatGPT passou a usar “delve” de forma obsessiva, diferente de como as pessoas o usavam, elevando sua frequência geral em uma escala de ordem de grandeza

Dados conversacionais que desapareceram ou ficaram caros

O wordfreq não lidava apenas com palavras formais impressas; ele coletava usos de linguagem mais próximos da conversa, especialmente no Twitter e no Reddit
Twitter e X
- A base de dados do Twitter foi instável desde o início
- Mesmo quando o Twitter permitia acesso gratuito a parte do “firehose”, os termos de uso não permitiam distribuir os dados coletados para fora da Luminoso
- O wordfreq contém valores de frequência produzidos a partir desses dados como entrada, mas os dados coletados em si não pertenciam ao desenvolvedor e não são mais mantidos por ele
- Hoje o Twitter desapareceu, a API pública foi fechada, e o site foi substituído pelo X
- Mesmo que o X fornecesse um feed de dados brutos, o desenvolvedor avalia que não seria possível encontrar informações valiosas nele
Reddit
- O Reddit também deixou de fornecer arquivos públicos de dados
- Atualmente, o Reddit vende seus arquivos, e o desenvolvedor descreve o preço como algo que só a OpenAI conseguiria pagar

Por que manter distância da IA generativa

O wordfreq estava originalmente na interseção entre a linguística de corpus e trabalhos úteis para ferramentas de processamento de linguagem natural
O campo que o desenvolvedor conhecia como “natural language processing” ficou difícil de encontrar hoje em dia, e ele vê a IA generativa engolindo essa área
Outras técnicas ainda existem, mas a IA generativa fica com a maior parte da atenção e do financiamento
O desenvolvedor avalia que pesquisas em NLP que não dependam de dados fechados controlados pela OpenAI e pelo Google são raras
Um trabalho como o wordfreq, de coletar muitos textos em várias línguas, antes era considerado bastante razoável
Hoje, ferramentas de coleta de texto são usadas principalmente para treinar IA generativa, e o desenvolvedor considera justa a reação defensiva das pessoas a isso
Se alguém coleta todos os textos de livros, artigos, sites e postagens públicas, o desenvolvedor avalia que é muito provável que o objetivo seja criar uma máquina de plágio que reivindica as palavras dos usuários como se fossem suas

Conclusão sobre a interrupção das atualizações

O desenvolvedor não quer fazer um trabalho que possa ser confundido com IA generativa ou que possa ajudar a IA generativa
Ele afirma que OpenAI e Google devem coletar seus próprios dados, e espera que paguem muito caro por isso
O wordfreq não será mais atualizado, mas a versão mais recente existente será mantida

1 comentários

GN⁺ 2024-09-19

Opiniões do Hacker News

Concordo em linhas gerais, mas a web já estava contaminada pelas regras de SEO informais do Google
Por causa de coisas como parágrafos de uma só frase, repetição de palavras-chave e a priorização da “indexabilidade” em vez da legibilidade, a web já não era uma fonte ideal para esse tipo de análise antes dos LLMs
E o mesmo valia como dados de treinamento; no fim, os LLMs cresceram se alimentando não de textos escritos para pessoas, mas de textos escritos para o Googlebot. ML/LLM é a segunda iteração da contaminação da escrita; a primeira foi quando as pessoas começaram a escrever não para outras pessoas, mas para bots corporativos
- Spam de blog era, em geral, escrito por humanos e, embora fosse péssimo por outros motivos, parecia aceitável para medir a frequência de palavras básica de textos escritos por humanos
  Haverá vieses nas frequências, mas isso acontece com a maioria dos textos, e um manual de manutenção de carburadores inevitavelmente terá a palavra “carburetor” muito mais vezes do que a linha de base
  Se houver uma mistura saudável de livros, notícias e blogs variados, tudo bem. Já o conteúdo de LLM se parece mais com uma serpente devorando a própria cauda: é como tentar criar um modelo estatístico de distribuição de palavras a partir da saída de um modelo de distribuição de palavras
- Em algum momento, também é preciso reconhecer que certos usos da língua são características do próprio meio em que se está contando a frequência das palavras
  Jornais, romances, e-mails para o chefe etc. também têm estilos próprios em termos de tamanho de frases e parágrafos, repetições desnecessárias e métricas além da legibilidade
  Ao menos quando é texto escrito por humanos considerando a possibilidade de que outras pessoas o leiam, ele pode ser visto como um uso da língua muito mais legítimo do que texto gerado por máquina
- Isto parece um segundo Eternal September, e em escala muito maior
  Não sei quanto tempo a internet ainda aguenta isso, e meu uso já caiu visivelmente em relação a 2018. Agora é tão difícil encontrar algo que valha a pena ler que acabo passando muito tempo aqui
- Dito isso, não é tão extremo quanto foi sugerido. Os dados de treinamento recebem pesos por métricas de qualidade, e textos escritos por jornalistas ou colaboradores da Wikipedia têm peso maior do que a receita de brownie da sua tia ou spam de blog corporativo
- Antes do Google havia o Altavista, e naquela época também era extremamente comum enfiar centenas de palavras-chave no rodapé das páginas, em texto branco sobre fundo branco
  Spam de SEO não é novidade; só mudou de forma
Em 2023, criei https://lowbackgroundsteel.ai/ como um espaço para reunir referências a datasets não contaminados
Também vou adicionar o wordfreq, então seria bom se enviassem materiais pelo Tumblr
- Parabéns pelo “lançamento”. Eu também vinha deixando em segundo plano, havia um tempo, a ideia de criar quase exatamente esse tipo de site. Fico curioso para saber qual data de corte vocês usam
  Uma lista útil que montei durante minha pesquisa é esta: invenção da arquitetura transformer em 2017, GPT-1 em junho de 2018, GPT-2 em fevereiro de 2019, GPT-3 em junho de 2020, GPT-3.5 em março de 2022, ChatGPT em novembro de 2022
  Também seria bom adicionar arquivos kiwix anteriores à data de corte definida. Dá para encontrá-los no Internet Archive, e há versões da Wikipedia, Stack Overflow, Wikisource, Wikibooks e várias wikis
- O nome é esperto. Gostei da analogia
- Acho que isso é exatamente o oposto do que o autor queria. O autor não quer mais fazer parte dessa confusão
  Reunir essas fontes só vai tornar muito mais fácil para as big techs raspárias ainda mais dados
- Para referência, meus datasets DebateSum e OpenDebateEvidence/OpenCaseList, em sua forma atual, terminam no máximo em 2022, então se enquadram nisso
- Não sei se dá para confiar em um site contaminado por gráficos de IA /s
É lamentável a situação que levou o OP a se decepcionar com a comunidade de processamento de linguagem natural da qual faço parte, e, embora seja uma tendência da moda e quase no pico do hype, quero dizer que “nem todos nós somos assim”
O problema da contaminação da web por conteúdo artificial é oportuno, e já houve casos anteriores, como fazendas de spam tentando manipular o PageRank
Por isso, listas de sites de alta qualidade curadas manualmente por pessoas, a chamada “pequena web”, podem ganhar um novo valor
Cada geração da web precisou de tecnologias para superar os mecanismos adversariais da sua própria geração, e a web atual não é exceção
Quando Eric Arthur Blair escreveu 1984 sob o pseudônimo “George Orwell”, ele previu uma situação em que o público consumiria conteúdo gerado automaticamente para se afastar do pensamento crítico. Isso está acontecendo agora, mas a tecnologia criticada também pode ser usada para o bem, e é isso que minha equipe de pesquisa em NLP tenta fazer. No fim, o bem vencerá
- A pequena web “do bem” alguma vez realmente venceu?
  IRC, Usenet, Reddit, Facebook, Geocities, Yahoo, webrings etc.: qualquer sistema de conteúdo que atinja uso mainstream parece acabar contaminado por ruído
  Opções pequenas e curadas, quando crescem o suficiente, acabam vítimas do próprio sucesso e são tomadas por spam
  É sempre uma corrida armamentista entre qualidade e quantidade, e no fim os curadores não conseguem acompanhar o volume esmagador
- Pessoas que evitam o pensamento crítico já faziam isso e continuarão fazendo, com ou sem conteúdo de IA
- A ideia de que “no fim o bem vence” é perigosa. Ela pode acabar adiando a ação decisiva que provavelmente será necessária para que isso de fato aconteça
- É um pouco outro assunto, mas Marx também previu, em 1894, a existência de criptomoedas e NFTs https://www.marxists.org/archive/marx/works/1894-c3/ch25.htm
  É estranho como continuamos atravessando essas “linhas vermelhas” como se nada fosse. Como naquele meme: o autor de ficção científica disse “criei o Torment Nexus como uma história de advertência”, e a empresa de tecnologia responde “criamos o Torment Nexus do clássico romance de ficção científica ‘Não crie o Torment Nexus’”
- E se o caminho para o bem vencer for rejeitar tecnologias e crenças que se tornaram destrutivas?
Para ser categórico: a web morreu. Graças à “IA”, agora leva mais tempo do que em 2005 ficar vasculhando buscas para encontrar algo útil
Os sites encontrados também são, em geral, lixo
Por exemplo, mesmo para encontrar um par famoso de fones de ouvido sem fio, eu já sabendo a empresa, o site da empresa e os revendedores, levo pelo menos 10 minutos. Porque está tudo enterrado sob todo tipo de tranqueira
Meu notebook é um i7 de 8 núcleos “antigo”, com 16 GB de RAM, mas ainda assim sofre com sites “modernos” cheios de gráficos. Sites antigos eram simples e funcionavam bem, então dava para pesquisar e comprar produtos rapidamente; ontem à noite, até colocar no carrinho e pagar foi um verdadeiro sofrimento
Odeio a web, navegadores, web design, SEO, busca, anúncios e toda a porcaria barata que vem junto. Chega. Se houver uma forma de comprar algo sem a web, vou fazer isso. Não é que eu odeie totalmente a tecnologia em si, mas a web virou um ovo podre
- Na Amazon, antes dava para pesquisar avaliações e perguntas e respostas diretamente por uma caixa de busca, e isso era extremamente útil
  Agora essa caixa primeiro envia a consulta para um LLM, faz você esperar 10 a 15 segundos e então mostra um resumo inútil do tipo “algumas avaliações disseram isso e aquilo”
  Só depois disso dá para apertar um botão para ver, nas avaliações e perguntas reais, os itens que contêm a palavra que procurei. Acho que isso vai me fazer largar a Amazon. Se ainda houver um jeito de fazer busca direta, adoraria saber
- Em geral, não há muito o que contestar
  Antes, ao pesquisar por um gancheira de câmbio de bicicleta Trek, o primeiro resultado era o que eu queria. Agora é preciso passar por 5 anúncios mandando comprar uma bicicleta nova e por um link quebrado de terceiros, e, com sorte, o link para a página da peça aparece no fim da página 1
  A lixificação da web é real
- Parece que seu notebook está completamente obsoleto. Você precisa comprar na Amazon um notebook de nova geração capaz de aguentar a carga do SEO moderno
  O produto recomendado é o LEEZWOO 15.6" Laptop - 16GB RAM 512GB SSD PC Laptop, Quad-Core N95 Processor Up to 3.1GHz, Laptop Computers with Touch ID, WiFi, BT4.2, for Students/Business
  O nome não sai da língua com uma facilidade incrível?
- Há uma startup que vende buscas melhores como produto. O recurso central é que, como você paga para usar, você não é o produto https://kagi.com/welcome
- Nos últimos 10 anos, venho me afastando gradualmente da web. Hoje em dia faço principalmente apps offline com tecnologia nativa
  Essa capacidade ainda existe. Ela só ficou um tempo recuada porque foi contaminada demais por barras de ferramentas e malware, e agora que o malware está do outro lado, apps nativos voltaram a ser bacanas. Só é preciso saber onde procurar
  Minha placa está aqui: https://akkartik.name/freewheeling-apps
  Só que “web”, aqui, parece significar apenas aquilo que é acessível por mecanismos de busca. Ainda existe a web antiga, isto é, a web mediada por relações e reputação, não por serviços agregadores com bilhões de usuários. Como o link acima ou este site heroicamente moderado que estamos usando agora
Concordo com a frase “acho que ninguém tem informações confiáveis sobre o uso da linguagem humana depois de 2021”
O texto já passou do ponto de inflexão faz algum tempo, mas, com vídeo, agora parece um divisor de águas
Crianças pequenas, em especial, têm pouca intuição sobre o que é real e o que não é. Se eu pergunto se a pessoa no vídeo é real, elas ainda respondem com bastante confiança, mas essa confiança diminui a cada dia
A tecnologia claramente está pronta e, embora a maior parte do conteúdo em vídeo ainda não tenha sido afetada, acho que isso vai mudar em breve
- Há estes desafios: https://www.nytimes.com/interactive/2024/09/09/technology/ai-video-deepfake-runway-kling-quiz.html
  https://www.nytimes.com/interactive/2024/01/19/technology/artificial-intelligence-image-generators-faces-quiz.html
  É um pouco injusto, por comparar exemplos escolhidos a dedo, mas mesmo especialistas teriam dificuldade em passar em muitos desses testes. A tecnologia só avança, e a velocidade também parece estar aumentando
  O impressionante é a velocidade do progresso. A humanidade tem quase 3 milhões de anos; o Homo sapiens, cerca de 300 mil; cidades, agricultura e civilização, cerca de 10 mil; metais, cerca de 4 mil; a Revolução Industrial, 500; democracia, 200; computação, algo entre 50 e 100 anos
  O intervalo entre revoluções está encurtando de forma quase exponencial
  Comparando o mundo de hoje com a minha infância, uma das revoluções que ainda estou assimilando é a manufatura automatizada. No AliExpress, tantas coisas são praticamente de graça. Comprei um carregador de 5 portas e 120 W por menos de 2 minutos do meu tempo, e gastei menos tempo procurando do que levo para ganhar o dinheiro
  Não sei muito bem para onde tudo isso está indo
- Hoje já não tenho confiança de que consigo identificar uma pessoa real
  Muitas vezes acabo marcando como “meio falso” pessoas reais que adotaram os padrões de comportamento de criadores do TikTok, Instagram e YouTube
  Minha barba também já está grisalha, mas em um vídeo de apresentação de 2020 eu já tirava sarro da cara de thumbnail do YouTube. A IA captura esses padrões de comportamento “meio humanos” muito rápido e com muita força
  Vi circulando um vídeo em que aparecem duas jovens mulheres por vez segurando placas de “This is real”/“This is not real”; ambas podem muito bem ser completamente mentirosas, e eu não consigo distinguir. Todas exibem padrões de comportamento um pouco “estranhos”, mas consistentes com os poucos vídeos de influenciadores que já vi
- Dá para reconhecer produções ruins, mas como saber que você não está sendo enganado pelas boas?
- Eu nunca tinha pensado nisso. É assustador se os humanos perderem a capacidade de distinguir conteúdo de IA da realidade
A afirmação de que “agora a web inteira está cheia de slop criado por grandes modelos de linguagem, que ninguém escreveu e que não transmite nada” é justa e precisa
Mesmo no melhor dos casos, a pessoa que rodou o modelo não foi quem escreveu o texto, e a salada de palavras não transmite o que ela queria dizer
Em muitos casos, o conteúdo simplesmente é despejado por SEO, sem intenção de ter valor para ninguém
- Essa frase também bateu forte em mim e foi muito impactante
Talvez livros impressos de antes de 2020 se tornem bens valiosos daqui a 10 ou 20 anos
Quando a internet estiver cheia de slop e até os livros impressos da época passarem a ser vistos com desconfiança
E também aparecerão talking heads humanos fingindo ser autores de livros escritos por uma IA muito inteligente. Por que diabos estamos fazendo isso?
- Provavelmente para sustentar “filantropos” famosos como Sam Altman ou Mark Zuckerberg. Afinal, aqui também há muita gente que os vê como heróis
- Eu achava que acumular um monte de livros e quase não ler fosse algum tipo de transtorno mental, mas agora vou ter que fazer ainda mais isso
- Ou talvez seja um talking head de IA fingindo ser autor de um livro escrito por IA https://youtu.be/pAPGRGTqIgI
  Aviso: desinformação por IA patrocinada por Estado
Tenho sentimentos muito ambíguos sobre esse problema
Por um lado, concordo totalmente com Robyn Speer. A web aberta morreu, e a web está em um estado realmente triste. Alguns dias atrás, decidi colocar meu blog pessoal no gopher. Simplesmente porque há muito menos lixo no gopher — o que, claro, não quer dizer que gopher seja a solução
Mas, algumas semanas atrás, precisei enviar um arquivo de vídeo para o avô da minha esposa, que tem 97 anos, mora em outro país e não usa computador nem celular. No fim, confirmei que ele tinha um DVD player e usei x264 para converter um vídeo 4K HDR moderno para um formato que qualquer DVD player antigo conseguisse reproduzir, tentando preservar ao máximo a qualidade da imagem
O problema é que o x264 não tem documentação. Ao contrário do x265, que teve patrocinadores corporativos dispostos a pagar por uma documentação adequada, o x264 foi basicamente desenvolvido por membros do fórum doom9 na base da tentativa e erro. Há centenas de flags obscuras, e algumas delas se comportam de modo diferente de 20 anos atrás
Eu poderia ter vasculhado dezenas de threads de 20 anos no doom9 para descobrir o que cada flag fazia, mas, na prática, perguntei a um LLM — neste caso, o Claude
O Claude não foi perfeito e misturou algumas flags do ffmpeg com flags do x264, mas, combinando isso com busca tradicional e tentativa e erro, consegui terminar o trabalho em cerca de 30 minutos. A qualidade do resultado também ficou bastante satisfatória, e o vídeo rodou até em um DVD player bem antigo
Antes dos LLMs, eu não teria contratado um especialista em x264 para isso. Teria gastado mais algumas horas ou, mais provavelmente, aquele senhor de 97 anos não teria visto a bisneta dançando. Disseram que o vídeo lhe arrancou um grande sorriso
LLMs, como tudo que veio antes, são apenas ferramentas. Não são inerentemente bons nem maus. O que importa é o que fazemos com eles e como os usamos
- A maioria dos antigos softwares de gravação de DVD não tinha conversão de vídeo como recurso básico?
  Naquela época, eu teria usado Nero Burning ROM ou Handbrake. A qualidade talvez não ficasse otimizada ao nível desejado, mas, para olhos de 97 anos, provavelmente sairia um vídeo perfeitamente assistível
Será que nós, humanos, poluímos tanto a internet com IA que ela agora ficou quase inutilizável?
Na minha opinião, a internet pode ser vista como um ambiente natural, como a Terra. É um espaço onde as pessoas compartilham, se encontram e conversam
É surpreendente que, depois de poluir o ambiente natural, agora tenhamos poluído até a internet
- Se ainda não é assim, será muito em breve. Talvez haja gente trabalhando nesse problema, mas acho que estamos chegando a um momento de loop de feedback muito iminente
  A maior parte da informação registrada pela humanidade foi digitalizada, e uma grande parte dela está gerando conteúdo não humano em velocidade enorme. Injetamos um ruído imenso nos dados que podemos usar
  Não sei se a resposta é mais conteúdo humano ou novo conteúdo gerado, mas esta transição criará desafios no médio prazo
  Quero acreditar que a era em que mais tokens eram sempre melhor nos LLMs está terminando e que caminharemos para usar melhor os dados existentes, mas, na prática, estamos diante de um ponto de inflexão importante
- Ainda existem comunidades pequenas e fechadas que são muito valiosas. O lugar onde estou postando agora é uma delas
  Mas a internet aberta basicamente se tornou inútil, e a causa raiz é o modelo de negócio baseado em publicidade
- A tragédia dos comuns arruína tudo ao redor
- Sim. Aqui também há instruções práticas para transformar a internet em uma latrina ainda maior https://www.youtube.com/watch?v=endHz0jo9Ck
  Agora parece uma lei da natureza que qualquer nova tecnologia acabe levando à amplificação de SEO. A IA virou a Degelman M34 Manure Spreader da internet https://degelman.com/products/manure-spreaders
- Boa analogia. Felizmente, online é mais fácil criar “imóveis” do nada. Só que alguns espaços valiosos, como Twitter e Reddit, já foram perdidos em certa medida
Para escritores que em breve perderão o emprego, ou que já perderam, e que na prática dificilmente serão contratados para fazer o que faziam antes, os megaplayers de IA deveriam pagar para que escrevam qualquer coisa
A condição seria apenas uma: nem uma única frase desse trabalho pode ter sido gerada por IA
No começo eu ia dizer que “o governo deveria pagar”, mas isso seria socializar as perdas, algo que já vivenciamos mais do que o suficiente no passado
- Já existem algumas empresas que fazem esse tipo de coisa. Eu mesmo faço trabalhos contratados ocasionais para algumas delas, e às vezes a remuneração fica muito acima do que um escritor mediano poderia esperar em outros lugares
  Mas a maioria dos escritores nunca viveu de escrever. A barreira de entrada para a escrita é baixa demais, há gente demais que gosta de escrever, e a maioria das pessoas quase não lê
- Quem programa as fitas? https://en.wikipedia.org/wiki/Profession_(novella)
- As empresas de IA de fato estão contratando essas pessoas para criar dados de treinamento personalizados
- As pessoas já vêm criando ruído e sendo pagas por isso há mais de 10 anos. Entra lixo, sai lixo sempre foi verdade
  Encontrar o próximo token é um problema resolvido. O pensamento novo pode ser resolvido por humanos, e em breve talvez também por IA, mas adicionar mais lixo aos dados não vai melhorar isso
- Você já leu história dos EUA, lol

Por que o wordfreq deixou de ser atualizado

Complemento de setembro de 2024

Snapshot do uso da linguagem até 2021

Web pública contaminada por IA generativa

Dados conversacionais que desapareceram ou ficaram caros

Twitter e X

Reddit

Por que manter distância da IA generativa

Conclusão sobre a interrupção das atualizações

Leituras relacionadas

1 comentários

Opiniões do Hacker News