1 pontos por GN⁺ 2024-09-19 | 1 comentários | Compartilhar no WhatsApp

Por que o wordfreq não é mais atualizado

A IA generativa contaminou os dados

  • Desde 2021, não há informações confiáveis sobre o uso humano da linguagem
  • Uma das fontes de dados do wordfreq, a web aberta (OSCAR), agora está cheia de texto sem sentido gerado por grandes modelos de linguagem
  • Incluir esse tipo de texto nos dados distorce a frequência das palavras
  • Por exemplo, o ChatGPT tem obsessão pela palavra "delve", aumentando sua frequência de forma anormal

Informações que eram gratuitas ficaram caras

  • O wordfreq coletava dados de uso de linguagem conversacional no Twitter e no Reddit
  • Os dados do Twitter sempre foram instáveis, e agora o Twitter desapareceu e foi substituído pelo X
  • O Reddit também deixou de oferecer arquivos públicos de dados e agora vende os dados a um preço que só a OpenAI consegue pagar

Não quero mais participar dessa área

  • O wordfreq foi útil para a linguística de corpus e para ferramentas de processamento de linguagem natural
  • Porém, atualmente a área de processamento de linguagem natural está sendo dominada pela IA generativa
  • É difícil encontrar pesquisas em NLP que não dependam de dados fechados controlados pela OpenAI e pelo Google
  • Ferramentas de coleta de texto agora são usadas principalmente para treinar IA generativa, o que gera problemas de violação de direitos autorais
  • Não quero participar de trabalhos que possam ser confundidos com IA generativa

Resumo do GN⁺

  • O wordfreq era um projeto baseado em dados linguísticos até 2021
  • Com o surgimento da IA generativa, a confiabilidade dos dados caiu, e as principais fontes de dados, como Twitter e Reddit, passaram a ser pagas, fazendo com que as atualizações fossem interrompidas
  • Como a área de processamento de linguagem natural está sendo dominada pela IA generativa, o autor afirma que não quer mais participar desse campo
  • Como projetos com função semelhante, são recomendadas ferramentas alternativas como o Google Ngram Viewer

1 comentários

 
GN⁺ 2024-09-19
Comentários do Hacker News
  • A web foi poluída pelas regras de SEO do Google. O problema é o estilo de escrita com parágrafos curtos, repetição de palavras-chave e foco em ser indexável em vez de legível
    • ML/LLM é a segunda causa de poluição. A primeira foi escrever para bots corporativos
  • Em 2023, foi criado o LowBackgroundSteel.ai para servir como um lugar para reunir conjuntos de dados não contaminados
    • Há planos de adicionar o Wordfreq. É um pedido para enviar materiais ao Tumblr
  • Dá para entender a decepção com a comunidade de NLP, mas nem todo mundo é assim
    • O problema da poluição da web não é novo. Já existiam fazendas de spam tentando manipular o PageRank
    • Cada geração da web precisa de tecnologias para superar os problemas da sua época
    • O consumo de conteúdo gerado automaticamente, previsto por George Orwell em 1984, tornou-se realidade. Mas essa tecnologia também pode ser usada de forma positiva
  • A web está morta. Por causa da IA, leva mais tempo para encontrar informações úteis
    • Levaram mais de 10 minutos para encontrar um determinado fone de ouvido sem fio. Os sites estão cheios de lixo
    • Em notebooks antigos, é difícil navegar por sites modernos cheios de elementos gráficos
    • Odeiam tudo: a web, os navegadores, o web design, SEO, busca, publicidade etc. Estão procurando maneiras de comprar sem usar a web
  • Compartilham um link do Google Trends e mencionam o fato curioso de que os resultados de busca por "delve" não aumentaram
  • Não há informações confiáveis sobre o uso da linguagem humana desde 2021
    • O texto já passou do ponto crítico, mas este é um momento importante para o vídeo
    • Especialmente para crianças pequenas, é difícil distinguir o que é real. A tecnologia já existe, mas a maior parte do conteúdo em vídeo ainda não foi afetada
  • Concordam com a opinião de que a web está cheia de lixo gerado por LLMs
    • Em muitos casos, conteúdo sem valor é gerado por causa de SEO
  • Quando a AGI se tornar barata e acessível, a maior parte do trabalho será feita por IA
    • A revolução da IA deve começar nos campos mais próximos das raízes da própria IA
  • Livros impressos anteriores a 2020 podem se tornar ativos valiosos
    • A internet ficará cheia de lixo, e até os livros impressos modernos passarão a ser vistos com desconfiança
    • Humanos serão apresentados como autores de livros escritos por IA
  • Escritores que perderam seus empregos por causa da IA deveriam ser contratados pelos hiperescaladores de IA
    • Desde que suas obras não contenham frases geradas por IA