Por que o wordfreq não é mais atualizado
A IA generativa contaminou os dados
- Desde 2021, não há informações confiáveis sobre o uso humano da linguagem
- Uma das fontes de dados do wordfreq, a web aberta (OSCAR), agora está cheia de texto sem sentido gerado por grandes modelos de linguagem
- Incluir esse tipo de texto nos dados distorce a frequência das palavras
- Por exemplo, o ChatGPT tem obsessão pela palavra "delve", aumentando sua frequência de forma anormal
Informações que eram gratuitas ficaram caras
- O wordfreq coletava dados de uso de linguagem conversacional no Twitter e no Reddit
- Os dados do Twitter sempre foram instáveis, e agora o Twitter desapareceu e foi substituído pelo X
- O Reddit também deixou de oferecer arquivos públicos de dados e agora vende os dados a um preço que só a OpenAI consegue pagar
Não quero mais participar dessa área
- O wordfreq foi útil para a linguística de corpus e para ferramentas de processamento de linguagem natural
- Porém, atualmente a área de processamento de linguagem natural está sendo dominada pela IA generativa
- É difícil encontrar pesquisas em NLP que não dependam de dados fechados controlados pela OpenAI e pelo Google
- Ferramentas de coleta de texto agora são usadas principalmente para treinar IA generativa, o que gera problemas de violação de direitos autorais
- Não quero participar de trabalhos que possam ser confundidos com IA generativa
Resumo do GN⁺
- O wordfreq era um projeto baseado em dados linguísticos até 2021
- Com o surgimento da IA generativa, a confiabilidade dos dados caiu, e as principais fontes de dados, como Twitter e Reddit, passaram a ser pagas, fazendo com que as atualizações fossem interrompidas
- Como a área de processamento de linguagem natural está sendo dominada pela IA generativa, o autor afirma que não quer mais participar desse campo
- Como projetos com função semelhante, são recomendadas ferramentas alternativas como o Google Ngram Viewer
1 comentários
Comentários do Hacker News