1 pontos por GN⁺ 2023-12-08 | 1 comentários | Compartilhar no WhatsApp

Introdução ao projeto Mozilla Common Voice

  • O Mozilla Common Voice é um projeto para ajudar máquinas a aprender como as pessoas reais falam.
  • Para tornar a tecnologia de voz viável, os desenvolvedores precisam de uma enorme quantidade de dados de voz.
  • A maior parte desses dados é usada por grandes empresas e não é acessível à maioria das pessoas, o que, na visão do projeto, dificulta a inovação.

Status do registro e da validação de dados de voz

  • Até o momento, 29.000 horas de voz foram gravadas, das quais 18.000 horas foram validadas.

Suporte a diversos idiomas

  • O projeto Common Voice oferece suporte a vários idiomas ao redor do mundo, e os usuários podem contribuir em seu próprio idioma.

Apoio à construção de conjuntos de dados públicos de alta qualidade

  • É possível contribuir sem criar um perfil, mas também é possível enriquecer os dados enviados fornecendo dados demográficos anônimos.
  • As informações de perfil melhoram a qualidade dos dados de áudio usados para treinar a precisão do reconhecimento de fala.
  • Os usuários podem acompanhar seu progresso e métricas em vários idiomas.
  • É possível comparar seu progresso com o de outros colaboradores ao redor do mundo.
  • É possível verificar o progresso em relação a metas pessoais e do projeto.
  • Se desejar, a pessoa pode optar por entrar na lista de e-mails para receber atualizações do projeto e novas informações.

Opinião do GN⁺

O ponto mais importante deste artigo é que a Mozilla lançou o projeto Common Voice para fornecer os grandes volumes de dados de voz necessários aos desenvolvedores que desejam criar tecnologias de reconhecimento de fala. O projeto mostra o esforço da Mozilla para promover a inovação tecnológica e, ao oferecer suporte a diversos idiomas no mundo todo, cria oportunidades para que muitas pessoas contribuam para o avanço da tecnologia. Isso reflete a filosofia da Mozilla de buscar a democratização da tecnologia e deve se tornar uma iniciativa interessante e atraente para muita gente.

1 comentários

 
GN⁺ 2023-12-08
Comentários no Hacker News
    • O TTS do FF é um projeto importante para quem quer um sistema de conversão de texto em fala fácil de usar. Como ele vem embutido no navegador, é possível ouvir vários exemplos de TTS executando um código simples no console. Alguns navegadores permitem isso offline, enquanto outros usam sistemas de TTS baseados em nuvem.
    • O Common Voice Android é um app útil para quem quer contribuir com o projeto. Os usuários podem gravar suas vozes no idioma que falam e validar as contribuições de outros usuários. Ele tem um design mais amigável do que a versão oficial do site.
    • Um conjunto de dados obtido por crowdsourcing pode acabar sendo a única forma de construir modelos de base caso os tribunais decidam que a conduta de empresas como a OpenAI não se enquadra em uso justo. Não considero baixa a chance de esse cenário acontecer.
    • Este conjunto de dados é muito menor do que aqueles com os quais os modelos de voz recentes foram treinados, mas ele é voltado para aprendizado supervisionado, e não para auto-supervisão, e ainda é útil para ajuste fino a fim de melhorar o desempenho do modelo em idiomas específicos.
    • Considerando os incidentes recentes envolvendo IA e tecnologia de deepfake, que tipo de garantia seria necessária antes de concordar em “doar minha voz” para um projeto como este? Não está claro se o projeto é para reconhecimento de fala ou para geração.
    • Fico me perguntando se a Mozilla já cancelou ou transferiu para outra empresa algum software relacionado de fala para texto. Ou será que estou pensando em outra coisa?
    • Por que o recurso de texto em fala do modo leitor no Firefox para Linux é tão ruim? É muito pior do que o sistema de texto em fala do Stephen Hawking.
    • Eu esperava que a OpenAI fosse realmente aberta, mas agora ela virou um fantoche da Microsoft em busca de objetivos de lucro corporativo. Projetos como este e o HuggingFace são bons de ver, e espero que o HuggingFace não seja adquirido pela Microsoft como aconteceu com o GitHub.
    • Quantas pessoas aqui têm uma “voz de leitura” diferente da voz normal de conversa? Se a maior parte dos dados de treinamento soar “como um roteiro”, dá para treinar um modelo conversacional?
    • Foram fornecidos links de notícias relacionadas, com informações sobre o andamento do projeto Mozilla Common Voice e a expansão do conjunto de dados de voz.