Mozilla Common Voice, plataforma de datasets de voz baseada em comunidade

(commonvoice.mozilla.org)

1 pontos por GN⁺ 2023-12-08 | 1 comentários | Compartilhar no WhatsApp

O Mozilla Common Voice é uma plataforma gratuita e de código aberto em que a comunidade cria e compartilha diretamente datasets de texto e voz, permitindo que tecnologias de fala sejam usadas em mais idiomas
Os colaboradores podem participar dos dados de Scripted Speech, Spontaneous Speech e Language Text por meio de leitura de frases, validação de narrações, resposta a perguntas, transcrição de voz e adição de texto
A plataforma oferece suporte a comunidades de mais de 290 idiomas, e os datasets públicos de voz estão disponíveis em mais de 130 idiomas
Os datasets podem ser usados para ASR, STT, TTS e outros usos de NLP, e novos lançamentos podem ser baixados no Mozilla Data Collective
Membros do Mozilla Data Collective podem acessar mais de 500 datasets globais criados e usados pela comunidade, tornando-o o novo centro para obtenção e compartilhamento de dados linguísticos

O que o Common Voice busca resolver

Mozilla Common Voice é uma plataforma de criação de dados liderada pela comunidade
Qualquer pessoa pode compartilhar, criar e fazer a curadoria de datasets de texto e voz para preservar, revitalizar e expandir seu próprio idioma
O objetivo é que a IA não funcione apenas em alguns idiomas, permitindo que as próprias pessoas criem os datasets linguísticos de que precisam
O Common Voice é operado por comunidades do mundo todo e está se expandindo para mais de 290 idiomas

Formas de contribuir e uso dos datasets

Scripted Speech
- Usuários podem contribuir com a voz do seu idioma para um dataset público e participativo por meio da leitura de frases
- Outros usuários podem validar as narrações em Validate Readings
Spontaneous Speech
- Usuários respondem a prompts para criar datasets em um contexto natural e coloquial
- Isso pode ser usado de forma adequada para idiomas com prioridade em voz
- É possível participar do trabalho de transcrição com Transcribe answers e recursos de revisão
Language Text
- É possível criar ou compartilhar prompts, frases e textos de domínio público
- Pode ser usado para tradução, pequenos modelos de linguagem e outros fins
- Novos lançamentos são oferecidos no Mozilla Data Collective, e, ao se cadastrar, é possível acessar mais de 500 datasets globais
- Em Explore datasets, é possível conferir datasets públicos de voz em mais de 130 idiomas usados em contextos de ASR, STT, TTS e outros de NLP
- Os parceiros se dividem em sociedade civil e pesquisadores, empresas de tecnologia e organizações filantrópicas
- Sociedade civil e pesquisadores podem criar, hospedar e compartilhar gratuitamente datasets de alto impacto
- Empresas de tecnologia podem investir na criação de datasets abertos para um ecossistema multilíngue de IA
- Organizações filantrópicas podem apoiar a criação de datasets para inovação e desenvolvimento regionais

1 comentários

GN⁺ 2023-12-08

Opiniões no Hacker News

O TTS do Firefox é um projeto importante para quem precisa de um sistema simples de conversão de texto em fala
Como ele é integrado ao navegador, basta executar window.speechSynthesis e SpeechSynthesisUtterance no console para ouvir imediatamente vários exemplos de vozes
Dependendo do navegador, ele pode funcionar offline ou usar TTS baseado em nuvem
- No macOS, dá para fazer isso com say "enter text here"; para escolher outra voz, use say -v Fred "enter text here", e a lista de vozes pode ser vista com say -v "?"
  As aspas são necessárias para que ? não seja interpretado como glob pelo ZSH
  Embora se diga que o TTS do Firefox é importante, eu nem sabia que ele existia até este comentário, e esse tipo de recurso deveria ser mais fácil de descobrir e ter uma API mais acessível
- speechSynthesis parece ser compatível não só com o Firefox, mas com os principais navegadores em geral: https://developer.mozilla.org/en-US/docs/Web/API/Window/spee...
- Usei o Common Voice alguns dias atrás, e gostei dos exemplos de páginas de comunidade para pessoas que querem ajudar um idioma específico
  Eu já vinha pensando que o Firefox está muito rápido e vale a pena voltar a usá-lo; se você acha importante haver um navegador independente que valorize privacidade, segurança e independência, mesmo quem troca de navegador sem muito compromisso deveria experimentar o Firefox
  Fiquei satisfeito por poder voltar a usar algumas extensões do Firefox que não funcionavam da mesma forma em navegadores baseados no Chrome
- Ao depurar, para mensagens importantes que não posso deixar passar, além de enviá-las para stderr, já fiz com que fossem lidas pelas vozes TTS gratuitas do Windows via PowerShell ou chamadas por WebSocket no Chrome, e foi bem divertido
  É bom ter mais vozes para escolher
- Fico curioso se isso já foi separado como uma biblioteca independente
  O estado do TTS open source não parece muito bom, e os dados necessários para uma única voz parecem mais difíceis de preparar do que para treinar um sistema de reconhecimento de fala como o Whisper
Common Voice Android também é recomendável: https://github.com/Sav22999/common-voice-android
É um app conveniente para quem quer contribuir com o projeto, permitindo gravar voz nos idiomas que a pessoa fala ou validar contribuições de outros usuários
Contribuí bastante há uns dois anos, e o design era muito mais fácil de usar do que o site oficial
Também há um canal oficial do Common Voice no Matrix: https://chat.mozilla.org/#/room/#common-voice:mozilla.org
Vendo as tecnologias recentes de IA e deepfakes, eu precisaria de algum tipo de garantia antes de “doar minha voz” a um lugar desses
Este projeto parece ser para reconhecimento de fala, não para geração de voz, mas isso não fica claro à primeira vista
- Não sei se “garantia” é exatamente a palavra certa, mas no entorno de aprendizado de máquina e modelos generativos a atitude de respeito à propriedade das pessoas parece bastante frouxa, então a expressão “doe sua voz” me incomodou
  A Mozilla provavelmente seria a organização adequada, mas seu principal produto está em declínio, e não sei o que aconteceria com esses dados se a organização desaparecesse
  Organizações em declínio tendem a ser vendidas em pedaços, e esses dados podem se tornar propriedade intelectual de interesse para muitas empresas com objetivos muito menos nobres
- Fico curioso sobre que tipo de garantia você gostaria de ver
Esses datasets crowdsourced e os datasets criados pelo projeto OpenAssistant podem acabar sendo praticamente a única forma de criar modelos de base se os tribunais decidirem que as ações de empresas como a OpenAI não constituem uso justo
Não acho esse cenário particularmente improvável
Este dataset é várias ordens de grandeza menor do que os dados usados para treinar modelos recentes de fala como Whisper ou Seamless, e é voltado para aprendizado supervisionado, não para aprendizado autossupervisionado com dados mais abundantes, mas ainda pode ser útil
Pode ser usado para ajustar modelos existentes a fim de obter pontuações melhores em determinados idiomas
Acho que a Mozilla já teve algum software de reconhecimento de fala relacionado no passado e depois o descontinuou ou transferiu para outra empresa
- Você está falando do DeepSpeech? https://github.com/mozilla/DeepSpeech
- Isto é um dataset público de amostras de voz para treinar modelos, então, estritamente falando, não é software de reconhecimento de fala nem de TTS
Impressionante
Uma das coisas que eu esperava da OpenAI era que ela se tornasse uma organização realmente aberta
Eu esperava datasets abertos, código aberto, modelos abertos e avaliações abertas, mas agora ela virou uma marionete da Microsoft movida por metas de lucro corporativo
Projetos como este e a HuggingFace são bons de ver, e espero que a HuggingFace não seja adquirida pela Microsoft como o GitHub
Então não entendo por que o text2speech do modo leitura no Firefox para Linux é tão ruim
O modo leitura em si é excelente, mas a qualidade da voz é muito pior que a conversão de texto em fala de Stephen Hawking
Posts relacionados no HN:
Mozilla Common Voice Adds 16 New Languages and 4,600 New Hours of Speech - https://news.ycombinator.com/item?id=28073016 - agosto de 2021, 170 comentários
Firefox Voice - https://news.ycombinator.com/item?id=24096082 - agosto de 2020, 154 comentários
Firefox Voice: Browse the web with your voice - https://news.ycombinator.com/item?id=23902560 - julho de 2020, 2 comentários
Mozilla Common Voice Dataset: More data, more languages - https://news.ycombinator.com/item?id=23695377 - junho de 2020, 41 comentários
The Common Voice Project by Mozilla reached its first goal: 1k hours in englisch - https://news.ycombinator.com/item?id=23051756 - maio de 2020, 1 comentário
Common Voice: A Massively-Multilingual Speech Corpus - https://news.ycombinator.com/item?id=21887693 - dezembro de 2019, 9 comentários
Common Voice – Mozilla's initiative to help teach machines how real people speak - https://news.ycombinator.com/item?id=21268579 - outubro de 2019, 49 comentários
Mozilla releases the largest to-date public domain transcribed voice dataset - https://news.ycombinator.com/item?id=19270646 - fevereiro de 2019, 61 comentários
Mozilla Overhauls Speech-To-Text Contribution Interface - https://news.ycombinator.com/item?id=17436958 - julho de 2018, 42 comentários
Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Data - https://news.ycombinator.com/item?id=15808124 - novembro de 2017, 88 comentários
Project Common Voice - https://news.ycombinator.com/item?id=14794654 - julho de 2017, 57 comentários
Mozilla: Project Common Voice - https://news.ycombinator.com/item?id=14786881 - julho de 2017, 1 comentário
Fico curioso para saber quantas pessoas têm uma voz diferente em conversas do dia a dia e ao ler em voz alta
Se boa parte dos dados de treinamento for som de “leitura de roteiro”, será que modelos conversacionais também conseguem ser treinados corretamente?
- Quando a equipe do Mozilla Common Voice pediu feedback antes de começar, levantei esse problema e sugeri outra abordagem para coletar dados de voz conversacional, mas ela não foi adotada
  Parece bastante difundida a crença de que muitos dados, ainda que ruins, são melhores do que poucos dados adequados ao problema que se quer resolver de fato

Mozilla Common Voice, plataforma de datasets de voz baseada em comunidade

O que o Common Voice busca resolver

Formas de contribuir e uso dos datasets

Scripted Speech

Spontaneous Speech

Language Text

Leituras relacionadas

1 comentários

Opiniões no Hacker News