Mozilla Common Voice
(voice.mozilla.org)Um banco de dados de voz open source que coleta e refina dados de vários idiomas para criar e disponibilizar tecnologia de reconhecimento de voz que qualquer pessoa possa usar.
O coreano ainda carece de muitos dados. Participe e vamos construir isso juntos.
A maioria dos conjuntos de dados de voz criados pelas empresas é difícil de usar externamente.
Por isso, dados criados de forma aberta são importantes. No caso do coreano, mais ainda.
7 comentários
Não consigo prosseguir porque não há coreano na parte de configurar a meta..
Então o dataset em coreano ainda não estava disponível porque ainda faltavam a localização do site de frases e um conjunto de frases suficiente.
Tradução do site para coreano: https://pontoon.mozilla.org/projects/common-voice/
Site de coleta de frases: https://common-voice.github.io/sentence-collector
Parece que, depois que a tradução do site for concluída e mais de 5.000 frases forem coletadas, será possível fazer a coleta e a validação de voz. Pedimos a ampla participação de todos os interessados.
Eu postei exatamente o mesmo comentário e depois apaguei hahaha
https://discourse.mozilla.org/t/…
Está explicado assim aqui.
Ah.. sim haha, eu também fui tentar apagar, mas fiquei sem graça porque não tinha botão de excluir..
Tem alguns corpora em coreano relacionados a isso, mas não sei se pode subir por causa de questões de direitos autorais.
Ah, para excluir um comentário, clique no link do horário ao lado do ID acima do comentário; aí será possível excluí-lo na página do comentário.
Também existe o projeto Zeroth, que usa Kaldi, como open source de reconhecimento de fala em coreano já publicado.
(Pelo conteúdo no GitHub, parece que o modelo final é da versão de julho de 2018.)
https://github.com/goodatlas/zeroth