5 pontos por xguru 2019-12-06 | 7 comentários | Compartilhar no WhatsApp

Um banco de dados de voz open source que coleta e refina dados de vários idiomas para criar e disponibilizar tecnologia de reconhecimento de voz que qualquer pessoa possa usar.

O coreano ainda carece de muitos dados. Participe e vamos construir isso juntos.

A maioria dos conjuntos de dados de voz criados pelas empresas é difícil de usar externamente.

Por isso, dados criados de forma aberta são importantes. No caso do coreano, mais ainda.

7 comentários

 
sduck4 2019-12-06

Não consigo prosseguir porque não há coreano na parte de configurar a meta..

 
sduck4 2019-12-06

Então o dataset em coreano ainda não estava disponível porque ainda faltavam a localização do site de frases e um conjunto de frases suficiente.

 
sduck4 2019-12-06

Tradução do site para coreano: https://pontoon.mozilla.org/projects/common-voice/

Site de coleta de frases: https://common-voice.github.io/sentence-collector

Parece que, depois que a tradução do site for concluída e mais de 5.000 frases forem coletadas, será possível fazer a coleta e a validação de voz. Pedimos a ampla participação de todos os interessados.

 
xguru 2019-12-06

Eu postei exatamente o mesmo comentário e depois apaguei hahaha

https://discourse.mozilla.org/t/…

Está explicado assim aqui.

 
sduck4 2019-12-06

Ah.. sim haha, eu também fui tentar apagar, mas fiquei sem graça porque não tinha botão de excluir..

Tem alguns corpora em coreano relacionados a isso, mas não sei se pode subir por causa de questões de direitos autorais.

 
xguru 2019-12-06

Ah, para excluir um comentário, clique no link do horário ao lado do ID acima do comentário; aí será possível excluí-lo na página do comentário.

 
xguru 2019-12-06

Também existe o projeto Zeroth, que usa Kaldi, como open source de reconhecimento de fala em coreano já publicado.

(Pelo conteúdo no GitHub, parece que o modelo final é da versão de julho de 2018.)

https://github.com/goodatlas/zeroth