wav2vec-U: reconhecimento de fala de alto desempenho sem necessidade de supervisão
(ai.facebook.com)-
Framework de reconhecimento de fala criado pela equipe de IA do Facebook
-
Suporta reconhecimento em vários idiomas sem dados de voz transcritos
→ desempenho semelhante ao de modelos supervisionados treinados com cerca de 1.000 horas de fala
→ testado em idiomas como suaíli e tártaro, que não têm muitos dados de voz transcritos
- Método que aprende a estrutura de áudio não rotulado
→ divide as gravações de voz em unidades de fala que correspondem de forma aproximada a cada som
→ cat contém três sons: /K/, /AE/, /T/
→ treinado com uma GAN composta por generator e discriminator
- Código e artigo publicados
Ainda não há comentários.