wav2vec-U: reconhecimento de fala de alto desempenho sem necessidade de supervisão

(ai.facebook.com)

4 pontos por xguru 2021-05-24 | Ainda não há comentários. | Compartilhar no WhatsApp

→ desempenho semelhante ao de modelos supervisionados treinados com cerca de 1.000 horas de fala

→ testado em idiomas como suaíli e tártaro, que não têm muitos dados de voz transcritos

→ divide as gravações de voz em unidades de fala que correspondem de forma aproximada a cada som

→ cat contém três sons: /K/, /AE/, /T/

→ treinado com uma GAN composta por generator e discriminator

Leituras relacionadas