Google Universal Speech Model - um modelo para reconhecimento de fala em todos os idiomas
(sites.research.google)- Modelo com 2 bilhões de parâmetros, treinado com 12 milhões de horas de fala, 28 bilhões de frases e 300 idiomas
- Capaz de realizar reconhecimento de fala em tudo, de idiomas amplamente conhecidos até os falados por minorias
- Incluindo idiomas falados por menos de 20 milhões de pessoas, para os quais é difícil encontrar dados de treinamento
- Em avaliações com vídeos do YouTube, apresentou uma taxa de erro por palavra menor que a do Whisper (OpenAI)
1 comentários
Whisper - sistema multilíngue de reconhecimento de fala (ASR) que a OpenAI lançou como open source
OpenAI anuncia o modelo Whisper v2
Embora digam que o desempenho é bom, eles só divulgaram o artigo e a API. Parece que o Whisper, lançado como open source, ainda tem melhor utilidade prática.