Google Universal Speech Model - um modelo para reconhecimento de fala em todos os idiomas

xguru · 2023-03-31T10:02:02+09:00

Modelo com 2 bilhões de parâmetros, treinado com 12 milhões de horas de fala, 28 bilhões de frases e 300 idiomas Capaz de realizar reconhecimento de fala em tudo, de idiomas amplamente conhecidos até os falados por minorias Incluindo idiomas falados por menos de 20 milhões de pessoas, para os quais é difícil encontrar dados de treinamento Em avaliações com vídeos do YouTube, apresentou uma taxa de erro por palavra menor que a do Whisper (OpenAI)

(sites.research.google)

17 pontos por xguru 2023-03-31 | 1 comentários | Compartilhar no WhatsApp

Modelo com 2 bilhões de parâmetros, treinado com 12 milhões de horas de fala, 28 bilhões de frases e 300 idiomas
Capaz de realizar reconhecimento de fala em tudo, de idiomas amplamente conhecidos até os falados por minorias
- Incluindo idiomas falados por menos de 20 milhões de pessoas, para os quais é difícil encontrar dados de treinamento
Em avaliações com vídeos do YouTube, apresentou uma taxa de erro por palavra menor que a do Whisper (OpenAI)

1 comentários

xguru 2023-03-31

Whisper - sistema multilíngue de reconhecimento de fala (ASR) que a OpenAI lançou como open source
OpenAI anuncia o modelo Whisper v2

Embora digam que o desempenho é bom, eles só divulgaram o artigo e a API. Parece que o Whisper, lançado como open source, ainda tem melhor utilidade prática.

Google Universal Speech Model - um modelo para reconhecimento de fala em todos os idiomas

Leituras relacionadas

1 comentários