WhisperX - ASR baseado no Whisper com precisão de timestamps aprimorada

xguru · 2022-12-31T10:49:01+09:00

O OpenAI Whisper gera transcrições muito precisas, mas seus timestamps ficam no nível de enunciado (utterance), e não no nível de palavra, o que causa imprecisão de alguns segundos Usa ASR baseado em fonemas, como o wav2vec2.0, e alinhamento forçado (forced alignment) para melhorar os timestamps do modelo Whisper Os idiomas padrão disponíveis são {en, fr, de, es, it, ja, zh, nl}. Para idiomas adicionais, é preciso encontrá-los no Huggingface Model Hub e testá-los

(github.com/m-bain)

5 pontos por xguru 2022-12-31 | Ainda não há comentários. | Compartilhar no WhatsApp

O OpenAI Whisper gera transcrições muito precisas, mas seus timestamps ficam no nível de enunciado (utterance), e não no nível de palavra, o que causa imprecisão de alguns segundos
Usa ASR baseado em fonemas, como o wav2vec2.0, e alinhamento forçado (forced alignment) para melhorar os timestamps do modelo Whisper
Os idiomas padrão disponíveis são {en, fr, de, es, it, ja, zh, nl}. Para idiomas adicionais, é preciso encontrá-los no Huggingface Model Hub e testá-los

WhisperX - ASR baseado no Whisper com precisão de timestamps aprimorada

Leituras relacionadas

Ainda não há comentários.