WhisperX - ASR baseado no Whisper com precisão de timestamps aprimorada
(github.com/m-bain)- O OpenAI Whisper gera transcrições muito precisas, mas seus timestamps ficam no nível de enunciado (utterance), e não no nível de palavra, o que causa imprecisão de alguns segundos
- Usa ASR baseado em fonemas, como o wav2vec2.0, e alinhamento forçado (forced alignment) para melhorar os timestamps do modelo Whisper
- Os idiomas padrão disponíveis são {en, fr, de, es, it, ja, zh, nl}. Para idiomas adicionais, é preciso encontrá-los no Huggingface Model Hub e testá-los
Ainda não há comentários.