5 pontos por xguru 2022-12-31 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O OpenAI Whisper gera transcrições muito precisas, mas seus timestamps ficam no nível de enunciado (utterance), e não no nível de palavra, o que causa imprecisão de alguns segundos
  • Usa ASR baseado em fonemas, como o wav2vec2.0, e alinhamento forçado (forced alignment) para melhorar os timestamps do modelo Whisper
  • Os idiomas padrão disponíveis são {en, fr, de, es, it, ja, zh, nl}. Para idiomas adicionais, é preciso encontrá-los no Huggingface Model Hub e testá-los

Ainda não há comentários.

Ainda não há comentários.