- Baseado no SenseVoice, um modelo multilíngue de compreensão de voz com recursos como reconhecimento automático de fala (ASR), identificação de idioma falado (LID), reconhecimento de emoções na fala (SER) e detecção de eventos de áudio (AED)
- Otimizado para inferência ultrarrápida e timestamps precisos, permitindo processar transcrições de áudio de forma mais inteligente e rápida
- Principais opções
--language: detectar/especificar automaticamente o idioma (auto, zh, en, yue, ja, ko)
--textnorm: escolher se aplica normalização inversa de texto (withitn para texto com normalização inversa, woitn para texto bruto)
--device-id: executar em uma GPU específica (padrão: -1 para CPU)
--quantize: usar um modelo quantizado para processamento mais rápido
1 comentários
Como há coreano nas opções, fiquei com vontade de testar haha