Omni SenseVoice - reconhecimento de fala rápido com timestamps por palavra

xguru · 2024-11-10T09:31:01+09:00

Baseado no SenseVoice, um modelo multilíngue de compreensão de voz com recursos como reconhecimento automático de fala (ASR), identificação de idioma falado (LID), reconhecimento de emoções na fala (SER) e detecção de eventos de áudio (AED) Otimizado para inferência ultrarrápida e timestamps precisos, permitindo processar transcrições de áudio de forma mais inteligente e rápida Principais opções --language: detectar/especificar automaticamente o idioma (auto, zh, en, yue, ja, ko) --textnorm: escolher se aplica normalização inversa de texto (withitn para texto com normalização inversa, woitn para texto bruto) --device-id: executar em uma GPU específica (padrão: -1 para CPU) --quantize: usar um modelo quantizado para processamento mais rápido

(github.com/lifeiteng)

13 pontos por xguru 2024-11-10 | 1 comentários | Compartilhar no WhatsApp

Baseado no SenseVoice, um modelo multilíngue de compreensão de voz com recursos como reconhecimento automático de fala (ASR), identificação de idioma falado (LID), reconhecimento de emoções na fala (SER) e detecção de eventos de áudio (AED)
Otimizado para inferência ultrarrápida e timestamps precisos, permitindo processar transcrições de áudio de forma mais inteligente e rápida
Principais opções
- --language: detectar/especificar automaticamente o idioma (auto, zh, en, yue, ja, ko)
- --textnorm: escolher se aplica normalização inversa de texto (withitn para texto com normalização inversa, woitn para texto bruto)
- --device-id: executar em uma GPU específica (padrão: -1 para CPU)
- --quantize: usar um modelo quantizado para processamento mais rápido

1 comentários

yangeok 2024-11-12

Como há coreano nas opções, fiquei com vontade de testar haha

Omni SenseVoice - reconhecimento de fala rápido com timestamps por palavra

Leituras relacionadas

1 comentários