13 pontos por xguru 2024-11-10 | 1 comentários | Compartilhar no WhatsApp
  • Baseado no SenseVoice, um modelo multilíngue de compreensão de voz com recursos como reconhecimento automático de fala (ASR), identificação de idioma falado (LID), reconhecimento de emoções na fala (SER) e detecção de eventos de áudio (AED)
  • Otimizado para inferência ultrarrápida e timestamps precisos, permitindo processar transcrições de áudio de forma mais inteligente e rápida
  • Principais opções
    • --language: detectar/especificar automaticamente o idioma (auto, zh, en, yue, ja, ko)
    • --textnorm: escolher se aplica normalização inversa de texto (withitn para texto com normalização inversa, woitn para texto bruto)
    • --device-id: executar em uma GPU específica (padrão: -1 para CPU)
    • --quantize: usar um modelo quantizado para processamento mais rápido

1 comentários

 
yangeok 2024-11-12

Como há coreano nas opções, fiquei com vontade de testar haha