VoxCPM2 - síntese de voz open source multilíngue com clonagem de voz semelhante à fala real

(github.com/OpenBMB)

43 pontos por xguru 15 일 전 | 2 comentários | Compartilhar no WhatsApp

Suporte a 30 idiomas, incluindo coreano; é possível sintetizar imediatamente inserindo apenas o texto, sem precisar especificar tags de idioma
Mesmo sem amostras de locutor, basta colocar antes do texto uma descrição em linguagem natural como (Young female voice, warm and gentle) (gênero, idade, tom, emoção, velocidade) para gerar imediatamente o personagem de voz desejado
Sistema de TTS baseado em diffusion autoregressive que gera diretamente representações contínuas de fala sem passar por tokenização discreta; o modelo de 2B parâmetros foi treinado com mais de 2 milhões de horas de dados multilíngues
Suporte a Controllable Voice Cloning, que permite clonar o timbre a partir de um clipe curto de referência enquanto ajusta separadamente emoção, velocidade e estilo (slightly faster, cheerful tone)
Modo Ultimate Cloning, que reproduz completamente timbre, ritmo, emoção e estilo quando áudio de referência + transcrição são fornecidos juntos, sem necessidade de pós-processamento separado
Mesmo com entrada de referência em 16kHz, gera diretamente saída em 48kHz com qualidade de estúdio usando AudioVAE V2 com codificação/decodificação assimétrica. Não é necessário configurar upsampler externo nem pipeline de pós-processamento
Com RTX 4090, RTF (Real-Time Factor) de cerca de 0,3 e cerca de 0,13 com aceleração Nano-vLLM, podendo ser usado em streaming em tempo real
Funciona com cerca de 8GB de VRAM, então pode ser operado também em GPUs da faixa RTX 3070~4060
No Seed-TTS-eval, está entre os melhores modelos open source em similaridade de locutor (SIM), com taxa média de erro de 1,68% no benchmark interno de ASR para 30 idiomas
Com apenas 5 a 10 minutos de áudio, é possível adaptar a um locutor ou domínio específico com fine-tuning LoRA, e também há suporte a treinamento e inferência via WebUI com lora_ft_webui.py
Baseado no backbone MiniCPM-4, composto por um pipeline de 4 etapas: LocEnc → TSLM → RALM → LocDiT
Há várias opções de inferência mesmo sem GPU, como inferência em CPU com GGML/GGUF (VoxCPM.cpp), conversão para ONNX, backend Apple Neural Engine, reimplementação em Rust, nós para ComfyUI etc.
Licença Apache-2.0, sem restrições para uso comercial, implementação em Python

2 comentários

cr543l 14 일 전

Também consegui usar até em uma 3060, e a qualidade foi excelente.

crawler 14 일 전

Ah, então era daí que eu conhecia a OpenBMB — foi o lugar que criou o modelo MiniCPM-o.
O modelo MiniCPM-o é um modelo omni, como o GPT 4o, e o desempenho dele era bem bom.

Dá uma olhada no vídeo de demonstração do MiniCPM-o,

Foi um modelo com o qual fiquei bastante satisfeito, então também estou animado com esse novo modelo de clonagem de voz.

VoxCPM2 - síntese de voz open source multilíngue com clonagem de voz semelhante à fala real

Leituras relacionadas

2 comentários