- Suporte a 30 idiomas, incluindo coreano; é possível sintetizar imediatamente inserindo apenas o texto, sem precisar especificar tags de idioma
- Mesmo sem amostras de locutor, basta colocar antes do texto uma descrição em linguagem natural como
(Young female voice, warm and gentle) (gênero, idade, tom, emoção, velocidade) para gerar imediatamente o personagem de voz desejado
- Sistema de TTS baseado em diffusion autoregressive que gera diretamente representações contínuas de fala sem passar por tokenização discreta; o modelo de 2B parâmetros foi treinado com mais de 2 milhões de horas de dados multilíngues
- Suporte a Controllable Voice Cloning, que permite clonar o timbre a partir de um clipe curto de referência enquanto ajusta separadamente emoção, velocidade e estilo
(slightly faster, cheerful tone)
- Modo Ultimate Cloning, que reproduz completamente timbre, ritmo, emoção e estilo quando áudio de referência + transcrição são fornecidos juntos, sem necessidade de pós-processamento separado
- Mesmo com entrada de referência em 16kHz, gera diretamente saída em 48kHz com qualidade de estúdio usando AudioVAE V2 com codificação/decodificação assimétrica. Não é necessário configurar upsampler externo nem pipeline de pós-processamento
- Com RTX 4090, RTF (Real-Time Factor) de cerca de 0,3 e cerca de 0,13 com aceleração Nano-vLLM, podendo ser usado em streaming em tempo real
- Funciona com cerca de 8GB de VRAM, então pode ser operado também em GPUs da faixa RTX 3070~4060
- No Seed-TTS-eval, está entre os melhores modelos open source em similaridade de locutor (SIM), com taxa média de erro de 1,68% no benchmark interno de ASR para 30 idiomas
- Com apenas 5 a 10 minutos de áudio, é possível adaptar a um locutor ou domínio específico com fine-tuning LoRA, e também há suporte a treinamento e inferência via WebUI com
lora_ft_webui.py
- Baseado no backbone MiniCPM-4, composto por um pipeline de 4 etapas: LocEnc → TSLM → RALM → LocDiT
- Há várias opções de inferência mesmo sem GPU, como inferência em CPU com GGML/GGUF (VoxCPM.cpp), conversão para ONNX, backend Apple Neural Engine, reimplementação em Rust, nós para ComfyUI etc.
- Licença Apache-2.0, sem restrições para uso comercial, implementação em Python
2 comentários
Também consegui usar até em uma 3060, e a qualidade foi excelente.
Ah, então era daí que eu conhecia a OpenBMB — foi o lugar que criou o modelo MiniCPM-o.
O modelo MiniCPM-o é um modelo omni, como o GPT 4o, e o desempenho dele era bem bom.
Dá uma olhada no vídeo de demonstração do MiniCPM-o,
Foi um modelo com o qual fiquei bastante satisfeito, então também estou animado com esse novo modelo de clonagem de voz.