- Integra recursos de clonagem de voz, conversão de texto em fala, leitura em voz alta de documentos e criação de audiolivros
- Implementa desempenho nativo no macOS com aceleração Metal baseada em MLX (suporte ao Windows previsto)
- Integra os mecanismos Qwen3-TTS e Chatterbox, capazes de fazer clonagem de voz com amostra de 3 segundos
- Suporta clonagem de voz multilíngue (23 idiomas, incluindo português) e expressão emocional
- Inclui modelos recentes de síntese de voz como Kokoro TTS, Supertonic-2 e CosyVoice3 ONNX
- Recurso de leitor para leitura de documentos em voz alta: suporta leitura por sentença de arquivos PDF, DOCX, EPUB, Markdown e TXT
- Gerador de audiolivros: converte documentos inteiros para os formatos WAV/MP3/M4B. Gerenciamento de fila por capítulo, rastreamento de progresso e reutilização de predefinições de voz
- Funciona como Agentic Voice Cloning Server e oferece processamento paralelo por meio de orquestração avançada de filas de tarefas
- Fornece UI, API e CLI, permitindo automação local e integração externa, além de incluir servidor MCP
- Há uma biblioteca de vozes compartilhada, permitindo reutilizar em todos os mecanismos as vozes enviadas
- Gerenciador de modelos integrado: permite baixar modelos do HuggingFace e verificar seu status
- Suporta integração com múltiplos LLMs (Claude, OpenAI, Ollama etc.)
- Base de código com cerca de 18.600 linhas, composta por backend FastAPI e UI desktop em Flutter
- Aproximadamente 8.500 linhas no backend Python e 10.100 linhas na UI Dart
- Fornece binário exclusivo para macOS; no Windows/Linux há apenas compatibilidade de código (builds previstas para o futuro)
- Código-fonte publicado com base na Business Source License 1.1 (BSL-1.1), enquanto os binários seguem uma licença de distribuição separada
2 comentários
É a versão com GUI do mlx-audio? A qualidade certamente está muito boa.
Usei e é incrível mesmo, de verdade.