MimikaStudio - clonagem de voz e TTS open source para Mac

xguru · 2026-03-19T09:31:02+09:00

Integra recursos de clonagem de voz, conversão de texto em fala, leitura em voz alta de documentos e criação de audiolivros Implementa desempenho nativo no macOS com aceleração Metal baseada em MLX (suporte ao Windows previsto) Integra os mecanismos Qwen3-TTS e Chatterbox, capazes de fazer clonagem de voz com amostra de 3 segundos Suporta clonagem de voz multilíngue (23 idiomas, incluindo português) e expressão emocional Inclui modelos recentes de síntese de voz como Kokoro TTS, Supertonic-2 e CosyVoice3 ONNX Recurso de leitor para leitura de documentos em voz alta: suporta leitura por sentença de arquivos PDF, DOCX, EPUB, Markdown e TXT Gerador de audiolivros: converte documentos inteiros para os formatos WAV/MP3/M4B. Gerenciamento de fila por capítulo, rastreamento de progresso e reutilização de predefinições de voz Funciona como Agentic Voice Cloning Server e oferece processamento paralelo por meio de orquestração avançada de filas de tarefas Fornece UI, API e CLI, permitindo automação local e integração externa, além de incluir servidor MCP Há uma biblioteca de vozes compartilhada, permitindo reutilizar em todos os mecanismos as vozes enviadas Gerenciador de modelos integrado: permite baixar modelos do HuggingFace e verificar seu status Suporta integração com múltiplos LLMs (Claude, OpenAI, Ollama etc.) Base de código com cerca de 18.600 linhas, composta por backend FastAPI e UI desktop em Flutter Aproximadamente 8.500 linhas no backend Python e 10.100 linhas na UI Dart Fornece binário exclusivo para macOS; no Windows/Linux há apenas compatibilidade de código (builds previstas para o futuro) Código-fonte publicado com base na Business Source License 1.1 (BSL-1.1), enquanto os binários seguem uma licença de distribuição separada

(github.com/BoltzmannEntropy)

42 pontos por xguru 2026-03-19 | 2 comentários | Compartilhar no WhatsApp

Integra recursos de clonagem de voz, conversão de texto em fala, leitura em voz alta de documentos e criação de audiolivros
Implementa desempenho nativo no macOS com aceleração Metal baseada em MLX (suporte ao Windows previsto)
Integra os mecanismos Qwen3-TTS e Chatterbox, capazes de fazer clonagem de voz com amostra de 3 segundos
- Suporta clonagem de voz multilíngue (23 idiomas, incluindo português) e expressão emocional
Inclui modelos recentes de síntese de voz como Kokoro TTS, Supertonic-2 e CosyVoice3 ONNX
Recurso de leitor para leitura de documentos em voz alta: suporta leitura por sentença de arquivos PDF, DOCX, EPUB, Markdown e TXT
Gerador de audiolivros: converte documentos inteiros para os formatos WAV/MP3/M4B. Gerenciamento de fila por capítulo, rastreamento de progresso e reutilização de predefinições de voz
Funciona como Agentic Voice Cloning Server e oferece processamento paralelo por meio de orquestração avançada de filas de tarefas
Fornece UI, API e CLI, permitindo automação local e integração externa, além de incluir servidor MCP
Há uma biblioteca de vozes compartilhada, permitindo reutilizar em todos os mecanismos as vozes enviadas
Gerenciador de modelos integrado: permite baixar modelos do HuggingFace e verificar seu status
Suporta integração com múltiplos LLMs (Claude, OpenAI, Ollama etc.)
Base de código com cerca de 18.600 linhas, composta por backend FastAPI e UI desktop em Flutter
- Aproximadamente 8.500 linhas no backend Python e 10.100 linhas na UI Dart
Fornece binário exclusivo para macOS; no Windows/Linux há apenas compatibilidade de código (builds previstas para o futuro)
Código-fonte publicado com base na Business Source License 1.1 (BSL-1.1), enquanto os binários seguem uma licença de distribuição separada

2 comentários

neocode24 2026-03-19

É a versão com GUI do mlx-audio? A qualidade certamente está muito boa.

jhk0530 2026-03-19

Usei e é incrível mesmo, de verdade.

MimikaStudio - clonagem de voz e TTS open source para Mac

Leituras relacionadas

2 comentários