- Abogen é uma ferramenta open source que converte facilmente arquivos ePub, PDF e texto em audiolivros de alta qualidade
- Durante a conversão, também gera automaticamente legendas sincronizadas (subtitles) com a voz
- Oferece vários recursos, como mistura de vozes personalizadas, formatos de codificação, divisão por capítulos e processamento em lote (modo fila)
- Usa o mais recente motor de síntese de voz Kokoro-82M, oferecendo qualidade natural de TTS e suporte multilíngue
- Em comparação com outros projetos, traz vantagens como GUI intuitiva, gerenciamento de pastas por projeto e processamento automático de metadados
Visão geral e importância do Abogen
- Abogen é uma ferramenta open source de conversão de texto em fala (TTS) que transforma rapidamente arquivos de texto (ePub, PDF, .txt etc.) em audiolivros naturais
- Oferece um conjunto rico de recursos, incluindo interface intuitiva, processamento em lote de múltiplos arquivos, mistura de vozes personalizada, vários formatos de saída, gerenciamento de capítulos e suporte a metadados
- Diferentemente de outros projetos open source, permite obter com facilidade áudio de alta qualidade (especialmente TTS baseado em Kokoro-82M) e legendas com operação simples
- O processo inicial de instalação e a configuração complexa do ambiente Python são automatizados, permitindo que até desenvolvedores iniciantes utilizem a ferramenta com facilidade
- Em especial, processamento de capítulos e metadados por projeto, ambiente GUI e recursos de voz personalizada são avaliados como diferenciais competitivos
Resumo dos principais recursos
- Conversão de texto em fala (TTS) que transforma arquivos ePub, PDF e texto em áudio em poucos segundos
- Geração automática de legendas sincronizadas (subtitles), com suporte a áudio e legendas perfeitamente alinhados
- Uso do Voice Mixer para combinar vários modelos de voz e criar seu próprio perfil de voz
- O recurso de modo fila permite processamento em lote de vários arquivos, mantendo configurações individuais para cada um
- Geração automática de marcadores de capítulo/metadados e gerenciamento de pastas de projeto
- Diversos formatos de saída: suporte a WAV, FLAC, MP3, OPUS, M4B e mais; legendas também podem ser geradas em SRT/ASS etc.
- Principais idiomas suportados: inglês americano/britânico, espanhol, francês, hindi, italiano, japonês, português, chinês etc.
- Oferece pronúncia natural e alta qualidade com base no motor TTS Kokoro-82M
- Suporta tanto GUI quanto linha de comando, além de uso em contêiner Docker
Detalhamento dos recursos do Abogen
#Início e contexto da instalação
- Ferramentas TTS existentes têm muitas limitações em instalação, configuração de ambiente, qualidade, personalização e processamento de múltiplos arquivos
- O Abogen foi criado para permitir que até iniciantes acessem facilmente recursos avançados, como conversão de texto em áudio, geração de legendas e mistura de vozes, por meio de uma interface simples, mas poderosa
- Pode ser usado em vários sistemas operacionais (Windows, Linux, macOS) e oferece configuração automática de ambiente embutido/instalado sem exigir instalação prévia do Python
#Principais formas de uso
- É possível arrastar e soltar arquivos ePub, PDF ou texto, ou usar o editor embutido
- Configurações: é possível selecionar em detalhes velocidade de leitura, voz (modelo, gênero, idioma), estilo de legenda (por frase, por palavra), formatos de saída de áudio e legendas, caminho de saída etc.
- Basta clicar no botão para iniciar a conversão e gerar o resultado imediatamente
#Demonstração prática
- Mesmo em GPU de baixo desempenho, é possível gerar um áudio de 3 minutos e 28 segundos a partir de um texto com cerca de 3.000 caracteres em apenas 11 segundos
- A velocidade de processamento varia conforme as especificações do hardware
#Opções de configuração
- Métodos de entrada: arrastar e soltar, editor embutido e gerenciamento de fila para processar vários arquivos ao mesmo tempo
- Velocidade de leitura: ajuste fino de 0.1x a 2.0x
- Seleção e prévia de voz: modelos por idioma e gênero, com mixer personalizado para definir seu próprio perfil de voz
- Geração de legendas: automação por frase, por vírgula ou por número de palavras
- Saída de áudio: WAV, FLAC, MP3, OPUS, M4B (com capítulos)
- Formatos de legenda: suporte à personalização em SRT, ASS etc.
- Gerenciamento de capítulos e projetos: salva em pastas de projeto com áudio por capítulo, versão mesclada e metadados incluídos
- Várias opções de UI, como tema, logs e atalhos
#Voice Mixer
- Combina vários modelos de voz com ajuste de pesos, permitindo criar, salvar e reutilizar repetidamente vozes exclusivas
- O resultado da mistura de vozes pode ser pré-visualizado e aplicado como perfil de voz
#Modo fila
- Mantém configurações individuais por arquivo e permite a conversão automática de vários textos e eBooks de uma só vez
- Cada arquivo salva separadamente as configurações usadas no momento em que foi adicionado à fila, independentemente de alterações nas configurações principais
#Marcadores de capítulo/metadados
- Insere automaticamente tags de divisão de capítulos
- Também é possível inserir manualmente a tag ``
- Em caso de erro, isso facilita reprocessar rapidamente apenas o capítulo em questão
- Com tags de metadados, é possível adicionar informações como título, autor e ano, exibidas em apps de audiolivro
- Podem ser adicionadas no início do arquivo de texto
#Idiomas suportados
- Suporte multilíngue do motor Kokoro-82M
- Inglês (EUA/Reino Unido), espanhol, francês, hindi, italiano, japonês, português do Brasil, chinês etc.
- Legendas em outros idiomas podem ser solicitadas futuramente devido a limitações técnicas do motor
#Saída e uso
- Recomendação de players de mídia avançados como MPV, com suporte a legendas sincronizadas
- Suporte a execução de servidor com base em Docker
#Diferenciais em relação a projetos semelhantes
- O Abogen oferece conveniência de alto nível com GUI independente, recursos de personalização, gerenciamento de pastas por projeto, automação de capítulos e metadados, processamento em fila e vozes misturadas
- Tem semelhanças com audiblez, autiobooks, pdf-narrator, epub_to_audiobook e ebook2audiobook, mas se diferencia pela usabilidade da GUI, motor TTS avançado e sincronização entre capítulos e legendas
#Roadmap e contribuição
- Estão planejados recursos como OCR (reconhecimento de documentos) e fortalecimento da GUI multilíngue
- Qualquer pessoa pode contribuir com open source fazendo fork, adicionando recursos ou corrigindo bugs
#Créditos técnicos e licença
- Uso de várias tecnologias open source parceiras, como TTS Kokoro-82M, GUI baseada em PyQt e integração com EbookLib
- Licença MIT (uso comercial e modificação livres); o motor (Kokoro) usa licença Apache-2.0
#Cuidados e limitações
- O recurso de sincronização de legendas atualmente é oferecido apenas para inglês (o suporte a outros idiomas depende do desenvolvimento do motor Kokoro)
- Alguns recursos são limitados (como prévia de áudio dentro do Docker)
- Para guia detalhado de instalação e configuração de ambiente, consulte a documentação oficial
Ainda não há comentários.