Abogen - Criação de audiolivros a partir de EPUB, PDF e texto

(github.com/denizsafak)

10 pontos por GN⁺ 2025-08-11 | 1 comentários | Compartilhar no WhatsApp

Abogen é uma ferramenta open source que converte facilmente arquivos ePub, PDF e texto em audiolivros de alta qualidade
Durante a conversão, também gera automaticamente legendas sincronizadas (subtitles) com a voz
Oferece vários recursos, como mistura de vozes personalizadas, formatos de codificação, divisão por capítulos e processamento em lote (modo fila)
Usa o mais recente motor de síntese de voz Kokoro-82M, oferecendo qualidade natural de TTS e suporte multilíngue
Em comparação com outros projetos, traz vantagens como GUI intuitiva, gerenciamento de pastas por projeto e processamento automático de metadados

Visão geral e importância do Abogen

Abogen é uma ferramenta open source de conversão de texto em fala (TTS) que transforma rapidamente arquivos de texto (ePub, PDF, .txt etc.) em audiolivros naturais
Oferece um conjunto rico de recursos, incluindo interface intuitiva, processamento em lote de múltiplos arquivos, mistura de vozes personalizada, vários formatos de saída, gerenciamento de capítulos e suporte a metadados
Diferentemente de outros projetos open source, permite obter com facilidade áudio de alta qualidade (especialmente TTS baseado em Kokoro-82M) e legendas com operação simples
O processo inicial de instalação e a configuração complexa do ambiente Python são automatizados, permitindo que até desenvolvedores iniciantes utilizem a ferramenta com facilidade
Em especial, processamento de capítulos e metadados por projeto, ambiente GUI e recursos de voz personalizada são avaliados como diferenciais competitivos

Resumo dos principais recursos

Conversão de texto em fala (TTS) que transforma arquivos ePub, PDF e texto em áudio em poucos segundos
Geração automática de legendas sincronizadas (subtitles), com suporte a áudio e legendas perfeitamente alinhados
Uso do Voice Mixer para combinar vários modelos de voz e criar seu próprio perfil de voz
O recurso de modo fila permite processamento em lote de vários arquivos, mantendo configurações individuais para cada um
Geração automática de marcadores de capítulo/metadados e gerenciamento de pastas de projeto
Diversos formatos de saída: suporte a WAV, FLAC, MP3, OPUS, M4B e mais; legendas também podem ser geradas em SRT/ASS etc.
Principais idiomas suportados: inglês americano/britânico, espanhol, francês, hindi, italiano, japonês, português, chinês etc.
Oferece pronúncia natural e alta qualidade com base no motor TTS Kokoro-82M
Suporta tanto GUI quanto linha de comando, além de uso em contêiner Docker

Detalhamento dos recursos do Abogen

#Início e contexto da instalação

Ferramentas TTS existentes têm muitas limitações em instalação, configuração de ambiente, qualidade, personalização e processamento de múltiplos arquivos
O Abogen foi criado para permitir que até iniciantes acessem facilmente recursos avançados, como conversão de texto em áudio, geração de legendas e mistura de vozes, por meio de uma interface simples, mas poderosa
Pode ser usado em vários sistemas operacionais (Windows, Linux, macOS) e oferece configuração automática de ambiente embutido/instalado sem exigir instalação prévia do Python

#Principais formas de uso

É possível arrastar e soltar arquivos ePub, PDF ou texto, ou usar o editor embutido
Configurações: é possível selecionar em detalhes velocidade de leitura, voz (modelo, gênero, idioma), estilo de legenda (por frase, por palavra), formatos de saída de áudio e legendas, caminho de saída etc.
Basta clicar no botão para iniciar a conversão e gerar o resultado imediatamente

#Demonstração prática

Mesmo em GPU de baixo desempenho, é possível gerar um áudio de 3 minutos e 28 segundos a partir de um texto com cerca de 3.000 caracteres em apenas 11 segundos
A velocidade de processamento varia conforme as especificações do hardware

#Opções de configuração

Métodos de entrada: arrastar e soltar, editor embutido e gerenciamento de fila para processar vários arquivos ao mesmo tempo
Velocidade de leitura: ajuste fino de 0.1x a 2.0x
Seleção e prévia de voz: modelos por idioma e gênero, com mixer personalizado para definir seu próprio perfil de voz
Geração de legendas: automação por frase, por vírgula ou por número de palavras
Saída de áudio: WAV, FLAC, MP3, OPUS, M4B (com capítulos)
Formatos de legenda: suporte à personalização em SRT, ASS etc.
Gerenciamento de capítulos e projetos: salva em pastas de projeto com áudio por capítulo, versão mesclada e metadados incluídos
Várias opções de UI, como tema, logs e atalhos

#Voice Mixer

Combina vários modelos de voz com ajuste de pesos, permitindo criar, salvar e reutilizar repetidamente vozes exclusivas
O resultado da mistura de vozes pode ser pré-visualizado e aplicado como perfil de voz

#Modo fila

Mantém configurações individuais por arquivo e permite a conversão automática de vários textos e eBooks de uma só vez
Cada arquivo salva separadamente as configurações usadas no momento em que foi adicionado à fila, independentemente de alterações nas configurações principais

#Marcadores de capítulo/metadados

Insere automaticamente tags de divisão de capítulos
- Também é possível inserir manualmente a tag ``
- Em caso de erro, isso facilita reprocessar rapidamente apenas o capítulo em questão
Com tags de metadados, é possível adicionar informações como título, autor e ano, exibidas em apps de audiolivro
- Podem ser adicionadas no início do arquivo de texto

#Idiomas suportados

Suporte multilíngue do motor Kokoro-82M
Inglês (EUA/Reino Unido), espanhol, francês, hindi, italiano, japonês, português do Brasil, chinês etc.
Legendas em outros idiomas podem ser solicitadas futuramente devido a limitações técnicas do motor

#Saída e uso

Recomendação de players de mídia avançados como MPV, com suporte a legendas sincronizadas
Suporte a execução de servidor com base em Docker

#Diferenciais em relação a projetos semelhantes

O Abogen oferece conveniência de alto nível com GUI independente, recursos de personalização, gerenciamento de pastas por projeto, automação de capítulos e metadados, processamento em fila e vozes misturadas
Tem semelhanças com audiblez, autiobooks, pdf-narrator, epub_to_audiobook e ebook2audiobook, mas se diferencia pela usabilidade da GUI, motor TTS avançado e sincronização entre capítulos e legendas

#Roadmap e contribuição

Estão planejados recursos como OCR (reconhecimento de documentos) e fortalecimento da GUI multilíngue
Qualquer pessoa pode contribuir com open source fazendo fork, adicionando recursos ou corrigindo bugs

#Créditos técnicos e licença

Uso de várias tecnologias open source parceiras, como TTS Kokoro-82M, GUI baseada em PyQt e integração com EbookLib
Licença MIT (uso comercial e modificação livres); o motor (Kokoro) usa licença Apache-2.0

#Cuidados e limitações

O recurso de sincronização de legendas atualmente é oferecido apenas para inglês (o suporte a outros idiomas depende do desenvolvimento do motor Kokoro)
Alguns recursos são limitados (como prévia de áudio dentro do Docker)
Para guia detalhado de instalação e configuração de ambiente, consulte a documentação oficial

1 comentários

GN⁺ 2025-08-11

Opiniões no Hacker News

Consigo imaginar um pipeline em que recebo livros do Calibre-Web, os transformo em versão em áudio com o Abogen e os disponibilizo no Audiobookshelf; parece uma solução realmente ótima também para pessoas com deficiência visual. Veja Calibre-Web e audiobookshelf
Usar essa ferramenta para transformar um livro em texto em audiobook para consumo pessoal tudo bem, mas um autor usar isso para criar arquivos para distribuição é muito arriscado. Autores independentes já têm muita dificuldade para divulgar suas obras, e hoje em dia muitos leitores em potencial perdem o interesse imediatamente ao menor sinal de uso de IA. No meu caso, comecei a contratar narradores que atuam bem e cujo idioma nativo não é o inglês, ou que falam outro idioma em casa. Às vezes até peço um sotaque um pouco mais carregado, porque isso ajuda a diferenciar do que é feito por IA e também dá mais charme ao livro para quem busca uma experiência nova. Já fiquei surpreso em audições ao ver como atores da região do Mediterrâneo conseguem gravar audiobooks de forma tão viva
- Eu uso bastante o recurso WhisperSync da Amazon. Graças a ele, posso ler e ouvir o livro ao mesmo tempo. É muito prático, porque em deslocamentos às vezes posso conferir algo visualmente ou destacar trechos depois. O problema é que poucos livros oferecem esse recurso, e a função de leitura nativa do app Kindle não tem boa qualidade. Por isso, eu realmente gostaria de ver uma função de voz por IA adicional em livros excelentes escritos por humanos
- Não sei se isso de leitores em potencial pularem um livro só por haver sinais de IA é mesmo tão comum assim. Quando estou lendo texto, parece que a maioria não se importa tanto se foi lido por IA ou não, desde que o resultado final seja bom. As pessoas não querem livros escritos por IA, mas já faz bastante tempo que usam com conforto vozes de IA para ouvir artigos e livros. Isso é outra questão, diferente de atuação ou direção vocal
Fico me perguntando se isso simplesmente converte texto em fala ou se realmente produz algo parecido com um audiobook de verdade. Bons audiobooks muitas vezes têm narradores que interpretam personagens de formas diferentes e também expressam sotaques e dialetos distintos. Talvez dê para fazer algumas frases assim com ferramentas como o ChatGPT, mas ao longo de um audiobook inteiro de 8 a 20 horas isso não parece simples. No estágio atual, ainda acho que há barreiras fundamentais para transformar um epub em um audiobook de nível avançado. Queria saber se deixei passar alguma coisa
- O ElevenLabs tem um recurso de geração no estilo "elenco completo", em que vozes diferentes podem ser atribuídas a personagens diferentes. Mas ele não é automaticamente sensível a dialetos. Com os sistemas atuais até dá para variar sotaque ou forma de falar conforme o contexto ou o prompt, mas não sei o quão confiável isso é
- Dá para usar um mixer para combinar várias vozes de personagens e gerar sensações diferentes. Também é possível inserir em código vozes específicas para personagens diferentes
- Na verdade, eu não gosto muito de várias vozes para personagens. Tudo bem ler citações com tom e entonação adequados ao contexto, mas não gosto quando cada personagem recebe uma voz diferente
Essa ferramenta exige pip ao executar o app abogen, então precisa rodar em um ambiente onde seja possível usar pip. Dá para começar com o comando uv tool run abogen, mas ele trava na etapa de instalação do modelo. Confirmei que funciona corretamente com uv venv && uv pip install pip && source .venv/bin/activate && abogen. A GUI empacotada também está bem feita, e a interface para selecionar páginas ou seções de arquivos PDF é boa. No meu notebook com GTX 1650, a velocidade também foi boa. O resultado sai como áudio .ogg e arquivo de legendas .ass, e ao abrir no mpv dá para ouvir e ler ao mesmo tempo no terminal. Um ponto negativo é que as quebras de linha do PDF original permanecem, então às vezes há pausas longas no meio das frases, o que atrapalha a compreensão. Ativar a opção de ignorar single newline melhora isso claramente
- No meu RTX 4060, converti um livro de 110 páginas para wav em cerca de uma hora. Sem ativar a opção de ignorar quebras de linha, o resultado ficou ruim. Com essa opção ligada, fica realmente impressionante. Gostei muito da voz af_heart, mas a af_jessica me incomoda um pouco. O maior problema dos audiobooks é que gostar ou não do narrador importa quase tanto quanto o conteúdo do livro. Eu já sentia que esse dia estava chegando, e é realmente impressionante. Já me acostumei tanto com audiobooks que até ficou difícil ler um livro inteiro no formato tradicional. É incrível poder converter facilmente cerca de 20 livros que não teriam mercado suficiente para serem narrados por humanos, usando uma voz de que eu gosto
Eu adoro audiobooks, mas sou exigente com narração. Já abandonei vários no meio porque o narrador não combinava comigo. Para que eu realmente use um serviço assim, acho que ainda vai demorar bastante
- Já comprei e ouvi uma série inteira por causa de um bom narrador. Foi o caso, por exemplo, de Grim Noir Chronicles e das produções com elenco completo da Soundbooth Theater. Se a ideia é só transformar texto em vibrações sonoras, a tecnologia de TTS já basta, mas ainda acho que a narração por IA não oferece a experiência que um narrador humano consegue entregar
- Eu também já abandonei audiobooks por causa do narrador, mas no meu caso talvez aconteça o contrário: uma voz de IA neutra e aceitável poderia me ajudar a terminar livros que antes eram difíceis de ouvir. Tenho esperança de que uma voz de IA limpa possa ser melhor do que uma narração oficial com voz estranha
- Já houve caso de uma série narrada por R. C. Bray mudar de repente para outro narrador e ficar tão difícil de ouvir que desisti completamente. Por outro lado, existem narradores como Wil Wheaton que eu procuro de propósito. No fim, em audiobooks, o narrador tanto pode elevar a obra quanto arruiná-la
- Qual é o seu audiobook favorito?
Parece que isso não deve funcionar bem com livros que, além de texto, tenham código, gráficos, imagens etc. — o que é esperado. Fico curioso se existe alguma rede neural open source que receba uma página de PDF e a converta para uma versão de "prosa pura", por exemplo transformando em texto também o conteúdo ou a descrição de figuras em páginas que misturam imagem e texto
Já usei Kokoro TTS para textos curtos, como blogs ou artigos, mas achei abaixo do esperado. Hoje o Gemini 2.5 Flash TTS é muito melhor em desempenho e ainda tem um limite gratuito generoso (10 minutos por geração, 90 minutos por dia). Em textos curtos, o problema de consistência da voz quase não aparece, mas em algo longo como um livro inteiro isso com certeza vira um problema
- Kokoro não é ruim como TTS, mas falta expressão emocional. Considerando o tamanho do modelo, talvez isso seja inevitável
Usei essa ferramenta para transformar livros de filosofia em audiobooks e melhorar a acessibilidade, mas encontrei um problema importante. Quando a frase enviada ao Kokoro é longa demais, palavras ou trechos do final acabam sendo pulados ou saem embaralhados. O abogen divide o texto por frases, mas quando a frase é longa ela vai inteira para o Kokoro, e isso deixa o audiobook em um nível inutilizável. Por isso estou criando meu próprio app com GUI em tkinter, usando nltk e expressões regulares para fazer uma divisão mais refinada
- Tenho usado o CLI "kokoro-tts" com satisfação porque ele faz melhor essa parte de quebrar/dividir o texto kokoro-tts. Essa ferramenta também gera arquivos de áudio por capítulo junto com metadados. Depois dá para juntar os áudios e adicionar informações de capítulo com o m4b-tool m4b-tool. Tenho muita vontade de escrever um post sobre esse fluxo de trabalho; é realmente útil
- Ultimamente tenho me incomodado com o fato de TTS com deep learning gerar resultados muito pouco determinísticos. Métodos clássicos às vezes parecem melhores justamente por oferecerem pronúncias previsíveis
Pessoalmente, espero que surja uma solução capaz de transformar PDF em ePub bem organizado
Usei Kokoro TTS junto com audiblez para CLI. É um modelo pequeno, mas a velocidade é rápida e a qualidade de áudio me impressionou. Ainda assim, há alguns pontos fracos: a) ele não distingue o ponto final do fim de frase do ponto em abreviações como "Mr." e "Mrs.", o que gera pausas estranhas; b) não lida bem com reticências (...); c) a pronúncia das palavras é sempre a mesma, mesmo quando o contexto muda
- Uma alternativa é usar tags de fonema SSML. Alguns TTS dão suporte a isso. Também dá para fazer um pré-processamento com um LLM forte para evitar esse tipo de problema
- Casos como o problema de Mr. / Mrs. parecem relativamente fáceis de corrigir. Acho que pelo menos dá para eliminar parte dos casos mais comuns

Abogen - Criação de audiolivros a partir de EPUB, PDF e texto

Visão geral e importância do Abogen

Resumo dos principais recursos

Detalhamento dos recursos do Abogen

#Início e contexto da instalação

#Principais formas de uso

#Demonstração prática

#Opções de configuração

#Voice Mixer

#Modo fila

#Marcadores de capítulo/metadados

#Idiomas suportados

#Saída e uso

#Diferenciais em relação a projetos semelhantes

#Roadmap e contribuição

#Créditos técnicos e licença

#Cuidados e limitações

Leituras relacionadas

1 comentários

Opiniões no Hacker News