Convertendo e-books em audiolivros com o modelo Kokoro-82M

(claudio.uk)

24 pontos por GN⁺ 2025-01-16 | 3 comentários | Compartilhar no WhatsApp

O Kokoro v0.19 é um modelo de texto para fala anunciado recentemente, com 82M de parâmetros e saída de altíssima qualidade
- Licença Apache, treinado com menos de 100 horas de áudio
- Suporta inglês americano, inglês britânico, francês, coreano, japonês e chinês, além de oferecer várias vozes de alta qualidade
Usando o Kokoro
- Os usuários podem usar o Kokoro por meio de uma ferramenta chamada Audiblez, que converte e-books em audiolivros.
- O Audiblez faz o parsing de arquivos .epub e converte o texto do livro em arquivos de áudio com narração bem gravada.
- Por exemplo, em um M2 MacBook Pro, leva cerca de 2 horas para converter um livro de aproximadamente 100.000 palavras.
Instalação e execução
- É possível instalar o Audiblez via pip em um computador com Python 3 instalado.
- Não funciona no Python 3.13.
- É necessário baixar cerca de 360 MB de arquivos adicionais.
- Para converter um arquivo .epub em audiolivro, é preciso executar um comando.
Idiomas e vozes compatíveis
- É possível especificar o idioma com a opção -l, e os códigos suportados são en-us, en-gb, fr-fr, ja, ko e cmn.
- É possível especificar a voz com a opção -v, e há várias vozes disponíveis.
Detecção de capítulos
- A detecção de capítulos é um pouco instável, mas consegue encontrar os capítulos principais na maioria dos arquivos .epub.
- Se o capítulo de interesse não estiver incluído, vale tentar ajustar a função is_chapter no código.
Código-fonte e melhorias
- O projeto Audiblez pode ser encontrado no GitHub.
- Melhorias futuras incluem detecção de capítulos mais precisa, adição de navegação por capítulos e inclusão de narração para imagens.

3 comentários

crawler 2025-01-16

Existem modelos maiores e melhores do que este, mas acho que é preciso ver que o propósito é diferente.
O Kokoro tem sido muito bem recebido porque é pequeno, rápido e a qualidade também não é ruim.

munggo 2025-01-16

A versão em coreano soa como russo. Está em um nível impossível de ouvir.

GN⁺ 2025-01-16

Comentários do Hacker News

O narrador de audiolivros às vezes interpreta bem o texto, então há sentimentos mistos em relação ao uso de voz por IA
- Audiolivros com vários narradores e vozes diferentes para cada personagem oferecem uma experiência especial
- Às vezes, a única pista para saber quem está falando em um diálogo é a mudança no tom de voz
- Prefere voz por IA a audiolivros amadores de ebooks ou de domínio público, como os do Project Gutenberg
É difícil ouvir vozes geradas por IA por mais de 1 minuto, e quando aparece uma voz de IA no YouTube, pula imediatamente
- Talvez seja porque nosso cérebro tenta perceber as emoções do falante, as pausas, os sorrisos invisíveis etc.
- Os modelos vão melhorar a ponto de ficar difícil identificar vozes geradas por IA
Pede recomendações de opções open source para gerar TTS com voz personalizada
- Pretende experimentar o Coqui TTS
Quer um leitor de ebooks que permita alternar entre texto e áudio com um único botão
- Imagina um recurso em que possa ler no sofá e depois mudar para o modo de áudio enquanto lava a louça
Tem a ideia de transformar ebooks em audiolivros com a voz de um narrador específico de audiolivros
- Inspirou-se no projeto Infinite Conversation, mas ainda não conseguiu colocá-la em prática
Testou vários modelos de TTS, mas a maioria era mediana, não funcionava no Mac ou era muito lenta
- Este modelo é rápido, fácil de instalar e oferece uma voz decente
- Não lê livros que não tenham versão em audiolivro
- Já usou elevenlabs no passado, mas para uso pessoal é caro
Em 2025, será possível usar redes neurais para gerar audiolivros com música de fundo, efeitos sonoros e narração dramática
kokoro significa "coração" em japonês
Gostaria que fosse adicionado um plugin ao software de gerenciamento de ebooks Calibre para converter facilmente títulos selecionados da biblioteca epub em versões em áudio
Ficou muito satisfeito com a adição de um argumento de velocidade variável

Convertendo e-books em audiolivros com o modelo Kokoro-82M

Usando o Kokoro

Instalação e execução

Idiomas e vozes compatíveis

Detecção de capítulos

Código-fonte e melhorias

Leituras relacionadas

3 comentários

Comentários do Hacker News