- O Kokoro v0.19 é um modelo de texto para fala anunciado recentemente, com 82M de parâmetros e saída de altíssima qualidade
- Licença Apache, treinado com menos de 100 horas de áudio
- Suporta inglês americano, inglês britânico, francês, coreano, japonês e chinês, além de oferecer várias vozes de alta qualidade
-
Usando o Kokoro
- Os usuários podem usar o Kokoro por meio de uma ferramenta chamada Audiblez, que converte e-books em audiolivros.
- O Audiblez faz o parsing de arquivos
.epub e converte o texto do livro em arquivos de áudio com narração bem gravada.
- Por exemplo, em um M2 MacBook Pro, leva cerca de 2 horas para converter um livro de aproximadamente 100.000 palavras.
-
Instalação e execução
- É possível instalar o Audiblez via
pip em um computador com Python 3 instalado.
- Não funciona no Python 3.13.
- É necessário baixar cerca de 360 MB de arquivos adicionais.
- Para converter um arquivo
.epub em audiolivro, é preciso executar um comando.
-
Idiomas e vozes compatíveis
- É possível especificar o idioma com a opção
-l, e os códigos suportados são en-us, en-gb, fr-fr, ja, ko e cmn.
- É possível especificar a voz com a opção
-v, e há várias vozes disponíveis.
-
Detecção de capítulos
- A detecção de capítulos é um pouco instável, mas consegue encontrar os capítulos principais na maioria dos arquivos
.epub.
- Se o capítulo de interesse não estiver incluído, vale tentar ajustar a função
is_chapter no código.
-
Código-fonte e melhorias
- O projeto Audiblez pode ser encontrado no GitHub.
- Melhorias futuras incluem detecção de capítulos mais precisa, adição de navegação por capítulos e inclusão de narração para imagens.
3 comentários
Existem modelos maiores e melhores do que este, mas acho que é preciso ver que o propósito é diferente.
O Kokoro tem sido muito bem recebido porque é pequeno, rápido e a qualidade também não é ruim.
A versão em coreano soa como russo. Está em um nível impossível de ouvir.
Comentários do Hacker News
O narrador de audiolivros às vezes interpreta bem o texto, então há sentimentos mistos em relação ao uso de voz por IA
É difícil ouvir vozes geradas por IA por mais de 1 minuto, e quando aparece uma voz de IA no YouTube, pula imediatamente
Pede recomendações de opções open source para gerar TTS com voz personalizada
Quer um leitor de ebooks que permita alternar entre texto e áudio com um único botão
Tem a ideia de transformar ebooks em audiolivros com a voz de um narrador específico de audiolivros
Testou vários modelos de TTS, mas a maioria era mediana, não funcionava no Mac ou era muito lenta
Em 2025, será possível usar redes neurais para gerar audiolivros com música de fundo, efeitos sonoros e narração dramática
kokorosignifica "coração" em japonêsGostaria que fosse adicionado um plugin ao software de gerenciamento de ebooks Calibre para converter facilmente títulos selecionados da biblioteca epub em versões em áudio
Ficou muito satisfeito com a adição de um argumento de velocidade variável