24 pontos por GN⁺ 2025-01-16 | 3 comentários | Compartilhar no WhatsApp
  • O Kokoro v0.19 é um modelo de texto para fala anunciado recentemente, com 82M de parâmetros e saída de altíssima qualidade
    • Licença Apache, treinado com menos de 100 horas de áudio
    • Suporta inglês americano, inglês britânico, francês, coreano, japonês e chinês, além de oferecer várias vozes de alta qualidade
  • Usando o Kokoro

    • Os usuários podem usar o Kokoro por meio de uma ferramenta chamada Audiblez, que converte e-books em audiolivros.
    • O Audiblez faz o parsing de arquivos .epub e converte o texto do livro em arquivos de áudio com narração bem gravada.
    • Por exemplo, em um M2 MacBook Pro, leva cerca de 2 horas para converter um livro de aproximadamente 100.000 palavras.
  • Instalação e execução

    • É possível instalar o Audiblez via pip em um computador com Python 3 instalado.
    • Não funciona no Python 3.13.
    • É necessário baixar cerca de 360 MB de arquivos adicionais.
    • Para converter um arquivo .epub em audiolivro, é preciso executar um comando.
  • Idiomas e vozes compatíveis

    • É possível especificar o idioma com a opção -l, e os códigos suportados são en-us, en-gb, fr-fr, ja, ko e cmn.
    • É possível especificar a voz com a opção -v, e há várias vozes disponíveis.
  • Detecção de capítulos

    • A detecção de capítulos é um pouco instável, mas consegue encontrar os capítulos principais na maioria dos arquivos .epub.
    • Se o capítulo de interesse não estiver incluído, vale tentar ajustar a função is_chapter no código.
  • Código-fonte e melhorias

    • O projeto Audiblez pode ser encontrado no GitHub.
    • Melhorias futuras incluem detecção de capítulos mais precisa, adição de navegação por capítulos e inclusão de narração para imagens.

3 comentários

 
crawler 2025-01-16

Existem modelos maiores e melhores do que este, mas acho que é preciso ver que o propósito é diferente.
O Kokoro tem sido muito bem recebido porque é pequeno, rápido e a qualidade também não é ruim.

 
munggo 2025-01-16

A versão em coreano soa como russo. Está em um nível impossível de ouvir.

 
GN⁺ 2025-01-16
Comentários do Hacker News
  • O narrador de audiolivros às vezes interpreta bem o texto, então há sentimentos mistos em relação ao uso de voz por IA

    • Audiolivros com vários narradores e vozes diferentes para cada personagem oferecem uma experiência especial
    • Às vezes, a única pista para saber quem está falando em um diálogo é a mudança no tom de voz
    • Prefere voz por IA a audiolivros amadores de ebooks ou de domínio público, como os do Project Gutenberg
  • É difícil ouvir vozes geradas por IA por mais de 1 minuto, e quando aparece uma voz de IA no YouTube, pula imediatamente

    • Talvez seja porque nosso cérebro tenta perceber as emoções do falante, as pausas, os sorrisos invisíveis etc.
    • Os modelos vão melhorar a ponto de ficar difícil identificar vozes geradas por IA
  • Pede recomendações de opções open source para gerar TTS com voz personalizada

    • Pretende experimentar o Coqui TTS
  • Quer um leitor de ebooks que permita alternar entre texto e áudio com um único botão

    • Imagina um recurso em que possa ler no sofá e depois mudar para o modo de áudio enquanto lava a louça
  • Tem a ideia de transformar ebooks em audiolivros com a voz de um narrador específico de audiolivros

    • Inspirou-se no projeto Infinite Conversation, mas ainda não conseguiu colocá-la em prática
  • Testou vários modelos de TTS, mas a maioria era mediana, não funcionava no Mac ou era muito lenta

    • Este modelo é rápido, fácil de instalar e oferece uma voz decente
    • Não lê livros que não tenham versão em audiolivro
    • Já usou elevenlabs no passado, mas para uso pessoal é caro
  • Em 2025, será possível usar redes neurais para gerar audiolivros com música de fundo, efeitos sonoros e narração dramática

  • kokoro significa "coração" em japonês

  • Gostaria que fosse adicionado um plugin ao software de gerenciamento de ebooks Calibre para converter facilmente títulos selecionados da biblioteca epub em versões em áudio

  • Ficou muito satisfeito com a adição de um argumento de velocidade variável