21 pontos por GN⁺ 2025-08-07 | 2 comentários | Compartilhar no WhatsApp
  • O Kitten TTS é um modelo open source de TTS (texto para fala) que busca combinar leveza e alta qualidade de áudio
  • Usa apenas 15 milhões de parâmetros, com tamanho de modelo inferior a 25 MB
    • Ao contrário de outros TTS de grande porte, sua principal característica é poder rodar em qualquer ambiente, incluindo mobile e embarcado
  • Mesmo sem GPU, consegue processar síntese de voz de alta qualidade em qualquer dispositivo
  • Oferece várias opções de vozes premium, com suporte a síntese de voz de alta qualidade semelhante à fala real
  • Permite inferência de voz em alta velocidade, sendo otimizado para síntese em tempo real
  • O modelo em developer preview já foi divulgado, e futuramente serão lançados de forma gradual os pesos completos do modelo treinado, SDK mobile, versão web e mais

2 comentários

 
hybridego 2025-08-07

Seria bom se também houvesse um modelo em coreano..

 
GN⁺ 2025-08-07
Comentários do Hacker News
  • No Ubuntu 24, foi feito um benchmark simples com um Razer Blade 16 e Intel Core i9-14900HX
    A latência inicial é de cerca de 315 ms para textos curtos, e a velocidade de geração de voz fica entre 3,35x e 5,5x em tempo real, dependendo do tamanho do texto
    O modelo carrega em cerca de 710 ms
    Quase não há diferença de desempenho entre 4 vozes diferentes, mantendo até cerca de 5x a velocidade em tempo real

    • No meu CPU Intel Celeron N4020 (1.10GHz), leva 6 segundos para carregar e roda quase em tempo real, independentemente do tamanho do texto

    • Obrigado por rodar o benchmark
      O modelo ainda não foi otimizado
      Quando o SDK para produção for lançado, planejamos otimizar também o carregamento e outros pontos

  • Há um sample de áudio gerado pelo KittenTTS no Reddit
    Sample de áudio no Reddit

    • Também há um vídeo curto com várias vozes diferentes
      Vídeo no YouTube

    • O vídeo do Reddit é realmente incrível
      É impressionante conseguir essa qualidade usando só CPU em menos de 25 MB
      Não entendo por que algumas pessoas chamam isso de “modelo mais ou menos”

    • O som é muito nítido e claro
      Mesmo para mim, que não sou falante nativo de inglês, é fácil de entender

    • Soa um pouco lento e com uma vibe meio de animação

    • Será que não fizeram cross-training com vozes de personagens de Futurama?

  • Eu gostaria que modelos assim fossem o futuro
    Uma era em que modelos pequenos de ML, offline, façam inferência em hardware barato e amplamente disponível
    Possam ser facilmente integrados a outros dispositivos ou apps, e até executados dentro de outros modelos

    • Esse é exatamente o plano que a Apple está desenhando com SLMs (small language models)
      Se existir um modelo dedicado só a gerenciar eventos de calendário, ele não precisa conter todo o conhecimento da humanidade
      Basta focar apenas no que é necessário para gerenciar calendários

    • Se você roda modelos em hardware dedicado para uma única finalidade, a eficiência energética fica muito alta
      Dá até para executar redes neurais só com resistores (sem transistores)
      Claro que esse tipo de hardware não é de propósito geral e é difícil de atualizar o modelo
      Mas, em muitos casos, isso já é suficiente

    • Fico curioso para saber qual vai ter mais sucesso:
      modelos que você compra uma vez e podem rodar qualquer coisa, ou
      modelos presos a assinaturas e a hardware que só megacorporações riquíssimas conseguem comprar

    • Na verdade, esse é exatamente o objetivo que estamos tentando alcançar

    • Essa também é exatamente a nossa visão

  • Os 25 MB já impressionam, mas o verdadeiro ponto de inovação é que o KittenTTS foi lançado sob licença Apache-2.0
    Essa combinação permite embutir diretamente um motor de voz totalmente offline em hardware do nível de um Pi Zero ou em brinquedos alimentados por bateria
    Sem precisar se preocupar com GPU, chamadas à nuvem ou licenças restritivas
    De uma vez só, isso transforma questões de hardware e licenciamento em um “problema de empacotamento”
    Melhorar a qualidade fica para depois; o verdadeiro divisor de águas é ter viabilizado distribuição nesse nível

    • Nós também estamos muito animados para continuar criando modelos de IA ultrapequenos e de alta qualidade
      Acreditamos que interfaces de voz locais são inevitáveis e queremos ser uma peça central dessa área no futuro
      Este modelo é uma prévia, e por volta da próxima semana vamos lançar outra versão com qualidade muito superior
      Também pretendemos lançar junto um modelo de cerca de 80M

    • Foi mencionado que o KittenTTS é Apache-2.0, mas
      ao olhar o código-fonte no GitHub, dá para ver que ele usa phonemizer
      O phonemizer usa licença GPL-3.0
      Então, no momento, isso é na prática GPL
      (Observação: o comentário também acrescenta que parece ter sido gerado por LLM)

    • O modelo festvox-kallpc16k do Festival tem cerca de 6 MB, e o festvox-kallpc8k cerca de 3,5 MB
      Os dados multilíngues do eSpeak NG ficam em torno de 12 MB
      Este modelo atual provavelmente produz uma voz mais natural
      Mas mesmo computadores antigos ou de baixa potência já conseguiam fazer TTS razoavelmente bom há bastante tempo

    • Se o KittenTTS é Apache-2.0,
      como fica a questão dos dados de treinamento?
      Dá para ter certeza jurídica de que não é uma obra derivada, mesmo que o modelo consiga reproduzir entradas de treino quase exatamente?

    • Como depende de espeak-ng, é GPLv3

  • Existe uma versão web
    Abrir demo
    O som é razoável, mas considerando o tamanho, é bastante impressionante

    • Não é engraçado como, em filmes de ficção científica, muitas vezes deformam sutilmente a voz para deixar o robô “mais robótico”?
      Uma voz claramente não humana pode, na prática, ser mais atraente e desejável em vários contextos
      Por exemplo, não há necessidade de uma torradeira inteligente falar como um âncora da BBC
      Basta que a pronúncia seja clara

    • Fiz a demo ler o texto padrão, mas não soou tão bem quanto os samples
      Para quem quiser testar, deixo aqui o texto de exemplo

      Kitten TTS is an open-source series of tiny and expressive text-to-speech models for on-device applications. Our smallest model is less than 25 megabytes.

    • Ao rodar a demo com 6 frases, deu erro
      Reduzi para 3 frases e funcionou bem
      Fiquei na dúvida se o limite de tamanho do texto vem do modelo ou é limitação da demo

    • No meu ambiente não funciona de jeito nenhum
      Dá erro 404 em um módulo do backend
      Link de exemplo do erro 404

    • Eu estava justamente procurando esse link
      A demo do Reddit é até aceitável e me parece coisa do nível de alguns anos atrás
      Mas, ao testar pessoalmente, quase todos os samples ficaram praticamente ininteligíveis

  • Achei engraçado ver os requisitos de sistema dizendo “funciona praticamente em qualquer lugar”
    Em uma máquina a versão do Python é antiga demais,
    em outra é nova demais, então a instalação falha por causa das dependências do pacote

    • Enviei alguns PRs para resolver esse problema
      PR 21, PR 24, PR 25
      Se você tiver uv instalado, na branch de referência que eu mergeei

      uvx --from git+https://github.com/akx/KittenTTS.git@pr-21-22-24-25 kittentts --output output.wav --text "This high quality TTS model works without a GPU"
      

      dá para executar assim

    • Instalar via uvx resolve a maior parte dos problemas de ambiente Python
      Guia de instalação do uv

    • Quando você escolhe Python, resolve um problema e ao mesmo tempo cria dezenas de novos

    • No Fedora, não funciona porque não há uma versão adequada do g++

    • A culpa é do Python

  • Testando diretamente, o tamanho e a velocidade do modelo são bem decentes
    Mas a instalação exige muitas bibliotecas e componentes extras
    No fim, isso faz o pacote real ficar bem longe dos 25 MB
    Ainda assim, é um projeto muito legal

    • Boa observação sobre o problema das dependências
      Para facilitar instalação e uso, e também adicionar o suporte a GPU e processamento de textos longos que as pessoas queriam,
      criei um servidor self-hosted para esse modelo
      Kitten-TTS-Server
      Ele roda direto em um ambiente Python venv padrão, sem preocupação com conflitos
      Basta git clone, pip install e python server.py

    • Já que ONNX foi mencionado, imagino que um modelo ONNX já exista ou vá ser adicionado em breve
      O ONNX runtime é uma única biblioteca e, no caso de C#, fica em cerca de 115 MB comprimido
      Não é minúsculo, mas o código necessário para rodar de fato são só algumas linhas, então também há poucas dependências

    • Colocar várias bibliotecas de uma vez ajuda no desenvolvimento rápido e na iteração
      Depois, quando as funcionalidades se estabilizam, as bibliotecas desnecessárias são removidas

  • Mais importante do que o tamanho do modelo em MB é ele rodar em CPU e ter boa qualidade, e a única preocupação que eu teria seria a latência
    Tenho curiosidade se já existe um modelo de fala-para-texto que funcione offline sem precisar de treino separado
    Vai ser realmente impressionante quando chegar a era de conversar com IA em velocidade natural, como numa conversa entre pessoas

    • O modelo parakeet da Nvidia é o estado da arte atual em inglês
      É 10 vezes mais rápido que o Whisper e roda muito mais rápido que tempo real até no meu CPU AMD intermediário

    • Dá para fazer reconhecimento de voz offline com Whisper
      Alguns apps oferecem ditado ou transcrição totalmente offline

    • Por exemplo, com o texto “The brown fox jumps over the lazy dog..”,
      o tempo médio de geração foi de 1,28 s, com cerca de 30,35 caracteres por segundo
      Isso em um AMD Ryzen 7 5800H

    • Como modelo offline de reconhecimento de voz, o Whisper da OpenAI é o mais conhecido
      Repositório oficial do Whisper

    • Alguém sabe quais fatores influenciam a latência em modelos de TTS?

  • Bastante impressionante
    Há espaço para uso em áreas específicas, como embarcados
    Mas não parece ter qualidade suficiente para substituir modelos grandes
    Na minha opinião, os modelos open de TTS offline com melhor qualidade hoje são fish-speech e f5-tts
    Rodei F5-TTS em uma NVidia 1660 antiga (6 GB de VRAM) e funcionou bem
    Em hardware moderno, dá para usar qualidade mais alta, multilíngue e até zero-shot sem custo absurdo
    No Android, o SherpaTTS tem boa compatibilidade

    • Este modelo é uma versão preview, e queremos melhorar muito mais a qualidade daqui para frente

    • Os pesos do Fish Speech não permitem uso comercial
      Fico curioso sobre a exigência de VRAM, porque o KittenTTS tem 15 milhões de parâmetros e pode rodar até em computadores baratos e de baixo consumo, abaixo de 100 dólares
      Essa GPU de 6 GB que você citou já é considerada antiga

  • A qualidade não impressiona tanto quanto eu esperava
    O objetivo é ter voz natural
    piper e kokoro também não me satisfazem, e XTTS foi um pouco complicado de instalar
    Em reconhecimento de voz (STT), o whisper é sensacional
    Faz falta um TTS realmente bom
    Não me importo com alto uso de GPU, quero qualidade boa
    Para referência, este modelo agora está pior que kokoro

    • Na minha opinião, a melhor qualidade SOTA com pesos abertos hoje é chatterbox

    • O melhor TTS open source que eu vi foi Dia
      Tem algumas limitações, mas roda bem até em notebook

    • Vale a pena testar também o Pinokio

    • Chatterbox também merece uma tentativa

    • Se você tem GPU de sobra, não precisa se prender tanto à qualidade aqui
      O ponto importante é que este modelo roda sem GPU
      Antes do Tacotron2, eu rodava TTSs pequenos como GlowTTS, MelGAN e vocoders na nuvem da Digital Ocean por um custo baixo
      Depois disso a tendência foi ficando cada vez mais voltada a modelos grandes
      Mas acho que o futuro será de modelos pequenos embutidos diretamente em cada dispositivo
      Raspberry Pi, brinquedos e vários dispositivos compactos sem necessidade de rede
      Edge AI vai trazer uma expansão enorme em robôs, brinquedos, eletrônicos de consumo e jogos