Pocket TTS: TTS de alta qualidade que dá voz à CPU

(kyutai.org)

18 pontos por GN⁺ 2026-01-16 | 4 comentários | Compartilhar no WhatsApp

Pocket TTS, com 100 milhões de parâmetros, é um modelo leve de texto para fala com recurso de clonagem de voz, capaz de rodar em tempo real até mesmo em CPUs de laptops comuns
Reduz a lacuna de desempenho entre os TTS baseados em LLM de grande porte (mais de 1 bilhão de parâmetros) e o Kokoro TTS menor (82 milhões de parâmetros), alcançando ao mesmo tempo alta qualidade e eficiência
Com apenas cerca de 5 segundos de amostra de voz, reproduz com precisão o timbre do falante, emoção, entonação e condições acústicas
Usa uma arquitetura baseada em Continuous Audio Language Model para prever diretamente vetores latentes contínuos em vez de tokens discretos, reduzindo o tamanho do modelo sem perda de qualidade
Foi lançado como open source sob licença MIT e apresenta um novo padrão para tecnologia TTS leve capaz de realizar síntese de voz de alta qualidade em ambientes com CPU

Visão geral do Pocket TTS

Pocket TTS é um modelo de texto para fala com 100 milhões de parâmetros que oferece suporte a clonagem de voz (voice cloning)
- Pode ser executado em tempo real até mesmo em CPUs de laptops
- Pode ser usado localmente com os comandos uvx pocket-tts serve ou uvx pocket-tts generate
Foi desenvolvido pela Kyutai e lançado como open source sob licença MIT
- Os dados de treinamento usam apenas datasets públicos de voz em inglês
- Também menciona a possibilidade de expansão com dados privados adicionais

Comparação com modelos TTS existentes

A tecnologia TTS atual se divide em dois grupos
- Modelos grandes baseados em LLM: ex.) Kyutai TTS 1.6B (cerca de 1,6 bilhão de parâmetros)
  - Conseguem modelar várias vozes, emoções e condições acústicas, mas exigem GPU
- Modelos pequenos especializados: ex.) Kokoro TTS (82 milhões de parâmetros)
  - São eficientes por usarem um conjunto fixo de vozes e pipelines manuais, mas têm flexibilidade limitada
O Pocket TTS ocupa um meio-termo entre essas duas abordagens, tornando possível a síntese de voz de alta qualidade mesmo em CPU

Avaliação de desempenho

A avaliação foi feita com o conjunto Librispeech test-clean
- A entrada de áudio foi refinada com Adobe Enhance Speech para garantir qualidade de 24kHz
Modelos comparados: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
Métricas de avaliação:
- Word Error Rate (WER)
- Qualidade de áudio (ELO)
- Similaridade do falante (ELO)
Resumo dos resultados:
- Pocket TTS teve a menor taxa de erro, com WER 1.84
- A qualidade de áudio foi superior à de F5-TTS e DSM
- A similaridade do falante ficou em nível equivalente ao da voz de referência
- Foi o único modelo capaz de rodar mais rápido que em tempo real na CPU

Modelo	Nº de parâmetros	WER ↓	Qualidade de áudio (ELO) ↑	Similaridade do falante (ELO) ↑	Execução em tempo real na CPU
F5-TTS	336M	2.21	1949 ± 27	1946 ± 26	✗
Kyutai TTS 1.6B	750M	1.84	1959 ± 25	2037 ± 21	✗
Chatterbox Turbo	350M	3.24	2055 ± 23	2012 ± 22	✗
Kokoro	82M	sem clonagem de voz	sem clonagem de voz	✓
Pocket TTS	100M	1.84	2016 ± 25	1898 ± 26	✓

Em testes com CPUs Intel Core Ultra 7 165H e Apple M3, apenas Pocket TTS e Kokoro conseguiram síntese em tempo real

Arquitetura

Pocket TTS foi projetado com base na pesquisa Continuous Audio Language Model
- Enquanto o método tradicional previa tokens de áudio discretos, o Pocket TTS prevê diretamente vetores latentes contínuos (latent)
- Isso elimina o gargalo do RQ-transformer e torna o modelo mais leve

Neural Audio Codec

Projetado com base no codec Mimi
- O Mimi comprime em tokens discretos, mas o Pocket TTS usa representações latentes contínuas
- Aplica treinamento VAE normalizado por distribuição normal
- Faz destilação de WavLM para representações internas com perda por similaridade cosseno
- Remove a etapa RVQ e aplica a perda de destilação à representação latente completa

Modelo generativo

Baseado no framework Masked Autoregressive (MAR)
- Composto por um backbone Causal Transformer e um amostrador MLP
- Usa a perda Lagrangian Self-Distillation (LSD) para implementar amostragem em 1 passo
- Na inferência, os vetores latentes previstos são realimentados de forma autorregressiva

Condicionamento por voz e texto

A entrada do modelo combina prompt de voz (alguns segundos) e texto
- A voz é incorporada pelo encoder do codec, e o texto pelo tokenizador SentencePiece

Composição do tamanho do modelo

Modelo generativo (Transformer + MLP): 90 milhões de parâmetros
Decoder do codec: 10 milhões de parâmetros
Encoder do codec: 18 milhões de parâmetros (usado apenas uma vez ao codificar a amostra de voz)

Dados de treinamento

Composto inteiramente por datasets públicos de voz em inglês, totalizando 88.000 horas
- AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia

Principais contribuições técnicas

Head Batch Multiplier

Reutiliza o vetor z várias vezes para aliviar o gargalo computacional do Transformer
- Para cada sequência de entrada, o z é calculado uma vez e reutilizado em 8 cálculos de perda
- Traz ganhos de eficiência e estabilidade no treinamento

Gaussian Temperature Sampling

Aplica controle de temperatura de amostragem também no espaço contínuo
- A redução da variância do ruído gaussiano melhora a qualidade
- Bons resultados foram confirmados com temperatura 0.7

Latent Classifier-Free Guidance (Latent CFG)

Aplica o CFG tradicional no nível das variáveis latentes (z)
- Combina linearmente saídas condicionadas e não condicionadas para melhorar a qualidade
- Usa α=1.5
- Um conceito semelhante também apareceu na pesquisa SoundReactor

Distillation

Usa o modelo CFG como professor para destilar um modelo aluno mais leve
- Congela o cabeçalho MLP do modelo professor, e o modelo aluno aprende z com perda L2
- Permite reduzir de modelo professor de 24 camadas → modelo aluno de 6 camadas

Conclusão

Pocket TTS é um modelo TTS leve capaz de fazer síntese de voz em tempo real e com alta qualidade até mesmo em CPU
Combina arquitetura baseada em espaço latente contínuo, técnicas eficientes de treinamento e recurso de clonagem de voz
Foi lançado como open source sob licença MIT, oferecendo reprodutibilidade e escalabilidade para desenvolvedores e pesquisadores

4 comentários

xguru 2026-01-16

Parece que não há muitos modelos abertos de TTS com suporte a coreano. Ouvi dizer que o Kokoro-82M, lançado há algum tempo, suporta coreano, mas também ouvi comentários de que a qualidade não parece ser tão boa. Dando uma pesquisada rápida, vi que dizem que dá para criar e usar algo com GPT-Sovits ou que com algo como Edge-TTS o resultado fica razoavelmente bom.

Ultimamente, enquanto faço vibe coding, acho que se juntar isso com Whisper pode sair algo interessante, mas ainda não tenho nenhuma ideia haha

ng0301 2026-01-18

Recentemente a Supertonic lançou um modelo que também funciona em coreano, vale a pena dar uma olhada.

Também fiz uma biblioteca estilo 딸깍용!

https://www.npmjs.com/package/easy-supertonic-tts

bichi 2026-01-19

Muito legal. Mas acho que seria bom se, ao criar, também houvesse o endereço dos recursos de destino. Não dá para simplesmente sair instalando qualquer coisa haha

GN⁺ 2026-01-16

Opiniões no Hacker News

Fico realmente feliz em ver tanto interesse no meu post
Faço parte de uma equipe em Paris que desenvolve soluções de voz de nível empresarial baseadas na pesquisa da Kyutai
Se você está construindo algo nessa área, gostaria de compartilhar alguns modelos e recursos que estão por vir
Seria ótimo se entrasse em contato pelo e-mail que está no meu perfil
- Trabalho excelente. Acho que isso realmente expandiu os limites até um nível em que dá para rodar localmente até em dispositivos do dia a dia
Enquanto lia um estudo de caso longo, percebi que precisava de uma extensão de navegador, então acabei criando minha própria interface no navegador
O resultado foi o Pocket Reader
Achei interessante e já transformei em um servidor MCP para que o Claude me avise quando terminar uma tarefa
speak_when_done
- O macOS já vem com uma função de TTS bastante natural embutida
  Eu também fiz uma ferramenta parecida usando o comando say em um processo em segundo plano, mas foi difícil configurar uma boa voz de forma consistente
  Parece que essa voz natural está escondida em algum lugar
- Eu também fiz algo parecido recentemente com piper-tts
  speak-mcp
- Pelo mesmo motivo, também configurei o Pushover para receber notificações no celular
  Agora vou testar o seu servidor também
Desta vez a qualidade do código está realmente muito boa
Normalmente, o código-base de modelos novos vem cheio de despejo desnecessário de dependências, mas desta vez o projeto também é excelente do ponto de vista de engenharia de software
Obrigado por compartilhar! Sou fã do Kokoro, então construí meu próprio assistente de voz local
projeto ova
Com certeza também vou testar o Pocket TTS
- Sinto que o desempenho de TTS do Kokoro é muito melhor
  Mas o Pocket TTS é fechado, então não dá para verificar o recurso de clonagem de voz
- Repositório incrível! Eu também vou testar
  Só queria saber se ele é baseado em mlx ou em Hugging Face transformers
Fiquei curioso se seria possível distribuir este projeto como um binário estático pequeno
No momento, as dependências são bem grandes
- A issue relacionada pode ser acompanhada aqui
Gostei bastante
Só que ele está marcado como licença MIT, mas o README tem uma seção separada de Uso Proibido (Prohibited Use), então fiquei na dúvida se isso não o tornaria software não livre
- Pelo que entendi, o código é MIT, mas o modelo tem uma licença separada
  Assim como imagens ou sons, modelos de ML podem não ser considerados software
  O model card no Hugging Face também tem a mesma cláusula de proibição
- A licença MIT diz que se pode usar “sem restrições”
  Portanto, os itens proibidos no README podem entrar em conflito juridicamente
- A cláusula de proibição parece ser do tipo “não use para crimes”, então o efeito jurídico deve ser mínimo
- Se é “você pode usar, mas não para esse tipo de coisa”, então fica ambíguo se isso realmente configura violação da licença
- A cláusula de proibição parece um enfeite formal desnecessário
Testei uvx pocket-tts serve em um Mac M1
Para testar, pedi que lesse o primeiro parágrafo de Um Conto de Duas Cidades, e a voz Javert teve um problema de pular frases no meio do texto
Por exemplo, trechos como “it was the age of foolishness” eram omitidos
Isso reduz a confiança no resultado
Abri a issue relacionada aqui
- Nos meus testes, a parte “we had everything before us” também foi omitida. Definitivamente não é um bom sinal
- Eu também vi o mesmo comportamento. Houve distorção na saída, como pular frases ou trocar a ordem das palavras (Win10 RTX 5070 Ti)
- Com a voz Eponine, ele também omite “we had nothing before us” e não fala a última frase. Parece que algo está errado internamente
Eu não tinha usado muitos modelos de voz até agora, mas foi por causa do Pocket TTS que conheci o unmute.sh
É open source e parece ter sido feito pela mesma empresa
Esses modelos parecem bem viáveis para uso de baixo custo até em ambiente de homelab
Os modelos open source estão evoluindo de forma tão ampla que já existe algo adequado para quase todo tipo de uso
A única área em que ainda parece haver uma barreira real de entrada é a de modelos de programação
Também é interessante pensar se o Deepseek 4 vai conseguir superar o Claude Sonnet
Integrei ao meu plugin do Codex para que ele leia um resumo no fim de cada turno, e funcionou surpreendentemente bem
No meu MacBook, ele roda muito mais suavemente que a Samantha
agentify-sh/speak