- O Kitten TTS é um modelo open source de TTS (texto para fala) que busca combinar leveza e alta qualidade de áudio
- Usa apenas 15 milhões de parâmetros, com tamanho de modelo inferior a 25 MB
- Ao contrário de outros TTS de grande porte, sua principal característica é poder rodar em qualquer ambiente, incluindo mobile e embarcado
- Mesmo sem GPU, consegue processar síntese de voz de alta qualidade em qualquer dispositivo
- Oferece várias opções de vozes premium, com suporte a síntese de voz de alta qualidade semelhante à fala real
- Permite inferência de voz em alta velocidade, sendo otimizado para síntese em tempo real
- O modelo em developer preview já foi divulgado, e futuramente serão lançados de forma gradual os pesos completos do modelo treinado, SDK mobile, versão web e mais
Ainda não há comentários.