- O modelo de voz mais capaz e conversacional, capaz de falar com qualquer voz ou sotaque em mais de 30 idiomas com velocidade e precisão líderes do setor
- Além disso, foram lançadas mais de 50 novas vozes de IA conversacional em vários idiomas
- Ao criar aplicações em tempo real com TTS, latência, confiabilidade, qualidade de áudio e naturalidade da voz são extremamente importantes
O Play 3.0 mini é o modelo de voz conversacional mais rápido até agora
- O 3.0 mini alcançou uma latência média de 189 milissegundos para TTFB, tornando-se o modelo de AI Text to Speech mais rápido
- Suporta streaming de entrada de texto a partir de LLMs e streaming de saída de áudio, e pode ser usado via API HTTP REST, API WebSocket ou SDK
- O 3.0 mini também é mais eficiente que o Play 2.0, com velocidade de inferência 28% maior
O Play 3.0 mini oferece suporte a todas as vozes em mais de 30 idiomas
- O Play 3.0 mini agora oferece suporte nativo a mais de 30 idiomas, com várias opções de vozes masculinas e femininas
- Vozes em inglês, japonês, hindi, árabe, espanhol, italiano, alemão, francês e português agora podem ser usadas em casos de uso de produção, e estão disponíveis na API e no playground
- Também é possível testar africâner, búlgaro, croata, tcheco, hebraico, húngaro, indonésio, malaio, mandarim, polonês, sérvio, sueco, tagalo, tailandês, turco, ucraniano, urdu e xhosa
O Play 3.0 mini é mais preciso
- O objetivo do Play 3.0 mini era criar o melhor modelo de TTS para IA conversacional
- Para alcançar isso, o modelo precisava superar os concorrentes em latência e precisão, ao mesmo tempo em que gerava voz com o tom mais conversacional
- LLMs alucinam, e LLMs de voz não são diferentes. As alucinações em LLMs de voz podem aparecer como palavras ou números extras, ou ausentes, no áudio gerado, que não faziam parte do texto de entrada
O Play 3.0 mini lê combinações de letras e números de forma mais natural
- Treinamos o modelo para ler números e iniciais como um ser humano
- O modelo ajusta o ritmo e desacelera todos os caracteres alfabéticos e numéricos
- Por exemplo, números de telefone são lidos em uma velocidade mais natural, e o mesmo vale para todas as iniciais e abreviações
- Isso torna a experiência geral da conversa mais natural
O Play 3.0 mini alcança a melhor semelhança de voz para clonagem de voz
- Ao clonar uma voz, muitas vezes soar parecido não é suficiente
- A clonagem de voz do Play 3.0 alcança desempenho de ponta ao clonar vozes, reproduzindo com precisão a entonação, o tom e o sotaque da voz clonada
- Em benchmarks com modelos de embedding open source populares, supera amplamente os concorrentes em semelhança com a voz original
- Experimente você mesmo clonando sua voz em play.ai e conversando consigo mesmo
Suporte à API WebSocket
- A API do 3.0 mini agora oferece suporte a WebSocket, reduzindo significativamente a sobrecarga de abrir e fechar conexões HTTP e facilitando a ativação de streaming de entrada de texto a partir de LLMs ou outras fontes
O Play 3.0 mini é um modelo com bom custo-benefício
- Temos o prazer de anunciar redução de preços para startups de maior volume e para a categoria growth, e agora introduzimos uma nova faixa Pro de US$ 49 por mês para empresas com necessidades mais modestas
- Confira aqui a nova tabela de preços
- Estamos ansiosos para ver o que você vai criar com a gente! Se você tiver necessidades personalizadas de grande volume, entre em contato com a equipe de vendas
Opinião do GN+
- É impressionante o esforço da Play.ht para desenvolver o modelo de voz mais confiável para IA conversacional. Ao superar concorrentes em latência e precisão e gerar a voz conversacional mais natural, este modelo parece pronto para liderar o setor
- O suporte a mais de 30 idiomas e diversas opções de voz é um passo importante para alcançar mais usuários e casos de uso. Isso deve ajudar na adoção mais ampla da IA de voz
- No entanto, considerações éticas devem ser levadas em conta ao adotar essa tecnologia. Por exemplo, clonar a voz de uma pessoa sem consentimento pode gerar questões de privacidade. Além disso, existe a possibilidade de essa tecnologia ser usada indevidamente para disseminar desinformação
- Outros projetos notáveis de IA de voz com funcionalidades semelhantes incluem o Tacotron, do Google, e o WaveNet, da DeepMind. Esses modelos também se concentram em suporte multilíngue e geração de voz natural
- Em conclusão, o Play 3.0 mini estabelece um novo padrão para tecnologia de voz em IA conversacional. Desenvolvedores poderão aproveitar um TTS rápido, preciso e natural para várias aplicações em tempo real. No entanto, proteções robustas e diretrizes éticas devem ser implementadas para evitar o uso indevido dessa tecnologia
4 comentários
Mas, olhando o Playground, parece que o coreano está lá de novo, né?
Poxa, suporta tantas línguas e mesmo assim não tem coreano...
Que pena, parece que o coreano ainda não foi incluído T_T
Comentários no Hacker News