Lançamento do Play 3.0 Mini - modelo multilíngue de Text-To-Speech leve e com bom custo-benefício

(play.ht)

23 pontos por GN⁺ 2024-11-03 | 4 comentários | Compartilhar no WhatsApp

O modelo de voz mais capaz e conversacional, capaz de falar com qualquer voz ou sotaque em mais de 30 idiomas com velocidade e precisão líderes do setor
- Além disso, foram lançadas mais de 50 novas vozes de IA conversacional em vários idiomas
Ao criar aplicações em tempo real com TTS, latência, confiabilidade, qualidade de áudio e naturalidade da voz são extremamente importantes

O Play 3.0 mini é o modelo de voz conversacional mais rápido até agora

O 3.0 mini alcançou uma latência média de 189 milissegundos para TTFB, tornando-se o modelo de AI Text to Speech mais rápido
Suporta streaming de entrada de texto a partir de LLMs e streaming de saída de áudio, e pode ser usado via API HTTP REST, API WebSocket ou SDK
O 3.0 mini também é mais eficiente que o Play 2.0, com velocidade de inferência 28% maior

O Play 3.0 mini agora oferece suporte nativo a mais de 30 idiomas, com várias opções de vozes masculinas e femininas
Vozes em inglês, japonês, hindi, árabe, espanhol, italiano, alemão, francês e português agora podem ser usadas em casos de uso de produção, e estão disponíveis na API e no playground
Também é possível testar africâner, búlgaro, croata, tcheco, hebraico, húngaro, indonésio, malaio, mandarim, polonês, sérvio, sueco, tagalo, tailandês, turco, ucraniano, urdu e xhosa

O objetivo do Play 3.0 mini era criar o melhor modelo de TTS para IA conversacional
Para alcançar isso, o modelo precisava superar os concorrentes em latência e precisão, ao mesmo tempo em que gerava voz com o tom mais conversacional
LLMs alucinam, e LLMs de voz não são diferentes. As alucinações em LLMs de voz podem aparecer como palavras ou números extras, ou ausentes, no áudio gerado, que não faziam parte do texto de entrada

Treinamos o modelo para ler números e iniciais como um ser humano
O modelo ajusta o ritmo e desacelera todos os caracteres alfabéticos e numéricos
Por exemplo, números de telefone são lidos em uma velocidade mais natural, e o mesmo vale para todas as iniciais e abreviações
Isso torna a experiência geral da conversa mais natural

Ao clonar uma voz, muitas vezes soar parecido não é suficiente
A clonagem de voz do Play 3.0 alcança desempenho de ponta ao clonar vozes, reproduzindo com precisão a entonação, o tom e o sotaque da voz clonada
Em benchmarks com modelos de embedding open source populares, supera amplamente os concorrentes em semelhança com a voz original
Experimente você mesmo clonando sua voz em play.ai e conversando consigo mesmo

A API do 3.0 mini agora oferece suporte a WebSocket, reduzindo significativamente a sobrecarga de abrir e fechar conexões HTTP e facilitando a ativação de streaming de entrada de texto a partir de LLMs ou outras fontes

Temos o prazer de anunciar redução de preços para startups de maior volume e para a categoria growth, e agora introduzimos uma nova faixa Pro de US$ 49 por mês para empresas com necessidades mais modestas
Confira aqui a nova tabela de preços
Estamos ansiosos para ver o que você vai criar com a gente! Se você tiver necessidades personalizadas de grande volume, entre em contato com a equipe de vendas

É impressionante o esforço da Play.ht para desenvolver o modelo de voz mais confiável para IA conversacional. Ao superar concorrentes em latência e precisão e gerar a voz conversacional mais natural, este modelo parece pronto para liderar o setor
O suporte a mais de 30 idiomas e diversas opções de voz é um passo importante para alcançar mais usuários e casos de uso. Isso deve ajudar na adoção mais ampla da IA de voz
No entanto, considerações éticas devem ser levadas em conta ao adotar essa tecnologia. Por exemplo, clonar a voz de uma pessoa sem consentimento pode gerar questões de privacidade. Além disso, existe a possibilidade de essa tecnologia ser usada indevidamente para disseminar desinformação
Outros projetos notáveis de IA de voz com funcionalidades semelhantes incluem o Tacotron, do Google, e o WaveNet, da DeepMind. Esses modelos também se concentram em suporte multilíngue e geração de voz natural
Em conclusão, o Play 3.0 mini estabelece um novo padrão para tecnologia de voz em IA conversacional. Desenvolvedores poderão aproveitar um TTS rápido, preciso e natural para várias aplicações em tempo real. No entanto, proteções robustas e diretrizes éticas devem ser implementadas para evitar o uso indevido dessa tecnologia

dane1 2024-11-04

Mas, olhando o Playground, parece que o coreano está lá de novo, né?

dane1 2024-11-04

Poxa, suporta tantas línguas e mesmo assim não tem coreano...

hmmhmmhm 2024-11-03

Que pena, parece que o coreano ainda não foi incluído T_T

GN⁺ 2024-11-03

Um modelo TTS de código aberto lançado recentemente oferece excelente clonagem de voz. Pode rodar em uma GPU NVIDIA com 10 GB de VRAM.
O teste ao vivo não funcionou no Firefox, mas ao mudar para o Chrome funcionou rapidamente. Em 30 segundos, foi possível clonar a própria voz e conversar com ela. É sofisticado o suficiente para enganar a maioria das pessoas.
Este modelo custa mais do que as APIs de TTS da Cartesia e da OpenAI. Em geral, APIs de TTS operam com margens maiores do que LLMs.
Em idiomas além do inglês, a função de transcrição não é útil. Se a transcrição for precisa, a tradução e a resposta por voz são muito rápidas, mas se a transcrição for ruim, não serve para nada.
Durante o verão, foram escritos clientes de API para Go e Rust. Na época, Play era usado no trabalho, mas só existiam SDKs para Python e Node.
Ter conversas de baixa latência com uma voz parecida com a própria pode causar certo desconforto. Ainda assim, é uma experiência muito provocativa.
A voz clonada soou muito parecida, mas em um teste às cegas, nenhuma das 5 pessoas a reconheceu como a própria voz. Isso levanta a dúvida sobre se há algum viés ao ouvir a própria voz.
O modelo da OpenAI não tem bom desempenho na pronúncia de números. É chocante que, em 2024, tenha sido lançado um modelo de TTS que não consegue pronunciar números corretamente. Acredita-se que novos modelos de TTS deveriam ao menos ser validados até 100.000.