23 pontos por GN⁺ 2024-11-03 | 4 comentários | Compartilhar no WhatsApp
  • O modelo de voz mais capaz e conversacional, capaz de falar com qualquer voz ou sotaque em mais de 30 idiomas com velocidade e precisão líderes do setor
    • Além disso, foram lançadas mais de 50 novas vozes de IA conversacional em vários idiomas
  • Ao criar aplicações em tempo real com TTS, latência, confiabilidade, qualidade de áudio e naturalidade da voz são extremamente importantes

O Play 3.0 mini é o modelo de voz conversacional mais rápido até agora

  • O 3.0 mini alcançou uma latência média de 189 milissegundos para TTFB, tornando-se o modelo de AI Text to Speech mais rápido
  • Suporta streaming de entrada de texto a partir de LLMs e streaming de saída de áudio, e pode ser usado via API HTTP REST, API WebSocket ou SDK
  • O 3.0 mini também é mais eficiente que o Play 2.0, com velocidade de inferência 28% maior

O Play 3.0 mini oferece suporte a todas as vozes em mais de 30 idiomas

  • O Play 3.0 mini agora oferece suporte nativo a mais de 30 idiomas, com várias opções de vozes masculinas e femininas
  • Vozes em inglês, japonês, hindi, árabe, espanhol, italiano, alemão, francês e português agora podem ser usadas em casos de uso de produção, e estão disponíveis na API e no playground
  • Também é possível testar africâner, búlgaro, croata, tcheco, hebraico, húngaro, indonésio, malaio, mandarim, polonês, sérvio, sueco, tagalo, tailandês, turco, ucraniano, urdu e xhosa

O Play 3.0 mini é mais preciso

  • O objetivo do Play 3.0 mini era criar o melhor modelo de TTS para IA conversacional
  • Para alcançar isso, o modelo precisava superar os concorrentes em latência e precisão, ao mesmo tempo em que gerava voz com o tom mais conversacional
  • LLMs alucinam, e LLMs de voz não são diferentes. As alucinações em LLMs de voz podem aparecer como palavras ou números extras, ou ausentes, no áudio gerado, que não faziam parte do texto de entrada

O Play 3.0 mini lê combinações de letras e números de forma mais natural

  • Treinamos o modelo para ler números e iniciais como um ser humano
  • O modelo ajusta o ritmo e desacelera todos os caracteres alfabéticos e numéricos
  • Por exemplo, números de telefone são lidos em uma velocidade mais natural, e o mesmo vale para todas as iniciais e abreviações
  • Isso torna a experiência geral da conversa mais natural

O Play 3.0 mini alcança a melhor semelhança de voz para clonagem de voz

  • Ao clonar uma voz, muitas vezes soar parecido não é suficiente
  • A clonagem de voz do Play 3.0 alcança desempenho de ponta ao clonar vozes, reproduzindo com precisão a entonação, o tom e o sotaque da voz clonada
  • Em benchmarks com modelos de embedding open source populares, supera amplamente os concorrentes em semelhança com a voz original
  • Experimente você mesmo clonando sua voz em play.ai e conversando consigo mesmo

Suporte à API WebSocket

  • A API do 3.0 mini agora oferece suporte a WebSocket, reduzindo significativamente a sobrecarga de abrir e fechar conexões HTTP e facilitando a ativação de streaming de entrada de texto a partir de LLMs ou outras fontes

O Play 3.0 mini é um modelo com bom custo-benefício

  • Temos o prazer de anunciar redução de preços para startups de maior volume e para a categoria growth, e agora introduzimos uma nova faixa Pro de US$ 49 por mês para empresas com necessidades mais modestas
  • Confira aqui a nova tabela de preços
  • Estamos ansiosos para ver o que você vai criar com a gente! Se você tiver necessidades personalizadas de grande volume, entre em contato com a equipe de vendas

Opinião do GN+

  • É impressionante o esforço da Play.ht para desenvolver o modelo de voz mais confiável para IA conversacional. Ao superar concorrentes em latência e precisão e gerar a voz conversacional mais natural, este modelo parece pronto para liderar o setor
  • O suporte a mais de 30 idiomas e diversas opções de voz é um passo importante para alcançar mais usuários e casos de uso. Isso deve ajudar na adoção mais ampla da IA de voz
  • No entanto, considerações éticas devem ser levadas em conta ao adotar essa tecnologia. Por exemplo, clonar a voz de uma pessoa sem consentimento pode gerar questões de privacidade. Além disso, existe a possibilidade de essa tecnologia ser usada indevidamente para disseminar desinformação
  • Outros projetos notáveis de IA de voz com funcionalidades semelhantes incluem o Tacotron, do Google, e o WaveNet, da DeepMind. Esses modelos também se concentram em suporte multilíngue e geração de voz natural
  • Em conclusão, o Play 3.0 mini estabelece um novo padrão para tecnologia de voz em IA conversacional. Desenvolvedores poderão aproveitar um TTS rápido, preciso e natural para várias aplicações em tempo real. No entanto, proteções robustas e diretrizes éticas devem ser implementadas para evitar o uso indevido dessa tecnologia

4 comentários

 
dane1 2024-11-04

Mas, olhando o Playground, parece que o coreano está lá de novo, né?

 
dane1 2024-11-04

Poxa, suporta tantas línguas e mesmo assim não tem coreano...

 
hmmhmmhm 2024-11-03

Que pena, parece que o coreano ainda não foi incluído T_T

 
GN⁺ 2024-11-03

Comentários no Hacker News

  • Um modelo TTS de código aberto lançado recentemente oferece excelente clonagem de voz. Pode rodar em uma GPU NVIDIA com 10 GB de VRAM.
  • O teste ao vivo não funcionou no Firefox, mas ao mudar para o Chrome funcionou rapidamente. Em 30 segundos, foi possível clonar a própria voz e conversar com ela. É sofisticado o suficiente para enganar a maioria das pessoas.
  • Este modelo custa mais do que as APIs de TTS da Cartesia e da OpenAI. Em geral, APIs de TTS operam com margens maiores do que LLMs.
  • Em idiomas além do inglês, a função de transcrição não é útil. Se a transcrição for precisa, a tradução e a resposta por voz são muito rápidas, mas se a transcrição for ruim, não serve para nada.
  • Durante o verão, foram escritos clientes de API para Go e Rust. Na época, Play era usado no trabalho, mas só existiam SDKs para Python e Node.
  • Ter conversas de baixa latência com uma voz parecida com a própria pode causar certo desconforto. Ainda assim, é uma experiência muito provocativa.
  • A voz clonada soou muito parecida, mas em um teste às cegas, nenhuma das 5 pessoas a reconheceu como a própria voz. Isso levanta a dúvida sobre se há algum viés ao ouvir a própria voz.
  • O modelo da OpenAI não tem bom desempenho na pronúncia de números. É chocante que, em 2024, tenha sido lançado um modelo de TTS que não consegue pronunciar números corretamente. Acredita-se que novos modelos de TTS deveriam ao menos ser validados até 100.000.