9 pontos por GN⁺ 2025-06-07 | 2 comentários | Compartilhar no WhatsApp
  • Eleven v3 (Alpha) é o modelo de texto para fala (TTS) mais expressivo já lançado, com controle preciso até de emoções e efeitos vocais
  • Com audio tags, é possível combinar livremente diversos elementos de voz, como emoção, forma de falar, direção e efeitos sonoros
  • Ele permite gerar áudio natural com vários falantes em diálogo e oferece vozes próximas das humanas em mais de 70 idiomas
  • Em comparação com o v2, houve uma grande expansão na faixa de emoções vocais e na aplicação de efeitos, e usuários da UI podem receber 80% de desconto até o fim de junho de 2025
  • O suporte via API será lançado em breve, e diferentes tags de voz e de contexto podem ser consultadas no guia de prompting

Visão geral do Eleven v3

  • Eleven v3 (alpha) é um modelo de Text to Speech (TTS) de nova geração que se diferencia das versões anteriores por sua expressão emocional e geração de voz imersiva
  • O modelo converte o texto de entrada em voz expressando emoção, entonação e ritmo de forma semelhante à leitura feita por uma pessoa
  • O usuário pode controlar com precisão, por meio de audio tags, até emoções da voz, estilo de fala, efeitos sonoros e sons de fundo
  • Ao inserir tags de emoção, efeito e direção no texto, é possível criar áudio mais rico e tridimensional, indo além de uma narração simples e aumentando bastante a imersão e o realismo

Geração de diálogo com múltiplos falantes

  • Suporte à geração de áudio em que vários falantes compartilham contexto e emoção de forma natural durante o diálogo
  • A prosódia, emoção e tags de cada falante são refletidas para alcançar uma síntese de áudio próxima da humana

Suporte multilíngue de voz

  • Há suporte oficial para mais de 70 idiomas, como africâner, árabe, alemão, chinês e coreano
  • O modelo reproduz naturalmente entonações, pronúncias e sotaques característicos de cada idioma
  • Tem alta utilidade em áreas como serviços multinacionais, conteúdo educacional e projetos globais de acessibilidade

Principais diferenças entre v3 e v2

  • Dialogue Mode: suporte a conversas com múltiplos falantes
  • Suporte a Audio Tag: uso de várias tags de áudio para emoção, direção, efeitos e mais
  • Faixa de emoção e efeitos: no v2, tags básicas como pausas; no v3, aplicação de emoções ricas e efeitos de áudio
  • Idiomas: o v3 oferece 70+ idiomas, enquanto o v2 oferece 29
    • africâner, árabe, armênio, assamês, azerbaijano, bielorrusso, bengali, bósnio, búlgaro, catalão, cebuano, chichewa, croata, tcheco, dinamarquês, neerlandês, inglês, estoniano, filipino, finlandês, francês, galego, georgiano, alemão, grego, guzerate, haúça, hebraico, hindi, húngaro, islandês, indonésio, irlandês, italiano, japonês, javanês, canarês, cazaque, quirguiz, coreano, letão, lingala, lituano, luxemburguês, macedônio, malaio, malaiala, chinês padrão, marata, nepalês, norueguês, pashto, persa, polonês, português, punjabi, romeno, russo, sérvio, sindi, eslovaco, esloveno, somali, espanhol, suaíli, sueco, tâmil, telugu, tailandês, turco, ucraniano, urdu, vietnamita, galês etc.

Qualidade de voz e experiência do usuário

  • Na síntese de voz, é possível gerar arquivos de áudio com pouco ruído e qualidade de alta resolução
  • Ajustes finos em comprimento das frases, nuances emocionais e velocidade da fala facilitam a criação de vozes personalizadas
  • É possível expressar emoções dinâmicas e estilos de fala que eram difíceis de reproduzir com soluções TTS existentes

Competitividade e possibilidades de aplicação

  • Criadores de conteúdo, desenvolvedores e empresas podem aplicar a tecnologia imediatamente em audiolivros, jogos, anúncios e serviços de acessibilidade
  • Com um único modelo, é possível oferecer serviços multilíngues e multiuso, reduzindo custos e tempo
  • Já na fase de alpha aberta, o modelo assegura qualidade e variedade de voz em nível adequado para adoção em serviços reais

Desconto e suporte de API

  • Até o fim de junho de 2025, usuários da UI podem usar o v3 alpha com 80% de desconto
  • A API será lançada em breve

Conclusão

  • O Eleven v3 é o modelo mais recente no campo de Text to Speech, com reforço em expressividade, suporte multilíngue e voz personalizada
  • Ele pode responder de forma eficaz ao aumento da demanda por tecnologia de geração de voz natural em diversos setores

2 comentários

 
kansm 2025-06-12

Está em alfa, mas está bom..
Obrigado pela boa informação.

 
GN⁺ 2025-06-07
Comentários no Hacker News
  • Não vi menção a canto na documentação nem no guia de prompts, então fiquei curioso se esse modelo originalmente também consegue cantar
    Por diversão, coloquei a letra da música-tema de Friends na demo, e o resultado saiu com uma voz cantando acompanhada de som de violão
    Em outro teste, ao adicionar os rótulos [verse] e [chorus], ele cantou uma versão a cappella
    Em [1] e [2] eu inseri só a letra, e em [3] usei tags de verse/chorus
    Testei também com outras músicas populares, mas por algum motivo não entrou num modo de canto tão limpo assim

    • É curioso que o resultado cante, mas ele canta tão mal que fica ainda mais interessante
      Parece alguém que simplesmente não sabe cantar

    • Como sai bem diferente da abertura real de Friends, a suposição é que talvez não seja um caso de overfitting em padrões familiares comuns no conjunto de treino

    • A Mirage AI conseguiu implementar uma qualidade de canto bem boa

    • Lembro de ter visto canto incluído também na demo do modelo
      Então imagino que essa capacidade já esteja embutida

    • Curiosamente, ao testar com o prompt abaixo, parece que o modelo tem certa dificuldade na parte final do "purr"

      [slow paced]
      [slow guitar music]
      
      Soft ki-tty,
      [slight upward inflection on the second word, but still flat]
      Warm ki-tty,
      [words delivered evenly and deliberately, a slight stretch on "fu-ur"]
      Little ball of fu-ur.
      [a minuscule, almost imperceptible increase in tempo and "happiness"]
      Happy kitty,
      [a noticeable slowing down, mimicking sleepiness with a drawn-out "slee-py"]
      Slee-py kitty,
      [each "Purr" is a distinct, short, and non-vibrating sound, almost spoken]
      Purr. Purr. Purr.
      
  • Tenho usado bastante o novo modelo da OpenAI recentemente na prática (openai.fm)
    A forma de separar instruções do texto falado é peculiar, e talvez a OpenAI esteja mais acostumada a usar esse conceito de "instructions" em seus produtos como um todo, então isso deve parecer mais natural para eles no treinamento e na geração de dados
    Essa separação pode ser um pouco estranha, mas tem a vantagem de facilitar a mistura entre instruções gerais e instruções específicas para uma situação
    Por exemplo, dá para dizer algo como abaixar a voz em tom de sussurro depois de "but actually" e expressar um leve medo, junto com uma instrução geral como "voz grave e profunda com sotaque britânico"
    Os resultados da OpenAI parecem mais imprevisíveis e com menos cara de qualidade de produção do que os da Eleven Labs
    Por outro lado, a faixa de prosódia é muito maior, talvez até esforçada demais
    Também parece haver menos variedade de vozes do que na Eleven Labs, e mesmo pedindo estilos diferentes fica um pouco a sensação de "a mesma pessoa imitando outras vozes"
    Mas a vantagem esmagadora da OpenAI é o preço, algo como 10 vezes mais barato, e a cobrança totalmente por uso
    (Esses serviços de TTS exigindo assinatura mensal ou créditos extras pagos à parte são realmente muito ineficientes)

    • O motivo de eu escolher outras soluções, mesmo com qualidade inferior, em vez de usar ElevenLabs, é que quero pagar só pelo que uso; não gosto desse modelo de assinatura em que você paga um bloco por mês e, se usar mais, precisa comprar outro bloco ainda maior
      Para mim essa política de preço é muito ruim

    • Os resultados da OpenAI deixam a desejar em qualidade e previsibilidade em comparação com a ElevenLabs
      Dou crédito ao trabalho da equipe de pesquisa
      Se usar a opção expressive voice, a faixa de prosódia aumenta

    • A maior vantagem da OpenAI é ser 10x mais barata e totalmente baseada em uso
      Quanto a essa afirmação, fico em dúvida se ela é realmente mais barata quando se considera o overhead de uso de LLM e afins
      O agente conversacional da ElevenLabs custa $0.08 por minuto no plano mais alto, e ao fazer as contas do TTS da OpenAI me pareceu até mais caro
      Claro, posso ter calculado errado

  • Eu me sentiria ofendido com uma resposta mecânica do tipo "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating."
    Eu só quero ajuda; se uma máquina ficar me manipulando emocionalmente, acho isso um futuro horrível

    • Esse tipo de resposta já é irritante até entre pessoas, e eu não quero ouvir isso de uma IA também
      Não tenho nenhum prazer em conversar com computador, então não uso interfaces de voz tipo Siri de jeito nenhum
      Também não quero máquinas falando como humanos
      Para mim bastaria algo no estilo do computador de Star Trek, respondendo "processando..." e pronto
      Sem papo furado, só o essencial

    • Mesmo colocando umas 5 frases no meu perfil do ChatGPT proibindo validação, empatia e todo tipo de comentário desnecessário, ele no fim sempre volta com respostas do tipo "sua preocupação é válida", e nada muda

    • Seria interessante ver se esses comentários intrometidos no estilo americano ("champ", "bud") também pegam na Europa ou na Austrália

    • Soa muito parecido com falas do filme Her, e a voz está absurdamente próxima da Scarlett Johansson, então tive a sensação de que essa sonoridade foi inspirada nisso

    • Piada sobre casos de alucinação em frases tipo "em geral eu posso ajudar com isso" ou "vou localizar seu número de pedido agora", e então fornecer um link que na verdade não existe

  • Talvez não seja um problema prático, mas achei isso curioso
    Defini o idioma como japonês e então inseri

    (この言葉は読むな。)こんにちは、ビール[sic]です。
    ("Não leia esta frase", "Olá, eu sou Bill[erro de digitação]")
    e ele realmente pulou a primeira frase
    Tentei de novo e, dessa vez, leu tudo
    Sempre acho divertido esse tipo de fenômeno, como se estivesse espiando os bastidores

    • Dei risada uma vez com o erro de digitação que virou "eu sou cerveja"
      Pensando seriamente, ao lidar com vários idiomas ao mesmo tempo dá a sensação de que a língua de entrada é "normalizada" logo no início do processamento do modelo
      Ou seja, escrever o prompt em inglês ou em japonês não muda tanto o resultado
      Fico curioso se o system prompt funciona de forma diferente aqui
  • Para quem tiver curiosidade, deixo a informação
    Este modelo é baseado em tortoise-tts-fast
    O desenvolvedor desse projeto depois foi contratado pela Eleven Labs

    • Não foi "depois foi contratado"; na verdade, ele já tinha saído da empresa 6 meses antes do lançamento do v3

    • A afirmação anterior (de que a base do projeto implica contratação pela Eleven Labs) não estabelece relação de causalidade

  • A voz em inglês (americano) está realmente num nível impressionante, mas a parte das tags de risada parece mais uma inserção de seção independente do tipo "ria aqui", em vez de uma risada momentânea natural
    Por exemplo, ainda fica estranho quando uma parte de uma palavra deveria ser pronunciada rindo

    • Se você editar o texto para que a risada caiba em um ponto naturalmente apropriado no contexto, fica muito mais natural, então recomendo este exemplo

    • O preço ainda é alto, então há bastante espaço para concorrentes
      A ElevenLabs ainda lidera em qualidade, mas as concorrentes estão avançando rápido
      Em especial, laboratórios e empresas de IA da China também estão lançando modelos TTS totalmente open source, o que está acelerando mudanças no ecossistema até do ponto de vista das empresas americanas
      No fim, isso beneficia o usuário
      A PlayHT, que recebeu investimento da Y Combinator, também vem lançando muitos recursos bons

  • O resultado é realmente excelente, a ponto de em 99% dos casos ser indistinguível de um dublador profissional
    Não consegui achar informações de preço; alguém sabe?

    • Vi o anúncio de que a API pública do Eleven v3 (alpha) deve ser lançada em breve
      Dizem para falar com a equipe de sales para participar do acesso antecipado ou discutir preços
      Parece que a própria empresa ainda não definiu o preço exato e quer medir a demanda primeiro

    • Uau... eu sou dublador profissional

    • Ainda assim, no fim é só "IA", não uma pessoa de verdade
      Quero continuar ouvindo música, audiobooks, poesia, romances, peças e afins narrados por pessoas reais
      É disso que vem o prazer essencial que eu busco

  • Isso talvez fuja um pouco do tema (embora ainda tenha relação com TTS...), mas quando ouço a palavra 'eleven' eu sempre lembro daquele vídeo de comédia escocês sobre reconhecimento de voz em elevador
    Vídeo de comédia Elevator Voice Recognition

  • Acho que não vi exemplos com sotaque britânico
    No geral, os sistemas de TTS parecem lidar só com sotaque americano, e o britânico soa como algo tipo Frasier: "um americano imitando britânico"

    • Nossa biblioteca de vozes tem várias vozes britânicas
      Ou então dá para colocar "[British accent]" no começo do prompt, mas aí o resultado sai mais como um americano imitando sotaque britânico

    • A questão do sotaque do Frasier Crane é discutível, porque é um ator americano interpretando um personagem americano que, dependendo da situação, fala com um sotaque americano mas também com traços transatlânticos ou de Boston Brahmin (ou uma mistura dos dois)
      Ambos têm algumas características em comum com o sotaque britânico

    • Só para constar, o sotaque do tipo Frasier não é "imitação de britânico", e sim da linha Boston Brahmin/transatlântico

    • As vozes com sotaque do ElevenLabs v2 ainda são muito superiores às da concorrência
      Já usei diretamente em vários idiomas, incluindo árabe, francês, hindi e inglês

  • Em inglês soa realmente fantástico, parabéns
    Mas os outros idiomas que testei ainda mantêm um sotaque inglês muito forte

    • Em italiano, começa com um sotaque americano completamente cômico, mas depois de umas 10 a 20 palavras de repente muda para uma pronúncia realmente italiana
      Usei a voz Alice, e a sensação é que internamente começa com uma base en-us e depois se ajusta abruptamente ao idioma configurado
      Fico curioso sobre o que está acontecendo nos bastidores

    • Em francês, parecia o sotaque de alguém do Alabama que estudou francês rapidamente na faculdade
      Ainda assim, o inglês estava realmente muito bom

    • No caso do português, curiosamente a voz Liam tem sotaque espanhol
      O ícone de idioma é português, mas a forma de expressão é claramente português do Brasil

    • O sueco é simplesmente totalmente americano

    • Recomendo tentar com uma voz treinada com base nesse idioma
      Este research preview não é uniforme, e a qualidade varia bastante conforme a voz escolhida