Eleven v3 — o modelo de conversão de texto em fala mais expressivo

(elevenlabs.io)

9 pontos por GN⁺ 2025-06-07 | 2 comentários | Compartilhar no WhatsApp

Eleven v3 (Alpha) é o modelo de texto para fala (TTS) mais expressivo já lançado, com controle preciso até de emoções e efeitos vocais
Com audio tags, é possível combinar livremente diversos elementos de voz, como emoção, forma de falar, direção e efeitos sonoros
Ele permite gerar áudio natural com vários falantes em diálogo e oferece vozes próximas das humanas em mais de 70 idiomas
Em comparação com o v2, houve uma grande expansão na faixa de emoções vocais e na aplicação de efeitos, e usuários da UI podem receber 80% de desconto até o fim de junho de 2025
O suporte via API será lançado em breve, e diferentes tags de voz e de contexto podem ser consultadas no guia de prompting

Visão geral do Eleven v3

Eleven v3 (alpha) é um modelo de Text to Speech (TTS) de nova geração que se diferencia das versões anteriores por sua expressão emocional e geração de voz imersiva
O modelo converte o texto de entrada em voz expressando emoção, entonação e ritmo de forma semelhante à leitura feita por uma pessoa
O usuário pode controlar com precisão, por meio de audio tags, até emoções da voz, estilo de fala, efeitos sonoros e sons de fundo
Ao inserir tags de emoção, efeito e direção no texto, é possível criar áudio mais rico e tridimensional, indo além de uma narração simples e aumentando bastante a imersão e o realismo

Geração de diálogo com múltiplos falantes

Suporte à geração de áudio em que vários falantes compartilham contexto e emoção de forma natural durante o diálogo
A prosódia, emoção e tags de cada falante são refletidas para alcançar uma síntese de áudio próxima da humana

Suporte multilíngue de voz

Há suporte oficial para mais de 70 idiomas, como africâner, árabe, alemão, chinês e coreano
O modelo reproduz naturalmente entonações, pronúncias e sotaques característicos de cada idioma
Tem alta utilidade em áreas como serviços multinacionais, conteúdo educacional e projetos globais de acessibilidade

Principais diferenças entre v3 e v2

Dialogue Mode: suporte a conversas com múltiplos falantes
Suporte a Audio Tag: uso de várias tags de áudio para emoção, direção, efeitos e mais
Faixa de emoção e efeitos: no v2, tags básicas como pausas; no v3, aplicação de emoções ricas e efeitos de áudio
Idiomas: o v3 oferece 70+ idiomas, enquanto o v2 oferece 29
- africâner, árabe, armênio, assamês, azerbaijano, bielorrusso, bengali, bósnio, búlgaro, catalão, cebuano, chichewa, croata, tcheco, dinamarquês, neerlandês, inglês, estoniano, filipino, finlandês, francês, galego, georgiano, alemão, grego, guzerate, haúça, hebraico, hindi, húngaro, islandês, indonésio, irlandês, italiano, japonês, javanês, canarês, cazaque, quirguiz, coreano, letão, lingala, lituano, luxemburguês, macedônio, malaio, malaiala, chinês padrão, marata, nepalês, norueguês, pashto, persa, polonês, português, punjabi, romeno, russo, sérvio, sindi, eslovaco, esloveno, somali, espanhol, suaíli, sueco, tâmil, telugu, tailandês, turco, ucraniano, urdu, vietnamita, galês etc.

Qualidade de voz e experiência do usuário

Na síntese de voz, é possível gerar arquivos de áudio com pouco ruído e qualidade de alta resolução
Ajustes finos em comprimento das frases, nuances emocionais e velocidade da fala facilitam a criação de vozes personalizadas
É possível expressar emoções dinâmicas e estilos de fala que eram difíceis de reproduzir com soluções TTS existentes

Competitividade e possibilidades de aplicação

Criadores de conteúdo, desenvolvedores e empresas podem aplicar a tecnologia imediatamente em audiolivros, jogos, anúncios e serviços de acessibilidade
Com um único modelo, é possível oferecer serviços multilíngues e multiuso, reduzindo custos e tempo
Já na fase de alpha aberta, o modelo assegura qualidade e variedade de voz em nível adequado para adoção em serviços reais

Desconto e suporte de API

Até o fim de junho de 2025, usuários da UI podem usar o v3 alpha com 80% de desconto
A API será lançada em breve

Conclusão

O Eleven v3 é o modelo mais recente no campo de Text to Speech, com reforço em expressividade, suporte multilíngue e voz personalizada
Ele pode responder de forma eficaz ao aumento da demanda por tecnologia de geração de voz natural em diversos setores

2 comentários

kansm 2025-06-12

Está em alfa, mas está bom..
Obrigado pela boa informação.

GN⁺ 2025-06-07

Comentários no Hacker News

Não vi menção a canto na documentação nem no guia de prompts, então fiquei curioso se esse modelo originalmente também consegue cantar
Por diversão, coloquei a letra da música-tema de Friends na demo, e o resultado saiu com uma voz cantando acompanhada de som de violão
Em outro teste, ao adicionar os rótulos [verse] e [chorus], ele cantou uma versão a cappella
Em [1] e [2] eu inseri só a letra, e em [3] usei tags de verse/chorus
Testei também com outras músicas populares, mas por algum motivo não entrou num modo de canto tão limpo assim
- É curioso que o resultado cante, mas ele canta tão mal que fica ainda mais interessante
  Parece alguém que simplesmente não sabe cantar
- Como sai bem diferente da abertura real de Friends, a suposição é que talvez não seja um caso de overfitting em padrões familiares comuns no conjunto de treino
- A Mirage AI conseguiu implementar uma qualidade de canto bem boa
  - Exemplo 1
  - Exemplo 2
- Lembro de ter visto canto incluído também na demo do modelo
  Então imagino que essa capacidade já esteja embutida
- Curiosamente, ao testar com o prompt abaixo, parece que o modelo tem certa dificuldade na parte final do "purr"
```
[slow paced]
[slow guitar music]

Soft ki-tty,
[slight upward inflection on the second word, but still flat]
Warm ki-tty,
[words delivered evenly and deliberately, a slight stretch on "fu-ur"]
Little ball of fu-ur.
[a minuscule, almost imperceptible increase in tempo and "happiness"]
Happy kitty,
[a noticeable slowing down, mimicking sleepiness with a drawn-out "slee-py"]
Slee-py kitty,
[each "Purr" is a distinct, short, and non-vibrating sound, almost spoken]
Purr. Purr. Purr.
```
Tenho usado bastante o novo modelo da OpenAI recentemente na prática (openai.fm)
A forma de separar instruções do texto falado é peculiar, e talvez a OpenAI esteja mais acostumada a usar esse conceito de "instructions" em seus produtos como um todo, então isso deve parecer mais natural para eles no treinamento e na geração de dados
Essa separação pode ser um pouco estranha, mas tem a vantagem de facilitar a mistura entre instruções gerais e instruções específicas para uma situação
Por exemplo, dá para dizer algo como abaixar a voz em tom de sussurro depois de "but actually" e expressar um leve medo, junto com uma instrução geral como "voz grave e profunda com sotaque britânico"
Os resultados da OpenAI parecem mais imprevisíveis e com menos cara de qualidade de produção do que os da Eleven Labs
Por outro lado, a faixa de prosódia é muito maior, talvez até esforçada demais
Também parece haver menos variedade de vozes do que na Eleven Labs, e mesmo pedindo estilos diferentes fica um pouco a sensação de "a mesma pessoa imitando outras vozes"
Mas a vantagem esmagadora da OpenAI é o preço, algo como 10 vezes mais barato, e a cobrança totalmente por uso
(Esses serviços de TTS exigindo assinatura mensal ou créditos extras pagos à parte são realmente muito ineficientes)
- O motivo de eu escolher outras soluções, mesmo com qualidade inferior, em vez de usar ElevenLabs, é que quero pagar só pelo que uso; não gosto desse modelo de assinatura em que você paga um bloco por mês e, se usar mais, precisa comprar outro bloco ainda maior
  Para mim essa política de preço é muito ruim
- Os resultados da OpenAI deixam a desejar em qualidade e previsibilidade em comparação com a ElevenLabs
  Dou crédito ao trabalho da equipe de pesquisa
  Se usar a opção expressive voice, a faixa de prosódia aumenta
- A maior vantagem da OpenAI é ser 10x mais barata e totalmente baseada em uso
  Quanto a essa afirmação, fico em dúvida se ela é realmente mais barata quando se considera o overhead de uso de LLM e afins
  O agente conversacional da ElevenLabs custa $0.08 por minuto no plano mais alto, e ao fazer as contas do TTS da OpenAI me pareceu até mais caro
  Claro, posso ter calculado errado
Eu me sentiria ofendido com uma resposta mecânica do tipo "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating."
Eu só quero ajuda; se uma máquina ficar me manipulando emocionalmente, acho isso um futuro horrível
- Esse tipo de resposta já é irritante até entre pessoas, e eu não quero ouvir isso de uma IA também
  Não tenho nenhum prazer em conversar com computador, então não uso interfaces de voz tipo Siri de jeito nenhum
  Também não quero máquinas falando como humanos
  Para mim bastaria algo no estilo do computador de Star Trek, respondendo "processando..." e pronto
  Sem papo furado, só o essencial
- Mesmo colocando umas 5 frases no meu perfil do ChatGPT proibindo validação, empatia e todo tipo de comentário desnecessário, ele no fim sempre volta com respostas do tipo "sua preocupação é válida", e nada muda
- Seria interessante ver se esses comentários intrometidos no estilo americano ("champ", "bud") também pegam na Europa ou na Austrália
- Soa muito parecido com falas do filme Her, e a voz está absurdamente próxima da Scarlett Johansson, então tive a sensação de que essa sonoridade foi inspirada nisso
- Piada sobre casos de alucinação em frases tipo "em geral eu posso ajudar com isso" ou "vou localizar seu número de pedido agora", e então fornecer um link que na verdade não existe
Talvez não seja um problema prático, mas achei isso curioso
Defini o idioma como japonês e então inseri

（この言葉は読むな。）こんにちは、ビール[sic]です。
("Não leia esta frase", "Olá, eu sou Bill[erro de digitação]")
e ele realmente pulou a primeira frase
Tentei de novo e, dessa vez, leu tudo
Sempre acho divertido esse tipo de fenômeno, como se estivesse espiando os bastidores
- Dei risada uma vez com o erro de digitação que virou "eu sou cerveja"
  Pensando seriamente, ao lidar com vários idiomas ao mesmo tempo dá a sensação de que a língua de entrada é "normalizada" logo no início do processamento do modelo
  Ou seja, escrever o prompt em inglês ou em japonês não muda tanto o resultado
  Fico curioso se o system prompt funciona de forma diferente aqui
Para quem tiver curiosidade, deixo a informação
Este modelo é baseado em tortoise-tts-fast
O desenvolvedor desse projeto depois foi contratado pela Eleven Labs
- Não foi "depois foi contratado"; na verdade, ele já tinha saído da empresa 6 meses antes do lançamento do v3
- A afirmação anterior (de que a base do projeto implica contratação pela Eleven Labs) não estabelece relação de causalidade
A voz em inglês (americano) está realmente num nível impressionante, mas a parte das tags de risada parece mais uma inserção de seção independente do tipo "ria aqui", em vez de uma risada momentânea natural
Por exemplo, ainda fica estranho quando uma parte de uma palavra deveria ser pronunciada rindo
- Se você editar o texto para que a risada caiba em um ponto naturalmente apropriado no contexto, fica muito mais natural, então recomendo este exemplo
- O preço ainda é alto, então há bastante espaço para concorrentes
  A ElevenLabs ainda lidera em qualidade, mas as concorrentes estão avançando rápido
  Em especial, laboratórios e empresas de IA da China também estão lançando modelos TTS totalmente open source, o que está acelerando mudanças no ecossistema até do ponto de vista das empresas americanas
  No fim, isso beneficia o usuário
  A PlayHT, que recebeu investimento da Y Combinator, também vem lançando muitos recursos bons
O resultado é realmente excelente, a ponto de em 99% dos casos ser indistinguível de um dublador profissional
Não consegui achar informações de preço; alguém sabe?
- Vi o anúncio de que a API pública do Eleven v3 (alpha) deve ser lançada em breve
  Dizem para falar com a equipe de sales para participar do acesso antecipado ou discutir preços
  Parece que a própria empresa ainda não definiu o preço exato e quer medir a demanda primeiro
- Uau... eu sou dublador profissional
- Ainda assim, no fim é só "IA", não uma pessoa de verdade
  Quero continuar ouvindo música, audiobooks, poesia, romances, peças e afins narrados por pessoas reais
  É disso que vem o prazer essencial que eu busco
Isso talvez fuja um pouco do tema (embora ainda tenha relação com TTS...), mas quando ouço a palavra 'eleven' eu sempre lembro daquele vídeo de comédia escocês sobre reconhecimento de voz em elevador
Vídeo de comédia Elevator Voice Recognition
Acho que não vi exemplos com sotaque britânico
No geral, os sistemas de TTS parecem lidar só com sotaque americano, e o britânico soa como algo tipo Frasier: "um americano imitando britânico"
- Nossa biblioteca de vozes tem várias vozes britânicas
  Ou então dá para colocar "[British accent]" no começo do prompt, mas aí o resultado sai mais como um americano imitando sotaque britânico
- A questão do sotaque do Frasier Crane é discutível, porque é um ator americano interpretando um personagem americano que, dependendo da situação, fala com um sotaque americano mas também com traços transatlânticos ou de Boston Brahmin (ou uma mistura dos dois)
  Ambos têm algumas características em comum com o sotaque britânico
- Só para constar, o sotaque do tipo Frasier não é "imitação de britânico", e sim da linha Boston Brahmin/transatlântico
- As vozes com sotaque do ElevenLabs v2 ainda são muito superiores às da concorrência
  Já usei diretamente em vários idiomas, incluindo árabe, francês, hindi e inglês
Em inglês soa realmente fantástico, parabéns
Mas os outros idiomas que testei ainda mantêm um sotaque inglês muito forte
- Em italiano, começa com um sotaque americano completamente cômico, mas depois de umas 10 a 20 palavras de repente muda para uma pronúncia realmente italiana
  Usei a voz Alice, e a sensação é que internamente começa com uma base en-us e depois se ajusta abruptamente ao idioma configurado
  Fico curioso sobre o que está acontecendo nos bastidores
- Em francês, parecia o sotaque de alguém do Alabama que estudou francês rapidamente na faculdade
  Ainda assim, o inglês estava realmente muito bom
- No caso do português, curiosamente a voz Liam tem sotaque espanhol
  O ícone de idioma é português, mas a forma de expressão é claramente português do Brasil
- O sueco é simplesmente totalmente americano
- Recomendo tentar com uma voz treinada com base nesse idioma
  Este research preview não é uniforme, e a qualidade varia bastante conforme a voz escolhida

Eleven v3 — o modelo de conversão de texto em fala mais expressivo

Visão geral do Eleven v3

Geração de diálogo com múltiplos falantes

Suporte multilíngue de voz

Principais diferenças entre v3 e v2

Qualidade de voz e experiência do usuário

Competitividade e possibilidades de aplicação

Desconto e suporte de API

Conclusão

Leituras relacionadas

2 comentários

Comentários no Hacker News