- Eleven v3 (Alpha) é o modelo de texto para fala (TTS) mais expressivo já lançado, com controle preciso até de emoções e efeitos vocais
- Com audio tags, é possível combinar livremente diversos elementos de voz, como emoção, forma de falar, direção e efeitos sonoros
- Ele permite gerar áudio natural com vários falantes em diálogo e oferece vozes próximas das humanas em mais de 70 idiomas
- Em comparação com o v2, houve uma grande expansão na faixa de emoções vocais e na aplicação de efeitos, e usuários da UI podem receber 80% de desconto até o fim de junho de 2025
- O suporte via API será lançado em breve, e diferentes tags de voz e de contexto podem ser consultadas no guia de prompting
Visão geral do Eleven v3
- Eleven v3 (alpha) é um modelo de Text to Speech (TTS) de nova geração que se diferencia das versões anteriores por sua expressão emocional e geração de voz imersiva
- O modelo converte o texto de entrada em voz expressando emoção, entonação e ritmo de forma semelhante à leitura feita por uma pessoa
- O usuário pode controlar com precisão, por meio de audio tags, até emoções da voz, estilo de fala, efeitos sonoros e sons de fundo
- Ao inserir tags de emoção, efeito e direção no texto, é possível criar áudio mais rico e tridimensional, indo além de uma narração simples e aumentando bastante a imersão e o realismo
Geração de diálogo com múltiplos falantes
- Suporte à geração de áudio em que vários falantes compartilham contexto e emoção de forma natural durante o diálogo
- A prosódia, emoção e tags de cada falante são refletidas para alcançar uma síntese de áudio próxima da humana
Suporte multilíngue de voz
- Há suporte oficial para mais de 70 idiomas, como africâner, árabe, alemão, chinês e coreano
- O modelo reproduz naturalmente entonações, pronúncias e sotaques característicos de cada idioma
- Tem alta utilidade em áreas como serviços multinacionais, conteúdo educacional e projetos globais de acessibilidade
Principais diferenças entre v3 e v2
- Dialogue Mode: suporte a conversas com múltiplos falantes
- Suporte a Audio Tag: uso de várias tags de áudio para emoção, direção, efeitos e mais
- Faixa de emoção e efeitos: no v2, tags básicas como pausas; no v3, aplicação de emoções ricas e efeitos de áudio
- Idiomas: o v3 oferece 70+ idiomas, enquanto o v2 oferece 29
- africâner, árabe, armênio, assamês, azerbaijano, bielorrusso, bengali, bósnio, búlgaro, catalão, cebuano, chichewa, croata, tcheco, dinamarquês, neerlandês, inglês, estoniano, filipino, finlandês, francês, galego, georgiano, alemão, grego, guzerate, haúça, hebraico, hindi, húngaro, islandês, indonésio, irlandês, italiano, japonês, javanês, canarês, cazaque, quirguiz, coreano, letão, lingala, lituano, luxemburguês, macedônio, malaio, malaiala, chinês padrão, marata, nepalês, norueguês, pashto, persa, polonês, português, punjabi, romeno, russo, sérvio, sindi, eslovaco, esloveno, somali, espanhol, suaíli, sueco, tâmil, telugu, tailandês, turco, ucraniano, urdu, vietnamita, galês etc.
Qualidade de voz e experiência do usuário
- Na síntese de voz, é possível gerar arquivos de áudio com pouco ruído e qualidade de alta resolução
- Ajustes finos em comprimento das frases, nuances emocionais e velocidade da fala facilitam a criação de vozes personalizadas
- É possível expressar emoções dinâmicas e estilos de fala que eram difíceis de reproduzir com soluções TTS existentes
Competitividade e possibilidades de aplicação
- Criadores de conteúdo, desenvolvedores e empresas podem aplicar a tecnologia imediatamente em audiolivros, jogos, anúncios e serviços de acessibilidade
- Com um único modelo, é possível oferecer serviços multilíngues e multiuso, reduzindo custos e tempo
- Já na fase de alpha aberta, o modelo assegura qualidade e variedade de voz em nível adequado para adoção em serviços reais
Desconto e suporte de API
- Até o fim de junho de 2025, usuários da UI podem usar o v3 alpha com 80% de desconto
- A API será lançada em breve
Conclusão
- O Eleven v3 é o modelo mais recente no campo de Text to Speech, com reforço em expressividade, suporte multilíngue e voz personalizada
- Ele pode responder de forma eficaz ao aumento da demanda por tecnologia de geração de voz natural em diversos setores
2 comentários
Está em alfa, mas está bom..
Obrigado pela boa informação.
Comentários no Hacker News
Não vi menção a canto na documentação nem no guia de prompts, então fiquei curioso se esse modelo originalmente também consegue cantar
Por diversão, coloquei a letra da música-tema de Friends na demo, e o resultado saiu com uma voz cantando acompanhada de som de violão
Em outro teste, ao adicionar os rótulos [verse] e [chorus], ele cantou uma versão a cappella
Em [1] e [2] eu inseri só a letra, e em [3] usei tags de verse/chorus
Testei também com outras músicas populares, mas por algum motivo não entrou num modo de canto tão limpo assim
É curioso que o resultado cante, mas ele canta tão mal que fica ainda mais interessante
Parece alguém que simplesmente não sabe cantar
Como sai bem diferente da abertura real de Friends, a suposição é que talvez não seja um caso de overfitting em padrões familiares comuns no conjunto de treino
A Mirage AI conseguiu implementar uma qualidade de canto bem boa
Lembro de ter visto canto incluído também na demo do modelo
Então imagino que essa capacidade já esteja embutida
Curiosamente, ao testar com o prompt abaixo, parece que o modelo tem certa dificuldade na parte final do "purr"
Tenho usado bastante o novo modelo da OpenAI recentemente na prática (openai.fm)
A forma de separar instruções do texto falado é peculiar, e talvez a OpenAI esteja mais acostumada a usar esse conceito de "instructions" em seus produtos como um todo, então isso deve parecer mais natural para eles no treinamento e na geração de dados
Essa separação pode ser um pouco estranha, mas tem a vantagem de facilitar a mistura entre instruções gerais e instruções específicas para uma situação
Por exemplo, dá para dizer algo como abaixar a voz em tom de sussurro depois de "but actually" e expressar um leve medo, junto com uma instrução geral como "voz grave e profunda com sotaque britânico"
Os resultados da OpenAI parecem mais imprevisíveis e com menos cara de qualidade de produção do que os da Eleven Labs
Por outro lado, a faixa de prosódia é muito maior, talvez até esforçada demais
Também parece haver menos variedade de vozes do que na Eleven Labs, e mesmo pedindo estilos diferentes fica um pouco a sensação de "a mesma pessoa imitando outras vozes"
Mas a vantagem esmagadora da OpenAI é o preço, algo como 10 vezes mais barato, e a cobrança totalmente por uso
(Esses serviços de TTS exigindo assinatura mensal ou créditos extras pagos à parte são realmente muito ineficientes)
O motivo de eu escolher outras soluções, mesmo com qualidade inferior, em vez de usar ElevenLabs, é que quero pagar só pelo que uso; não gosto desse modelo de assinatura em que você paga um bloco por mês e, se usar mais, precisa comprar outro bloco ainda maior
Para mim essa política de preço é muito ruim
Eu me sentiria ofendido com uma resposta mecânica do tipo "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating."
Eu só quero ajuda; se uma máquina ficar me manipulando emocionalmente, acho isso um futuro horrível
Esse tipo de resposta já é irritante até entre pessoas, e eu não quero ouvir isso de uma IA também
Não tenho nenhum prazer em conversar com computador, então não uso interfaces de voz tipo Siri de jeito nenhum
Também não quero máquinas falando como humanos
Para mim bastaria algo no estilo do computador de Star Trek, respondendo "processando..." e pronto
Sem papo furado, só o essencial
Mesmo colocando umas 5 frases no meu perfil do ChatGPT proibindo validação, empatia e todo tipo de comentário desnecessário, ele no fim sempre volta com respostas do tipo "sua preocupação é válida", e nada muda
Seria interessante ver se esses comentários intrometidos no estilo americano ("champ", "bud") também pegam na Europa ou na Austrália
Soa muito parecido com falas do filme Her, e a voz está absurdamente próxima da Scarlett Johansson, então tive a sensação de que essa sonoridade foi inspirada nisso
Piada sobre casos de alucinação em frases tipo "em geral eu posso ajudar com isso" ou "vou localizar seu número de pedido agora", e então fornecer um link que na verdade não existe
Talvez não seja um problema prático, mas achei isso curioso
Defini o idioma como japonês e então inseri
Pensando seriamente, ao lidar com vários idiomas ao mesmo tempo dá a sensação de que a língua de entrada é "normalizada" logo no início do processamento do modelo
Ou seja, escrever o prompt em inglês ou em japonês não muda tanto o resultado
Fico curioso se o system prompt funciona de forma diferente aqui
Para quem tiver curiosidade, deixo a informação
Este modelo é baseado em tortoise-tts-fast
O desenvolvedor desse projeto depois foi contratado pela Eleven Labs
Não foi "depois foi contratado"; na verdade, ele já tinha saído da empresa 6 meses antes do lançamento do v3
A afirmação anterior (de que a base do projeto implica contratação pela Eleven Labs) não estabelece relação de causalidade
A voz em inglês (americano) está realmente num nível impressionante, mas a parte das tags de risada parece mais uma inserção de seção independente do tipo "ria aqui", em vez de uma risada momentânea natural
Por exemplo, ainda fica estranho quando uma parte de uma palavra deveria ser pronunciada rindo
Se você editar o texto para que a risada caiba em um ponto naturalmente apropriado no contexto, fica muito mais natural, então recomendo este exemplo
O preço ainda é alto, então há bastante espaço para concorrentes
A ElevenLabs ainda lidera em qualidade, mas as concorrentes estão avançando rápido
Em especial, laboratórios e empresas de IA da China também estão lançando modelos TTS totalmente open source, o que está acelerando mudanças no ecossistema até do ponto de vista das empresas americanas
No fim, isso beneficia o usuário
A PlayHT, que recebeu investimento da Y Combinator, também vem lançando muitos recursos bons
O resultado é realmente excelente, a ponto de em 99% dos casos ser indistinguível de um dublador profissional
Não consegui achar informações de preço; alguém sabe?
Vi o anúncio de que a API pública do Eleven v3 (alpha) deve ser lançada em breve
Dizem para falar com a equipe de sales para participar do acesso antecipado ou discutir preços
Parece que a própria empresa ainda não definiu o preço exato e quer medir a demanda primeiro
Uau... eu sou dublador profissional
Ainda assim, no fim é só "IA", não uma pessoa de verdade
Quero continuar ouvindo música, audiobooks, poesia, romances, peças e afins narrados por pessoas reais
É disso que vem o prazer essencial que eu busco
Isso talvez fuja um pouco do tema (embora ainda tenha relação com TTS...), mas quando ouço a palavra 'eleven' eu sempre lembro daquele vídeo de comédia escocês sobre reconhecimento de voz em elevador
Vídeo de comédia Elevator Voice Recognition
Acho que não vi exemplos com sotaque britânico
No geral, os sistemas de TTS parecem lidar só com sotaque americano, e o britânico soa como algo tipo Frasier: "um americano imitando britânico"
Nossa biblioteca de vozes tem várias vozes britânicas
Ou então dá para colocar "[British accent]" no começo do prompt, mas aí o resultado sai mais como um americano imitando sotaque britânico
A questão do sotaque do Frasier Crane é discutível, porque é um ator americano interpretando um personagem americano que, dependendo da situação, fala com um sotaque americano mas também com traços transatlânticos ou de Boston Brahmin (ou uma mistura dos dois)
Ambos têm algumas características em comum com o sotaque britânico
Só para constar, o sotaque do tipo Frasier não é "imitação de britânico", e sim da linha Boston Brahmin/transatlântico
As vozes com sotaque do ElevenLabs v2 ainda são muito superiores às da concorrência
Já usei diretamente em vários idiomas, incluindo árabe, francês, hindi e inglês
Em inglês soa realmente fantástico, parabéns
Mas os outros idiomas que testei ainda mantêm um sotaque inglês muito forte
Em italiano, começa com um sotaque americano completamente cômico, mas depois de umas 10 a 20 palavras de repente muda para uma pronúncia realmente italiana
Usei a voz Alice, e a sensação é que internamente começa com uma base en-us e depois se ajusta abruptamente ao idioma configurado
Fico curioso sobre o que está acontecendo nos bastidores
Em francês, parecia o sotaque de alguém do Alabama que estudou francês rapidamente na faculdade
Ainda assim, o inglês estava realmente muito bom
No caso do português, curiosamente a voz Liam tem sotaque espanhol
O ícone de idioma é português, mas a forma de expressão é claramente português do Brasil
O sueco é simplesmente totalmente americano
Recomendo tentar com uma voz treinada com base nesse idioma
Este research preview não é uniforme, e a qualidade varia bastante conforme a voz escolhida