Gemini 3.1 Flash TTS - modelo de voz com IA de próxima geração que controla o estilo de fala em linguagem natural
(blog.google)- O Google lançou um novo modelo de texto para fala com naturalidade e expressividade aprimoradas em relação à geração anterior, oferecendo suporte para que desenvolvedores, empresas e usuários em geral criem aplicações de voz com IA
- O recém-introduzido recurso de audio tags permite inserir comandos em linguagem natural diretamente no texto para controlar com precisão o estilo da voz, a velocidade e a forma de entrega
- Registrou pontuação Elo de 1.211 no ranking Artificial Analysis TTS e foi avaliado como a combinação ideal entre geração de voz de alta qualidade e baixo custo
- Suporta mais de 70 idiomas e inclui nativamente recursos de conversa com múltiplos falantes
- Todo o áudio gerado recebe marca-d'água SynthID, permitindo detecção confiável de conteúdo gerado por IA e prevenção de desinformação
Lançamento e canais de disponibilidade
- O Gemini 3.1 Flash TTS é o mais recente modelo de texto para fala e oferece controle, expressividade e qualidade aprimorados
- No momento, está disponível em preview pelos seguintes canais:
- Para desenvolvedores: Gemini API e Google AI Studio
- Para empresas: Vertex AI
- Para usuários do Workspace: Google Vids
Qualidade de voz e controle aprimorados
- A qualidade geral da voz foi melhorada, tornando-o até agora o modelo mais natural e expressivo
- Alcançou Elo 1.211 no ranking Artificial Analysis TTS com base em milhares de avaliações cegas de preferência humana
- A Artificial Analysis posicionou o Gemini 3.1 Flash TTS no "most attractive quadrant" como a combinação ideal de voz de alta qualidade e baixo custo
- Diferencia-se por oferecer conversa nativa com múltiplos falantes, suporte a mais de 70 idiomas e controle criativo detalhado com base em linguagem natural
Mais expressividade com audio tags
- A introdução do novo recurso de audio tags permite controlar de forma intuitiva o estilo da voz, a velocidade e a forma de entrega
- É possível ajustar detalhadamente a saída de voz com IA ao inserir comandos em linguagem natural diretamente na entrada de texto
- Empresas podem usar audio tags no Vertex AI para criar aplicações corporativas de próxima geração
- No Google AI Studio, há controles configuráveis que colocam os desenvolvedores na "cadeira do diretor (director's chair)":
- Scene direction: define o ambiente e estabelece instruções específicas de fala para fornecer contexto de construção de mundo, permitindo que os personagens reajam naturalmente ao longo de vários turnos
- Speaker-level specificity: escala personagens com um Audio Profile exclusivo, ajusta velocidade, tom e entonação com Director's Notes e permite mudar a expressão até no meio da frase com tags inline
- Seamless export: permite exportar os parâmetros finalizados como código da Gemini API, mantendo uma voz consistente em vários projetos e plataformas
- Com essa configuração, desenvolvedores podem criar personagens memoráveis e experiências de áudio imersivas
Suporte em escala global
- Oferece voz de alta fidelidade e controle preciso em mais de 70 idiomas
- Permite criar experiências de voz localizadas com controle avançado de estilo, velocidade e entonação para mercados importantes
- Desenvolvedores e empresas que participaram dos testes iniciais elogiaram bastante o impressionante controle e a expressividade do 3.1 Flash TTS
- O feedback destaca que os audio tags oferecem um novo nível de precisão criativa, transformando texto simples em performances vocais de alta fidelidade
Marca-d'água SynthID
- Todo áudio gerado pelo Gemini 3.1 Flash TTS recebe marca-d'água SynthID
- Uma marca-d'água imperceptível é inserida diretamente na saída de áudio, permitindo a detecção confiável de conteúdo gerado por IA
- Funciona como uma proteção para prevenir desinformação, e o model card fornece informações detalhadas sobre segurança e responsabilidade
Ainda não há comentários.