Gemini 3.1 Flash TTS - modelo de voz com IA de próxima geração que controla o estilo de fala em linguagem natural

(blog.google)

3 pontos por GN⁺ 15 일 전 | Ainda não há comentários. | Compartilhar no WhatsApp

O Google lançou um novo modelo de texto para fala com naturalidade e expressividade aprimoradas em relação à geração anterior, oferecendo suporte para que desenvolvedores, empresas e usuários em geral criem aplicações de voz com IA
O recém-introduzido recurso de audio tags permite inserir comandos em linguagem natural diretamente no texto para controlar com precisão o estilo da voz, a velocidade e a forma de entrega
Registrou pontuação Elo de 1.211 no ranking Artificial Analysis TTS e foi avaliado como a combinação ideal entre geração de voz de alta qualidade e baixo custo
Suporta mais de 70 idiomas e inclui nativamente recursos de conversa com múltiplos falantes
Todo o áudio gerado recebe marca-d'água SynthID, permitindo detecção confiável de conteúdo gerado por IA e prevenção de desinformação

Lançamento e canais de disponibilidade

O Gemini 3.1 Flash TTS é o mais recente modelo de texto para fala e oferece controle, expressividade e qualidade aprimorados
No momento, está disponível em preview pelos seguintes canais:
- Para desenvolvedores: Gemini API e Google AI Studio
- Para empresas: Vertex AI
- Para usuários do Workspace: Google Vids

A qualidade geral da voz foi melhorada, tornando-o até agora o modelo mais natural e expressivo
Alcançou Elo 1.211 no ranking Artificial Analysis TTS com base em milhares de avaliações cegas de preferência humana
A Artificial Analysis posicionou o Gemini 3.1 Flash TTS no "most attractive quadrant" como a combinação ideal de voz de alta qualidade e baixo custo
Diferencia-se por oferecer conversa nativa com múltiplos falantes, suporte a mais de 70 idiomas e controle criativo detalhado com base em linguagem natural

A introdução do novo recurso de audio tags permite controlar de forma intuitiva o estilo da voz, a velocidade e a forma de entrega
É possível ajustar detalhadamente a saída de voz com IA ao inserir comandos em linguagem natural diretamente na entrada de texto
Empresas podem usar audio tags no Vertex AI para criar aplicações corporativas de próxima geração
No Google AI Studio, há controles configuráveis que colocam os desenvolvedores na "cadeira do diretor (director's chair)":
- Scene direction: define o ambiente e estabelece instruções específicas de fala para fornecer contexto de construção de mundo, permitindo que os personagens reajam naturalmente ao longo de vários turnos
- Speaker-level specificity: escala personagens com um Audio Profile exclusivo, ajusta velocidade, tom e entonação com Director's Notes e permite mudar a expressão até no meio da frase com tags inline
- Seamless export: permite exportar os parâmetros finalizados como código da Gemini API, mantendo uma voz consistente em vários projetos e plataformas
Com essa configuração, desenvolvedores podem criar personagens memoráveis e experiências de áudio imersivas

Oferece voz de alta fidelidade e controle preciso em mais de 70 idiomas
Permite criar experiências de voz localizadas com controle avançado de estilo, velocidade e entonação para mercados importantes
Desenvolvedores e empresas que participaram dos testes iniciais elogiaram bastante o impressionante controle e a expressividade do 3.1 Flash TTS
- O feedback destaca que os audio tags oferecem um novo nível de precisão criativa, transformando texto simples em performances vocais de alta fidelidade

Todo áudio gerado pelo Gemini 3.1 Flash TTS recebe marca-d'água SynthID
Uma marca-d'água imperceptível é inserida diretamente na saída de áudio, permitindo a detecção confiável de conteúdo gerado por IA
Funciona como uma proteção para prevenir desinformação, e o model card fornece informações detalhadas sobre segurança e responsabilidade