3 pontos por GN⁺ 15 일 전 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O Google lançou um novo modelo de texto para fala com naturalidade e expressividade aprimoradas em relação à geração anterior, oferecendo suporte para que desenvolvedores, empresas e usuários em geral criem aplicações de voz com IA
  • O recém-introduzido recurso de audio tags permite inserir comandos em linguagem natural diretamente no texto para controlar com precisão o estilo da voz, a velocidade e a forma de entrega
  • Registrou pontuação Elo de 1.211 no ranking Artificial Analysis TTS e foi avaliado como a combinação ideal entre geração de voz de alta qualidade e baixo custo
  • Suporta mais de 70 idiomas e inclui nativamente recursos de conversa com múltiplos falantes
  • Todo o áudio gerado recebe marca-d'água SynthID, permitindo detecção confiável de conteúdo gerado por IA e prevenção de desinformação

Lançamento e canais de disponibilidade

  • O Gemini 3.1 Flash TTS é o mais recente modelo de texto para fala e oferece controle, expressividade e qualidade aprimorados
  • No momento, está disponível em preview pelos seguintes canais:
    • Para desenvolvedores: Gemini API e Google AI Studio
    • Para empresas: Vertex AI
    • Para usuários do Workspace: Google Vids

Qualidade de voz e controle aprimorados

  • A qualidade geral da voz foi melhorada, tornando-o até agora o modelo mais natural e expressivo
  • Alcançou Elo 1.211 no ranking Artificial Analysis TTS com base em milhares de avaliações cegas de preferência humana
  • A Artificial Analysis posicionou o Gemini 3.1 Flash TTS no "most attractive quadrant" como a combinação ideal de voz de alta qualidade e baixo custo
  • Diferencia-se por oferecer conversa nativa com múltiplos falantes, suporte a mais de 70 idiomas e controle criativo detalhado com base em linguagem natural

Mais expressividade com audio tags

  • A introdução do novo recurso de audio tags permite controlar de forma intuitiva o estilo da voz, a velocidade e a forma de entrega
  • É possível ajustar detalhadamente a saída de voz com IA ao inserir comandos em linguagem natural diretamente na entrada de texto
  • Empresas podem usar audio tags no Vertex AI para criar aplicações corporativas de próxima geração
  • No Google AI Studio, há controles configuráveis que colocam os desenvolvedores na "cadeira do diretor (director's chair)":
    • Scene direction: define o ambiente e estabelece instruções específicas de fala para fornecer contexto de construção de mundo, permitindo que os personagens reajam naturalmente ao longo de vários turnos
    • Speaker-level specificity: escala personagens com um Audio Profile exclusivo, ajusta velocidade, tom e entonação com Director's Notes e permite mudar a expressão até no meio da frase com tags inline
    • Seamless export: permite exportar os parâmetros finalizados como código da Gemini API, mantendo uma voz consistente em vários projetos e plataformas
  • Com essa configuração, desenvolvedores podem criar personagens memoráveis e experiências de áudio imersivas

Suporte em escala global

  • Oferece voz de alta fidelidade e controle preciso em mais de 70 idiomas
  • Permite criar experiências de voz localizadas com controle avançado de estilo, velocidade e entonação para mercados importantes
  • Desenvolvedores e empresas que participaram dos testes iniciais elogiaram bastante o impressionante controle e a expressividade do 3.1 Flash TTS
    • O feedback destaca que os audio tags oferecem um novo nível de precisão criativa, transformando texto simples em performances vocais de alta fidelidade

Marca-d'água SynthID

  • Todo áudio gerado pelo Gemini 3.1 Flash TTS recebe marca-d'água SynthID
  • Uma marca-d'água imperceptível é inserida diretamente na saída de áudio, permitindo a detecção confiável de conteúdo gerado por IA
  • Funciona como uma proteção para prevenir desinformação, e o model card fornece informações detalhadas sobre segurança e responsabilidade

Ainda não há comentários.

Ainda não há comentários.