- A API de voz em tempo real ganha 3 novos modelos de áudio com recursos de raciocínio, tradução e transcrição, permitindo que desenvolvedores criem aplicações de voz mais naturais e inteligentes
- GPT-Realtime-2 é o primeiro modelo de voz com capacidade de raciocínio no nível do GPT-5, mantendo conversas de forma natural enquanto faz chamadas de ferramentas e lida com interrupções
- GPT-Realtime-Translate é um modelo de tradução ao vivo que traduz em tempo real mais de 70 idiomas de entrada para 13 idiomas de saída
- GPT-Realtime-Whisper é um modelo de transcrição de voz em streaming que converte fala em texto ao mesmo tempo em que a pessoa fala, podendo ser usado em legendas, atas de reunião e suporte ao cliente
- A voz chega a um ponto de virada em sua evolução, deixando de ser apenas uma interface de chamada e resposta para se tornar uma interface capaz de raciocinar, traduzir, transcrever e executar ferramentas ao mesmo tempo
Visão geral dos 3 novos modelos de áudio em tempo real
- A API passa a incluir 3 modelos para ajudar desenvolvedores a criar experiências de voz mais naturais, responsivas e capazes de executar ações em tempo real
- GPT-Realtime-2: o primeiro modelo de voz com raciocínio no nível do GPT-5, capaz de lidar com solicitações difíceis e conduzir conversas de forma natural
- GPT-Realtime-Translate: realiza tradução de voz em tempo real de mais de 70 idiomas de entrada para 13 idiomas de saída, acompanhando a velocidade do falante
- GPT-Realtime-Whisper: oferece transcrição de voz para texto em streaming ao vivo enquanto a pessoa fala
A tendência da voz como interface de software
- A voz surge como uma das formas mais naturais de usar software, seja para pedir ajuda enquanto dirige, mudar planos de viagem no aeroporto, receber suporte no idioma preferido ou realizar tarefas sem digitar
- Produtos de voz úteis exigem mais do que turnos rápidos ou vozes naturais: precisam compreender significado, acompanhar contexto, se recuperar quando o pedido muda, usar ferramentas durante a conversa e responder com o tom adequado
- Os modelos lançados agora transformam o áudio em tempo real de um simples sistema de chamada e resposta em uma interface de voz que escuta, raciocina, traduz, transcreve e age
3 padrões emergentes da IA de voz
- Voice-to-Action: o usuário diz o que precisa, e o sistema raciocina e usa ferramentas para concluir a tarefa
- Caso da Zillow: a empresa está criando um assistente que escuta, raciocina e executa pedidos como “encontre uma casa dentro da minha faixa de BuyAbility, evite vias movimentadas e agende uma visita para sábado”
- Systems-to-Voice: o software transforma contexto em orientação por voz em tempo real
- Caso de app de viagem: fornece orientações de voz proativas como “seu voo de chegada atrasou, mas a conexão ainda é possível. Já encontramos o novo portão e vamos guiá-lo pela rota mais curta no terminal, enquanto sua bagagem seguirá normalmente”
- Voice-to-Voice: a IA mantém conversas em tempo real atravessando idiomas, tarefas e mudanças de contexto
- Caso da Deutsche Telekom: a empresa está criando uma experiência de suporte por voz em que o modelo traduz em tempo real quando o cliente fala no idioma de sua preferência
- Esses padrões também podem ser combinados, e a Priceline está impulsionando um futuro em que toda a viagem é gerenciada por voz, da busca de voos e hotéis à alteração de reservas, atualização do tempo de espera da TSA e tradução de conversas locais
GPT-Realtime-2: modelo de voz em tempo real que raciocina e age
- Otimizado para interações de voz em tempo real, ele raciocina enquanto faz chamadas de ferramentas, lida com correções e interrupções e responde de forma adequada ao contexto
- Preambles: frases curtas como “vou verificar” ou “só um momento” informam ao usuário que o agente está processando a solicitação
- Chamadas paralelas de ferramentas e transparência de ferramentas: mantém a responsividade ao chamar várias ferramentas ao mesmo tempo e usar expressões como “verificando o calendário” ou “pesquisando agora”
- Comportamento de recuperação aprimorado: em vez de falhar em silêncio ou encerrar a conversa com frases como “não consigo processar isso agora”, o modelo se recupera de forma natural
- Janela de contexto expandida: ampliada de 32K para 128K, suportando sessões mais longas e fluxos de trabalho mais complexos
- Entendimento de domínio aprimorado: preserva melhor vocabulário importante em ambientes de produção, como termos especializados, nomes próprios e terminologia médica
- Tom e entrega controláveis: é possível ajustar o tom para ser calmo ao resolver problemas, empático quando o usuário está frustrado ou mais animado ao confirmar um sucesso
- Esforço de raciocínio ajustável: oferece 5 níveis — minimal, low, medium, high, xhigh — com low como padrão, equilibrando baixa latência em interações simples e raciocínio mais profundo em solicitações complexas
Benchmarks de desempenho do GPT-Realtime-2
- O GPT-Realtime-2 (high) registrou 15,2% de pontuação superior ao GPT-Realtime-1.5 no Big Bench Audio, referência de inteligência em áudio
- O GPT-Realtime-2 (xhigh) registrou 13,8% de pontuação superior ao GPT-Realtime-1.5 no Audio MultiChallenge em seguimento de instruções, com melhorias em raciocínio, gestão de contexto e controle
- Citação de Josh Weisberg, SVP da Zillow: após otimização de prompt nos benchmarks adversariais mais difíceis, houve aumento de 26 pontos na taxa de sucesso das chamadas (95% vs. 69%); o modelo também é mais robusto na conformidade com regras de Fair Housing, e a combinação entre capacidade do agente e força dos guardrails é adequada para a voz em produção da Zillow
GPT-Realtime-Translate: tradução multilíngue de voz em tempo real
- Permite criar experiências multilíngues em que cada participante fala no idioma de preferência, ouve a conversa traduzida em tempo real e pode ler a transcrição em tempo real
- Com suporte a mais de 70 idiomas de entrada e 13 idiomas de saída, pode ser usado em suporte ao cliente, vendas transfronteiriças, educação, eventos, mídia e plataformas globais para criadores
- Precisa preservar o significado enquanto acompanha a velocidade do falante, além de lidar com fala natural, mudanças de contexto, sotaques regionais e linguagem específica de domínio
- A Deutsche Telekom está testando o modelo em interações de voz multilíngues, e a baixa latência com fluência aprimorada torna as conversas entre idiomas mais naturais
- Caso da Vimeo: o GPT-Realtime-Translate faz tradução em tempo real enquanto um vídeo de treinamento de produto é reproduzido, permitindo que clientes globais escutem atualizações em seu idioma preferido sem a necessidade de versões produzidas separadamente
- Citação de Prateek Sachan, CTO da BolnaAI: em avaliações de hindi, tâmil e telugu, a taxa de erro de palavras (WER) foi 12,5% menor do que em outros modelos, com menor taxa de fallback, alta taxa de conclusão de tarefas e latência que mantém a conversa natural
GPT-Realtime-Whisper: transcrição em streaming de baixa latência
- Novo modelo de transcrição em streaming para conversão de voz em texto com baixa latência, transcrevendo o áudio ao mesmo tempo em que a pessoa fala
- Pode ser usado em legendas em tempo real, notas de reunião geradas durante a conversa, agentes de voz que precisam de compreensão contínua do usuário e fluxos rápidos de acompanhamento em interações de voz de alta frequência como suporte ao cliente, saúde, vendas e recrutamento
- Permite aproveitar dados de voz em tempo real imediatamente em fluxos de trabalho de negócios, como geração de legendas para reuniões, salas de aula, transmissões e eventos, além de criação de notas e resumos durante a conversa
Segurança e políticas
- A Realtime API aplica camadas múltiplas de proteção e medidas de mitigação para evitar uso indevido
- Classificadores ativos (active classifiers) operam nas sessões e podem interromper a conversa ao detectar violações das diretrizes de conteúdo nocivo
- Desenvolvedores podem adicionar seus próprios guardrails de segurança com o Agents SDK
- As políticas de uso proíbem reutilizar ou distribuir saídas para fins nocivos, como spam ou engano
- É preciso deixar claro para o usuário final que ele está interagindo com uma IA, salvo quando isso já for óbvio pelo contexto
- Suporte completo a residência de dados na UE e aplicação dos compromissos de privacidade para empresas
Preços e disponibilidade
- GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper estão todos disponíveis na Realtime API
- GPT-Realtime-2: $32 por 1 milhão de tokens de entrada de áudio ($0.40 para tokens de entrada em cache) e $64 por 1 milhão de tokens de saída de áudio
- GPT-Realtime-Translate: $0.034 por minuto
- GPT-Realtime-Whisper: $0.017 por minuto
- Os novos modelos de voz em tempo real podem ser testados no Playground, e é possível adicionar o GPT-Realtime-2 a apps existentes via Codex ou iniciar novos projetos
Ainda não há comentários.