OpenAI revela a série GPT-Realtime-2 com capacidade de raciocínio no nível do GPT-5

(openai.com)

9 pontos por GN⁺ 2026-05-08 | 1 comentários | Compartilhar no WhatsApp

A API de voz em tempo real ganha 3 novos modelos de áudio com recursos de raciocínio, tradução e transcrição, permitindo que desenvolvedores criem aplicações de voz mais naturais e inteligentes
GPT-Realtime-2 é o primeiro modelo de voz com capacidade de raciocínio no nível do GPT-5, mantendo conversas de forma natural enquanto faz chamadas de ferramentas e lida com interrupções
GPT-Realtime-Translate é um modelo de tradução ao vivo que traduz em tempo real mais de 70 idiomas de entrada para 13 idiomas de saída
GPT-Realtime-Whisper é um modelo de transcrição de voz em streaming que converte fala em texto ao mesmo tempo em que a pessoa fala, podendo ser usado em legendas, atas de reunião e suporte ao cliente
A voz chega a um ponto de virada em sua evolução, deixando de ser apenas uma interface de chamada e resposta para se tornar uma interface capaz de raciocinar, traduzir, transcrever e executar ferramentas ao mesmo tempo

Visão geral dos 3 novos modelos de áudio em tempo real

A API passa a incluir 3 modelos para ajudar desenvolvedores a criar experiências de voz mais naturais, responsivas e capazes de executar ações em tempo real
GPT-Realtime-2: o primeiro modelo de voz com raciocínio no nível do GPT-5, capaz de lidar com solicitações difíceis e conduzir conversas de forma natural
GPT-Realtime-Translate: realiza tradução de voz em tempo real de mais de 70 idiomas de entrada para 13 idiomas de saída, acompanhando a velocidade do falante
GPT-Realtime-Whisper: oferece transcrição de voz para texto em streaming ao vivo enquanto a pessoa fala

A tendência da voz como interface de software

A voz surge como uma das formas mais naturais de usar software, seja para pedir ajuda enquanto dirige, mudar planos de viagem no aeroporto, receber suporte no idioma preferido ou realizar tarefas sem digitar
Produtos de voz úteis exigem mais do que turnos rápidos ou vozes naturais: precisam compreender significado, acompanhar contexto, se recuperar quando o pedido muda, usar ferramentas durante a conversa e responder com o tom adequado
Os modelos lançados agora transformam o áudio em tempo real de um simples sistema de chamada e resposta em uma interface de voz que escuta, raciocina, traduz, transcreve e age

3 padrões emergentes da IA de voz

Voice-to-Action: o usuário diz o que precisa, e o sistema raciocina e usa ferramentas para concluir a tarefa
- Caso da Zillow: a empresa está criando um assistente que escuta, raciocina e executa pedidos como “encontre uma casa dentro da minha faixa de BuyAbility, evite vias movimentadas e agende uma visita para sábado”
Systems-to-Voice: o software transforma contexto em orientação por voz em tempo real
- Caso de app de viagem: fornece orientações de voz proativas como “seu voo de chegada atrasou, mas a conexão ainda é possível. Já encontramos o novo portão e vamos guiá-lo pela rota mais curta no terminal, enquanto sua bagagem seguirá normalmente”
Voice-to-Voice: a IA mantém conversas em tempo real atravessando idiomas, tarefas e mudanças de contexto
- Caso da Deutsche Telekom: a empresa está criando uma experiência de suporte por voz em que o modelo traduz em tempo real quando o cliente fala no idioma de sua preferência
Esses padrões também podem ser combinados, e a Priceline está impulsionando um futuro em que toda a viagem é gerenciada por voz, da busca de voos e hotéis à alteração de reservas, atualização do tempo de espera da TSA e tradução de conversas locais

GPT-Realtime-2: modelo de voz em tempo real que raciocina e age

Otimizado para interações de voz em tempo real, ele raciocina enquanto faz chamadas de ferramentas, lida com correções e interrupções e responde de forma adequada ao contexto
Preambles: frases curtas como “vou verificar” ou “só um momento” informam ao usuário que o agente está processando a solicitação
Chamadas paralelas de ferramentas e transparência de ferramentas: mantém a responsividade ao chamar várias ferramentas ao mesmo tempo e usar expressões como “verificando o calendário” ou “pesquisando agora”
Comportamento de recuperação aprimorado: em vez de falhar em silêncio ou encerrar a conversa com frases como “não consigo processar isso agora”, o modelo se recupera de forma natural
Janela de contexto expandida: ampliada de 32K para 128K, suportando sessões mais longas e fluxos de trabalho mais complexos
Entendimento de domínio aprimorado: preserva melhor vocabulário importante em ambientes de produção, como termos especializados, nomes próprios e terminologia médica
Tom e entrega controláveis: é possível ajustar o tom para ser calmo ao resolver problemas, empático quando o usuário está frustrado ou mais animado ao confirmar um sucesso
Esforço de raciocínio ajustável: oferece 5 níveis — minimal, low, medium, high, xhigh — com low como padrão, equilibrando baixa latência em interações simples e raciocínio mais profundo em solicitações complexas

Benchmarks de desempenho do GPT-Realtime-2

O GPT-Realtime-2 (high) registrou 15,2% de pontuação superior ao GPT-Realtime-1.5 no Big Bench Audio, referência de inteligência em áudio
O GPT-Realtime-2 (xhigh) registrou 13,8% de pontuação superior ao GPT-Realtime-1.5 no Audio MultiChallenge em seguimento de instruções, com melhorias em raciocínio, gestão de contexto e controle
Citação de Josh Weisberg, SVP da Zillow: após otimização de prompt nos benchmarks adversariais mais difíceis, houve aumento de 26 pontos na taxa de sucesso das chamadas (95% vs. 69%); o modelo também é mais robusto na conformidade com regras de Fair Housing, e a combinação entre capacidade do agente e força dos guardrails é adequada para a voz em produção da Zillow

GPT-Realtime-Translate: tradução multilíngue de voz em tempo real

Permite criar experiências multilíngues em que cada participante fala no idioma de preferência, ouve a conversa traduzida em tempo real e pode ler a transcrição em tempo real
Com suporte a mais de 70 idiomas de entrada e 13 idiomas de saída, pode ser usado em suporte ao cliente, vendas transfronteiriças, educação, eventos, mídia e plataformas globais para criadores
Precisa preservar o significado enquanto acompanha a velocidade do falante, além de lidar com fala natural, mudanças de contexto, sotaques regionais e linguagem específica de domínio
A Deutsche Telekom está testando o modelo em interações de voz multilíngues, e a baixa latência com fluência aprimorada torna as conversas entre idiomas mais naturais
Caso da Vimeo: o GPT-Realtime-Translate faz tradução em tempo real enquanto um vídeo de treinamento de produto é reproduzido, permitindo que clientes globais escutem atualizações em seu idioma preferido sem a necessidade de versões produzidas separadamente
Citação de Prateek Sachan, CTO da BolnaAI: em avaliações de hindi, tâmil e telugu, a taxa de erro de palavras (WER) foi 12,5% menor do que em outros modelos, com menor taxa de fallback, alta taxa de conclusão de tarefas e latência que mantém a conversa natural

GPT-Realtime-Whisper: transcrição em streaming de baixa latência

Novo modelo de transcrição em streaming para conversão de voz em texto com baixa latência, transcrevendo o áudio ao mesmo tempo em que a pessoa fala
Pode ser usado em legendas em tempo real, notas de reunião geradas durante a conversa, agentes de voz que precisam de compreensão contínua do usuário e fluxos rápidos de acompanhamento em interações de voz de alta frequência como suporte ao cliente, saúde, vendas e recrutamento
Permite aproveitar dados de voz em tempo real imediatamente em fluxos de trabalho de negócios, como geração de legendas para reuniões, salas de aula, transmissões e eventos, além de criação de notas e resumos durante a conversa

Segurança e políticas

A Realtime API aplica camadas múltiplas de proteção e medidas de mitigação para evitar uso indevido
Classificadores ativos (active classifiers) operam nas sessões e podem interromper a conversa ao detectar violações das diretrizes de conteúdo nocivo
Desenvolvedores podem adicionar seus próprios guardrails de segurança com o Agents SDK
As políticas de uso proíbem reutilizar ou distribuir saídas para fins nocivos, como spam ou engano
É preciso deixar claro para o usuário final que ele está interagindo com uma IA, salvo quando isso já for óbvio pelo contexto
Suporte completo a residência de dados na UE e aplicação dos compromissos de privacidade para empresas

Preços e disponibilidade

GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper estão todos disponíveis na Realtime API
GPT-Realtime-2: $32 por 1 milhão de tokens de entrada de áudio ($0.40 para tokens de entrada em cache) e $64 por 1 milhão de tokens de saída de áudio
GPT-Realtime-Translate: $0.034 por minuto
GPT-Realtime-Whisper: $0.017 por minuto
Os novos modelos de voz em tempo real podem ser testados no Playground, e é possível adicionar o GPT-Realtime-2 a apps existentes via Codex ou iniciar novos projetos

1 comentários

kleinstein 2026-05-08

O GPT-Realtime-Translate terá suporte ao coreano?

OpenAI revela a série GPT-Realtime-2 com capacidade de raciocínio no nível do GPT-5

Visão geral dos 3 novos modelos de áudio em tempo real

A tendência da voz como interface de software

3 padrões emergentes da IA de voz

GPT-Realtime-2: modelo de voz em tempo real que raciocina e age

Benchmarks de desempenho do GPT-Realtime-2

GPT-Realtime-Translate: tradução multilíngue de voz em tempo real

GPT-Realtime-Whisper: transcrição em streaming de baixa latência

Segurança e políticas

Preços e disponibilidade

Leituras relacionadas

1 comentários