- Componente de controle por voz para React/navegador construído sobre a Realtime API
- Permite implementar widgets que respondem a comandos de voz, desde preenchimento de formulários até diversas outras ações
- Fornece o padrão tool-constrained UI para restringir o assistente a executar apenas ações permitidas pelo app
- Como um único controlador gerencia de forma centralizada a conexão da sessão, o processamento de áudio, a execução de ferramentas e a montagem da transcrição, o desenvolvedor não precisa lidar diretamente com WebRTC nem com o protocolo Realtime
- Ao integrar com um app existente, o app mantém a única fonte de verdade (source of truth) do estado, e a camada de voz apenas chama handlers limitados do app
- Não é um framework genérico de orquestração, mas um pacote opinionado especializado em fluxos de UI no navegador; se você precisar de runtime não-React ou de orquestração de agentes, é recomendado usar Raw Realtime ou
openai-agents-js
- Ao integrar em um app existente, oferece um guia de 9 etapas: proxy do endpoint
/session → criação do wrapper do voice adapter → registro de ferramentas → hoisting do controlador → montagem do widget
- O controlador usa
server_vad por padrão e, em sessões apenas com ferramentas, define interruptResponse: false para que chamadas de ferramenta em andamento não sejam canceladas por uma nova fala
- No app de demonstração, é possível conferir diversos cenários de integração, como troca de tema, formulário em múltiplas etapas, fluxo de xadrez com estado compartilhado e experimentos com wake word
- Licença Apache-2.0
1 comentários
Você pode ver o vídeo de demonstração em https://x.com/OpenAIDevs/status/2048871260512473385
Parece funcionar bem e de forma bem rápida. Mas, como o custo da API é alto, o uso deve ser mais limitado..
Se algo assim puder ser implementado em modelos locais, aí sim vai ficar bem útil.