5 pontos por xguru 12 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Componente de controle por voz para React/navegador construído sobre a Realtime API
  • Permite implementar widgets que respondem a comandos de voz, desde preenchimento de formulários até diversas outras ações
  • Fornece o padrão tool-constrained UI para restringir o assistente a executar apenas ações permitidas pelo app
  • Como um único controlador gerencia de forma centralizada a conexão da sessão, o processamento de áudio, a execução de ferramentas e a montagem da transcrição, o desenvolvedor não precisa lidar diretamente com WebRTC nem com o protocolo Realtime
  • Ao integrar com um app existente, o app mantém a única fonte de verdade (source of truth) do estado, e a camada de voz apenas chama handlers limitados do app
  • Não é um framework genérico de orquestração, mas um pacote opinionado especializado em fluxos de UI no navegador; se você precisar de runtime não-React ou de orquestração de agentes, é recomendado usar Raw Realtime ou openai-agents-js
  • Ao integrar em um app existente, oferece um guia de 9 etapas: proxy do endpoint /session → criação do wrapper do voice adapter → registro de ferramentas → hoisting do controlador → montagem do widget
  • O controlador usa server_vad por padrão e, em sessões apenas com ferramentas, define interruptResponse: false para que chamadas de ferramenta em andamento não sejam canceladas por uma nova fala
  • No app de demonstração, é possível conferir diversos cenários de integração, como troca de tema, formulário em múltiplas etapas, fluxo de xadrez com estado compartilhado e experimentos com wake word
  • Licença Apache-2.0

1 comentários

 
xguru 12 일 전

Você pode ver o vídeo de demonstração em https://x.com/OpenAIDevs/status/2048871260512473385
Parece funcionar bem e de forma bem rápida. Mas, como o custo da API é alto, o uso deve ser mais limitado..
Se algo assim puder ser implementado em modelos locais, aí sim vai ficar bem útil.