Componente React de controle por voz baseado na OpenAI Realtime API

(github.com/openai)

5 pontos por xguru 1 일 전 | Ainda não há comentários. | Compartilhar no WhatsApp

Componente de controle por voz para React/navegador criado sobre a Realtime API
Permite implementar widgets que respondem a comandos de voz, desde preenchimento de formulários até várias outras ações
Fornece o padrão de tool-constrained UI para restringir o assistente a executar apenas as ações permitidas pelo app
Como um único controlador gerencia em conjunto a conexão da sessão, o processamento de áudio, a execução de ferramentas e a montagem da transcrição, o desenvolvedor não precisa lidar diretamente com WebRTC nem com o protocolo Realtime
Ao integrar em um app existente, a estrutura mantém o app como fonte única da verdade (source of truth) do estado, enquanto a camada de voz apenas chama handlers limitados do app
É um pacote opinionated especializado em fluxos de UI no navegador, e não um framework genérico de orquestração; se você precisar de runtime não-React ou de orquestração de agentes, recomenda-se usar Raw Realtime ou openai-agents-js
Para integração com apps existentes, oferece um guia em 9 etapas: proxy do endpoint /session → criação do wrapper do voice adapter → registro de ferramentas → hoisting do controlador → montagem do widget
Por padrão, o controlador usa server_vad e, em sessões somente com ferramentas, define interruptResponse: false para evitar que uma nova fala cancele uma chamada de ferramenta em andamento
No app de demonstração, é possível ver vários cenários de integração, como troca de tema, formulário de múltiplas etapas, fluxo de xadrez com estado compartilhado e experimentos de wake word
Licença Apache-2.0

Componente React de controle por voz baseado na OpenAI Realtime API

Leituras relacionadas

Ainda não há comentários.