Componente React de controle por voz baseado na OpenAI Realtime API
(github.com/openai)- Componente de controle por voz para React/navegador criado sobre a Realtime API
- Permite implementar widgets que respondem a comandos de voz, desde preenchimento de formulários até várias outras ações
- Fornece o padrão de tool-constrained UI para restringir o assistente a executar apenas as ações permitidas pelo app
- Como um único controlador gerencia em conjunto a conexão da sessão, o processamento de áudio, a execução de ferramentas e a montagem da transcrição, o desenvolvedor não precisa lidar diretamente com WebRTC nem com o protocolo Realtime
- Ao integrar em um app existente, a estrutura mantém o app como fonte única da verdade (source of truth) do estado, enquanto a camada de voz apenas chama handlers limitados do app
- É um pacote opinionated especializado em fluxos de UI no navegador, e não um framework genérico de orquestração; se você precisar de runtime não-React ou de orquestração de agentes, recomenda-se usar Raw Realtime ou
openai-agents-js - Para integração com apps existentes, oferece um guia em 9 etapas: proxy do endpoint
/session→ criação do wrapper do voice adapter → registro de ferramentas → hoisting do controlador → montagem do widget - Por padrão, o controlador usa
server_vade, em sessões somente com ferramentas, defineinterruptResponse: falsepara evitar que uma nova fala cancele uma chamada de ferramenta em andamento - No app de demonstração, é possível ver vários cenários de integração, como troca de tema, formulário de múltiplas etapas, fluxo de xadrez com estado compartilhado e experimentos de wake word
- Licença Apache-2.0
Ainda não há comentários.