LiveKit Agents - framework open source usado pela OpenAI no modo avançado de voz do ChatGPT

xguru · 2024-10-07T10:56:02+09:00

Com o framework de agentes, é possível criar programas de servidor baseados em IA que conseguem ver, ouvir e falar em tempo real Ele se conecta ao dispositivo do usuário por meio de uma sessão LiveKit, processa streaming de texto, áudio, imagem e vídeo, e transmite ao usuário os resultados gerados pelo modelo de IA Em colaboração com a OpenAI, oferece a API MultimodalAgent Encapsula completamente a Realtime API da OpenAI, abstraindo o protocolo Raw Wire e fornecendo transmissão WebRTC de latência ultrabaixa entre o GPT-4o e os dispositivos É a stack tecnológica usada no recurso Advanced Voice do app ChatGPT Recursos oferecidos Plugins para LLMs conhecidos, serviços de transcrição e conversão de texto em fala, e bancos de dados RAG Fornece abstrações de alto nível para criar agentes de voz ou assistentes com detecção automática de turnos, tratamento de interrupções, chamadas de função e transcrição Compatível com a stack de telefonia do LiveKit, permitindo que atendentes façam ou recebam ligações por telefone Sistema integrado de balanceamento de carga para gerenciar pools de agentes com despacho baseado em edge, monitoramento e failover transparente A execução de agentes funciona da mesma forma em localhost, ambientes self-hosted e LiveKit Cloud

(github.com/livekit)

13 pontos por xguru 2024-10-07 | 1 comentários | Compartilhar no WhatsApp

Com o framework de agentes, é possível criar programas de servidor baseados em IA que conseguem ver, ouvir e falar em tempo real
Ele se conecta ao dispositivo do usuário por meio de uma sessão LiveKit, processa streaming de texto, áudio, imagem e vídeo, e transmite ao usuário os resultados gerados pelo modelo de IA
Em colaboração com a OpenAI, oferece a API MultimodalAgent
- Encapsula completamente a Realtime API da OpenAI, abstraindo o protocolo Raw Wire e fornecendo transmissão WebRTC de latência ultrabaixa entre o GPT-4o e os dispositivos
- É a stack tecnológica usada no recurso Advanced Voice do app ChatGPT
Recursos oferecidos
- Plugins para LLMs conhecidos, serviços de transcrição e conversão de texto em fala, e bancos de dados RAG
- Fornece abstrações de alto nível para criar agentes de voz ou assistentes com detecção automática de turnos, tratamento de interrupções, chamadas de função e transcrição
- Compatível com a stack de telefonia do LiveKit, permitindo que atendentes façam ou recebam ligações por telefone
- Sistema integrado de balanceamento de carga para gerenciar pools de agentes com despacho baseado em edge, monitoramento e failover transparente
- A execução de agentes funciona da mesma forma em localhost, ambientes self-hosted e LiveKit Cloud

1 comentários

xguru 2024-10-07

LiveKit - plataforma de comunicação em tempo real de código aberto

Eu já tinha compartilhado o LiveKit uma vez em 2021, e pelo visto, ao expandir com o recurso Agents, ele acabou sendo usado também no ChatGPT.
Originalmente, é um produto voltado para recursos de conferência de áudio/vídeo em tempo real para grupos de 10 a 1000 pessoas.
Na época, ele chamou bastante atenção por poder ser uma alternativa de código aberto ao Agora, que era usado pelo ClubHouse.
E, pesquisando agora, vi que a própria Agora também oferece praticamente a mesma funcionalidade com o nome de Conversational AI SDK.

https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/

LiveKit Agents - framework open source usado pela OpenAI no modo avançado de voz do ChatGPT

Leituras relacionadas

1 comentários