- Com o framework de agentes, é possível criar programas de servidor baseados em IA que conseguem ver, ouvir e falar em tempo real
- Ele se conecta ao dispositivo do usuário por meio de uma sessão LiveKit, processa streaming de texto, áudio, imagem e vídeo, e transmite ao usuário os resultados gerados pelo modelo de IA
- Em colaboração com a OpenAI, oferece a API
MultimodalAgent
- Encapsula completamente a Realtime API da OpenAI, abstraindo o protocolo Raw Wire e fornecendo transmissão WebRTC de latência ultrabaixa entre o GPT-4o e os dispositivos
- É a stack tecnológica usada no recurso Advanced Voice do app ChatGPT
- Recursos oferecidos
- Plugins para LLMs conhecidos, serviços de transcrição e conversão de texto em fala, e bancos de dados RAG
- Fornece abstrações de alto nível para criar agentes de voz ou assistentes com detecção automática de turnos, tratamento de interrupções, chamadas de função e transcrição
- Compatível com a stack de telefonia do LiveKit, permitindo que atendentes façam ou recebam ligações por telefone
- Sistema integrado de balanceamento de carga para gerenciar pools de agentes com despacho baseado em edge, monitoramento e failover transparente
- A execução de agentes funciona da mesma forma em localhost, ambientes self-hosted e LiveKit Cloud
1 comentários
LiveKit - plataforma de comunicação em tempo real de código aberto
Eu já tinha compartilhado o LiveKit uma vez em 2021, e pelo visto, ao expandir com o recurso Agents, ele acabou sendo usado também no ChatGPT.
Originalmente, é um produto voltado para recursos de conferência de áudio/vídeo em tempo real para grupos de 10 a 1000 pessoas.
Na época, ele chamou bastante atenção por poder ser uma alternativa de código aberto ao Agora, que era usado pelo ClubHouse.
E, pesquisando agora, vi que a própria Agora também oferece praticamente a mesma funcionalidade com o nome de Conversational AI SDK.
https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/