13 pontos por xguru 2024-10-07 | 1 comentários | Compartilhar no WhatsApp
  • Com o framework de agentes, é possível criar programas de servidor baseados em IA que conseguem ver, ouvir e falar em tempo real
  • Ele se conecta ao dispositivo do usuário por meio de uma sessão LiveKit, processa streaming de texto, áudio, imagem e vídeo, e transmite ao usuário os resultados gerados pelo modelo de IA
  • Em colaboração com a OpenAI, oferece a API MultimodalAgent
    • Encapsula completamente a Realtime API da OpenAI, abstraindo o protocolo Raw Wire e fornecendo transmissão WebRTC de latência ultrabaixa entre o GPT-4o e os dispositivos
    • É a stack tecnológica usada no recurso Advanced Voice do app ChatGPT
  • Recursos oferecidos
    • Plugins para LLMs conhecidos, serviços de transcrição e conversão de texto em fala, e bancos de dados RAG
    • Fornece abstrações de alto nível para criar agentes de voz ou assistentes com detecção automática de turnos, tratamento de interrupções, chamadas de função e transcrição
    • Compatível com a stack de telefonia do LiveKit, permitindo que atendentes façam ou recebam ligações por telefone
    • Sistema integrado de balanceamento de carga para gerenciar pools de agentes com despacho baseado em edge, monitoramento e failover transparente
    • A execução de agentes funciona da mesma forma em localhost, ambientes self-hosted e LiveKit Cloud

1 comentários

 
xguru 2024-10-07

LiveKit - plataforma de comunicação em tempo real de código aberto

Eu já tinha compartilhado o LiveKit uma vez em 2021, e pelo visto, ao expandir com o recurso Agents, ele acabou sendo usado também no ChatGPT.
Originalmente, é um produto voltado para recursos de conferência de áudio/vídeo em tempo real para grupos de 10 a 1000 pessoas.
Na época, ele chamou bastante atenção por poder ser uma alternativa de código aberto ao Agora, que era usado pelo ClubHouse.
E, pesquisando agora, vi que a própria Agora também oferece praticamente a mesma funcionalidade com o nome de Conversational AI SDK.

https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/