1 pontos por fastkoder 3 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp

Título:
AI Voice Agent em tempo real rodando no Mac — TalkMode

Subtítulo:
Interface de voz no estilo Agent-OS baseada em rastreamento de olhar (gaze), STT/TTS em tempo real e integração com Claude/OpenAI

TalkMode é um projeto que está mais próximo de um
“AI Voice Agent de trabalho em tempo real” do que de um simples chatbot de voz.

Pontos tecnicamente interessantes:

  • interação por voz de baixa latência com base nativa no macOS
  • pipeline em tempo real de STT ↔ LLM ↔ TTS
  • otimização para conversas por voz multilíngues, incluindo coreano
  • experimentos de interação com base em gaze (olhar)
  • processamento de turn-taking (controle do timing de fala)
  • estrutura de integração com OpenAI / Claude / CLI Agent
  • foco em workflows no estilo Agent OS
  • foco em arquitetura local-first

Em especial, não é apenas um simples “chat de voz de perguntas e respostas”, mas parece buscar conectar por voz um “fluxo contínuo de trabalho” como:

  • reuniões
  • brainstorming
  • apoio ao desenvolvimento
  • pesquisa
  • conexão com IDE/CLI

Passa a impressão de mirar, na prática, em um fluxo como o abaixo:

Mic Input  
  ↓  
Streaming STT  
  ↓  
Context / Memory  
  ↓  
LLM Agent  
  ↓  
Tool Calls / CLI  
  ↓  
Realtime TTS  

Outro ponto interessante é que, enquanto os Voice Assistants tradicionais tinham mais cara de “assistente móvel”, o TalkMode parece estar mais próximo de um “voice agent para desenvolvedores”, conectado à cultura de Claude Code / Codex / terminal.

Site oficial:
https://talkmode.baryon.ai/

GitHub:
https://github.com/baryonlabs

Ainda não há comentários.

Ainda não há comentários.