Show HN: Agente de vídeo com IA em tempo real com latência abaixo de 1 segundo

(news.ycombinator.com)

2 pontos por GN⁺ 2024-10-02 | 1 comentários | Compartilhar no WhatsApp

A Tavus se concentrou em reduzir a latência de resposta para menos de 1 segundo para criar uma interface de vídeo com IA que conversa naturalmente com pessoas
Em conversas rápidas, o intervalo entre falas é de apenas cerca de 250 ms, portanto agentes de vídeo também precisam ter baixa latência e percepção do contexto da conversa
O Phoenix-1 inicial exigia uma H100 por conversa, o que limitava custo e escalabilidade; o Phoenix-2 mira gerar mais de 70 fps em hardware de menor capacidade ao migrar para Gaussian Splatting
No pipeline completo, reduziram vision, ASR, LLM, TTS e geração de vídeo; no LLM, o gargalo percebido era o tempo até o primeiro token, mais do que tokens por segundo
Como decidir o fim da fala apenas pelo tempo de silêncio causa interrupções e atraso na resposta, a detecção de fim de turno e a previsão de entrada reduziram uma latência de 3–5 segundos para menos de 1 segundo, chegando a 600 ms nos casos mais rápidos

O objetivo da Tavus: velocidade de resposta que pareça humana

A Tavus é uma empresa de pesquisa em IA e uma plataforma de desenvolvimento de APIs de vídeo que cria modelos de vídeo com IA para gêmeos digitais ou avatares desde 2020
Como demonstrações, oferece o hassaanraza.com, onde é possível conversar com o gêmeo digital de Hassaan, e o tavus.io, que tem Carter, o “demo twin”
Vídeo conversacional pode se tornar uma forma mais natural de interagir com computadores, mas para isso é necessário ter baixa latência e percepção que reflita o contexto da conversa
A latência-alvo é inferior a 1 segundo
- Conversas rápidas entre amigos têm intervalos entre falas na faixa de cerca de 250 ms
- Em temas mais complexos ou conversas com desconhecidos, há um tempo adicional de “pensamento”
- Abaixo de 1000 ms, a conversa é considerada bastante realista

Implementação equilibrando latência, escalabilidade e custo

A arquitetura precisava equilibrar latência, escalabilidade e custo ao mesmo tempo; para isso, a abordagem foi refeita desde o início como um sistema de baixa latência
Modelo de vídeo e custo de hardware
- Nas fases iniciais de desenvolvimento, para executar o modelo Phoenix-1 a mais de 30 fps, todos os componentes e pesos do modelo precisavam estar na memória da GPU, e cada conversa exigia uma H100 dedicada
- Esse método era difícil de escalar e também tinha custo alto
- O Phoenix-2 é um novo modelo que incorpora várias melhorias, incluindo velocidade de inferência
  - Migrou de um backbone baseado em NeRF para Gaussian Splatting
  - Definiu como requisito gerar quadros acima do tempo real, em mais de 70 fps, em hardware de menor capacidade
  - Concentrou-se em otimizar o uso de memória e núcleos da GPU para rodar também em hardware de especificações mais baixas
  - Uso em streaming e uma abordagem de paralelização em vez de processamento em lote também foram aproveitados para reduzir tempo e custo
LLM e detecção de fim de turno
- Para reduzir a latência entre falas para menos de 1 segundo, cada etapa — vision, ASR, LLM, TTS e geração de vídeo — foi fortemente otimizada
- O maior gargalo era o LLM
  - Mais do que ter tokens per second rápidos, o time-to-first token era mais importante para a latência realmente percebida
  - Serviços como a Groq também tinham alta taxa de tokens por segundo, mas um time-to-first token lento, o que não atendia ao requisito; a maioria dos provedores era lenta demais
- O gargalo seguinte era detectar se o usuário havia parado de falar
  - Julgar a pausa com base no tempo após o silêncio adiciona latência extra
  - Se o limite for curto demais, o agente de IA atropela a fala do usuário; se for longo demais, a resposta atrasa
  - Era necessário um modelo dedicado que detectasse com precisão o fim de turno (end-of-turn) com base em sinais de conversa e se preparasse antes prevendo a entrada
- Com essas otimizações, a latência, que era de 3–5 segundos, foi reduzida para menos de 1 segundo, chegando a 600 ms nos casos mais rápidos, e o sistema passou a rodar também em hardware de especificações mais baixas

Demonstrações e casos de uso

A Tavus tem clientes como a Delphi; a Delphi é uma plataforma de clonagem de coaches profissionais e especialistas, com usuários que conversam com gêmeos digitais por alguns minutos, 1 hora ou até 4 horas
Depois de ver a demonstração, usuários que quiserem experimentar a API podem se cadastrar gratuitamente em tavus.io

1 comentários

GN⁺ 2024-10-02

Comentários do Hacker News

Gostei do site e do som de internet discada, o chapéu de cowboy também é ótimo
A experiência de chat entre os dois avatares não é boa, trava com frequência e fica confusa
O reconhecimento de imagem é bom, deu para reconhecer objetos quando o avatar respondia lentamente
Obrigado por compartilhar as dificuldades específicas, vai ficar melhor daqui para frente
A versão do Hassan era melhor, reconhecia o ambiente e falava sobre o modelo na parede
- Conversou sobre o conjunto de LEGO
No banheiro, a câmera estava apontada para a toalha e ele disse "que banheiro aconchegante"
Parecia que eu estava conversando com uma pessoa de verdade, não dava para tratar como código
- Isso faz pensar no esforço consciente de conversar com pessoas
- Ao pesquisar no Google, uso só o mínimo de palavras-chave
- Preocupa se essa tecnologia vai treinar as pessoas para um comportamento parecido
Se você se interessa por IA multimodal de baixa latência, a Tavus está patrocinando um hackathon em SF nos dias 19 e 20 de outubro
- Também há uma trilha remota
Funcionalidade da demo: 9,5/10
- Fator arrepiante: 10/10
Não tenho familiaridade com implantação em GPU, mas parece caro e difícil de conseguir alocação
- Fico curioso sobre como lidam com recursos de GPU em nuvem em grande escala
- Se alocam uma GPU por conexão WebSocket, então deve sair caro
Tecnicamente é muito impressionante, o avatar Carter parece nervoso
- Há algo estranho na boca/dentes, mas a resposta é rápida
- Já vi mais latência no Zoom
- Acho que é o futuro dos call centers; se os avatares ficarem mais expressivos, o CSAT vai subir
Trabalho tecnicamente incrível, o tempo de resposta abaixo de 1 segundo é muito impressionante
- É assustador poder conversar com uma pessoa falsa no FaceTime
- Fico curioso sobre o que pensam do impacto social
- Hoje existe uma crise de solidão por falta de conexão humana
O ChatGPT tem dificuldade para detectar pausas na conversa
- Sempre interrompe

Show HN: Agente de vídeo com IA em tempo real com latência abaixo de 1 segundo

O objetivo da Tavus: velocidade de resposta que pareça humana

Implementação equilibrando latência, escalabilidade e custo

Modelo de vídeo e custo de hardware

LLM e detecção de fim de turno

Demonstrações e casos de uso

Leituras relacionadas

1 comentários

Comentários do Hacker News