- Hassaan e Quinn, cofundadores da Tavus, apresentam a empresa de pesquisa em IA e a plataforma de desenvolvimento de APIs de vídeo
- Desde 2020, vêm desenvolvendo modelos de vídeo com IA para 'gêmeos digitais' ou 'avatares'
- Compartilham os desafios de construir uma interface de vídeo com IA para conversas realistas com humanos
Desafios
- Para que o vídeo conversacional seja eficaz, é necessária uma latência muito baixa e percepção do contexto da conversa
- Conversas rápidas entre amigos têm cerca de 250 ms entre falas, mas conversas sobre temas complexos ou com pessoas novas exigem tempo adicional para 'pensar'
- Latência abaixo de 1000 ms torna a conversa mais realista
Decisões de arquitetura
- Equilibrar latência, escalabilidade e custo foi um grande desafio
- Foi necessário reconstruir tudo do zero para reduzir a latência
- Também era preciso reduzir o custo computacional enquanto se suportavam milhares de conversas simultaneamente
Desenvolvimento inicial
- Na fase inicial de desenvolvimento, cada conversa precisava rodar em uma H100 dedicada
- Isso não era escalável e tinha custo elevado
Desenvolvimento do modelo Phoenix-2
- Foi desenvolvido um novo modelo, o Phoenix-2, com várias melhorias
- A base foi trocada de uma arquitetura baseada em NeRF para Gaussian Splatting, permitindo gerar frames mais rápido que em tempo real
- O uso de memória e dos núcleos de GPU foi otimizado para possibilitar a execução também em hardware mais modesto
- Outras abordagens para economizar tempo e custo também foram usadas, como streaming vs batching e paralelização de processos
Otimização
- Foi necessário otimizar cada componente (visão, ASR, LLM, TTS, geração de vídeo) para velocidade extrema
- O maior problema foi o LLM
- Mesmo que a velocidade em tokens por segundo (t/s) fosse alta, seria um problema se o tempo até o primeiro token (ttft) fosse lento
- A maioria dos provedores era lenta demais
Detecção de fim de fala
- Detectar o fim da fala foi difícil
- A solução padrão decide o fim da fala com base no tempo de silêncio, mas isso adiciona latência
- Era importante acertar o timing para que o agente de IA não interrompesse o usuário
Resultado
- Com essas otimizações, a latência foi reduzida de 3–5 segundos para menos de 1 segundo (até 600 ms)
- Latência abaixo de 1 segundo foi alcançada até mesmo em hardware mais modesto
- Há vários clientes, como a Delphi, e as conversas com gêmeos digitais vão de alguns minutos até 4 horas
Resumo do GN⁺
- O modelo de vídeo com IA da Tavus busca conversas naturais com humanos
- A arquitetura foi reconstruída e otimizada para reduzir a latência
- O modelo Phoenix-2 consegue gerar frames mais rápido que em tempo real até mesmo em hardware mais modesto
- Essa tecnologia pode se tornar um elemento importante da interface humano-computador
- Um projeto semelhante em funcionalidade é o Duplex, do Google
1 comentários
Comentários do Hacker News