2 pontos por GN⁺ 2024-10-02 | 1 comentários | Compartilhar no WhatsApp
  • Hassaan e Quinn, cofundadores da Tavus, apresentam a empresa de pesquisa em IA e a plataforma de desenvolvimento de APIs de vídeo
  • Desde 2020, vêm desenvolvendo modelos de vídeo com IA para 'gêmeos digitais' ou 'avatares'
  • Compartilham os desafios de construir uma interface de vídeo com IA para conversas realistas com humanos

Desafios

  • Para que o vídeo conversacional seja eficaz, é necessária uma latência muito baixa e percepção do contexto da conversa
  • Conversas rápidas entre amigos têm cerca de 250 ms entre falas, mas conversas sobre temas complexos ou com pessoas novas exigem tempo adicional para 'pensar'
  • Latência abaixo de 1000 ms torna a conversa mais realista

Decisões de arquitetura

  • Equilibrar latência, escalabilidade e custo foi um grande desafio
  • Foi necessário reconstruir tudo do zero para reduzir a latência
  • Também era preciso reduzir o custo computacional enquanto se suportavam milhares de conversas simultaneamente

Desenvolvimento inicial

  • Na fase inicial de desenvolvimento, cada conversa precisava rodar em uma H100 dedicada
  • Isso não era escalável e tinha custo elevado

Desenvolvimento do modelo Phoenix-2

  • Foi desenvolvido um novo modelo, o Phoenix-2, com várias melhorias
  • A base foi trocada de uma arquitetura baseada em NeRF para Gaussian Splatting, permitindo gerar frames mais rápido que em tempo real
  • O uso de memória e dos núcleos de GPU foi otimizado para possibilitar a execução também em hardware mais modesto
  • Outras abordagens para economizar tempo e custo também foram usadas, como streaming vs batching e paralelização de processos

Otimização

  • Foi necessário otimizar cada componente (visão, ASR, LLM, TTS, geração de vídeo) para velocidade extrema
  • O maior problema foi o LLM
  • Mesmo que a velocidade em tokens por segundo (t/s) fosse alta, seria um problema se o tempo até o primeiro token (ttft) fosse lento
  • A maioria dos provedores era lenta demais

Detecção de fim de fala

  • Detectar o fim da fala foi difícil
  • A solução padrão decide o fim da fala com base no tempo de silêncio, mas isso adiciona latência
  • Era importante acertar o timing para que o agente de IA não interrompesse o usuário

Resultado

  • Com essas otimizações, a latência foi reduzida de 3–5 segundos para menos de 1 segundo (até 600 ms)
  • Latência abaixo de 1 segundo foi alcançada até mesmo em hardware mais modesto
  • Há vários clientes, como a Delphi, e as conversas com gêmeos digitais vão de alguns minutos até 4 horas

Resumo do GN⁺

  • O modelo de vídeo com IA da Tavus busca conversas naturais com humanos
  • A arquitetura foi reconstruída e otimizada para reduzir a latência
  • O modelo Phoenix-2 consegue gerar frames mais rápido que em tempo real até mesmo em hardware mais modesto
  • Essa tecnologia pode se tornar um elemento importante da interface humano-computador
  • Um projeto semelhante em funcionalidade é o Duplex, do Google

1 comentários

 
GN⁺ 2024-10-02
Comentários do Hacker News
  • Gostei do site e do som de internet discada, o chapéu de cowboy também é ótimo
  • A experiência de chat entre os dois avatares não é boa, trava com frequência e fica confusa
  • O reconhecimento de imagem é bom, deu para reconhecer objetos quando o avatar respondia lentamente
  • Obrigado por compartilhar as dificuldades específicas, vai ficar melhor daqui para frente
  • A versão do Hassan era melhor, reconhecia o ambiente e falava sobre o modelo na parede
    • Conversou sobre o conjunto de LEGO
  • No banheiro, a câmera estava apontada para a toalha e ele disse "que banheiro aconchegante"
  • Parecia que eu estava conversando com uma pessoa de verdade, não dava para tratar como código
    • Isso faz pensar no esforço consciente de conversar com pessoas
    • Ao pesquisar no Google, uso só o mínimo de palavras-chave
    • Preocupa se essa tecnologia vai treinar as pessoas para um comportamento parecido
  • Se você se interessa por IA multimodal de baixa latência, a Tavus está patrocinando um hackathon em SF nos dias 19 e 20 de outubro
    • Também há uma trilha remota
  • Funcionalidade da demo: 9,5/10
    • Fator arrepiante: 10/10
  • Não tenho familiaridade com implantação em GPU, mas parece caro e difícil de conseguir alocação
    • Fico curioso sobre como lidam com recursos de GPU em nuvem em grande escala
    • Se alocam uma GPU por conexão WebSocket, então deve sair caro
  • Tecnicamente é muito impressionante, o avatar Carter parece nervoso
    • Há algo estranho na boca/dentes, mas a resposta é rápida
    • Já vi mais latência no Zoom
    • Acho que é o futuro dos call centers; se os avatares ficarem mais expressivos, o CSAT vai subir
  • Trabalho tecnicamente incrível, o tempo de resposta abaixo de 1 segundo é muito impressionante
    • É assustador poder conversar com uma pessoa falsa no FaceTime
    • Fico curioso sobre o que pensam do impacto social
    • Hoje existe uma crise de solidão por falta de conexão humana
  • O ChatGPT tem dificuldade para detectar pausas na conversa
    • Sempre interrompe