1 pontos por GN⁺ 2024-06-28 | 1 comentários | Compartilhar no WhatsApp

Demonstração do bot de voz mais rápido do mundo

Introdução à demonstração

  • Importância da velocidade: Em interfaces de IA por voz, a velocidade é muito importante. As pessoas esperam respostas rápidas em conversas normais.
  • Objetivo: Esta demonstração mostra interações com LLM de baixa latência, visando um tempo de resposta por voz abaixo de 500ms.
  • Tecnologia: Este bot foi construído usando um framework open source chamado Pipecat.

Experimente a demonstração

  • Testar a demonstração: Você pode experimentar a demonstração diretamente.
  • Ver o código-fonte: Você pode conferir o código-fonte.
  • Implantar por conta própria: Há uma opção para implantar no seu próprio ambiente.

Opinião do GN⁺

  • Importância da velocidade: Respostas rápidas em interfaces de voz melhoram bastante a experiência do usuário.
  • Vantagens do open source: Frameworks open source como o Pipecat são úteis porque os desenvolvedores podem acessá-los e modificá-los com facilidade.
  • Pontos a considerar na adoção da tecnologia: Ao adotar uma nova tecnologia, é preciso considerar compatibilidade com sistemas existentes, custos de manutenção etc.
  • Projetos semelhantes: Também existem outras soluções de IA por voz, como o Dialogflow do Google e o Lex da Amazon.

1 comentários

 
GN⁺ 2024-06-28
Opiniões no Hacker News
  • Velocidade: no atendimento ao cliente com IA, o tempo de resposta foi reduzido para alguns segundos. Velocidade vence tudo.
  • Inferência de voz: implementação de WebSocket Faster Whisper antes do lançamento do gpt4o da OpenAI. Uso de push-to-talk por problemas de confiabilidade do VAD.
  • VAD multiplataforma: apresentação de um módulo de VAD para navegador multiplataforma, com a rede VAD da Silero portada para ONNX. Funciona também no Firefox.
  • TTS no navegador: os motores de texto-para-fala no navegador estão ficando cada vez mais rápidos e com melhor qualidade. O GPT-4o integra em um único modelo reconhecimento automático de fala, compreensão e geração de resposta para baixa latência.
  • Potencial do app: parece ser um app teaser da Cerebrium. Em testes no iPad, a latência variou de 1400ms a 400ms.
  • Experiência conversacional: respostas rápidas tornam a experiência conversacional melhor. Mantém um contexto curto para alcançar tempos de resposta curtos.
  • Whisper-dictation: uso de Whisper-dictation com llama-70b. A fala foi concluída durante o tempo de carregamento do site.
  • Conversa natural: o ajuste de VAD e interrupções é muito natural. A experiência de conversa mais natural.
  • Compartilhamento: incentivo para que outras pessoas compartilhem soluções. Pretende analisar diferentes formas de implementação no fim de semana.
  • Marketing e matemática: apontam que no marketing é 500, mas matematicamente é 759.
  • Interface rápida: a interface é muito rápida e quase indistinguível de um humano. Elogios ao Cerebrium.ai.