11 pontos por xguru 2024-01-31 | 3 comentários | Compartilhar no WhatsApp
  • Oferece conversas fluidas com IA ao integrar o Mistral LLM com base nos recursos do WhisperLive e do WhisperSpeech
    • WhisperLive: implementa o Whisper da OpenAI para funcionar quase em tempo real, convertendo voz em texto
    • WhisperSpeech: sistema de TTS construído invertendo o Whisper
  • Tanto o LLM quanto o Whisper são otimizados para rodar com eficiência em motores TensorRT, maximizando o desempenho e os recursos de processamento em tempo real, e o WhisperSpeech é otimizado com torch.compile

3 comentários

 
kleinstein 2024-02-02

Se houver tradução em tempo real, seria rápido e ótimo.

 
xguru 2024-01-31

Comentários do Hacker News

  • Duas funcionalidades necessárias para que um cenário conversacional funcione bem:
    • Capacidade de interrupção: o LLM precisa conseguir pausar quando o usuário diz "espera aí".
    • Responder a sinais específicos: precisa esperar por certos sinais do usuário, como "o que você acha?", e então responder.
    • Além dessas duas funcionalidades, baixa latência é importante, e deve parecer que você está conversando com outra pessoa.
  • Demonstra interesse em projetos como WhisperFusion, WhisperLive e WhisperSpeech, e tem curiosidade sobre a latência de cada sistema e os números de WER (Word Error Rate) do WhisperLive. Menciona que parecem faltar informações importantes sobre esses modelos.
  • Aponta que o projeto é excelente, mas que se trata principalmente de um problema de empacotamento:
    • Critica o fato de muitos aplicativos Python reimplementarem metade do setuptools de forma lenta e cheia de bugs.
    • Questiona o fato de o TensorRT distribuir funcionalidades centrais no diretório de "examples".
    • Sobre o huggingface_cli, comenta que já existem formas de baixar algo pelo nome (como o índice do PyPi) e que talvez fosse melhor aplicar isso aos modelos.
  • Recorda uma discussão sobre o projeto Vocode, dizendo que houve um debate sobre isso há 10 meses e que ficou impressionado depois de testar a demo. Pergunta se alguém está usando isso atualmente em desenvolvimento ou produção.
  • Um usuário imagina portar essa tecnologia para um app dedicado que reconheça o conteúdo e o texto na tela e possa oferecer ajuda quase em tempo real.
  • Pergunta sobre como usar bem o Whisper para transcrição em streaming e apresenta um projeto com objetivos semelhantes.
  • Pede um resumo de como a parte de LLM difere de uma configuração TGWUI+llama.cpp, ou como se parece com ela. Em especial, questiona por que a "latência ultrabaixa" não se concretiza no hardware do usuário.
  • Um usuário pergunta se o projeto roda totalmente de forma local ou se exige acesso à API dos sistemas remotos da OpenAI. Diz que está construindo TTS e STT usando OpenAI, mas não quer ficar enviando continuamente o stream de áudio para a OpenAI só para esperar um único comando.
  • Diz que isso é o que a Siri e a Alexa deveriam ter sido, e espera ver mais tecnologias assim nos próximos anos. Comenta que, se rodar localmente e não deixar um registro permanente, isso também resolveria o problema de ficar ouvindo em segundo plano.
  • Menciona o uso de TensorRT e pergunta quais GPUs são suportadas e se é possível rodar no Jetson.