WhisperFusion - Conversando com chatbots de IA com baixa latência

xguru · 2024-01-31T10:03:01+09:00

Oferece conversas fluidas com IA ao integrar o Mistral LLM com base nos recursos do WhisperLive e do WhisperSpeech WhisperLive: implementa o Whisper da OpenAI para funcionar quase em tempo real, convertendo voz em texto WhisperSpeech: sistema de TTS construído invertendo o Whisper Tanto o LLM quanto o Whisper são otimizados para rodar com eficiência em motores TensorRT, maximizando o desempenho e os recursos de processamento em tempo real, e o WhisperSpeech é otimizado com torch.compile

(github.com/collabora)

11 pontos por xguru 2024-01-31 | 3 comentários | Compartilhar no WhatsApp

Oferece conversas fluidas com IA ao integrar o Mistral LLM com base nos recursos do WhisperLive e do WhisperSpeech
- WhisperLive: implementa o Whisper da OpenAI para funcionar quase em tempo real, convertendo voz em texto
- WhisperSpeech: sistema de TTS construído invertendo o Whisper
Tanto o LLM quanto o Whisper são otimizados para rodar com eficiência em motores TensorRT, maximizando o desempenho e os recursos de processamento em tempo real, e o WhisperSpeech é otimizado com torch.compile

3 comentários

kleinstein 2024-02-02

Se houver tradução em tempo real, seria rápido e ótimo.

xguru 2024-01-31

WhisperSpeech – sistema de síntese de voz open source criado por engenharia reversa do Whisper

xguru 2024-01-31

Comentários do Hacker News

Duas funcionalidades necessárias para que um cenário conversacional funcione bem:
- Capacidade de interrupção: o LLM precisa conseguir pausar quando o usuário diz "espera aí".
- Responder a sinais específicos: precisa esperar por certos sinais do usuário, como "o que você acha?", e então responder.
- Além dessas duas funcionalidades, baixa latência é importante, e deve parecer que você está conversando com outra pessoa.
Demonstra interesse em projetos como WhisperFusion, WhisperLive e WhisperSpeech, e tem curiosidade sobre a latência de cada sistema e os números de WER (Word Error Rate) do WhisperLive. Menciona que parecem faltar informações importantes sobre esses modelos.
Aponta que o projeto é excelente, mas que se trata principalmente de um problema de empacotamento:
- Critica o fato de muitos aplicativos Python reimplementarem metade do setuptools de forma lenta e cheia de bugs.
- Questiona o fato de o TensorRT distribuir funcionalidades centrais no diretório de "examples".
- Sobre o huggingface_cli, comenta que já existem formas de baixar algo pelo nome (como o índice do PyPi) e que talvez fosse melhor aplicar isso aos modelos.
Recorda uma discussão sobre o projeto Vocode, dizendo que houve um debate sobre isso há 10 meses e que ficou impressionado depois de testar a demo. Pergunta se alguém está usando isso atualmente em desenvolvimento ou produção.
Um usuário imagina portar essa tecnologia para um app dedicado que reconheça o conteúdo e o texto na tela e possa oferecer ajuda quase em tempo real.
Pergunta sobre como usar bem o Whisper para transcrição em streaming e apresenta um projeto com objetivos semelhantes.
Pede um resumo de como a parte de LLM difere de uma configuração TGWUI+llama.cpp, ou como se parece com ela. Em especial, questiona por que a "latência ultrabaixa" não se concretiza no hardware do usuário.
Um usuário pergunta se o projeto roda totalmente de forma local ou se exige acesso à API dos sistemas remotos da OpenAI. Diz que está construindo TTS e STT usando OpenAI, mas não quer ficar enviando continuamente o stream de áudio para a OpenAI só para esperar um único comando.
Diz que isso é o que a Siri e a Alexa deveriam ter sido, e espera ver mais tecnologias assim nos próximos anos. Comenta que, se rodar localmente e não deixar um registro permanente, isso também resolveria o problema de ficar ouvindo em segundo plano.
Menciona o uso de TensorRT e pergunta quais GPUs são suportadas e se é possível rodar no Jetson.

WhisperFusion - Conversando com chatbots de IA com baixa latência

Leituras relacionadas

3 comentários

Comentários do Hacker News