2 pontos por GN⁺ 2024-09-20 | 1 comentários | Compartilhar no WhatsApp
  • Modelo de interação por voz de ponta a ponta, com alta qualidade e baixa latência
  • Construído com base no Llama-3.1-8B-Instruct, com o objetivo de alcançar capacidades de voz no nível do GPT-4o
  • Baixa latência de 226 ms
  • Gera respostas em texto e voz simultaneamente

Resumo do GN⁺

  • O LLaMA-Omni é um modelo de fala-linguagem baseado no Llama-3.1-8B-Instruct, com suporte a interações por voz de baixa latência e alta qualidade
  • Pode gerar respostas em texto e voz ao mesmo tempo, sendo útil em diversas áreas de aplicação
  • O treinamento é concluído em menos de 3 dias com 4 GPUs, o que o torna eficiente
  • É possível interagir facilmente por meio de uma demo em Gradio, e também realizar inferência local
  • Projetos com funcionalidades semelhantes incluem o Whisper da OpenAI e a API Speech-to-Text do Google

1 comentários

 
GN⁺ 2024-09-20
Opiniões no Hacker News
  • Pergunta sobre "se ele consegue reproduzir sons que não podem ser expressos em texto"
  • Dúvida sobre as vantagens ou o potencial deste modelo em relação a um modelo puramente de texto
    • Expectativa de que, à medida que o modelo evolua, ele consiga interpretar ou gerar adequadamente entonação, ritmo e emoção que se perdem no TTS
  • Pergunta se isso não seria apenas "STT -> LLM -> TTS"
    • Dúvida se, ao inserir um som de Chewbacca, o modelo o reconheceria como um som sem sentido ou se o interpretaria como palavras aleatórias por meio de um STT ruim
  • Pergunta se operadores de modelos como Ollama, LM Studio e llama.cpp oferecem suporte a isso
  • A voz TTS do clipe de demonstração é muito parecida com a da dubladora da Valve, Ellen McLain
  • A velocidade é muito boa
    • Recentemente configurei LMStudio + AnythingLLM para tentar chat por voz local, mas ainda está mais lento do que eu gostaria
    • A voz do PiperTTS é melhor
  • O ajuste fino de voz parece ser um requisito importante para uso comercial
    • Seria bom se houvesse código de treinamento ou de fine-tuning
  • Dúvida sobre se não é possível fazer fine-tuning adicional
  • Pergunta se há uma demonstração mostrando o desempenho
  • Dúvida sobre se a presença de um gráfico de histórico de estrelas no repositório GitHub reduz a credibilidade