- Modelo de interação por voz de ponta a ponta, com alta qualidade e baixa latência
- Construído com base no Llama-3.1-8B-Instruct, com o objetivo de alcançar capacidades de voz no nível do GPT-4o
- Baixa latência de 226 ms
- Gera respostas em texto e voz simultaneamente
Resumo do GN⁺
- O LLaMA-Omni é um modelo de fala-linguagem baseado no Llama-3.1-8B-Instruct, com suporte a interações por voz de baixa latência e alta qualidade
- Pode gerar respostas em texto e voz ao mesmo tempo, sendo útil em diversas áreas de aplicação
- O treinamento é concluído em menos de 3 dias com 4 GPUs, o que o torna eficiente
- É possível interagir facilmente por meio de uma demo em Gradio, e também realizar inferência local
- Projetos com funcionalidades semelhantes incluem o Whisper da OpenAI e a API Speech-to-Text do Google
1 comentários
Opiniões no Hacker News