2 pontos por GN⁺ 2023-11-03 | 1 comentários | Compartilhar no WhatsApp
  • Artigo de apresentação da ferramenta de IA "Talk-Llama", que permite ao usuário conversar com a IA no terminal
  • Ferramenta que usa os modelos Whisper Medium e LLaMA v2 13B Q8_0, com a atualização de desempenho mais recente datada de 2 de novembro de 2023
  • O Talk-Llama depende da biblioteca SDL2 para capturar áudio do microfone
  • Fornece instruções de instalação do SDL2 e como compilar e executar o binário talk-llama no Linux e no Mac OS
  • O usuário pode especificar os modelos Whisper e LLaMA que deseja usar por meio dos argumentos -mw e -ml
  • Ferramenta com suporte a gerenciamento de sessões, mantendo o contexto de interações anteriores para conversas contínuas mais consistentes
  • O usuário pode ativar o suporte a sessão com a opção de linha de comando --session FILE, salvando o estado do modelo após cada interação e retomando sessões anteriores
  • Para a melhor experiência, é recomendada uma ferramenta de Text-to-Speech (TTS) para converter as respostas de texto geradas em voz
  • O usuário pode usar seu mecanismo de TTS preferido e editar o script speak conforme necessário
  • Ferramenta aberta a feedback, incentivando os usuários a participar de discussões contínuas

1 comentários

 
GN⁺ 2023-11-03
Comentários no Hacker News
  • O desempenho no Apple Silicon melhorou bastante, com o whisper.cpp rodando integralmente e uma grande melhora na velocidade de geração do llama.cpp.
  • O Llama demonstrou integração bem-sucedida com um modelo TTS open source para o projeto, destacando sua versatilidade.
  • Ferramentas de apoio à programação que reduzem a sobrecarga manual sem tentar resolver problemas complexos são consideradas as mais úteis.
  • A ideia de uma ferramenta que incorpore fala em vetores de contexto foi proposta como um conceito futurista e potencialmente útil.
  • Houve relatos de um problema de "exceção de ponto flutuante" ao executar o talk-llama no Arch e no Debian, indicando possíveis problemas de compatibilidade.
  • Foi apresentada a sugestão de reduzir a latência transmitindo grupos de cerca de 6 tokens para o TTS antes mesmo de a resposta do LLM começar totalmente.
  • Foi levantada preocupação de que essa tecnologia possa ser proibida se a proposta de pesos abertos se concretizar.
  • Discutiu-se a possibilidade de uma solução de texto-para-fala capaz de receber fluxo de texto, o que eliminaria a necessidade de esperar o llama terminar de gerar para então falar a resposta.
  • Foi feita uma pergunta sobre qual seria a interface de chat ideal para o llama, com interesse em rodar um dos modelos no terminal para tarefas rápidas de programação.
  • Foi apontado que as vozes da ElevenLabs são caras, e que uma única conversa pode chegar a US$ 20.
  • Perguntou-se qual seria o equivalente ao ollama para modelos whisper/TTS OS SOTA, com desejo de uma configuração simples para rodar o whisper localmente.
  • Foi solicitada uma explicação em inglês simples sobre as capacidades dessa tecnologia, especialmente se ela consegue aprender e manter o contexto da conversa e construir memória de longo prazo.