1 pontos por GN⁺ 2024-10-28 | 1 comentários | Compartilhar no WhatsApp
  • Série de tutoriais para criar um fluxo de trabalho que converte PDFs em podcasts
  • Também é possível aprender experimentos com modelos de conversão de texto em fala
  • Tudo é abordado em cada notebook, mesmo sem conhecimento prévio sobre LLMs, prompts ou modelos de áudio

Processo passo a passo

  • Etapa 1: pré-processamento de PDF
    Usa o modelo Llama-3.2-1B-Instruct para pré-processar o PDF e salvá-lo como arquivo .txt.
  • Etapa 2: criação da transcrição
    Usa o modelo Llama-3.1-70B-Instruct para criar uma transcrição de podcast a partir do texto.
  • Etapa 3: reescrita dramática
    Usa o modelo Llama-3.1-8B-Instruct para tornar a transcrição mais dramática.
  • Etapa 4: fluxo de trabalho de conversão de texto em fala
    Usa os modelos parler-tts/parler-tts-mini-v1 e bark/suno para gerar um podcast em formato de diálogo.

Etapas detalhadas para executar os notebooks

  • Requisitos
    É necessário um servidor com GPU ou um provedor de API para usar os modelos Llama 70B, 8B e 1B.
  • Notebook 1
    Processa o PDF e o converte em um arquivo .txt usando um modelo leve Feather.
  • Notebook 2
    Recebe a saída do notebook 1 e a transforma criativamente em uma transcrição de podcast.
  • Notebook 3
    Recebe a transcrição anterior e adiciona elementos dramáticos e pausas à conversa.
  • Notebook 4
    Converte o resultado do último notebook em um podcast.

Ideias para melhorias/adições futuras

  • Experimentos com modelos de voz: é preciso melhorar os modelos de TTS para obter um som mais natural.
  • Debate LLM vs LLM: dois agentes discutem um tema para criar o roteiro do podcast.
  • Teste de criação de transcrição usando o modelo 405B.
  • Melhor elaboração de prompts.
  • Suporte para coletar sites, arquivos de áudio, links do YouTube etc.

Resumo do GN⁺

  • NotebookLlama é um projeto open source que converte PDFs em podcasts, usando vários LLMs e modelos de TTS para gerar conteúdo criativo.
  • O projeto sugere, por meio de experimentos com LLMs e modelos de TTS, o potencial de gerar vozes mais naturais.
  • Como projetos com funcionalidades semelhantes, são recomendados a API de TTS do Google e o Amazon Polly.

1 comentários

 
GN⁺ 2024-10-28
Comentários do Hacker News
  • Quanto mais ouço os "episódios" do NotebookLM, mais me convenço de que o Google treinou um modelo de "debate em podcast" com dois locutores em cima de um backbone multimodal já existente

    • A forma como os dois locutores se interrompem e conversam como humanos soa muito natural
    • É possível que o modelo tenha sido ajustado com base em podcasts reais e suas transcrições
    • Usando episódios do "The Daily" como exemplo, imagino que o processo seja algo como: o modelo de linguagem escreve um artigo fictício resumindo o conteúdo do podcast, isso é passado ao modelo dos dois locutores, e depois se verifica o quanto a transcrição gerada bate com o artigo de entrada
  • O NotebookLM é muito impressionante até para pessoas que não têm familiaridade com tecnologia

    • Meus pais, na faixa dos 70 anos, e uma criança de 8 anos continuam usando e não conseguem esconder o espanto com essa tecnologia
  • Acho estranha a escolha do mecanismo de TTS

    • Em comparação com sistemas abertos de TTS mais recentes, argumenta-se que XTTSv2 ou o novo F5-TTS teriam sido escolhas melhores
  • Avalia que há pouquíssimos exemplos de saída

    • Destaca que a equipe do NotebookLM criou um produto de sucesso usando modelos de base já existentes
  • Espera que seja lançado com outros idiomas e vários sotaques, especialmente sotaques do Sudeste Asiático

  • Acha que o NotebookLM talvez não seja open source, mas sim alguns experimentos em um notebook iPython

    • No nível de funcionalidade de LLM, não há nada especialmente novo, mas a forma como isso foi empacotado como produto é interessante
    • A parte de "podcast" seria apenas uma introdução/resumo de um corpus grande, e considera mais útil obter os materiais de referência citados por meio de uma conversa com o bot
  • Mostra como a prototipagem com LLM pode ser muito rápida

    • Recomenda que quem ainda não testou APIs experimente
  • Questiona se o NotebookLM só gera podcasts

    • Acha que podcasts são divertidos, mas um recurso um tanto brincalhão
  • Acha que seria ótimo se pudesse rodar localmente em um celular

    • Por exemplo, argumenta que a produtividade melhoraria muito se fosse possível transformar documentos de trabalho em podcasts para ouvir enquanto dirige
  • Avalia que os exemplos são um pouco toscos

  • Menciona que gostaria de ouvir a saída de alguém que já tenha usado o NotebookLM