- Série de tutoriais para criar um fluxo de trabalho que converte PDFs em podcasts
- Também é possível aprender experimentos com modelos de conversão de texto em fala
- Tudo é abordado em cada notebook, mesmo sem conhecimento prévio sobre LLMs, prompts ou modelos de áudio
Processo passo a passo
- Etapa 1: pré-processamento de PDF
Usa o modelo Llama-3.2-1B-Instruct para pré-processar o PDF e salvá-lo como arquivo .txt.
- Etapa 2: criação da transcrição
Usa o modelo Llama-3.1-70B-Instruct para criar uma transcrição de podcast a partir do texto.
- Etapa 3: reescrita dramática
Usa o modelo Llama-3.1-8B-Instruct para tornar a transcrição mais dramática.
- Etapa 4: fluxo de trabalho de conversão de texto em fala
Usa os modelos parler-tts/parler-tts-mini-v1 e bark/suno para gerar um podcast em formato de diálogo.
Etapas detalhadas para executar os notebooks
- Requisitos
É necessário um servidor com GPU ou um provedor de API para usar os modelos Llama 70B, 8B e 1B.
- Notebook 1
Processa o PDF e o converte em um arquivo .txt usando um modelo leve Feather.
- Notebook 2
Recebe a saída do notebook 1 e a transforma criativamente em uma transcrição de podcast.
- Notebook 3
Recebe a transcrição anterior e adiciona elementos dramáticos e pausas à conversa.
- Notebook 4
Converte o resultado do último notebook em um podcast.
Ideias para melhorias/adições futuras
- Experimentos com modelos de voz: é preciso melhorar os modelos de TTS para obter um som mais natural.
- Debate LLM vs LLM: dois agentes discutem um tema para criar o roteiro do podcast.
- Teste de criação de transcrição usando o modelo 405B.
- Melhor elaboração de prompts.
- Suporte para coletar sites, arquivos de áudio, links do YouTube etc.
Resumo do GN⁺
- NotebookLlama é um projeto open source que converte PDFs em podcasts, usando vários LLMs e modelos de TTS para gerar conteúdo criativo.
- O projeto sugere, por meio de experimentos com LLMs e modelos de TTS, o potencial de gerar vozes mais naturais.
- Como projetos com funcionalidades semelhantes, são recomendados a API de TTS do Google e o Amazon Polly.
1 comentários
Comentários do Hacker News
Quanto mais ouço os "episódios" do NotebookLM, mais me convenço de que o Google treinou um modelo de "debate em podcast" com dois locutores em cima de um backbone multimodal já existente
O NotebookLM é muito impressionante até para pessoas que não têm familiaridade com tecnologia
Acho estranha a escolha do mecanismo de TTS
Avalia que há pouquíssimos exemplos de saída
Espera que seja lançado com outros idiomas e vários sotaques, especialmente sotaques do Sudeste Asiático
Acha que o NotebookLM talvez não seja open source, mas sim alguns experimentos em um notebook iPython
Mostra como a prototipagem com LLM pode ser muito rápida
Questiona se o NotebookLM só gera podcasts
Acha que seria ótimo se pudesse rodar localmente em um celular
Avalia que os exemplos são um pouco toscos
Menciona que gostaria de ouvir a saída de alguém que já tenha usado o NotebookLM