NotebookLlama - versão open source do NotebookLM do Google

(github.com/meta-llama)

1 pontos por GN⁺ 2024-10-28 | 1 comentários | Compartilhar no WhatsApp

A página antiga do GitHub da receita NotebookLlama não é uma documentação de implementação, mas uma página informativa avisando que ela foi movida para um novo local
O novo local leva ao documento Building a Notebook Llama: A Step-by-Step Guide
No corpo do caminho antigo, o mesmo aviso de mudança é repetido, portanto o conteúdo real deve ser conferido no novo documento
Se favoritos e scripts antigos referenciarem esse caminho do GitHub, é necessário atualizá-los para a nova URL
A página atual não inclui instruções de uso do NotebookLlama, como instalação, estrutura do código ou procedimento de execução

Novo local da receita NotebookLlama

A receita NotebookLlama foi movida do diretório antigo do GitHub para um novo local
O título do novo documento é Building a Notebook Llama: A Step-by-Step Guide

Para quem usa o caminho antigo

Se favoritos ou scripts antigos apontarem para esta página do GitHub, eles devem ser alterados para a URL do novo documento
O corpo da página atual do GitHub repete o aviso de mudança e uma mensagem de agradecimento

Conteúdo que não está na página atual

Esta página não inclui instruções de instalação, estrutura do código, procedimento de execução nem descrição dos recursos do NotebookLlama

1 comentários

GN⁺ 2024-10-28

Opiniões do Hacker News

Quanto mais ouço os “episódios” do NotebookLM, mais me convenço de que o Google treinou um modelo de diálogo entre duas pessoas que gera podcasts diretamente em cima de modelos existentes baseados em multimodalidade
A forma como os dois falantes se interrompem e falam por cima um do outro é assustadoramente humana
Também parece possível que tenham usado podcasts reais e transcrições em grande escala, criado “materiais de entrada” sintéticos a partir das transcrições e colocado isso como amostras de treinamento
Por exemplo, poderiam pegar um episódio do The Daily, fazer um modelo de linguagem escrever um texto fictício resumindo o conteúdo daquele podcast, depois inserir esse texto em um modelo de dois falantes e transcrever o áudio de saída para ver o quanto ele corresponde bem ao texto de entrada
Talvez eu esteja deixando passar detalhes essenciais, mas acho que a naturalidade desse podcast não pode vir apenas de uma transcrição em texto simples
- Seguindo a linha do swyx, é bem provável que esse TTS seja o Google finalmente lançando o Soundstorm que vinha deixando mofando no porão
  https://google-research.github.io/seanet/soundstorm/examples...
- Há uma boa notícia e uma má notícia: não foi assim que fizeram
  Houve um primeiro podcast com entrevista do engenheiro que liderou o modelo de áudio: https://www.latent.space/p/notebooklm
  Em resumo, eles confirmaram que o roteiro e o áudio são gerados separadamente, mas o modelo de TTS foi treinado em um nível muito à frente do que está disponível em open source ou comercialmente
- Tive uma sensação parecida com o NotebookLM, mas também notei uma coisa estranha
  Às vezes o apresentador A está falando e, de repente, o apresentador B termina a frase
  Normalmente, nesse tipo de situação, A está explicando algo a B ou respondendo a uma pergunta, então não faz sentido no contexto; não sei como interpretar, mas é um fenômeno interessante
Na verdade, isto claramente não é open source: https://github.com/meta-llama/llama-recipes/blob/d83d0ae7f5c...
Também não há arquivo LICENSE, então, por enquanto, parece que no máximo dá para usar esse código como referência
- Não parece muito útil para usar diretamente, mas a abordagem que eles exploram está clara em texto simples e bem documentada
  Mesmo que não possa ser usada diretamente, é algo pelo qual dá para agradecer como contribuição ao conhecimento público
- Pode ser um erro, porque difere do que está escrito no README: https://github.com/meta-llama/llama-models/blob/main/models/...
  Aqui ele aponta para a licença do Meta Llama 3.2
- Obrigado, mas ainda assim pretendo usar mesmo assim
Gosto de ver isso. Para quem gosta de tecnologia, é arriscado ignorar o NotebookLM
A maioria das pessoas inteligentes, mas não necessariamente técnicas, que conheço recebeu o NotebookLM de forma esmagadora como um killer app de IA
Meus pais na casa dos 70 e uma criança de 8 anos ficaram impressionados ao ver isso e continuam brincando com ele
Como alguém apontou abaixo, o que estou mencionando aqui é especificamente o recurso de “podcast”
- Como alguém que não ouve podcasts, não sei que risco eu correria se não criasse podcasts com o NotebookLM
- Entendo por que isso parece incrível para muita gente, mas para mim é o oposto de economizar tempo
  Por assim dizer, parece mais uma ferramenta que consome tempo
  Dá a mesma impressão daqueles vídeos que passam a existir porque algumas pessoas, até desenvolvedores, não conseguem ler ou ficam intimidadas por textos longos
  Existe uma desvantagem competitiva que só é parcialmente mitigada quando se coloca um vídeo até em páginas de texto muito curtas
- Não sei bem. Você quer dizer que pessoas “inteligentes, mas não técnicas” não conseguem ler?
  Assim como ignoro outros podcasts, não sei o que estaria perdendo ao ignorar este também
  Quase nunca vi alguém dizer que aprendeu algo com podcasts; em geral era só conhecimento disperso de outras áreas que a pessoa provavelmente não usaria
- Fico me perguntando se você está falando do NotebookLM como um todo ou especificamente do truque do podcast
- Toda vez que ouvi um podcast do NotebookLM sobre algum artigo ou post de blog, achei que teria sido muito melhor simplesmente ler o mesmo texto com texto para fala por IA
Nos últimos meses tentei criar algo parecido com o NotebookLM, um podcast de notícias personalizado (https://www.tailoredpod.ai)
O maior problema é que as boas APIs de TTS existentes são caras demais, então é difícil para uma empresa comum sem acesso interno aos modelos do Google criar um produto como o NotebookLM
A OpenAI oferece uma API de TTS com qualidade relativamente boa pelo preço, mas ainda assim é cara demais para gerar horas de áudio gratuitamente
Modelos de TTS open source também estão avançando aos poucos, mas ainda exigem hardware potente. Ex.: https://github.com/SWivid/F5-TTS
- Você tem usuários? Se TTS for o gargalo, talvez eu possa ajudar. Meu e-mail está no perfil
- Fico curioso para saber o que você quer dizer com “hardware potente”
A escolha do mecanismo de TTS é bem estranha
Pelos padrões dos sistemas abertos de TTS, nenhum deles chega perto do estado da arte
XTTSv2 ou o novo F5-TTS teriam sido escolhas muito melhores
- O código pode ser atualizado a qualquer momento para usar esses mecanismos
  Quando a Meta publica algo no GitHub, não é tanto para entregar “o melhor”, mas mais para fornecer uma prova de conceito
  As licenças desses sistemas de TTS também importam, então não basta eles serem simplesmente abertos
  Se fosse um produto para usuários, com certeza teriam usado um TTS melhor
- Na página, entre os itens que precisam de melhoria, está escrito assim:
  “Experimentos com modelos de voz: estamos no limite do quanto o modelo de TTS soa natural. Isso poderia ser melhorado com um pipeline melhor e com a ajuda de alguém que entenda mais do assunto. PRs são bem-vindos! :)”
A saída de exemplo é bem ruim
É uma demo interessante, mas só reforça ainda mais como a equipe do NotebookLM conseguiu criar um produto de enorme sucesso usando modelos-base quase iguais aos que já estão disponíveis
Isso parece mais alguns experimentos dentro de um notebook iPython do que um NotebookLM de código aberto
O que o NotebookLM faz no nível de LLM não é particularmente novo; o interessante, na minha visão, é a forma como isso foi empacotado como produto, diferente de outros produtos
A parte de “podcast” também é, na verdade, mais uma introdução ou visão geral de um corpus grande; muito mais útil é a função de conversar com um bot sobre esse corpus e receber citações das fontes
Ainda assim, este exemplo mostra que prototipar com LLMs é muito rápido
Para quem ainda não mexeu com a API, recomendo tentar uma vez
- Discordo
  A novidade do NotebookLM está na forma como os dois apresentadores se interrompem e sobrepõem as falas
  Outras soluções de código aberto não conseguem fazer isso; elas apenas falam alternadamente
Há também outra solução de notebook baseada em Jupyter com suporte a modelos LLaMA: https://raku.land/zef:antononcube/Jupyter::Chatbook
O vídeo de demonstração está aqui: https://youtu.be/zVX-SqRfFPA
Isso só cria podcasts mesmo?
Tenho mais interesse nos outros recursos do NotebookLM
O podcast é divertido, mas está mais para um gimmick
- Pelo contrário, usei o recurso de podcast várias vezes e compartilhei com muita gente
  Foi um bom sistema e meio para entender informações complexas que eu normalmente não conseguiria digerir
Seria bem legal se desse para rodar isso localmente no celular
Imagino uma situação em que você recebe documentos de trabalho, por exemplo um documento de requisitos de produto, e ele os transforma em podcast para ouvir enquanto dirige
Acho que a produtividade aumentaria bastante e não seria preciso se preocupar com questões de compliance
- Seria bom se o ChatGPT ou o Claude criassem um app para Android Auto que desse para usar enquanto dirige

NotebookLlama - versão open source do NotebookLM do Google

Novo local da receita NotebookLlama

Para quem usa o caminho antigo

Conteúdo que não está na página atual

Leituras relacionadas

1 comentários

Opiniões do Hacker News