ArXiv Paper Reader - projeto open source que transforma artigos do ArXiv em áudio/vídeo

xguru · 2024-03-20T10:16:01+09:00

Código que resume artigos do ArXiv para facilitar a leitura e depois usa GPT para transformá-los em áudio/vídeo Converte os artigos em formato de vídeo para aprendizes visuais e em áudio para quem prefere ouvir Etapas de funcionamento Baixa o código-fonte do artigo por meio do ID do ArXiv Converte o código LaTeX em páginas HTML usando latex2html ou latexmlc Extrai texto e fórmulas das páginas HTML, ignorando tabelas e figuras Ao gerar vídeo, mapeia as páginas do PDF e o texto para os blocos de texto correspondentes em cada página Divide o texto em seções e usa a API do OpenAI GPT para reescrever, simplificar e explicar as frases Divide o texto gerado pelo GPT em chunks e o converte em áudio usando a API de texto para fala do Google Empacota todas as partes necessárias e cria um arquivo zip para o processamento do vídeo Gera o vídeo com ffmpeg usando o mapa de blocos de texto calculado anteriormente

(github.com/imelnyk)

6 pontos por xguru 2024-03-20 | 1 comentários | Compartilhar no WhatsApp

Código que resume artigos do ArXiv para facilitar a leitura e depois usa GPT para transformá-los em áudio/vídeo
Converte os artigos em formato de vídeo para aprendizes visuais e em áudio para quem prefere ouvir
Etapas de funcionamento
- Baixa o código-fonte do artigo por meio do ID do ArXiv
- Converte o código LaTeX em páginas HTML usando latex2html ou latexmlc
- Extrai texto e fórmulas das páginas HTML, ignorando tabelas e figuras
- Ao gerar vídeo, mapeia as páginas do PDF e o texto para os blocos de texto correspondentes em cada página
- Divide o texto em seções e usa a API do OpenAI GPT para reescrever, simplificar e explicar as frases
- Divide o texto gerado pelo GPT em chunks e o converte em áudio usando a API de texto para fala do Google
- Empacota todas as partes necessárias e cria um arquivo zip para o processamento do vídeo
- Gera o vídeo com ffmpeg usando o mapa de blocos de texto calculado anteriormente

1 comentários

xguru 2024-03-20

Até vídeo? Fiquei surpreso e fui ver no YouTube, mas na verdade é só captura da página do artigo + narração.
Quando o OpenAI Sora for lançado, talvez seja possível até gerar vídeos que interpretem melhor o próprio artigo e o expliquem.

Canal oficial no YouTube: https://www.youtube.com/@ArxivPapers

ArXiv Paper Reader - projeto open source que transforma artigos do ArXiv em áudio/vídeo

Leituras relacionadas

1 comentários