- Código que resume artigos do ArXiv para facilitar a leitura e depois usa GPT para transformá-los em áudio/vídeo
- Converte os artigos em formato de vídeo para aprendizes visuais e em áudio para quem prefere ouvir
- Etapas de funcionamento
- Baixa o código-fonte do artigo por meio do ID do ArXiv
- Converte o código LaTeX em páginas HTML usando
latex2html ou latexmlc
- Extrai texto e fórmulas das páginas HTML, ignorando tabelas e figuras
- Ao gerar vídeo, mapeia as páginas do PDF e o texto para os blocos de texto correspondentes em cada página
- Divide o texto em seções e usa a API do OpenAI GPT para reescrever, simplificar e explicar as frases
- Divide o texto gerado pelo GPT em chunks e o converte em áudio usando a API de texto para fala do Google
- Empacota todas as partes necessárias e cria um arquivo zip para o processamento do vídeo
- Gera o vídeo com
ffmpeg usando o mapa de blocos de texto calculado anteriormente
1 comentários
Até vídeo? Fiquei surpreso e fui ver no YouTube, mas na verdade é só captura da página do artigo + narração.
Quando o OpenAI Sora for lançado, talvez seja possível até gerar vídeos que interpretem melhor o próprio artigo e o expliquem.
Canal oficial no YouTube: https://www.youtube.com/@ArxivPapers