6 pontos por xguru 2024-03-20 | 1 comentários | Compartilhar no WhatsApp
  • Código que resume artigos do ArXiv para facilitar a leitura e depois usa GPT para transformá-los em áudio/vídeo
  • Converte os artigos em formato de vídeo para aprendizes visuais e em áudio para quem prefere ouvir
  • Etapas de funcionamento
    • Baixa o código-fonte do artigo por meio do ID do ArXiv
    • Converte o código LaTeX em páginas HTML usando latex2html ou latexmlc
    • Extrai texto e fórmulas das páginas HTML, ignorando tabelas e figuras
    • Ao gerar vídeo, mapeia as páginas do PDF e o texto para os blocos de texto correspondentes em cada página
    • Divide o texto em seções e usa a API do OpenAI GPT para reescrever, simplificar e explicar as frases
    • Divide o texto gerado pelo GPT em chunks e o converte em áudio usando a API de texto para fala do Google
    • Empacota todas as partes necessárias e cria um arquivo zip para o processamento do vídeo
    • Gera o vídeo com ffmpeg usando o mapa de blocos de texto calculado anteriormente

1 comentários

 
xguru 2024-03-20

Até vídeo? Fiquei surpreso e fui ver no YouTube, mas na verdade é só captura da página do artigo + narração.
Quando o OpenAI Sora for lançado, talvez seja possível até gerar vídeos que interpretem melhor o próprio artigo e o expliquem.

Canal oficial no YouTube: https://www.youtube.com/@ArxivPapers