2 pontos por GN⁺ 2024-08-20 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O SafeDocs inteiro foi classificado usando LLMs, modelos de embeddings, XGBoost e regressores lineares.
  • Durante o processo de classificação, foram realizados vários experimentos e comparações de desempenho, com avaliação de múltiplos modelos.

Introdução

  • O Common Crawl (CC) é um arquivo da web que arquiva a internet, com foco em preservá-la para cientistas e pesquisadores.
  • O CC não armazena o arquivo PDF completo, apenas o primeiro 1MB; o SafeDocs recupera novamente esses PDFs do CC e preserva os PDFs originais.
  • O conjunto de dados SafeDocs é composto por cerca de 8,4 milhões de arquivos PDF e chega a 8TB após descompressão.
  • Foi feita uma tentativa de classificar esses PDFs.

Criação do dataset

  • Explica o processo de classificar arquivos PDF em vários rótulos.
  • Inspirado pelo blog técnico do FineWeb, foi criado um subconjunto de conteúdo educacional, gerando rótulos com um LLM e depois treinando modelos menores capazes de aprender esses rótulos.
  • Foram gerados 100k rótulos e, após ajuste de rótulos desbalanceados, eles foram reorganizados em 59k rótulos.

Treinamento de modelos

Ideia 1: modelo de embeddings

  • Modelos de embeddings convertem dados como texto, imagem e vídeo em vetores em um espaço de n dimensões.
  • O desempenho de classificação foi melhorado por meio de finetuning.
  • Após testar vários modelos, o Alibaba-large-gte-1.5 apresentou o melhor desempenho, com acurácia de 59,14%.

Ideia 2: XGBoost

  • XGBoost é um modelo conhecido por alto desempenho em dados tabulares e resolve problemas de classificação treinando vários classificadores binários simples.
  • Com esse método, foi alcançada acurácia de 83,97%.

Ideia 3: TFIDF

  • TFIDF é uma forma de calcular o quanto uma palavra específica é importante dentro de um documento, treinando o modelo com técnicas básicas de NLP.
  • Registrou acurácia de 67,52%.

Ideia 4: voltar ao deep learning

  • O objetivo era atingir pelo menos 70% de acurácia usando um classificador de deep learning.
  • Após gerar mais rótulos e testar com o modelo gte-large, foi alcançada acurácia de 69,22%.

Resultados dos experimentos

  • No fim, o modelo de embeddings com XGBoost registrou a maior acurácia, de 85,26%.
  • Na comparação entre vários modelos, o XGBoost mostrou o melhor desempenho.

Classificação do corpus completo

  • O modelo gerado foi usado para classificar todos os dados de PDFs, e os resultados foram visualizados.
  • PCA e UMAP foram usados para representar visualmente os resultados da classificação.

Conclusão

  • Embora o desempenho dos modelos de deep learning tenha ficado abaixo do esperado, no geral foram obtidos resultados significativos.
  • É esperado que surjam cada vez mais datasets de grande escala usando dados compostos como PDFs.
  • O dataset e o código foram disponibilizados publicamente para oferecer oportunidades de obter resultados melhores.

Opinião do GN⁺

  • Este projeto é um bom exemplo de experimentação de diferentes abordagens para o problema de classificação em datasets de grande escala.
  • Mostra que técnicas tradicionais de machine learning, como XGBoost, ainda podem ser extremamente eficazes.
  • É possível que mais dados e recursos de GPU fossem necessários para melhorar o desempenho dos modelos de deep learning.
  • São necessárias mais pesquisas e experimentos sobre como processar dados compostos como PDFs.
  • Este projeto pode ser uma referência muito útil para pessoas interessadas em pesquisa e desenvolvimento.

Ainda não há comentários.

Ainda não há comentários.