- O SafeDocs inteiro foi classificado usando LLMs, modelos de embeddings, XGBoost e regressores lineares.
- Durante o processo de classificação, foram realizados vários experimentos e comparações de desempenho, com avaliação de múltiplos modelos.
Introdução
- O Common Crawl (CC) é um arquivo da web que arquiva a internet, com foco em preservá-la para cientistas e pesquisadores.
- O CC não armazena o arquivo PDF completo, apenas o primeiro 1MB; o SafeDocs recupera novamente esses PDFs do CC e preserva os PDFs originais.
- O conjunto de dados SafeDocs é composto por cerca de 8,4 milhões de arquivos PDF e chega a 8TB após descompressão.
- Foi feita uma tentativa de classificar esses PDFs.
Criação do dataset
- Explica o processo de classificar arquivos PDF em vários rótulos.
- Inspirado pelo blog técnico do FineWeb, foi criado um subconjunto de conteúdo educacional, gerando rótulos com um LLM e depois treinando modelos menores capazes de aprender esses rótulos.
- Foram gerados 100k rótulos e, após ajuste de rótulos desbalanceados, eles foram reorganizados em 59k rótulos.
Treinamento de modelos
Ideia 1: modelo de embeddings
- Modelos de embeddings convertem dados como texto, imagem e vídeo em vetores em um espaço de n dimensões.
- O desempenho de classificação foi melhorado por meio de finetuning.
- Após testar vários modelos, o
Alibaba-large-gte-1.5 apresentou o melhor desempenho, com acurácia de 59,14%.
Ideia 2: XGBoost
- XGBoost é um modelo conhecido por alto desempenho em dados tabulares e resolve problemas de classificação treinando vários classificadores binários simples.
- Com esse método, foi alcançada acurácia de 83,97%.
Ideia 3: TFIDF
- TFIDF é uma forma de calcular o quanto uma palavra específica é importante dentro de um documento, treinando o modelo com técnicas básicas de NLP.
- Registrou acurácia de 67,52%.
Ideia 4: voltar ao deep learning
- O objetivo era atingir pelo menos 70% de acurácia usando um classificador de deep learning.
- Após gerar mais rótulos e testar com o modelo
gte-large, foi alcançada acurácia de 69,22%.
Resultados dos experimentos
- No fim, o modelo de embeddings com XGBoost registrou a maior acurácia, de 85,26%.
- Na comparação entre vários modelos, o XGBoost mostrou o melhor desempenho.
Classificação do corpus completo
- O modelo gerado foi usado para classificar todos os dados de PDFs, e os resultados foram visualizados.
- PCA e UMAP foram usados para representar visualmente os resultados da classificação.
Conclusão
- Embora o desempenho dos modelos de deep learning tenha ficado abaixo do esperado, no geral foram obtidos resultados significativos.
- É esperado que surjam cada vez mais datasets de grande escala usando dados compostos como PDFs.
- O dataset e o código foram disponibilizados publicamente para oferecer oportunidades de obter resultados melhores.
Opinião do GN⁺
- Este projeto é um bom exemplo de experimentação de diferentes abordagens para o problema de classificação em datasets de grande escala.
- Mostra que técnicas tradicionais de machine learning, como XGBoost, ainda podem ser extremamente eficazes.
- É possível que mais dados e recursos de GPU fossem necessários para melhorar o desempenho dos modelos de deep learning.
- São necessárias mais pesquisas e experimentos sobre como processar dados compostos como PDFs.
- Este projeto pode ser uma referência muito útil para pessoas interessadas em pesquisa e desenvolvimento.
Ainda não há comentários.