- Na era dos modelos de grande escala, a qualidade dos dados determina o limite superior do desempenho do modelo
- Um guia open source que oferece conhecimento sistemático de engenharia de dados para isso
- Abrange todo o processo, incluindo limpeza de dados de pré-treinamento, alinhamento multimodal, pipelines de dados para RAG e geração de dados sintéticos
- Composto por 5 partes e 13 capítulos. Além disso, inclui 5 projetos capstone práticos, código executável e projetos de arquitetura para apoiar o aprendizado aplicado
- Processa dados de texto, imagem e vídeo usando uma stack tecnológica moderna como Ray, Spark, CLIP e DVC
- Pode ser usado como uma referência prática para quem constrói pipelines de dados de IA, como pesquisadores de LLM, engenheiros de dados e especialistas em MLOps
Introdução
- Na era dos modelos de grande escala, a qualidade dos dados determina os limites de desempenho do modelo
- Criado para suprir a falta de materiais sistemáticos sobre engenharia de dados para LLMs
- O livro cobre toda a stack tecnológica, da limpeza de dados de pré-treinamento ao alinhamento multimodal, RAG e geração de dados sintéticos
- Extração de corpora de alta qualidade a partir de grandes volumes de dados ruidosos, como o Common Crawl
- Coleta, limpeza e alinhamento de dados de imagem-texto, vídeo e áudio
- Geração automática de dados para SFT, RLHF e CoT
- Construção de pipelines RAG com parsing de documentos corporativos e segmentação por unidades semânticas
- Oferece aprendizado prático por meio de 5 projetos capstone end-to-end
- Disponível online: https://datascale-ai.github.io/data_engineering_book/en/
Estrutura do livro
- A estrutura geral é um pipeline completo de engenharia de dados, dos dados brutos até a aplicação
- Composto por 6 partes, 13 capítulos e 5 projetos
- Parte 1: Infraestrutura e conceitos centrais
- Parte 2: Engenharia de dados de pré-treinamento de texto
- Parte 3: Engenharia de dados multimodais
- Parte 4: Engenharia de dados de alinhamento e dados sintéticos
- Parte 5: Engenharia de dados em nível de aplicação
- Parte 6: Projetos capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)
Principais características
Teoria abrangente
- Reflete amplamente a filosofia de Data-Centric AI
- Cobre todo o ciclo de vida dos dados de LLM, de pré-treinamento → fine-tuning → RLHF → RAG
- Inclui tópicos avançados como leis de escala, avaliação da qualidade dos dados e alinhamento multimodal
Stack tecnológica moderna
- Computação distribuída: Ray Data, Spark
- Armazenamento de dados: Parquet, WebDataset, Vector Databases
- Processamento de texto: Trafilatura, KenLM, MinHash LSH
- Processamento multimodal: CLIP, ColPali, img2dataset
- Versionamento de dados: DVC, LakeFS
Projetos capstone ricos em prática
- Mini-C4: construção de um corpus de texto de alta qualidade com Trafilatura + Ray + MinHash
- Legal Expert SFT: dataset de instruções de domínio baseado em Self-Instruct + CoT
- LLaVA Multimodal: geração de dataset de instruções visuais com alinhamento Bbox e interleaving de múltiplas imagens
- Math Textbook: construção de dataset de raciocínio com Evol-Instruct + validação em sandbox
- Financial Report RAG: implementação de um sistema de perguntas e respostas multimodal com ColPali + Qwen-VL
Desenvolvimento local
- Ambiente necessário: Python 3.8 ou superior, MkDocs Material, mkdocs-static-i18n
- Instalação e pré-visualização
- Clonar o repositório com
git clone e depois instalar as dependências
- Executar
mkdocs serve para visualizar localmente (suporte à alternância entre chinês e inglês)
- Build do site estático: executar
mkdocs build para gerar o resultado no diretório site/
Estrutura do projeto
- A pasta
docs/ inclui conteúdo em chinês (zh/) e inglês (en/)
- Estrutura de diretórios de recursos como
images/, stylesheets/ e javascripts/
- Inclui configuração de CI/CD em
.github/workflows/
- A configuração do site é gerenciada por
mkdocs.yml
- A licença é MIT License
Público-alvo
- Engenheiros de pesquisa e desenvolvimento de LLM, engenheiros de dados, engenheiros de MLOps, PMs técnicos de IA e pesquisadores de pipelines de dados para LLM
Licença
1 comentários
Comentários do Hacker News
Estou lendo este livro com muita gratidão. A qualidade da tradução é muito alta
Sou totalmente iniciante em treinamento de LLM e estou experimentando uma nova arquitetura para geração de código Python em Apple Silicon
Mas fico frustrado porque as ferramentas de dados estão focadas em texto comum ou imagens, e não em código
Como o SGlang não roda no MacOS, não consigo fazer geração de dados sintéticos usando saída com restrições EBNF
Estou baixando por conta própria um corpus de código Python e lidando com problemas de APFS, sharding, classificação/limpeza/mistura customizadas etc., e me surpreende não existirem datasets pré-etiquetados para código
Se é um livro sobre engenharia de dados para LLMs, também deveria mencionar categorias emergentes como formatos de armazenamento para todo o ciclo de vida de ML
Por exemplo, Lance é um armazenamento colunar otimizado tanto para trabalhos analíticos quanto para workloads vetoriais, com suporte a versionamento e acesso aleatório
Isso é muito importante para amostragem, filtragem eficiente e tratamento de dados multimodais (ex.: vídeo)
Exemplos semelhantes incluem vortex e o nimble da Meta
Acho que o título ‘Data Engineering for LLMs’ seria mais apropriado
Pode ser um problema da tradução, mas a explicação inicial sobre “Modern Data Stack” não passou confiança
A parte 1_2_data_infra.md pareceu um pouco vaga, mas
depois as seções de limpeza de dados e pipeline de RAG ficaram bem mais claras
A versão em inglês está em README_en.md
O post tinha caído no filtro de spam, mas o autor avisou por e-mail, então o convidei a compartilhar o contexto nos comentários. Agora isso já foi refletido no topo
Muito interessante, já deixei nos favoritos. Mas fiquei curioso se o README foi escrito pelo ChatGPT
A frase “Data is the new oil, but only if you know how to refine it.” chamou atenção
Como petróleo também não serve sem refinamento, algo como “dados são o novo petróleo e só ganham valor quando refinados” soaria mais natural
A seção ‘Vector DB vs Keyword Search’ foi interessante. Fiquei curioso sobre onde vocês traçam a linha divisória nos experimentos de pipeline de RAG
Pela nossa experiência, busca por palavra-chave como BM25 foi forte para nomes de entidades e IDs, enquanto busca vetorial foi forte para consultas conceituais. Fiquei curioso se o livro também cobre busca híbrida ou reranking
O ponto-chave é o reranking. Não basta só combinar os resultados; é preciso recalcular as pontuações com um cross-encoder (por exemplo, Cohere ou um modelo customizado)
O momento em que a busca puramente semântica leva vantagem é quando a consulta gira mais em torno de conceitos abstratos
As imagens de cada capítulo estão em inglês (com exceção das imagens em README_en.md)
Só Parquet não é suficiente para engenharia de dados moderna. Delta e Iceberg também deveriam ser incluídos