Engenharia de dados para modelos de grande escala: arquitetura, algoritmos e projetos

(github.com/datascale-ai)

15 pontos por GN⁺ 2026-02-16 | 1 comentários | Compartilhar no WhatsApp

Na era dos modelos de grande escala, a qualidade dos dados determina o limite superior do desempenho do modelo
Um guia open source que oferece conhecimento sistemático de engenharia de dados para isso
Abrange todo o processo, incluindo limpeza de dados de pré-treinamento, alinhamento multimodal, pipelines de dados para RAG e geração de dados sintéticos
Composto por 5 partes e 13 capítulos. Além disso, inclui 5 projetos capstone práticos, código executável e projetos de arquitetura para apoiar o aprendizado aplicado
Processa dados de texto, imagem e vídeo usando uma stack tecnológica moderna como Ray, Spark, CLIP e DVC
Pode ser usado como uma referência prática para quem constrói pipelines de dados de IA, como pesquisadores de LLM, engenheiros de dados e especialistas em MLOps

Introdução

Na era dos modelos de grande escala, a qualidade dos dados determina os limites de desempenho do modelo
- Criado para suprir a falta de materiais sistemáticos sobre engenharia de dados para LLMs
O livro cobre toda a stack tecnológica, da limpeza de dados de pré-treinamento ao alinhamento multimodal, RAG e geração de dados sintéticos
- Extração de corpora de alta qualidade a partir de grandes volumes de dados ruidosos, como o Common Crawl
- Coleta, limpeza e alinhamento de dados de imagem-texto, vídeo e áudio
- Geração automática de dados para SFT, RLHF e CoT
- Construção de pipelines RAG com parsing de documentos corporativos e segmentação por unidades semânticas
Oferece aprendizado prático por meio de 5 projetos capstone end-to-end
Disponível online: https://datascale-ai.github.io/data_engineering_book/en/

Estrutura do livro

A estrutura geral é um pipeline completo de engenharia de dados, dos dados brutos até a aplicação
Composto por 6 partes, 13 capítulos e 5 projetos
- Parte 1: Infraestrutura e conceitos centrais
- Parte 2: Engenharia de dados de pré-treinamento de texto
- Parte 3: Engenharia de dados multimodais
- Parte 4: Engenharia de dados de alinhamento e dados sintéticos
- Parte 5: Engenharia de dados em nível de aplicação
- Parte 6: Projetos capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Principais características

Teoria abrangente

Reflete amplamente a filosofia de Data-Centric AI
Cobre todo o ciclo de vida dos dados de LLM, de pré-treinamento → fine-tuning → RLHF → RAG
Inclui tópicos avançados como leis de escala, avaliação da qualidade dos dados e alinhamento multimodal

Stack tecnológica moderna

Computação distribuída: Ray Data, Spark
Armazenamento de dados: Parquet, WebDataset, Vector Databases
Processamento de texto: Trafilatura, KenLM, MinHash LSH
Processamento multimodal: CLIP, ColPali, img2dataset
Versionamento de dados: DVC, LakeFS

Projetos capstone ricos em prática

Mini-C4: construção de um corpus de texto de alta qualidade com Trafilatura + Ray + MinHash
Legal Expert SFT: dataset de instruções de domínio baseado em Self-Instruct + CoT
LLaVA Multimodal: geração de dataset de instruções visuais com alinhamento Bbox e interleaving de múltiplas imagens
Math Textbook: construção de dataset de raciocínio com Evol-Instruct + validação em sandbox
Financial Report RAG: implementação de um sistema de perguntas e respostas multimodal com ColPali + Qwen-VL

Desenvolvimento local

Ambiente necessário: Python 3.8 ou superior, MkDocs Material, mkdocs-static-i18n
Instalação e pré-visualização
- Clonar o repositório com git clone e depois instalar as dependências
- Executar mkdocs serve para visualizar localmente (suporte à alternância entre chinês e inglês)
Build do site estático: executar mkdocs build para gerar o resultado no diretório site/

Estrutura do projeto

A pasta docs/ inclui conteúdo em chinês (zh/) e inglês (en/)
Estrutura de diretórios de recursos como images/, stylesheets/ e javascripts/
Inclui configuração de CI/CD em .github/workflows/
A configuração do site é gerenciada por mkdocs.yml
A licença é MIT License

Público-alvo

Engenheiros de pesquisa e desenvolvimento de LLM, engenheiros de dados, engenheiros de MLOps, PMs técnicos de IA e pesquisadores de pipelines de dados para LLM

Licença

Aplica-se a MIT License

Leitura online: https://datascale-ai.github.io/data_engineering_book/en/

1 comentários

GN⁺ 2026-02-16

Comentários do Hacker News

Estou lendo este livro com muita gratidão. A qualidade da tradução é muito alta
Sou totalmente iniciante em treinamento de LLM e estou experimentando uma nova arquitetura para geração de código Python em Apple Silicon
Mas fico frustrado porque as ferramentas de dados estão focadas em texto comum ou imagens, e não em código
Como o SGlang não roda no MacOS, não consigo fazer geração de dados sintéticos usando saída com restrições EBNF
Estou baixando por conta própria um corpus de código Python e lidando com problemas de APFS, sharding, classificação/limpeza/mistura customizadas etc., e me surpreende não existirem datasets pré-etiquetados para código
Se é um livro sobre engenharia de dados para LLMs, também deveria mencionar categorias emergentes como formatos de armazenamento para todo o ciclo de vida de ML
Por exemplo, Lance é um armazenamento colunar otimizado tanto para trabalhos analíticos quanto para workloads vetoriais, com suporte a versionamento e acesso aleatório
Isso é muito importante para amostragem, filtragem eficiente e tratamento de dados multimodais (ex.: vídeo)
Exemplos semelhantes incluem vortex e o nimble da Meta
Acho que o título ‘Data Engineering for LLMs’ seria mais apropriado
- Boa observação. Em termos de conteúdo, ‘Data Engineering for LLMs’ é bem mais preciso, então vou repassar isso imediatamente ao líder do projeto
Pode ser um problema da tradução, mas a explicação inicial sobre “Modern Data Stack” não passou confiança
A parte 1_2_data_infra.md pareceu um pouco vaga, mas
depois as seções de limpeza de dados e pipeline de RAG ficaram bem mais claras
- Obrigado pelo feedback sincero
A versão em inglês está em README_en.md
- Valeu! Troquei o link do topo por esse. A URL enviada originalmente era data_engineering_book
  O post tinha caído no filtro de spam, mas o autor avisou por e-mail, então o convidei a compartilhar o contexto nos comentários. Agora isso já foi refletido no topo
- Obrigado por compartilhar o link direto
Muito interessante, já deixei nos favoritos. Mas fiquei curioso se o README foi escrito pelo ChatGPT
- Sim. Somos uma equipe chinesa e usamos GPT na tradução para o inglês. Obrigado pelo feedback de que isso soou como um tipo de ‘calor humano falso’. Vamos ajustar para um tom mais neutro e conciso no futuro
- Eu também tive essa sensação. Havia muitas tabelas-resumo e um tom artificial, então a impressão de que foi escrito por LLM era forte. Mesmo que não tenha sido GPT, precisa de uma reescrita completa
A frase “Data is the new oil, but only if you know how to refine it.” chamou atenção
Como petróleo também não serve sem refinamento, algo como “dados são o novo petróleo e só ganham valor quando refinados” soaria mais natural
A seção ‘Vector DB vs Keyword Search’ foi interessante. Fiquei curioso sobre onde vocês traçam a linha divisória nos experimentos de pipeline de RAG
Pela nossa experiência, busca por palavra-chave como BM25 foi forte para nomes de entidades e IDs, enquanto busca vetorial foi forte para consultas conceituais. Fiquei curioso se o livro também cobre busca híbrida ou reranking
- Boa pergunta. Em produção real, a abordagem híbrida de BM25 + vetorial foi eficaz na maioria dos casos. Numa proporção de cerca de 70/30, palavra-chave teve vantagem em correspondência exata
  O ponto-chave é o reranking. Não basta só combinar os resultados; é preciso recalcular as pontuações com um cross-encoder (por exemplo, Cohere ou um modelo customizado)
  O momento em que a busca puramente semântica leva vantagem é quando a consulta gira mais em torno de conceitos abstratos
- Obrigado pelo insight. Vamos abordar esse padrão em futuras atualizações. No momento estamos no feriado do Ano-Novo Chinês, então pode haver algum atraso
As imagens de cada capítulo estão em inglês (com exceção das imagens em README_en.md)
- Obrigado por avisar! Percebemos essa diferença e corrigimos imediatamente os diagramas em README_en.md. Agora devem aparecer corretamente
Só Parquet não é suficiente para engenharia de dados moderna. Delta e Iceberg também deveriam ser incluídos
- Obrigado pelo feedback! Já repassei isso ao responsável por essa seção. No momento estamos no feriado do Ano-Novo Chinês, então a atualização pode demorar um pouco. Feliz Ano-Novo

Engenharia de dados para modelos de grande escala: arquitetura, algoritmos e projetos

Introdução

Estrutura do livro

Principais características

Teoria abrangente

Stack tecnológica moderna

Projetos capstone ricos em prática

Desenvolvimento local

Estrutura do projeto

Público-alvo

Licença

Leituras relacionadas

1 comentários

Comentários do Hacker News