15 pontos por GN⁺ 2026-02-16 | 1 comentários | Compartilhar no WhatsApp
  • Na era dos modelos de grande escala, a qualidade dos dados determina o limite superior do desempenho do modelo
  • Um guia open source que oferece conhecimento sistemático de engenharia de dados para isso
  • Abrange todo o processo, incluindo limpeza de dados de pré-treinamento, alinhamento multimodal, pipelines de dados para RAG e geração de dados sintéticos
  • Composto por 5 partes e 13 capítulos. Além disso, inclui 5 projetos capstone práticos, código executável e projetos de arquitetura para apoiar o aprendizado aplicado
  • Processa dados de texto, imagem e vídeo usando uma stack tecnológica moderna como Ray, Spark, CLIP e DVC
  • Pode ser usado como uma referência prática para quem constrói pipelines de dados de IA, como pesquisadores de LLM, engenheiros de dados e especialistas em MLOps

Introdução

  • Na era dos modelos de grande escala, a qualidade dos dados determina os limites de desempenho do modelo
    • Criado para suprir a falta de materiais sistemáticos sobre engenharia de dados para LLMs
  • O livro cobre toda a stack tecnológica, da limpeza de dados de pré-treinamento ao alinhamento multimodal, RAG e geração de dados sintéticos
    • Extração de corpora de alta qualidade a partir de grandes volumes de dados ruidosos, como o Common Crawl
    • Coleta, limpeza e alinhamento de dados de imagem-texto, vídeo e áudio
    • Geração automática de dados para SFT, RLHF e CoT
    • Construção de pipelines RAG com parsing de documentos corporativos e segmentação por unidades semânticas
  • Oferece aprendizado prático por meio de 5 projetos capstone end-to-end
  • Disponível online: https://datascale-ai.github.io/data_engineering_book/en/

Estrutura do livro

  • A estrutura geral é um pipeline completo de engenharia de dados, dos dados brutos até a aplicação
  • Composto por 6 partes, 13 capítulos e 5 projetos
    • Parte 1: Infraestrutura e conceitos centrais
    • Parte 2: Engenharia de dados de pré-treinamento de texto
    • Parte 3: Engenharia de dados multimodais
    • Parte 4: Engenharia de dados de alinhamento e dados sintéticos
    • Parte 5: Engenharia de dados em nível de aplicação
    • Parte 6: Projetos capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Principais características

Teoria abrangente

  • Reflete amplamente a filosofia de Data-Centric AI
  • Cobre todo o ciclo de vida dos dados de LLM, de pré-treinamento → fine-tuning → RLHF → RAG
  • Inclui tópicos avançados como leis de escala, avaliação da qualidade dos dados e alinhamento multimodal

Stack tecnológica moderna

  • Computação distribuída: Ray Data, Spark
  • Armazenamento de dados: Parquet, WebDataset, Vector Databases
  • Processamento de texto: Trafilatura, KenLM, MinHash LSH
  • Processamento multimodal: CLIP, ColPali, img2dataset
  • Versionamento de dados: DVC, LakeFS

Projetos capstone ricos em prática

  • Mini-C4: construção de um corpus de texto de alta qualidade com Trafilatura + Ray + MinHash
  • Legal Expert SFT: dataset de instruções de domínio baseado em Self-Instruct + CoT
  • LLaVA Multimodal: geração de dataset de instruções visuais com alinhamento Bbox e interleaving de múltiplas imagens
  • Math Textbook: construção de dataset de raciocínio com Evol-Instruct + validação em sandbox
  • Financial Report RAG: implementação de um sistema de perguntas e respostas multimodal com ColPali + Qwen-VL

Desenvolvimento local

  • Ambiente necessário: Python 3.8 ou superior, MkDocs Material, mkdocs-static-i18n
  • Instalação e pré-visualização
    • Clonar o repositório com git clone e depois instalar as dependências
    • Executar mkdocs serve para visualizar localmente (suporte à alternância entre chinês e inglês)
  • Build do site estático: executar mkdocs build para gerar o resultado no diretório site/

Estrutura do projeto

  • A pasta docs/ inclui conteúdo em chinês (zh/) e inglês (en/)
  • Estrutura de diretórios de recursos como images/, stylesheets/ e javascripts/
  • Inclui configuração de CI/CD em .github/workflows/
  • A configuração do site é gerenciada por mkdocs.yml
  • A licença é MIT License

Público-alvo

  • Engenheiros de pesquisa e desenvolvimento de LLM, engenheiros de dados, engenheiros de MLOps, PMs técnicos de IA e pesquisadores de pipelines de dados para LLM

Licença

  • Aplica-se a MIT License

1 comentários

 
GN⁺ 2026-02-16
Comentários do Hacker News
  • Estou lendo este livro com muita gratidão. A qualidade da tradução é muito alta
    Sou totalmente iniciante em treinamento de LLM e estou experimentando uma nova arquitetura para geração de código Python em Apple Silicon
    Mas fico frustrado porque as ferramentas de dados estão focadas em texto comum ou imagens, e não em código
    Como o SGlang não roda no MacOS, não consigo fazer geração de dados sintéticos usando saída com restrições EBNF
    Estou baixando por conta própria um corpus de código Python e lidando com problemas de APFS, sharding, classificação/limpeza/mistura customizadas etc., e me surpreende não existirem datasets pré-etiquetados para código

  • Se é um livro sobre engenharia de dados para LLMs, também deveria mencionar categorias emergentes como formatos de armazenamento para todo o ciclo de vida de ML
    Por exemplo, Lance é um armazenamento colunar otimizado tanto para trabalhos analíticos quanto para workloads vetoriais, com suporte a versionamento e acesso aleatório
    Isso é muito importante para amostragem, filtragem eficiente e tratamento de dados multimodais (ex.: vídeo)
    Exemplos semelhantes incluem vortex e o nimble da Meta

  • Acho que o título ‘Data Engineering for LLMs’ seria mais apropriado

    • Boa observação. Em termos de conteúdo, ‘Data Engineering for LLMs’ é bem mais preciso, então vou repassar isso imediatamente ao líder do projeto
  • Pode ser um problema da tradução, mas a explicação inicial sobre “Modern Data Stack” não passou confiança
    A parte 1_2_data_infra.md pareceu um pouco vaga, mas
    depois as seções de limpeza de dados e pipeline de RAG ficaram bem mais claras

    • Obrigado pelo feedback sincero
  • A versão em inglês está em README_en.md

    • Valeu! Troquei o link do topo por esse. A URL enviada originalmente era data_engineering_book
      O post tinha caído no filtro de spam, mas o autor avisou por e-mail, então o convidei a compartilhar o contexto nos comentários. Agora isso já foi refletido no topo
    • Obrigado por compartilhar o link direto
  • Muito interessante, já deixei nos favoritos. Mas fiquei curioso se o README foi escrito pelo ChatGPT

    • Sim. Somos uma equipe chinesa e usamos GPT na tradução para o inglês. Obrigado pelo feedback de que isso soou como um tipo de ‘calor humano falso’. Vamos ajustar para um tom mais neutro e conciso no futuro
    • Eu também tive essa sensação. Havia muitas tabelas-resumo e um tom artificial, então a impressão de que foi escrito por LLM era forte. Mesmo que não tenha sido GPT, precisa de uma reescrita completa
  • A frase “Data is the new oil, but only if you know how to refine it.” chamou atenção
    Como petróleo também não serve sem refinamento, algo como “dados são o novo petróleo e só ganham valor quando refinados” soaria mais natural

  • A seção ‘Vector DB vs Keyword Search’ foi interessante. Fiquei curioso sobre onde vocês traçam a linha divisória nos experimentos de pipeline de RAG
    Pela nossa experiência, busca por palavra-chave como BM25 foi forte para nomes de entidades e IDs, enquanto busca vetorial foi forte para consultas conceituais. Fiquei curioso se o livro também cobre busca híbrida ou reranking

    • Boa pergunta. Em produção real, a abordagem híbrida de BM25 + vetorial foi eficaz na maioria dos casos. Numa proporção de cerca de 70/30, palavra-chave teve vantagem em correspondência exata
      O ponto-chave é o reranking. Não basta só combinar os resultados; é preciso recalcular as pontuações com um cross-encoder (por exemplo, Cohere ou um modelo customizado)
      O momento em que a busca puramente semântica leva vantagem é quando a consulta gira mais em torno de conceitos abstratos
    • Obrigado pelo insight. Vamos abordar esse padrão em futuras atualizações. No momento estamos no feriado do Ano-Novo Chinês, então pode haver algum atraso
  • As imagens de cada capítulo estão em inglês (com exceção das imagens em README_en.md)

    • Obrigado por avisar! Percebemos essa diferença e corrigimos imediatamente os diagramas em README_en.md. Agora devem aparecer corretamente
  • Só Parquet não é suficiente para engenharia de dados moderna. Delta e Iceberg também deveriam ser incluídos

    • Obrigado pelo feedback! Já repassei isso ao responsável por essa seção. No momento estamos no feriado do Ano-Novo Chinês, então a atualização pode demorar um pouco. Feliz Ano-Novo