Manual de Ciência de Dados em Python

(jakevdp.github.io)

43 pontos por GN⁺ 2025-12-04 | 2 comentários | Compartilhar no WhatsApp

Um manual online que aborda as principais ferramentas e técnicas da ciência de dados baseada em Python, com todo o conteúdo disponível publicamente no site e no GitHub
Fornecido em formato de notebook Jupyter, permitindo aprendizado prático, com código e texto juntos
O texto é distribuído sob a licença CC-BY-NC-ND, e os exemplos de código sob a licença MIT, permitindo uso livre não comercial
Cobre de forma sistemática bibliotecas essenciais para análise de dados e machine learning como IPython, NumPy, Pandas, Matplotlib e Scikit-Learn
É um material útil desde iniciantes em ciência de dados até profissionais, para aprender o fluxo de trabalho padrão do ecossistema Python

Visão geral

Este site reúne o conteúdo completo de 『Python Data Science Handbook』, de Jake VanderPlas
- O livro original foi publicado pela O’Reilly, e a versão web é disponibilizada gratuitamente
- Todo o conteúdo também é fornecido em formato de notebooks Jupyter no repositório do GitHub
O texto é distribuído sob a licença CC-BY-NC-ND, e os exemplos de código sob a licença MIT
- Isso permite uso não comercial e reutilização do código
Se o leitor considerar o material útil, pode apoiar o autor comprando a edição original

Estrutura do sumário

O livro é composto por 5 capítulos principais e um apêndice

Capítulo 1: IPython – além do Python comum

Explica os recursos e o uso do ambiente IPython
- Inclui sistema de ajuda, atalhos de teclado, comandos mágicos, integração com comandos de shell e mais
- Também cobre histórico de execução de código, depuração e medição de desempenho

Capítulo 2: Introdução ao NumPy

Aborda os fundamentos da computação numérica com arrays do NumPy
- Inclui tipos de dados, broadcasting, máscaras booleanas, ordenação, arrays estruturados e mais
- Explica como usar operações baseadas em arrays e funções de agregação

Capítulo 3: Manipulação de dados com Pandas

Cobre os objetos principais e os recursos de processamento de dados do Pandas
- Inclui indexação, tratamento de valores ausentes, agrupamento, tabelas dinâmicas, séries temporais e mais
- Também apresenta recursos de alto desempenho com eval() e query()

Capítulo 4: Visualização com Matplotlib

Explica como visualizar dados com Matplotlib e Seaborn
- Inclui vários tipos de gráficos, como gráfico de linhas, dispersão, histogramas e gráficos de densidade
- Cobre recursos avançados como legenda, barra de cores, stylesheets, gráficos 3D e visualização de dados geográficos

Capítulo 5: Machine learning

Cobre os conceitos básicos e algoritmos de machine learning com foco em Scikit-Learn
- Inclui etapas essenciais como hiperparâmetros, validação de modelos e engenharia de atributos
- Explica modelos importantes como Naive Bayes, regressão linear, SVM, random forest, PCA, k-means e GMM
- Apresenta um caso real de aplicação por meio de um exemplo de pipeline de reconhecimento facial

Apêndice: Código dos gráficos

Reúne o código de visualização usado no corpo principal
- Permite reproduzir e modificar cada figura

Importância prática

Oferece aos estudantes de ciência de dados uma compreensão integrada do ecossistema Python
O formato de notebook executável permite uso em ensino, pesquisa e prototipagem
Por estar disponível sob licença open source, facilita expansão contínua e contribuições da comunidade

2 comentários

aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
Análise de dados com bibliotecas Python
É um livro escrito por Wes McKinney, criador do pandas, e também é uma boa introdução à ciência de dados. Eu li quando a 2ª edição saiu pela primeira vez... e agora, pesquisando, vi que a 3ª edição já foi lançada.

GN⁺ 2025-12-04

Comentários no Hacker News

Gostei muito da palestra Statistics for Hackers, do Jake VanderPlas
Ver slides da apresentação
- Obrigado por compartilhar. Isso me fez lembrar de como pensar em frequência em vez de probabilidade reduz tantos erros
  Por exemplo, mesmo que a prevalência de uma doença seja 1/10.000 e a precisão do teste seja 99%, um resultado positivo não significa que haja 99% de chance de a pessoa ter a doença
Esse tipo de livro é sempre interessante
Ele aborda vários temas de forma ampla e introdutória, como manipulação de dados, visualização e machine learning, e cada um desses temas poderia render um livro inteiro
É difícil equilibrar ensino de programação com introdução a conceitos e teoria, mas este livro parece ter encontrado um bom equilíbrio como obra para iniciantes
Este livro foi útil pra caramba 🔥 quando comecei em data science, lá por 2017~2018
Jake era um excelente professor
É interessante que, hoje em dia, a escolha tenha sido Pandas
Provavelmente o foco foi transmitir conceitos gerais mais do que usar ferramentas mais atuais
- Como o livro foi publicado originalmente em 2016, é bem possível que ainda seja a 1ª edição
- Ainda considero Pandas o padrão da indústria. Polars e Spark são mais focados em desempenho para engenharia de dados e não são tão adequados para cobrir data science como um todo
- O livro já é relativamente antigo, então talvez nem faça sentido falar em “hoje em dia”
- Não entendo bem qual seria o problema com Pandas
No meu primeiro emprego, consultei um post de blog sobre Kernel Density Estimation (KDE), e foi extremamente útil
Foi aí que passei a gostar do trabalho do Jake
A versão online do livro está disponível em learningds.org
A licença é CC-BY-NC-ND
Não entendo muito bem por que tanta gente não gosta de Pandas
Não é uma ferramenta perfeita, mas temos milhares de linhas de código em Pandas na nossa base e quase nunca tivemos bugs em produção
Usamos Pandas junto com wrappers de esquema estático e verificação de tipos, e isso tem funcionado de forma estável
- Fiquei curioso se esse wrapper de esquema é algo feito internamente ou se existe algum pacote no PyPI que você recomendaria
Ele era um excelente escritor, e sinto falta do blog dele
Especialmente o texto sobre tabelas dinâmicas, que me marcou bastante e parece ter sido incluído no livro agora
- Ele também é o criador da biblioteca de visualização para Python Altair (baseada em Vega-Lite)
  Dá para conferir no site oficial do Altair
Este livro foi escrito há 8 anos, mas existe uma 2ª edição do mesmo autor
- Há uma versão em notebooks da 2ª edição no repositório do GitHub
  Ela aparece como “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”
  Dá para comparar com a edição de 2016 do link original
Foi um dos poucos livros que li do começo ao fim enquanto aprendia data science em 2020~2021
Ainda vale a recomendação hoje em dia