43 pontos por GN⁺ 2025-12-04 | 2 comentários | Compartilhar no WhatsApp
  • Um manual online que aborda as principais ferramentas e técnicas da ciência de dados baseada em Python, com todo o conteúdo disponível publicamente no site e no GitHub
  • Fornecido em formato de notebook Jupyter, permitindo aprendizado prático, com código e texto juntos
  • O texto é distribuído sob a licença CC-BY-NC-ND, e os exemplos de código sob a licença MIT, permitindo uso livre não comercial
  • Cobre de forma sistemática bibliotecas essenciais para análise de dados e machine learning como IPython, NumPy, Pandas, Matplotlib e Scikit-Learn
  • É um material útil desde iniciantes em ciência de dados até profissionais, para aprender o fluxo de trabalho padrão do ecossistema Python

Visão geral

  • Este site reúne o conteúdo completo de 『Python Data Science Handbook』, de Jake VanderPlas
    • O livro original foi publicado pela O’Reilly, e a versão web é disponibilizada gratuitamente
    • Todo o conteúdo também é fornecido em formato de notebooks Jupyter no repositório do GitHub
  • O texto é distribuído sob a licença CC-BY-NC-ND, e os exemplos de código sob a licença MIT
    • Isso permite uso não comercial e reutilização do código
  • Se o leitor considerar o material útil, pode apoiar o autor comprando a edição original

Estrutura do sumário

  • O livro é composto por 5 capítulos principais e um apêndice

Capítulo 1: IPython – além do Python comum

  • Explica os recursos e o uso do ambiente IPython
    • Inclui sistema de ajuda, atalhos de teclado, comandos mágicos, integração com comandos de shell e mais
    • Também cobre histórico de execução de código, depuração e medição de desempenho

Capítulo 2: Introdução ao NumPy

  • Aborda os fundamentos da computação numérica com arrays do NumPy
    • Inclui tipos de dados, broadcasting, máscaras booleanas, ordenação, arrays estruturados e mais
    • Explica como usar operações baseadas em arrays e funções de agregação

Capítulo 3: Manipulação de dados com Pandas

  • Cobre os objetos principais e os recursos de processamento de dados do Pandas
    • Inclui indexação, tratamento de valores ausentes, agrupamento, tabelas dinâmicas, séries temporais e mais
    • Também apresenta recursos de alto desempenho com eval() e query()

Capítulo 4: Visualização com Matplotlib

  • Explica como visualizar dados com Matplotlib e Seaborn
    • Inclui vários tipos de gráficos, como gráfico de linhas, dispersão, histogramas e gráficos de densidade
    • Cobre recursos avançados como legenda, barra de cores, stylesheets, gráficos 3D e visualização de dados geográficos

Capítulo 5: Machine learning

  • Cobre os conceitos básicos e algoritmos de machine learning com foco em Scikit-Learn
    • Inclui etapas essenciais como hiperparâmetros, validação de modelos e engenharia de atributos
    • Explica modelos importantes como Naive Bayes, regressão linear, SVM, random forest, PCA, k-means e GMM
    • Apresenta um caso real de aplicação por meio de um exemplo de pipeline de reconhecimento facial

Apêndice: Código dos gráficos

  • Reúne o código de visualização usado no corpo principal
    • Permite reproduzir e modificar cada figura

Importância prática

  • Oferece aos estudantes de ciência de dados uma compreensão integrada do ecossistema Python
  • O formato de notebook executável permite uso em ensino, pesquisa e prototipagem
  • Por estar disponível sob licença open source, facilita expansão contínua e contribuições da comunidade

2 comentários

 
aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
Análise de dados com bibliotecas Python
É um livro escrito por Wes McKinney, criador do pandas, e também é uma boa introdução à ciência de dados. Eu li quando a 2ª edição saiu pela primeira vez... e agora, pesquisando, vi que a 3ª edição já foi lançada.

 
GN⁺ 2025-12-04
Comentários no Hacker News
  • Gostei muito da palestra Statistics for Hackers, do Jake VanderPlas
    Ver slides da apresentação

    • Obrigado por compartilhar. Isso me fez lembrar de como pensar em frequência em vez de probabilidade reduz tantos erros
      Por exemplo, mesmo que a prevalência de uma doença seja 1/10.000 e a precisão do teste seja 99%, um resultado positivo não significa que haja 99% de chance de a pessoa ter a doença
  • Esse tipo de livro é sempre interessante
    Ele aborda vários temas de forma ampla e introdutória, como manipulação de dados, visualização e machine learning, e cada um desses temas poderia render um livro inteiro
    É difícil equilibrar ensino de programação com introdução a conceitos e teoria, mas este livro parece ter encontrado um bom equilíbrio como obra para iniciantes

  • Este livro foi útil pra caramba 🔥 quando comecei em data science, lá por 2017~2018
    Jake era um excelente professor

  • É interessante que, hoje em dia, a escolha tenha sido Pandas
    Provavelmente o foco foi transmitir conceitos gerais mais do que usar ferramentas mais atuais

    • Como o livro foi publicado originalmente em 2016, é bem possível que ainda seja a 1ª edição
    • Ainda considero Pandas o padrão da indústria. Polars e Spark são mais focados em desempenho para engenharia de dados e não são tão adequados para cobrir data science como um todo
    • O livro já é relativamente antigo, então talvez nem faça sentido falar em “hoje em dia”
    • Não entendo bem qual seria o problema com Pandas
  • No meu primeiro emprego, consultei um post de blog sobre Kernel Density Estimation (KDE), e foi extremamente útil
    Foi aí que passei a gostar do trabalho do Jake

  • A versão online do livro está disponível em learningds.org
    A licença é CC-BY-NC-ND

  • Não entendo muito bem por que tanta gente não gosta de Pandas
    Não é uma ferramenta perfeita, mas temos milhares de linhas de código em Pandas na nossa base e quase nunca tivemos bugs em produção
    Usamos Pandas junto com wrappers de esquema estático e verificação de tipos, e isso tem funcionado de forma estável

    • Fiquei curioso se esse wrapper de esquema é algo feito internamente ou se existe algum pacote no PyPI que você recomendaria
  • Ele era um excelente escritor, e sinto falta do blog dele
    Especialmente o texto sobre tabelas dinâmicas, que me marcou bastante e parece ter sido incluído no livro agora

    • Ele também é o criador da biblioteca de visualização para Python Altair (baseada em Vega-Lite)
      Dá para conferir no site oficial do Altair
  • Este livro foi escrito há 8 anos, mas existe uma 2ª edição do mesmo autor

    • Há uma versão em notebooks da 2ª edição no repositório do GitHub
      Ela aparece como “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”
      Dá para comparar com a edição de 2016 do link original
  • Foi um dos poucos livros que li do começo ao fim enquanto aprendia data science em 2020~2021
    Ainda vale a recomendação hoje em dia