- Um manual online que aborda as principais ferramentas e técnicas da ciência de dados baseada em Python, com todo o conteúdo disponível publicamente no site e no GitHub
- Fornecido em formato de notebook Jupyter, permitindo aprendizado prático, com código e texto juntos
- O texto é distribuído sob a licença CC-BY-NC-ND, e os exemplos de código sob a licença MIT, permitindo uso livre não comercial
- Cobre de forma sistemática bibliotecas essenciais para análise de dados e machine learning como IPython, NumPy, Pandas, Matplotlib e Scikit-Learn
- É um material útil desde iniciantes em ciência de dados até profissionais, para aprender o fluxo de trabalho padrão do ecossistema Python
Visão geral
- Este site reúne o conteúdo completo de 『Python Data Science Handbook』, de Jake VanderPlas
- O livro original foi publicado pela O’Reilly, e a versão web é disponibilizada gratuitamente
- Todo o conteúdo também é fornecido em formato de notebooks Jupyter no repositório do GitHub
- O texto é distribuído sob a licença CC-BY-NC-ND, e os exemplos de código sob a licença MIT
- Isso permite uso não comercial e reutilização do código
- Se o leitor considerar o material útil, pode apoiar o autor comprando a edição original
Estrutura do sumário
- O livro é composto por 5 capítulos principais e um apêndice
Capítulo 1: IPython – além do Python comum
- Explica os recursos e o uso do ambiente IPython
- Inclui sistema de ajuda, atalhos de teclado, comandos mágicos, integração com comandos de shell e mais
- Também cobre histórico de execução de código, depuração e medição de desempenho
Capítulo 2: Introdução ao NumPy
- Aborda os fundamentos da computação numérica com arrays do NumPy
- Inclui tipos de dados, broadcasting, máscaras booleanas, ordenação, arrays estruturados e mais
- Explica como usar operações baseadas em arrays e funções de agregação
Capítulo 3: Manipulação de dados com Pandas
- Cobre os objetos principais e os recursos de processamento de dados do Pandas
- Inclui indexação, tratamento de valores ausentes, agrupamento, tabelas dinâmicas, séries temporais e mais
- Também apresenta recursos de alto desempenho com
eval() e query()
Capítulo 4: Visualização com Matplotlib
- Explica como visualizar dados com Matplotlib e Seaborn
- Inclui vários tipos de gráficos, como gráfico de linhas, dispersão, histogramas e gráficos de densidade
- Cobre recursos avançados como legenda, barra de cores, stylesheets, gráficos 3D e visualização de dados geográficos
Capítulo 5: Machine learning
- Cobre os conceitos básicos e algoritmos de machine learning com foco em Scikit-Learn
- Inclui etapas essenciais como hiperparâmetros, validação de modelos e engenharia de atributos
- Explica modelos importantes como Naive Bayes, regressão linear, SVM, random forest, PCA, k-means e GMM
- Apresenta um caso real de aplicação por meio de um exemplo de pipeline de reconhecimento facial
Apêndice: Código dos gráficos
- Reúne o código de visualização usado no corpo principal
- Permite reproduzir e modificar cada figura
Importância prática
- Oferece aos estudantes de ciência de dados uma compreensão integrada do ecossistema Python
- O formato de notebook executável permite uso em ensino, pesquisa e prototipagem
- Por estar disponível sob licença open source, facilita expansão contínua e contribuições da comunidade
2 comentários
https://product.kyobobook.co.kr/detail/S000201558138
Análise de dados com bibliotecas Python
É um livro escrito por Wes McKinney, criador do pandas, e também é uma boa introdução à ciência de dados. Eu li quando a 2ª edição saiu pela primeira vez... e agora, pesquisando, vi que a 3ª edição já foi lançada.
Comentários no Hacker News
Gostei muito da palestra Statistics for Hackers, do Jake VanderPlas
Ver slides da apresentação
Por exemplo, mesmo que a prevalência de uma doença seja 1/10.000 e a precisão do teste seja 99%, um resultado positivo não significa que haja 99% de chance de a pessoa ter a doença
Esse tipo de livro é sempre interessante
Ele aborda vários temas de forma ampla e introdutória, como manipulação de dados, visualização e machine learning, e cada um desses temas poderia render um livro inteiro
É difícil equilibrar ensino de programação com introdução a conceitos e teoria, mas este livro parece ter encontrado um bom equilíbrio como obra para iniciantes
Este livro foi útil pra caramba 🔥 quando comecei em data science, lá por 2017~2018
Jake era um excelente professor
É interessante que, hoje em dia, a escolha tenha sido Pandas
Provavelmente o foco foi transmitir conceitos gerais mais do que usar ferramentas mais atuais
No meu primeiro emprego, consultei um post de blog sobre Kernel Density Estimation (KDE), e foi extremamente útil
Foi aí que passei a gostar do trabalho do Jake
A versão online do livro está disponível em learningds.org
A licença é CC-BY-NC-ND
Não entendo muito bem por que tanta gente não gosta de Pandas
Não é uma ferramenta perfeita, mas temos milhares de linhas de código em Pandas na nossa base e quase nunca tivemos bugs em produção
Usamos Pandas junto com wrappers de esquema estático e verificação de tipos, e isso tem funcionado de forma estável
Ele era um excelente escritor, e sinto falta do blog dele
Especialmente o texto sobre tabelas dinâmicas, que me marcou bastante e parece ter sido incluído no livro agora
Dá para conferir no site oficial do Altair
Este livro foi escrito há 8 anos, mas existe uma 2ª edição do mesmo autor
Ela aparece como “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”
Dá para comparar com a edição de 2016 do link original
Foi um dos poucos livros que li do começo ao fim enquanto aprendia data science em 2020~2021
Ainda vale a recomendação hoje em dia