Aprenda SQL em 100 consultas para cientistas de dados
(gvwilson.github.io)SQL for the Weary
- Público-alvo: Rachel, com mestrado em biologia celular, trabalha com análise celular em um hospital de pesquisa e quer se tornar cientista de dados.
- Conhecimentos prévios necessários: comandos básicos de Unix e capacidade de analisar dados tabulares.
- Resultados de aprendizagem: explicar a diferença entre banco de dados e administrador de banco de dados, escrever SQL, definir tabelas e manipular dados, explicar tipos de
join, usar funções de janela para trabalhar com linhas adjacentes, compreender transações e gatilhos, manipular dados JSON com SQL e interagir com bancos de dados por meio de Python.
Configuração
- Baixar a versão mais recente: descompacte em um diretório temporário os arquivos que incluem exemplos de banco de dados SQLite, consultas SQL, scripts Python etc.
Conceitos de base
- Banco de dados: coleção de dados que podem ser armazenados e consultados.
- Sistema de gerenciamento de banco de dados (DBMS): programa que gerencia um tipo específico de banco de dados.
- SQLite: armazena o banco de dados em um único arquivo; o PostgreSQL distribui as informações em vários arquivos para obter maior desempenho.
- Sistema de gerenciamento de banco de dados relacional (RDBMS): armazena dados em tabelas e faz consultas usando SQL.
- Banco de dados NoSQL: também existem bancos de dados como o MongoDB que não usam tabelas.
Conexão com o banco de dados
- Conexão com o banco de dados: não é uma consulta em si, mas é uma etapa necessária antes de executar outras tarefas.
Comandos administrativos
- Comandos administrativos do SQLite: não fazem parte do SQL padrão, e os comandos especiais do PostgreSQL começam com
\. - Formato de saída: use
.headers one.mode markdownpara exibir os resultados de forma legível.
Manipulação de tabelas
- Criação de tabela: defina tabelas e colunas com o comando
create table. - Inserção de dados: adicione dados à tabela com o comando
insert into. - Atualização de linhas: altere os dados das linhas que atendem a uma condição específica com o comando
update. - Exclusão de linhas: remova as linhas que atendem a uma condição específica com o comando
delete from.
Joins
- Join: operação que combina informações de duas tabelas.
- Inner join: combina apenas as linhas correspondentes das duas tabelas usando
inner join. - Left join: mantém todas as linhas da tabela da esquerda usando
left joine preenche os valores ausentes da tabela da direita comnull.
Funções de agregação
- Agregação: operação que combina vários valores em um só.
- Funções de agregação comuns: use
sum,max,min,avgetc. para agregar dados. - Agrupamento: use
group bypara agrupar linhas de acordo com combinações únicas de determinadas colunas e realizar agregações em cada grupo.
Opinião do GN⁺
- Este texto é um material para ajudar na compreensão básica de bancos de dados e SQL, sendo útil para engenheiros de software iniciantes ou pessoas interessadas em ciência de dados.
- Ele explica diversos recursos do SQL com exemplos práticos, oferecendo conhecimento aplicável sobre gerenciamento e manipulação de bancos de dados.
- Em especial, joins de banco de dados, funções de agregação e manipulação de tabelas são muito importantes em tarefas relacionadas à análise de dados, e este texto ajuda a entender esses conceitos com clareza.
1 comentários
Comentários do Hacker News