Amigos não deixam amigos fazerem gráficos ruins
(github.com/cxli233)Bons e maus exemplos de visualização de dados
- Um ensaio com opiniões sobre visualização de dados, incluindo exemplos e explicações de boas e más visualizações.
Não faça gráficos de barras para separar médias
- Gráficos de separação de médias são comuns em publicações científicas, mas gráficos de barras não são adequados para mostrar se dois grupos com distribuições e desvios-padrão semelhantes são de fato iguais.
- Enfatiza que é preciso verificar alguns pontos antes de usar gráficos de barras.
Não faça violin plots para tamanhos de amostra pequenos
- Em amostras pequenas, a distribuição e os quartis podem variar bastante, então violin plots não fazem sentido.
- Por meio de experimentos, confirma-se que a distribuição se estabiliza quando o tamanho da amostra é de 50 ou mais.
Não use escalas de cor bidirecionais para dados unidirecionais
- Usar uma escala de cor bidirecional para dados unidirecionais é um grande erro em visualização de dados.
- A escala de cor deve representar valores especiais que tenham significado.
Não represente resultados de experimentos multifatoriais com gráficos de barras
- Para comunicar de forma eficaz os resultados de experimentos multifatoriais, é preciso projetar com cuidado o agrupamento e a distinção por fator.
Não faça heatmaps sem reorganizar linhas e colunas
- Heatmaps devem ser construídos de forma eficaz considerando a ordem das linhas e colunas.
- É possível reorganizar linhas e colunas por meio de clustering, mas essa não é a única forma.
Não faça heatmaps sem verificar outliers
- Se não forem verificados outliers em um heatmap, isso pode afetar fortemente a interpretação dos dados.
Não se esqueça de verificar a faixa de dados em cada nível de fator
- Em experimentos multifatoriais, a faixa da variável de resposta pode variar bastante conforme o nível do fator.
Não faça gráficos de rede sem testar vários layouts
- A aparência de um gráfico de rede é um elemento importante que determina sua eficácia.
- Alterar o layout pode facilitar a interpretação de um gráfico de rede.
Não confunda visualizações baseadas em posição com visualizações baseadas em comprimento
- Confundir visualizações baseadas em posição com visualizações baseadas em comprimento pode causar interpretações equivocadas.
- Não começar um gráfico de barras a partir de 0 é um grande erro em visualização de dados.
Não faça gráficos de pizza
- Gráficos de pizza são criticados porque humanos não são bons em ler ângulos e áreas.
- Se quiser representar dados por comprimento, é melhor “desenrolar” o gráfico de rosca e criar um gráfico de barras empilhadas.
Não faça gráficos de rosca concêntricos
- Gráficos de rosca concêntricos podem representar mal os dados porque o comprimento do arco do anel externo é muito maior que o do anel interno.
- Uma alternativa simples e eficaz é “desenrolar” o gráfico de rosca e criar um gráfico de barras empilhadas.
Não use escalas de cor vermelho/verde nem arco-íris
- Deve-se usar escalas de cor amigáveis para daltônicos e que preservem bem a informação também em escala de cinza, considerando o daltonismo vermelho-verde.
Não se esqueça de reorganizar gráficos de barras empilhadas
- Quando há muitas amostras e classes, é preciso otimizar a ordem dos gráficos de barras empilhadas para torná-los eficazes.
Opinião do GN⁺
O ponto mais importante deste texto é aumentar a conscientização sobre erros comuns cometidos na visualização de dados e como evitá-los. A visualização de dados é uma ferramenta poderosa para transmitir informações complexas de forma fácil de entender, mas, se usada incorretamente, pode causar interpretações erradas. Este texto oferece orientações interessantes e úteis para todos que desejam transmitir dados com precisão e clareza.
2 comentários
O título do texto é bem divertido. Se você vir o texto original, há também um gráfico de exemplo, então fica fácil de entender.
Opiniões no Hacker News