3 pontos por GN⁺ 2023-11-21 | 2 comentários | Compartilhar no WhatsApp

Bons e maus exemplos de visualização de dados

  • Um ensaio com opiniões sobre visualização de dados, incluindo exemplos e explicações de boas e más visualizações.

Não faça gráficos de barras para separar médias

  • Gráficos de separação de médias são comuns em publicações científicas, mas gráficos de barras não são adequados para mostrar se dois grupos com distribuições e desvios-padrão semelhantes são de fato iguais.
  • Enfatiza que é preciso verificar alguns pontos antes de usar gráficos de barras.

Não faça violin plots para tamanhos de amostra pequenos

  • Em amostras pequenas, a distribuição e os quartis podem variar bastante, então violin plots não fazem sentido.
  • Por meio de experimentos, confirma-se que a distribuição se estabiliza quando o tamanho da amostra é de 50 ou mais.

Não use escalas de cor bidirecionais para dados unidirecionais

  • Usar uma escala de cor bidirecional para dados unidirecionais é um grande erro em visualização de dados.
  • A escala de cor deve representar valores especiais que tenham significado.

Não represente resultados de experimentos multifatoriais com gráficos de barras

  • Para comunicar de forma eficaz os resultados de experimentos multifatoriais, é preciso projetar com cuidado o agrupamento e a distinção por fator.

Não faça heatmaps sem reorganizar linhas e colunas

  • Heatmaps devem ser construídos de forma eficaz considerando a ordem das linhas e colunas.
  • É possível reorganizar linhas e colunas por meio de clustering, mas essa não é a única forma.

Não faça heatmaps sem verificar outliers

  • Se não forem verificados outliers em um heatmap, isso pode afetar fortemente a interpretação dos dados.

Não se esqueça de verificar a faixa de dados em cada nível de fator

  • Em experimentos multifatoriais, a faixa da variável de resposta pode variar bastante conforme o nível do fator.

Não faça gráficos de rede sem testar vários layouts

  • A aparência de um gráfico de rede é um elemento importante que determina sua eficácia.
  • Alterar o layout pode facilitar a interpretação de um gráfico de rede.

Não confunda visualizações baseadas em posição com visualizações baseadas em comprimento

  • Confundir visualizações baseadas em posição com visualizações baseadas em comprimento pode causar interpretações equivocadas.
  • Não começar um gráfico de barras a partir de 0 é um grande erro em visualização de dados.

Não faça gráficos de pizza

  • Gráficos de pizza são criticados porque humanos não são bons em ler ângulos e áreas.
  • Se quiser representar dados por comprimento, é melhor “desenrolar” o gráfico de rosca e criar um gráfico de barras empilhadas.

Não faça gráficos de rosca concêntricos

  • Gráficos de rosca concêntricos podem representar mal os dados porque o comprimento do arco do anel externo é muito maior que o do anel interno.
  • Uma alternativa simples e eficaz é “desenrolar” o gráfico de rosca e criar um gráfico de barras empilhadas.

Não use escalas de cor vermelho/verde nem arco-íris

  • Deve-se usar escalas de cor amigáveis para daltônicos e que preservem bem a informação também em escala de cinza, considerando o daltonismo vermelho-verde.

Não se esqueça de reorganizar gráficos de barras empilhadas

  • Quando há muitas amostras e classes, é preciso otimizar a ordem dos gráficos de barras empilhadas para torná-los eficazes.

Opinião do GN⁺

O ponto mais importante deste texto é aumentar a conscientização sobre erros comuns cometidos na visualização de dados e como evitá-los. A visualização de dados é uma ferramenta poderosa para transmitir informações complexas de forma fácil de entender, mas, se usada incorretamente, pode causar interpretações erradas. Este texto oferece orientações interessantes e úteis para todos que desejam transmitir dados com precisão e clareza.

2 comentários

 
xguru 2023-11-21

O título do texto é bem divertido. Se você vir o texto original, há também um gráfico de exemplo, então fica fácil de entender.

 
GN⁺ 2023-11-21
Opiniões no Hacker News
  • Comentário apontando que alguns gráficos podem ser escolhidos intencionalmente para esconder a falta de pontos de dados ou distribuições suspeitas.
  • Não definir os outliers como valor máximo em mapas de calor é um problema comum em visualizações de estatísticas de videogames e muitas vezes é quase inútil para diagnosticar problemas reais de temperatura.
  • O fato de o eixo de um gráfico não começar em 0 não significa necessariamente que ele seja enganoso, e há comentário compartilhando frustração com esse tipo de afirmação.
  • Um bom panorama dos erros comuns em visualização de dados, com um comentário dizendo que gostaria de compartilhar isso com colegas e recomendando materiais baseados em pesquisas sobre percepção humana.
  • Como referência adicional sobre visualização de dados, recomendação de "The Visual Display of Quantitative Information", de Edward Tufte, publicado em 1983.
  • Comentário sugerindo consultar "Graphic Presentation", de Willard C. Brinton, publicado em 1939, observando que muitas lições sobre visualização de dados não são novas.
  • O conselho "amigos não deixam amigos usarem escalas de cores divergentes" recomenda não usar escala de cores bidirecional para dados unidirecionais.
  • Compartilhamento de um link de vídeo com uma visão negativa sobre violin plots, dizendo que violin plots não deveriam existir.
  • Apresentação de uma palestra, "How Humans See Data", que reúne várias ideias baseadas em pesquisas sobre a forma como os humanos observam dados.
  • Menção a um guia que explica como classificar tipos de dados e escolher o estilo de gráfico/tabela mais adequado para cada tipo, junto com um comentário lamentando não ter salvo esse guia nos favoritos.