Qu'est-ce que la visualisation des données?

Et pourquoi nous ne nous soucions plus des graphiques circulaires,

La visualisation des données n'est pas seulement une simple traduction de points de données en graphiques à barres et graphiques linéaires dérisoires. C'est comme une plongée dans un océan qui cache des trésors à chaque niveau. Au tout début, nous avons la délimitation simple des données dans les figurines de manuels, à savoir. nuages ​​de points, graphiques linéaires, camemberts et graphiques à barres. Les graphiques linéaires sont généralement utilisés pour représenter une tendance des données au fil du temps. Dans ce sujet de la visualisation des données, nous avons effacé tout le concept à l'avance avec le graphique et les graphiques à secteurs donnés.

Camemberts

L'un des graphiques les plus répandus en usage est le graphique à pizza ou le graphique à secteurs.

Proportion de gaz dans un mélange.

Source : complot

Couramment utilisé lors des élections pour montrer quel parti a obtenu les lions pour partager les votes, ce tableau, bien que extrêmement populaire, présente des inconvénients flagrants. Des statisticiens comme Edward Tufte, Leland Wilkinson et Gerald van Belle ont exprimé leur réticence à utiliser des camemberts. Les preuves les plus concluantes contre les camemberts ont probablement été fournies par Stephen Few, le fondateur de Perceptual Edge. Dans son article «Save the Pie for the Dessert» publié dans le Visual Business Intelligence Newsletter, Stephen explique pourquoi, à la surprise de ses collègues et étudiants, il estime que les camemberts sont un moyen inefficace de visualiser les données.

Jetez un œil au diagramme circulaire ci-dessous.

Dans ce graphique décrivant la proportion de produits alimentaires commandés après 21 heures, il est facile d'estimer le pourcentage appartenant à la crème glacée - 25%. Cependant, après une légère modification, il n'est plus possible de déterminer facilement le pourcentage de commandes de glaces.

Bien que le pourcentage de glaces soit toujours le même à 25%. Il est difficile de comprendre le diagramme ci-dessus. Dans le diagramme précédent, il était facile de deviner le pourcentage, car l'ombre pour la crème glacée commençait à 6 heures et s'étendait jusqu'à 9 heures. Comme nos yeux sont entraînés à voir les horloges à 12, 3, 6 et 9 - un graphique à secteurs est également plus facile à interpréter si ses régions adhèrent aux 4 positions d'horloge. Un fervent partisan du graphique à secteurs se présenterait et suggérerait que ce problème pourrait facilement être évité en utilisant des étiquettes et en marquant le pourcentage par rapport à chaque région.

Graphique à secteurs avec étiquettes de données

Mais là encore, afin de mapper la valeur avec l'élément, nos yeux doivent continuer à déplacer le focus de la légende au bas du graphique aux étiquettes sur le graphique. La solution à cela serait d'attacher également le nom de l'élément, ainsi que les valeurs - pour obtenir quelque chose de similaire à ceci:

Parfait, diriez-vous. Mais alors je vous demande - Maintenant que nous avons joint les noms des éléments avec les valeurs, en quoi le graphique à secteurs ci-dessus est différent du tableau ci-dessous:

Nettoyer la table avec des données triées en pourcentage de la commande

Ces informations ne semblent-elles pas beaucoup mieux que les étiquettes et légendes dispersées sur le graphique à secteurs. À quoi sert alors un camembert? Les visualisations sont censées ajouter de la valeur, elles sont des agents de conclusions, elles sont censées faire découvrir les secrets des données. Mais dans ce cas, le camembert ne tient pas sa promesse.

Entrez le graphique à barres de la visualisation des données

L'alternative plus maigre et beaucoup plus élégante au camembert est le diagramme à barres, qui est capable d'exprimer tout ce que le camembert dit et bien plus, sans faire de gâchis d'étiquettes et de légendes.

Diagramme à barres illustrant la même chose - facile à comparer, à contraster et à conclure

Ce sont les mêmes informations maintenant présentées doucement à l'observateur. En plus de montrer les valeurs individuelles, ce graphique nous permet de comparer rapidement la popularité de chaque aliment et même de comparer la différence relative de valeur entre des articles consécutifs. Les mêmes données auraient été disponibles via le tableau, mais notre cerveau est meilleur pour traiter les images que pour déchiffrer le texte. C'est pourquoi l'utilisation du camembert a diminué au fil du temps. Bien qu'il s'agisse d'un visuel préféré dans l'industrie des médias, il a été remplacé par des représentations meilleures et plus sophistiquées. Outre les graphiques linéaires, les tartes et les graphiques à barres, il existe une myriade d'autres graphiques utiles. Un diagramme intéressant, mais pas si populaire pour les non-initiés est le diagramme de Sankey. Ce diagramme est utilisé pour exprimer la distribution et le flux de matière. La question en question pourrait être de l'énergie, de l'argent ou même de l'eau.

Diagramme de Sankey du flux et de la distribution d'énergie d'un employé informatique typique.

Ci-dessus, un diagramme de Sankey fictif indiquant comment et où la plupart de l'énergie d'un employé informatique est distribuée.

Des outils plus récents

Avec l'avènement des médias sociaux et des différentes plates-formes où les gens peuvent écrire leurs sentiments, leurs critiques et leurs opinions, le nuage de mots est un outil de visualisation de données qui est devenu assez courant. Les nuages ​​de mots nous aident à découvrir de quoi les gens parlent.

Une représentation en nuage de mots en direct très réelle des avis d'utilisateurs de PUBG sur le Google Play Store

Si nous regardons ici le nuage de mots qui a été construit à partir des 80 meilleures critiques du jeu PUBG sur le Google Play Store, nous voyons que la réponse globale au jeu est "bonne", certaines personnes l'appellent même la "meilleure" . Cependant, il semble qu'il y ait un problème avec certaines «mises à jour» que les gens demandent aux créateurs du jeu de rectifier. En effet, lorsque nous vérifions les critiques de Play Store ce jour-là, nous voyons la même chose se refléter.

Le problème avec les mises à jour. Aussi, voyez si vous pouvez trouver une occurrence du mot «s'il vous plaît» ici

L'avenir

Cela ne fait qu'effleurer la pointe de l'iceberg. Des bibliothèques comme plotly et D3 ont porté la visualisation des données à un niveau différent. Cela s'est produit en raison de la demande a également changé. Comment visualisez-vous une ville intelligente sur un tableau de bord? Un écran géant sur lequel s'affichent les éléments vitaux d'une ville entière. Le trafic, la consommation d'énergie, les conditions de santé des différentes zones, la qualité de l'air et une foule d'autres paramètres doivent être affichés sur une seule page. Cette exigence nécessite une approche différente de la visualisation des données. Nous avons donc appris que la visualisation des données est ce que l'aide de ce concept. Nous ne pouvons plus nous en tenir aux tableaux et graphiques. Une nouvelle approche est nécessaire où les graphiques rencontrent l'art et l'imagination, créant une expérience visuelle enrichissante. Cette discussion appelle un article complètement différent. Jusqu'à la prochaine fois.

Articles recommandés

Cet article est un guide utile sur ce qu'est une visualisation de données. Ici, nous avons discuté des concepts de base avec des tableaux et des graphiques afin que vous puissiez facilement comprendre la visualisation des données. Vous pouvez également consulter l'article suivant pour en savoir plus -

  1. Carrière d'administrateur de base de données Oracle
  2. 7 Différence la plus utile entre l'exploration de données et l'exploration de sites Web
  3. Questions d'entretiens chez Data Analytics
  4. Exemples d'analyse de Big Data

Catégorie: