Introduction aux graphiques dans R
Un graphique est un outil qui fait une différence significative dans l'analyse. Les graphiques en Rare sont importants car ils aident à présenter les résultats de la manière la plus interactive. R, en tant que progiciel de programmation statistique, offre de nombreuses options pour générer une variété de graphiques.
Certains des graphiques de R sont disponibles dans l'installation de base, mais d'autres peuvent être utilisés en installant les packages requis. La caractéristique unique des graphiques dans R est qu'ils expliquent les résultats statistiques complexes à travers des visualisations. Donc, essentiellement, cela revient à franchir une étape au-dessus de la manière traditionnelle de visualiser les données. Par conséquent, R offre une approche prête à l'emploi pour conduire l'analyse.
Types de graphiques dans R
Une variété de graphiques est disponible dans R, et l'utilisation est uniquement régie par le contexte. Cependant, l'analyse exploratoire nécessite l'utilisation de certains graphiques dans R, qui doivent être utilisés pour analyser les données. Nous allons maintenant examiner certains de ces graphiques importants dans R.
Pour la démonstration de différents graphiques, nous allons utiliser le jeu de données «arbres» disponible dans l'installation de base. Plus de détails sur l'ensemble de données peuvent être découverts en utilisant? commande d'arbres dans R.
1. Histogramme
Un histogramme est un outil graphique qui fonctionne sur une seule variable. De nombreuses valeurs variables sont regroupées dans des bacs et un certain nombre de valeurs appelées fréquence sont calculées. Ce calcul est ensuite utilisé pour tracer des barres de fréquence dans les beans respectifs. La hauteur d'une barre est représentée par la fréquence.
Dans R , nous pouvons utiliser la fonction hist () comme indiqué ci-dessous, pour générer l'histogramme. Un histogramme simple de la hauteur des arbres est illustré ci-dessous.
Code:
hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")
Production:
Pour comprendre la tendance de la fréquence, nous pouvons ajouter un tracé de densité sur l'histogramme ci-dessus. Cela offre plus d'informations sur la distribution des données, l'asymétrie, le kurtosis, etc. Le code suivant fait cela, et la sortie est affichée en suivant le code.
Code:
hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)
Production:
2. Nuage de points
Ce graphique est un type de graphique simple, mais très crucial ayant une importance considérable. Le graphique donne l'idée d'une corrélation entre les variables et est un outil pratique dans une analyse exploratoire.
Le code suivant génère un graphique à nuage de points simple. Nous y avons ajouté une ligne de tendance, pour comprendre la tendance, les données représentent.
Code:
attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)
Production:
Le graphique créé par le code suivant montre qu'il existe une bonne corrélation entre la circonférence de l'arbre et le volume de l'arbre.
Code:
plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)
Production:
Matrices de nuage de points
R nous permet de comparer plusieurs variables à la fois car il utilise des matrices de nuage de points. L'implémentation de la visualisation est assez simple et peut être réalisée en utilisant la fonction pairs () comme indiqué ci-dessous.
Code:
pairs(trees, main = "Scatterplot matrix for trees dataset")
Production:
Scatterplot3d
Ils rendent la visualisation possible en trois dimensions, ce qui peut aider à comprendre la relation entre plusieurs variables. Donc, pour rendre les nuages de points disponibles en 3D, le package scatterplot3d doit d'abord être installé. Ainsi, le code suivant génère un graphique 3D comme indiqué sous le code.
Code:
library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")
Production:
Nous pouvons ajouter des lignes de goutte et des couleurs, en utilisant le code ci-dessous. Maintenant, nous pouvons facilement distinguer les différentes variables.
Code:
scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")
Production:
3. Boxplot
Boxplot est un moyen de visualiser les données à travers des boîtes et des moustaches. Tout d'abord, les valeurs des variables sont triées par ordre croissant, puis les données sont divisées en trimestres.
La case dans le graphique représente les 50% intermédiaires des données, appelés IQR. La ligne noire dans la boîte représente la médiane.
Code:
boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")
Production:
Une variante du boxplot, avec des encoches, est illustrée ci-dessous.
Code:
boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")
Production:
4. Graphique linéaire
Les graphiques en courbes sont utiles lors de la comparaison de plusieurs variables. Ils nous aident à établir une relation entre plusieurs variables dans une même parcelle. Dans l'illustration suivante, nous allons essayer de comprendre la tendance de trois caractéristiques d'arbre. Ainsi, comme indiqué dans le code ci-dessous, initialement, et le graphique en courbes pour la circonférence est tracé à l'aide de la fonction plot (). Ensuite, les graphiques linéaires pour la hauteur et le volume sont tracés sur le même tracé à l'aide de la fonction lines ().
Le paramètre «ylim» dans la fonction plot () a été, pour accueillir correctement les trois graphiques en courbes. Il est important d'avoir une légende ici, car cela permet de comprendre quelle ligne représente quelle variable. Dans la légende, le paramètre «lty = 1: 1» signifie que nous avons le même type de ligne pour toutes les variables, et «cex» représente la taille des points.
Code:
plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)
Production:
5. Tracé de points
Cet outil de visualisation est utile si nous voulons comparer plusieurs catégories avec une certaine mesure. Pour l'illustration ci-dessous, le jeu de données mtcars a été utilisé. La fonction dotchart () trace le déplacement pour différents modèles de voitures comme ci-dessous.
Code:
attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")
Production:
Donc, maintenant, nous allons trier l'ensemble de données sur les valeurs de déplacement, puis les tracer par différents engrenages à l'aide de la fonction dotchart ().
Code:
m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")
Production:
Conclusion
L'analyse au sens propre n'est exploitée que par le biais de visualisations. R, en tant qu'outil statistique, offre de fortes capacités de visualisation. Ainsi, les nombreuses options associées aux graphiques sont ce qui les rend spéciales. Chacun des graphiques a sa propre application et le graphique doit être étudié avant de l'appliquer à un problème.
Articles recommandés
Ceci est un guide des graphiques en R. Ici, nous discutons de l'introduction et des types de graphiques en R tels que l'histogramme, le nuage de points, le boxplot et bien plus encore, ainsi que des exemples et leur mise en œuvre. Vous pouvez également consulter les articles suivants pour en savoir plus -
- Types de données R
- Forfaits R
- Introduction à Matlab
- Graphiques vs graphiques