Introduction à Scatterplot dans R

  • R est un langage de programmation open source utilisé pour les statistiques et l'analyse des données. Avec la popularité croissante de la science des données, R a également gagné en popularité. Il est principalement utilisé par les statisticiens et les mineurs de données pour extraire des informations précieuses des données. R est un langage interprété et possède une interface de ligne de commande, mais il existe de nombreuses interfaces utilisateur graphiques disponibles pour faciliter les tâches du développeur. R offre une grande variété de bibliothèques pour implémenter des statistiques et des techniques graphiques. R offre des graphiques statiques; il permet à l'utilisateur de créer un graphique en couches. Ainsi, il produit des graphiques de qualité publication et offre une meilleure représentation des informations.
  • R propose un vaste ensemble de bibliothèques pour l'implémentation graphique, mais le plus populaire est «ggplot2». GGPlot2 une implémentation de «Grammaire des graphiques» qui rend la création de graphiques complexes simple. Il fournit une interface de programmation pour spécifier les variables, leur position, la couleur du graphique, les types de graphique et d'autres propriétés de visualisation. Il vous permet de créer des graphiques étape par étape, vous permettant de créer des couches pour une flexibilité et une qualité de publication étendues.
  • Un tel type de graphique est Scatterplot in R. Scatterplot in R, également appelé nuage de points, qui est un type de graphique qui montre la corrélation entre deux variables. Il montre les points de données sous forme de points. Il peut être établi entre une variable indépendante continue et une autre variable qui dépend de la variable précédente ou de deux variables indépendantes continues. La corrélation peut être positive, négative ou nulle. Si la pente du graphique va du bas à gauche au haut à droite, la corrélation est positive. Si la pente va du haut à gauche au bas à droite, la corrélation est négative ou en d'autres termes l'augmentation de la valeur d'une variable diminuera la valeur d'une autre variable.

Syntaxe: Il existe de nombreux packages dans R pour les graphiques, donc il existe de nombreuses fonctions pour créer un diagramme de dispersion dans R. La fonction la plus simple et la plus simple est

tracé (x, y)

x désigne l'axe horizontal ou la variable continue indépendante.

y désigne l'axe vertical ou la variable dépendante.

Il existe de nombreux autres paramètres pour tracer la fonction afin de rendre le graphique facile à comprendre.

En voici quelques-uns avec une définition:

  • main: ajoute un titre au graphique
  • xlab: ajouter une étiquette à l'axe des x
  • ylab: ajoute une étiquette à l'axe des y
  • xlim: spécifie la plage de l'axe des x
  • ylim: spécifie la plage de l'axe y
  • pch: indique la forme des points dans le nuage de points
  • cex: indique la taille des points
  • col: définit la couleur des points

Un diagramme de dispersion dans R peut également être créé à l'aide du package ggplot2. Pour cela, nous devons d'abord installer et charger le package ggplot2. Après avoir ajouté le package à la session en cours, la commande ci-dessous peut être utilisée pour créer un diagramme de dispersion dans R.

ggplot (jeu de données, aes (x, y, couleur, forme)) + geom_poin () + labs (x, y, title)

  • l'ensemble de données est l'ensemble de données pour lequel le nuage de points doit être créé.
  • aes () est une cartographie esthétique dans un graphique. Il décrit comment les variables sont mappées sur le graphique.
  • x est l'axe horizontal ou la variable continue indépendante.
  • y est l'axe vertical ou la variable dépendante.
  • la couleur consiste à ajouter de la couleur aux points en fonction de la variable de regroupement.
  • la forme est utilisée pour définir la forme en fonction de la variable de regroupement.
  • Le signe + indique que la commande continue.
  • geom_point () est une fonction pour le nuage de points.
  • laboratoires (x, y, titre): ajoutez une étiquette x, une étiquette y et un titre au graphique.

Créer un nuage de points en R

Pour créer un nuage de points dans R, nous devons d'abord charger l'ensemble de données. Ici, nous utilisons l'ensemble de données (mtcars) fourni par R. Chargez d'abord l'ensemble de données dans la session en cours en utilisant la commande ci-dessous

données (iris)

Une fois l'ensemble de données chargé, affichez les données pour obtenir une compréhension de base du type de données et des colonnes qu'il contient à l'aide de la commande ci-dessous.

iris

Après avoir acquis une compréhension de base des données, permet de créer un nuage de points simple à l'aide de la fonction de tracé

plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 5.0))

Ajout d'étiquettes pour rendre le graphique lisible

plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 4.0), xlab = “Sepal Length”, ylab = “Sepal Width”, main = “Width vs Longueur ”)

Ajout d'un paramètre supplémentaire pour rendre le graphique plus attrayant

plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 4.0), xlab = “Sepal Length”, ylab = “Sepal Width”, main = “Width vs Longueur ”, pch = 8, cex = 1, 5, col = 6)

En dehors de ces tracés 2D, des tracés matriciels et tracés 3D peuvent également être créés dans R.

Matrices de nuage de points

Lorsque nous avons plus de deux variables dans un ensemble de données et que nous voulons trouver une corrélation de chaque variable avec toutes les autres variables, la matrice de nuage de points est utilisée. La commande la plus simple et la plus simple pour la matrice de nuage de points est:

paires (~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, data = iris, main = ”Scatterplot Matrix”)

Le graphique ci-dessus montre la corrélation entre poids, mpg, dsp et cyl.

Scatterplot 3D

Parfois, un graphique en trois dimensions donne une meilleure compréhension des données. Pour cela, R fournit plusieurs packages, l'un d'eux est «scatterplot3d». Voici les commandes pour installer "scatterplot3d" dans l'espace de travail R et le charger dans la session en cours

install.packages («scatterplot3d»)

bibliothèque (scatterplot3d)

Après le chargement de la bibliothèque, l'exécution des commandes ci-dessous créera un nuage de points 3D.

attacher (iris)

scatterplot3d (Sepal.Length, Sepal.Width, Petal.Length, main = "3D Scatterplot")

En dehors de cela, il existe de nombreuses autres façons de créer un 3D. Les utilisateurs peuvent également ajouter des détails tels que la couleur, les titres pour améliorer le graphique. L'utilisateur peut également créer un nuage de points 3D interactif en utilisant la fonction «plot3D (x, y, z)» fournie par le package «rgl». Cette fonction crée un nuage de points 3D rotatif qui peut être tourné à l'aide d'une souris. Ainsi, donnant une vue complète de la corrélation entre les variables.

Conclusion

R est l'un des langages les plus connus pour la mise en œuvre des techniques graphiques utilisées par les scientifiques des données. Il fournit une large gamme de packages et de bibliothèques pour les graphiques et une meilleure compréhension des données. "Gglpot2", "ggvis", "rgl", "plot3d", "lattice", "animation", "gganimate", "cairo" sont quelques-uns des packages fournis par R.

Un nuage de points est le moyen le plus simple d'obtenir une meilleure compréhension des données. En utilisant cette visualisation, l'utilisateur peut apprendre comment les variables sont liées les unes aux autres, comment la modification de la valeur d'une variable changera la valeur des autres variables, etc. La pente du graphique indique la relation positive et négative entre les variables.

Articles recommandés

Ceci est un guide pour Scatterplot in R. Ici, nous discutons d'une introduction, des matrices de nuage de points, du nuage de points 3D, comment créer un nuage de points? ainsi que des exemples appropriés. Vous pouvez également consulter nos autres articles suggérés pour en savoir plus -

  1. Qu'est-ce que GraphQL
  2. Cadre Scrum
  3. Questions d'entretiens chez R
  4. Introduction à la distribution binomiale dans R

Catégorie: