Cadres de données en R - Comment extraire des données de trames de données dans R?

Table des matières:

Anonim

Introduction aux trames de données dans R

Une trame de données est une structure de type tableau 2D (bidimensionnel) dans laquelle différents types de données comme les caractères, les chiffres, etc. sont acceptés. La trame de données est un sous-ensemble d'une liste qui a chaque composant de longueur égale. Fondamentalement, le bloc de données est un tableau dans lequel chaque colonne contient les valeurs d'une variable et chaque ligne contient un ensemble de valeurs de chaque colonne.

Il existe certaines caractéristiques de la trame de données.

  • Le nom de la colonne est obligatoire
  • Les noms de ligne doivent être uniques
  • Le nombre d'éléments dans chaque colonne doit être le même

Étapes pour créer des trames de données dans R

Commençons par créer un bloc de données qui est expliqué ci-dessous,

Étape 1: créer un cadre de données d'une classe dans une école.

Code:

tenthclass = data.frame(roll_number = c(1:5), Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass)

Lorsque nous exécutons ce code, nous obtenons un bloc de données comme celui-ci.

Production:

Ici, dans notre exemple, la trame de données est très petite, mais dans la vie réelle, tout en traitant le problème, nous avons beaucoup de données. Donc pour comprendre la structure des données on passe sur la fonction Str ().

Étape 2: Nous ajoutons la ligne ci-dessous dans notre code.

Code:

Str(tenthclass)

Lorsque nous exécutons tout le code, nous obtenons une sortie.

Production:

La sortie ci-dessus signifie que nous avons 5 observations de 3 variables. Il explique ensuite le type de données de chaque variable. Comme dans notre exemple, le numéro de rôle est un entier, le nom est un caractère et les marques sont numérotées.

Une fois que nous aurons compris la structure des données, nous passerons le code mentionné ci-dessous pour comprendre les données de manière plus statistique.

Étape 3: Maintenant, nous allons utiliser une fonction summary ()

Code:

summary(tenthclass)

Production:

Le résumé permet une meilleure compréhension de nos données. Il nous dira de signifier, médiane, quartile, Max et Min. Ces choses nous aideront à prendre une meilleure décision.

Comment extraire des données de trames de données dans R?

Ici, nous allons continuer le cas ci-dessus. Supposons que nous voulions connaître le nom de l'élève en classe dixième, juste nom. Alors, comment allons-nous extraire?

Notre bloc de données ressemble à ceci.

roll_number Marques de nom

1 1 Jean 77

2 2 Sam 87

3 3 Casey 45

4 4 Ronald 68

5 5 Mathew 95

Pour obtenir simplement le nom en sortie, nous transmettrons le code suivant.

Code:

onlyname = tenthclass$Name
print(onlyname)

Production:

Ici, si nous cassons le code, nous plaçons simplement le signe dollar entre le nom de notre bloc de données et le nom de la variable que nous voulons comme sortie.

Considérons maintenant une situation, l'enseignant veut tout savoir sur le rôle numéro 2, comme son nom et combien il a marqué.

Ici, nous avons besoin de tout sur le rouleau numéro 2, nous allons donc transmettre le code mentionné ci-dessous.

Code:

result_rollnumber2 = tenthclass(c(2), c(1:3)) print(result_rollnumber2)

Production:

Développer dans les trames de données

Le bloc de données peut être augmenté et diminué en taille en ajoutant ou en supprimant des colonnes et des lignes.

1. Ajouter une ligne

Nous avons deux trames de données. Une trame de données appartient à la dixième section de classe A et une autre trame de données appartient à la dixième section de classe B. Maintenant, ces différentes sections fusionnent en une seule classe.

Exemple # 1: Classe 10 A

Code:

tenthclass_sectionA = data.frame(roll_number = c(1:5),
Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass_sectionA)

Production:

Exemple # 2: Classe 10 B

Code:

tenthclass_sectionB = data.frame(roll_number = c(6:10), Name = c("Ria", "Justin", "Bon", "Tim", "joe"),
Marks = c(68, 98, 54, 68, 42), stringsAsFactors = FALSE)
print(tenthclass_sectionB)

Production:

Exemple # 3: fonction rbind ()

Maintenant, nous devons fusionner ces deux classes en une seule classe. Nous utiliserons ici la fonction rbind (). La seule limitation dans l'ajout d'une nouvelle ligne est que nous devons introduire les nouvelles lignes dans la même structure que le bloc de données existant.

Code:

new_tenthclass = rbind(tenthclass_sectionA, tenthclass_sectionB)
print(new_tenthclass)

Production:

2. Ajouter une colonne

Considérons maintenant un cas dans lequel nous devons ajouter des détails sur les groupes sanguins de chaque élève de la classe 10. Nous allons ajouter une nouvelle colonne pour cela et le nommer "Blood_group".

Notre bloc de données ressemble à ceci.

Code:

tenthclass = data.frame(roll_number = c(1:5), Name = c("John", "Sam", "Casey", "Ronald", "Mathew"),
Marks = c(77, 87, 45, 68, 95), stringsAsFactors = FALSE)
print(tenthclass)

Production:

Code:

tenthclass$Blood_group = c("O", "AB", "B+", "A+", "AB")
print(tenthclass)

Production:

Supprimer la ligne et la colonne du bloc de données

Pour supprimer la ligne et la colonne du bloc de données, nous utilisons l'implémentation de code suivante.

1. Supprimer la colonne

Code:

print(tenthclass)

Production:

Dans ce cadre de données, si nous devons supprimer la variable de groupe sanguin (colonne la plus à droite), nous passerons le code ci-dessous.

Code:

tenthclass$Blood_group = NULL
print(tenthclass)

Production:

En contournant la commande NULL, nous pouvons supprimer directement la variable de notre bloc de données.

2. Supprimer la ligne

Code:

print(tenthclass)

Production:

Considérons maintenant une situation où nous n'avons pas besoin de marques de John, nous devons donc supprimer la ligne la plus haute.

Code:

tenthclass = tenthclass(-1, ) print(tenthclass)

Production:

Mettre à jour les données dans la trame de données

Code:

print(tenthclass)

Production:

Supposons que Sam ait marqué 98 points, mais selon nos marques de trame de données, 87. Nous pouvons donc passer le code ci-dessous pour le corriger.

Code:

tenthclass$Marks(2) = 98
print(tenthclass)

Production:

Conclusion

Les trames de données sont une forme très courante de l'énoncé du problème. Il s'agit d'une liste de la variable du même nombre de lignes avec des ID de ligne uniques. Cet article nous aide à savoir comment ajouter une ligne, ajouter une colonne, supprimer une ligne, supprimer une colonne du bloc de données et explique également comment mettre à jour les données dans le bloc de données.

Articles recommandés

Ceci est un guide des trames de données dans R. Ici, nous discutons des différentes étapes pour créer des trames de données et comment extraire des données à partir de trames de données dans R. Vous pouvez également consulter les articles suivants pour en savoir plus -

  1. Top 5 des types de données dans R
  2. Liste des packages R utiles
  3. Fichiers R CSV
  4. Fonctions du programme R - Importance
  5. Facteur R avec avantages