Analyse unidirectionnelle de la variance

L'analyse de la variance écrite brièvement sous le nom d'ANOVA est la procédure par laquelle nous pouvons comparer les moyennes de trois populations ou plus. Statistiquement, nous formulons deux hypothèses, l'hypothèse nulle: «Toutes les moyennes de population sont égales» et l'hypothèse alternative: «Toutes les moyennes de population ne sont pas égales». Il nous permet de tester l'égalité de plusieurs moyennes dans un test plutôt que de comparer deux moyennes à la fois, ce qui est irréalisable lorsqu'il y a plusieurs groupes. Dans cette rubrique, nous allons en savoir plus sur l'ANOVA à sens unique dans R.

L'analyse unidirectionnelle de la variance nous aide à analyser un seul facteur ou variable. Par exemple, il existe cinq régions et nous voulons vérifier si les précipitations moyennes quotidiennes pour les cinq régions sont égales ou si elles sont différentes. Dans ce cas, il n'y a qu'un seul facteur qui est la région, car nous devons vérifier si les facteurs régionaux affectent la réception des précipitations et le modèle.

Hypothèses d'analyse de la variance

Les hypothèses suivantes doivent être remplies pour appliquer l'ANOVA unidirectionnelle:

  • Les populations dont sont tirés les échantillons sont normalement réparties.
  • Les populations dans lesquelles les échantillons sont prélevés ont la même variance ou écart-type.
  • Les échantillons prélevés dans différentes populations sont aléatoires et indépendants.

Comment fonctionne l'ANOVA unidirectionnelle en R?

Pour notre démonstration, nous utilisons les données qui contiennent deux variables à savoir. Marque et ventes. Il existe quatre marques - ATB, JKV, MKL et PRQ. Les ventes mensuelles de ces marques sont données. Nous devons vérifier si les ventes moyennes des quatre marques sont égales ou si elles sont différentes les unes des autres. Pour vérifier cela, nous utiliserons l'ANOVA unidirectionnelle. La procédure pas à pas pour implémenter l'ANOVA est la suivante:

  1. Tout d'abord, importez les données dans R. Les données sont présentes au format CSV. Donc, pour l'importer, nous utiliserons la fonction read.csv ().

  1. Affichez les premiers enregistrements des données. Ceci est important pour vérifier si les données ont été correctement importées dans R. De même, nous appliquerons une fonction de résumé () sur les données, pour obtenir des informations de base sur les données.

  1. Chaque fois que nous utilisons les variables présentes dans l'ensemble de données, nous devons mentionner explicitement le nom de l'ensemble de données comme brand_sales_data $ Brand ou brand_sales_data $ Sales. Pour surmonter cela, nous utiliserons la fonction d'attachement. La fonction doit être appliquée comme ci-dessous.

  1. Agrégons les ventes par marque en utilisant la moyenne ou l'écart-type. L'agrégation nous aide à avoir une idée de base des données.

Le résultat ci-dessus montre que les moyennes des quatre groupes différents ne sont pas égales. JKV a les ventes moyennes les plus élevées.

Comme on peut le voir ci-dessus, les écarts-types entre les quatre groupes ne montrent aucune différence significative et ils sont les plus élevés pour la marque MKL.

  1. Maintenant, nous appliquerons l'ANOVA pour valider si les moyennes sur les trois populations sont égales ou s'il existe une différence.

D'après les résultats ci-dessus, nous pouvons voir que le test ANOVA pour Brand est significatif en raison de p <0, 0001. Nous pouvons interpréter que toutes les marques n'ont pas les mêmes niveaux de préférence sur le marché, ce qui influence la vente de ces marques sur le marché. Cela pourrait être dû à de nombreux facteurs et au goût des gens pour une marque particulière.

  1. Le résultat ci-dessus peut être visualisé et il facilite l'interprétation. Pour cela, nous utiliserons la fonction plotmeans () dans la bibliothèque gplots (). Cela fonctionne comme ci-dessous:

Comme nous pouvons le voir ci-dessus, la fonction plotmeans () dans le package gplots nous permet de comparer visuellement les moyennes de différents groupes. On voit que les moyens ne sont pas les mêmes entre les quatre marques. Cependant, les moyens pour les marques MKL et PRQ se rapprochent.

  1. L'analyse ci-dessus nous aide à vérifier si les marques ont des moyens égaux ou non, cependant, il est difficile de faire la comparaison par paire. Nous pouvons faire des comparaisons par paires pour différentes marques, en utilisant la fonction TukeyHSD () qui facilite la vérification si une marque est significativement différente de l'une des autres.

Les comparaisons par paire comme ci-dessus. La différence entre deux groupes quelconques est significative si p <0, 001. Comme nous pouvons le voir ci-dessus, la valeur de p pour la paire PRQ-MKL est beaucoup plus élevée, ce qui indique que les deux marques ne sont pas sensiblement différentes l'une de l'autre.

Pour visualiser les comparaisons par paires, nous tracerons les résultats ci-dessus comme ci-dessous:

La première fonction pair fait pivoter les étiquettes d'axe en les rendant horizontales, et la deuxième instruction par ajuste les marges de sorte que les étiquettes s'ajustent correctement, sinon, elles sortiront de l'écran.

Le graphique ci-dessus offre de bonnes informations, mais nous pouvons tracer les résultats sous la forme de boîtes à moustaches pour obtenir de meilleures informations pour une interprétation plus claire, comme illustré ci-dessous.

La fonction glht () utilisée ci-dessus est livrée avec un ensemble complet de méthodes pour comparer plusieurs moyennes. Remarque, l'option de niveau dans la fonction cld () se rapporte au niveau de signification, par exemple 0, 05 ou 95 pour cent de confiance)

En utilisant le graphique ci-dessus, il devient facile de comparer les moyennes entre les groupes et facilite également l'interprétation systématique. Il y a des lettres, en haut de l'intrigue, pour chaque marque. Si deux marques ont la même lettre, alors elles n'ont pas de moyens significativement différents des marques MKL et PRQ dans ce cas qui ont la même lettre b.

  1. Jusqu'à présent, nous avons mis en œuvre l'ANOVA et utilisé des graphiques pour visualiser les résultats. Cependant, il est tout aussi important de tester les hypothèses. Tout d'abord, nous validerons l'hypothèse de normalité.

Le package de voiture dans R fournit la fonction qqPlot (). Le graphique ci-dessus montre que les données se situent dans une enveloppe de confiance de 95%. Cela indique que l'hypothèse de normalité est presque remplie.

Ensuite, nous validerons si les écarts entre les marques sont égaux. Pour cela, nous utiliserons le test de Bartlett

La valeur p montre que les variances à travers le groupe ne diffèrent pas significativement

Enfin, nous vérifierons s'il existe des valeurs aberrantes qui affectent les résultats de l'ANOVA.

D'après le résultat ci-dessus, nous pouvons voir qu'il n'y a aucune indication de valeurs aberrantes dans les données (NA se produit lorsque p> 1)

En tenant compte des résultats du QQ Plot, du test de Bartlett et du test Outlier, nous pouvons dire que les données répondent à toutes les hypothèses ANOVA et que les résultats obtenus sont valides.

Conclusion - ANOVA unidirectionnelle en R

L'ANOVA est une technique statistique très pratique qui peut être utilisée pour comparer les moyennes de plusieurs populations. R propose une gamme complète de packages pour implémenter l'ANOVA, obtenir des résultats et valider les hypothèses. Dans R, les résultats statistiques peuvent être interprétés sous des formes visuelles qui offrent des informations plus approfondies.

Articles recommandés

Ceci est un guide sur l'ANOVA unidirectionnelle dans R. Nous discutons ici du fonctionnement de l'ANOVA unidirectionnelle et des hypothèses d'analyse de la variance. Vous pouvez également consulter les articles suivants pour en savoir plus -

  1. Langage de programmation R
  2. Régression vs ANOVA
  3. Comment interpréter les résultats à l'aide du test ANOVA
  4. GLM dans R

Catégorie: