Régression linéaire dans Excel (Table des matières)

  • Introduction à la régression linéaire dans Excel
  • Méthodes d'utilisation de la régression linéaire dans Excel

Introduction à la régression linéaire dans Excel

La régression linéaire est une technique / méthode statistique utilisée pour étudier la relation entre deux variables quantitatives continues. Dans cette technique, des variables indépendantes sont utilisées pour prédire la valeur d'une variable dépendante. S'il n'y a qu'une seule variable indépendante, alors c'est une régression linéaire simple, et si un certain nombre de variables indépendantes sont plus d'une, alors c'est une régression linéaire multiple. Les modèles de régression linéaire ont une relation entre les variables dépendantes et indépendantes en ajustant une équation linéaire aux données observées. Linéaire fait référence au fait que nous utilisons une ligne pour ajuster nos données. Les variables dépendantes utilisées dans l'analyse de régression sont également appelées variables de réponse ou prédites, et les variables indépendantes sont également appelées variables explicatives ou prédicteurs.

Une droite de régression linéaire a une équation du type: Y = a + bX;

Où:

  • X est la variable explicative,
  • Y est la variable dépendante,
  • b est la pente de la ligne,
  • a est l'ordonnée à l'origine (c'est-à-dire la valeur de y lorsque x = 0).

La méthode des moindres carrés est généralement utilisée dans la régression linéaire qui calcule la ligne de meilleur ajustement pour les données observées en minimisant la somme des carrés de déviation des points de données par rapport à la ligne.

Méthodes d'utilisation de la régression linéaire dans Excel

Cet exemple vous apprend les méthodes pour effectuer une analyse de régression linéaire dans Excel. Regardons quelques méthodes.

Vous pouvez télécharger ce modèle Excel de régression linéaire ici - Modèle Excel de régression linéaire

Méthode n ° 1 - Diagramme de dispersion avec une ligne de tendance

Disons que nous avons un ensemble de données sur certaines personnes avec leur âge, leur indice de biomasse (IMC) et le montant qu'elles ont dépensé en frais médicaux au cours d'un mois. Maintenant, avec un aperçu des caractéristiques des individus comme l'âge et l'IMC, nous souhaitons trouver comment ces variables affectent les dépenses médicales, et donc les utiliser pour effectuer une régression et estimer / prédire les dépenses médicales moyennes pour certaines personnes spécifiques. Voyons d'abord comment seul l'âge affecte les dépenses médicales. Voyons l'ensemble de données:

Montant des frais médicaux = b * âge + a

  • Sélectionnez les deux colonnes de l'ensemble de données (x et y), y compris les en-têtes.

  • Cliquez sur «Insérer» et développez la liste déroulante pour «Graphique à nuage de points» et sélectionnez la miniature «Scatter» (première)

  • Maintenant, un nuage de points apparaîtra et nous allons tracer la ligne de régression à ce sujet. Pour ce faire, cliquez avec le bouton droit sur un point de données et sélectionnez «Ajouter une ligne de tendance»

  • Maintenant, dans le volet 'Format Trendline' à droite, sélectionnez 'Linear Trendline' et 'Display Equation on Chart'.

  • Sélectionnez «Afficher l'équation sur le graphique».

Nous pouvons improviser le graphique selon nos besoins, comme ajouter des titres d'axes, changer l'échelle, la couleur et le type de ligne.

Après avoir amélioré le graphique, voici la sortie que nous obtenons.

Remarque: Dans ce type de graphique de régression, la variable dépendante doit toujours être sur l'axe des y et indépendante sur l'axe des x. Si le graphique est tracé dans l'ordre inverse, changez d'axe dans un graphique ou échangez les colonnes de l'ensemble de données.

Méthode n ° 2 - Méthode de complément d'analyse ToolPak

Analysis ToolPak n'est parfois pas activé par défaut et nous devons le faire manuellement. Faire cela:

  • Cliquez sur le menu "Fichier".

Après cela, cliquez sur «Options».

  • Sélectionnez «Compléments Excel» dans la case «Gérer», puis cliquez sur «Aller»

  • Sélectionnez 'Analysis ToolPak' -> 'OK'

Cela ajoutera des outils «Analyse des données» à l'onglet «Données». Maintenant, nous exécutons l'analyse de régression:

  • Cliquez sur «Analyse des données» dans l'onglet «Données»

  • Sélectionnez «Régression» -> «OK»

  • Une boîte de dialogue de régression apparaîtra. Sélectionnez la plage d'entrée Y et la plage d'entrée X (frais médicaux et âge, respectivement). En cas de régression linéaire multiple, nous pouvons sélectionner plus de colonnes de variables indépendantes (comme si nous souhaitons également voir l'impact de l'IMC sur les dépenses médicales).
  • Cochez la case "Étiquettes" pour inclure les en-têtes.
  • Choisissez l'option de «sortie» souhaitée.
  • Cochez la case «résidus» et cliquez sur «OK».

Maintenant, notre sortie d'analyse de régression sera créée dans une nouvelle feuille de calcul, indiquant les statistiques de régression, l'ANOVA, les résidus et les coefficients.

Interprétation de sortie:

  • Les statistiques de régression indiquent dans quelle mesure l'équation de régression correspond aux données:

  • Le multiple R est le coefficient de corrélation qui mesure la force de la relation linéaire entre deux variables. Il se situe entre -1 et 1, et sa valeur absolue représente la force de la relation avec une valeur élevée indiquant une relation plus forte, une valeur faible indiquant une valeur négative et une valeur nulle indiquant aucune relation.
  • Le carré R est le coefficient de détermination utilisé comme indicateur de la qualité de l'ajustement. Il se situe entre 0 et 1, une valeur proche de 1 indiquant que le modèle est un bon ajustement. Dans ce cas, 0, 57 = 57% des valeurs y sont expliquées par les valeurs x.
  • Le carré R ajusté est le carré R ajusté pour le nombre de prédicteurs en cas de régression linéaire multiple.
  • L'erreur standard illustre la précision de l'analyse de régression.
  • Les observations représentent le nombre d'observations du modèle.
  • Anova indique le niveau de variabilité dans le modèle de régression.

Ceci n'est généralement pas utilisé pour la régression linéaire simple. Cependant, les «valeurs de signification F» indiquent la fiabilité de nos résultats, une valeur supérieure à 0, 05 suggérant de choisir un autre prédicteur.

  • Les coefficients sont la partie la plus importante utilisée pour construire l'équation de régression.

Donc, notre équation de régression serait: y = 16, 891 x - 355, 32. C'est la même chose que celle effectuée par la méthode 1 (nuage de points avec une ligne de tendance).

Maintenant, si nous voulons prédire les dépenses médicales moyennes à l'âge de 72 ans:

Donc y = 16, 891 * 72 -355, 32 = 860, 832

Donc, de cette façon, nous pouvons prédire les valeurs de y pour toute autre valeur de x.

  • Les résidus indiquent la différence entre les valeurs réelles et prévues.

La dernière méthode de régression n'est pas si couramment utilisée et nécessite des fonctions statistiques comme pente (), interception (), corrélation (), etc. pour effectuer une analyse de régression.

Choses à retenir sur la régression linéaire dans Excel

  • L'analyse de régression est généralement utilisée pour voir s'il existe une relation statistiquement significative entre deux ensembles de variables.
  • Il est utilisé pour prédire la valeur de la variable dépendante sur la base des valeurs d'une ou plusieurs variables indépendantes.
  • Chaque fois que nous souhaitons adapter un modèle de régression linéaire à un groupe de données, la plage de données doit être soigneusement observée comme si nous utilisons une équation de régression pour prédire toute valeur en dehors de cette plage (extrapolation), cela peut conduire à des résultats erronés.

Articles recommandés

Il s'agit d'un guide de régression linéaire dans Excel. Ici, nous discutons de la procédure de régression linéaire dans Excel avec des exemples pratiques et un modèle Excel téléchargeable. Vous pouvez également consulter nos autres articles suggérés -

  1. Comment préparer la paie dans Excel?
  2. Utilisation de la formule MAX dans Excel
  3. Tutoriels sur les références de cellule dans Excel
  4. Création d'une analyse de régression dans Excel
  5. Programmation linéaire dans Excel

Catégorie: