Introduction à l'analyse de régression linéaire

Il est souvent déroutant d'apprendre un concept qui fait même partie de notre vie quotidienne. Mais ce n'est pas un problème, nous pouvons nous aider et nous développer pour apprendre de nos activités quotidiennes simplement en analysant les choses et sans avoir peur de poser des questions. Pourquoi le prix affecte la demande de biens, pourquoi le changement de taux d'intérêt affecte la masse monétaire. Tout cela peut être répondu par une approche simple connue sous le nom de régression linéaire. La seule complexité que l'on ressent en traitant de l'analyse de régression linéaire est l'identification de variables dépendantes et indépendantes.

Nous devons trouver ce qui affecte quoi, et la moitié du problème est résolu. Nous devons voir si c'est le prix ou la demande qui s'influencent mutuellement. Une fois que nous avons appris laquelle est la variable indépendante et la variable dépendante, nous sommes prêts à faire notre analyse. Il existe plusieurs types d'analyses de régression disponibles. Cette analyse dépend des variables dont nous disposons.

Les 3 types d'analyse de régression

Ces trois analyses de régression ont des cas d'utilisation maximaux dans le monde réel, sinon il existe plus de 15 types d'analyses de régression. Les types d'analyse de régression dont nous allons discuter sont:

  1. Analyse de régression linéaire
  2. Analyse de régression linéaire multiple
  3. Régression logistique

Dans cet article, nous nous concentrerons sur l'analyse de régression linéaire simple. Cette analyse nous aide à identifier la relation entre le facteur indépendant et le facteur dépendant. En termes plus simples, le modèle de régression nous aide à découvrir comment les changements du facteur indépendant affectent le facteur dépendant. Ce modèle nous aide de plusieurs façons comme:

  • C'est un modèle statistique simple et puissant
  • Cela nous aidera à faire des prédictions et des prévisions
  • Cela nous aidera à prendre une meilleure décision commerciale
  • Cela nous aidera à analyser les résultats et à corriger les erreurs

L'équation de régression linéaire et le diviser en parties pertinentes

Y = β1 + β2X + ϵ

  • Où β1 dans la terminologie mathématique connue sous le nom d'interception et β2 dans la terminologie mathématique connue sous le nom de pente. Ils sont également appelés coefficients de régression. ϵ est le terme d'erreur, c'est la partie de Y que le modèle de régression est incapable d'expliquer.
  • Y est une variable dépendante (les autres termes qui sont interchangeables pour les variables dépendantes sont la variable de réponse, la régression et la variable mesurée, la variable observée, la variable de réponse, la variable expliquée, la variable de résultat, la variable expérimentale et / ou la variable de sortie).
  • X est une variable indépendante (régresseurs, variable contrôlée, variable manipulée, variable explicative, variable d'exposition et / ou variable d'entrée).

Problème: Pour comprendre ce qu'est l'analyse de régression linéaire, nous prenons le jeu de données «Cars» qui vient par défaut dans les répertoires R. Dans cet ensemble de données, il y a 50 observations (essentiellement des lignes) et 2 variables (colonnes). Les noms des colonnes sont "Dist" et "Speed". Ici, nous devons voir l'impact sur les variables de distance dû au changement des variables de vitesse. Pour voir la structure des données, nous pouvons exécuter un code Str (ensemble de données). Ce code nous aide à comprendre la structure de l'ensemble de données. Ces fonctionnalités nous aident à prendre de meilleures décisions car nous avons une meilleure idée de la structure de l'ensemble de données. Ce code nous aide à identifier le type d'ensembles de données.

Code:

De même, pour vérifier les points de contrôle des statistiques de l'ensemble de données, nous pouvons utiliser le résumé de code (voitures). Ce code fournit la plage moyenne, médiane, de l'ensemble de données en une fois, que le chercheur peut utiliser tout en traitant le problème.

Production:

Ici, nous pouvons voir la sortie statistique de chaque variable que nous avons dans notre ensemble de données.

La représentation graphique des jeux de données

Les types de représentation graphique qui couvriront ici sont et pourquoi:

  • Diagramme de dispersion: À l'aide du graphique, nous pouvons voir dans quelle direction va notre modèle de régression linéaire, s'il existe des preuves solides pour prouver notre modèle ou non.
  • Box Plot: nous aide à trouver des valeurs aberrantes.
  • Diagramme de densité: Aidez-nous à comprendre la distribution de la variable indépendante, dans notre cas, la variable indépendante est «Vitesse».

Avantages de la représentation graphique

Voici les avantages suivants:

  • Facile à comprendre
  • Nous aide à prendre une décision rapide
  • Analyse comparative
  • Moins d'efforts et de temps

1. Diagramme de dispersion: il aidera à visualiser toutes les relations entre la variable indépendante et la variable dépendante.

Code:

Production:

Nous pouvons voir sur le graphique une relation linéairement croissante entre la variable dépendante (Distance) et la variable indépendante (Vitesse).

2. Diagramme en boîte: Le diagramme en boîte nous aide à identifier les valeurs aberrantes dans les ensembles de données. Les avantages de l'utilisation d'un diagramme en boîte sont les suivants:

  • Affichage graphique de l'emplacement et de la répartition des variables.
  • Cela nous aide à comprendre l'asymétrie et la symétrie des données.

Code:

Production:

3. Diagramme de densité (pour vérifier la normalité de la distribution)

Code:

Production:

Analyse de corrélation

Cette analyse nous aide à trouver la relation entre les variables. Il existe principalement six types d'analyses de corrélation.

  1. Corrélation positive (0, 01 à 0, 99)
  2. Corrélation négative (-0, 99 à -0, 01)
  3. Pas de corrélation
  4. Corrélation parfaite
  5. Corrélation forte (une valeur plus proche de ± 0, 99)
  6. Corrélation faible (une valeur plus proche de 0)

Le diagramme de dispersion nous aide à identifier les types d'ensembles de données de corrélation entre eux et le code pour trouver la corrélation est

Production:

Ici, nous avons une forte corrélation positive entre la vitesse et la distance, ce qui signifie qu'ils ont une relation directe entre eux.

Modèle de régression linéaire

Il s'agit du composant central de l'analyse.Plus tôt, nous essayions et testions simplement si l'ensemble de données que nous avons était suffisamment logique pour exécuter une telle analyse ou non. La fonction que nous prévoyons d'utiliser est lm (). Cette fonction contient deux éléments qui sont la formule et les données. Avant d'attribuer la variable dépendante ou indépendante, nous devons en être très sûrs car toute notre formule en dépend.

La formule ressemble à ceci,

Régression linéaire <- lm (variable dépendante ~ variable indépendante, données = Date.Frame)

Code:

Production:

Comme nous pouvons le rappeler dans le segment ci-dessus de l'article, l'équation de la régression linéaire est:

Y = β1 + β2X + ϵ

Nous allons maintenant intégrer les informations que nous avons obtenues du code ci-dessus dans cette équation.

dist = −17, 579 + 3, 932 ∗ vitesse

Seule la recherche de l'équation de régression linéaire ne suffit pas, il faut vérifier sa statistique significative également. Pour cela, nous devons passer un code «Summary» sur notre modèle de régression linéaire.

Code:

Production:

Il existe plusieurs façons de vérifier la statistique significative d'un modèle, nous utilisons ici la méthode de la valeur P. Nous pouvons considérer un modèle statistiquement adapté lorsque la valeur P est inférieure au niveau significatif statistique prédéterminé, qui est idéalement de 0, 05. Nous pouvons voir dans notre tableau de résumé (régression_linéaire) que la valeur P est inférieure à 0, 05, nous pouvons donc conclure que notre modèle est statistiquement significatif. Une fois que nous sommes sûrs de notre modèle, nous pouvons utiliser notre ensemble de données pour prédire les choses.

Articles recommandés

Ceci est un guide pour l'analyse de régression linéaire. Ici, nous discutons des trois types d'analyse de régression linéaire, la représentation graphique des ensembles de données avec des avantages et des modèles de régression linéaire. Vous pouvez également consulter nos autres articles connexes pour en savoir plus-

  1. Formule de régression
  2. Les tests de régression
  3. Régression linéaire en R
  4. Types de techniques d'analyse de données
  5. Qu'est-ce que l'analyse de régression?
  6. Principales différences de régression vs classification
  7. 6 principales différences de régression linéaire et de régression logistique

Catégorie: