Analyse de régression linéaire - 3Types et modèle - Représentation graphique

Introduction à l'analyse de régression linéaire

Il est souvent déroutant d'apprendre un concept qui fait même partie de notre vie quotidienne. Mais ce n'est pas un problème, nous pouvons nous aider et nous développer pour apprendre de nos activités quotidiennes simplement en analysant les choses et sans avoir peur de poser des questions. Pourquoi le prix affecte la demande de biens, pourquoi le changement de taux d'intérêt affecte la masse monétaire. Tout cela peut être répondu par une approche simple connue sous le nom de régression linéaire. La seule complexité que l'on ressent en traitant de l'analyse de régression linéaire est l'identification de variables dépendantes et indépendantes.

Nous devons trouver ce qui affecte quoi, et la moitié du problème est résolu. Nous devons voir si c'est le prix ou la demande qui s'influencent mutuellement. Une fois que nous avons appris laquelle est la variable indépendante et la variable dépendante, nous sommes prêts à faire notre analyse. Il existe plusieurs types d'analyses de régression disponibles. Cette analyse dépend des variables dont nous disposons.

Les 3 types d'analyse de régression

Ces trois analyses de régression ont des cas d'utilisation maximaux dans le monde réel, sinon il existe plus de 15 types d'analyses de régression. Les types d'analyse de régression dont nous allons discuter sont:

Analyse de régression linéaire
Analyse de régression linéaire multiple
Régression logistique

Dans cet article, nous nous concentrerons sur l'analyse de régression linéaire simple. Cette analyse nous aide à identifier la relation entre le facteur indépendant et le facteur dépendant. En termes plus simples, le modèle de régression nous aide à découvrir comment les changements du facteur indépendant affectent le facteur dépendant. Ce modèle nous aide de plusieurs façons comme:

C'est un modèle statistique simple et puissant
Cela nous aidera à faire des prédictions et des prévisions
Cela nous aidera à prendre une meilleure décision commerciale
Cela nous aidera à analyser les résultats et à corriger les erreurs

L'équation de régression linéaire et le diviser en parties pertinentes

Y = β1 + β2X + ϵ

Où β1 dans la terminologie mathématique connue sous le nom d'interception et β2 dans la terminologie mathématique connue sous le nom de pente. Ils sont également appelés coefficients de régression. ϵ est le terme d'erreur, c'est la partie de Y que le modèle de régression est incapable d'expliquer.
Y est une variable dépendante (les autres termes qui sont interchangeables pour les variables dépendantes sont la variable de réponse, la régression et la variable mesurée, la variable observée, la variable de réponse, la variable expliquée, la variable de résultat, la variable expérimentale et / ou la variable de sortie).
X est une variable indépendante (régresseurs, variable contrôlée, variable manipulée, variable explicative, variable d'exposition et / ou variable d'entrée).

Problème: Pour comprendre ce qu'est l'analyse de régression linéaire, nous prenons le jeu de données «Cars» qui vient par défaut dans les répertoires R. Dans cet ensemble de données, il y a 50 observations (essentiellement des lignes) et 2 variables (colonnes). Les noms des colonnes sont "Dist" et "Speed". Ici, nous devons voir l'impact sur les variables de distance dû au changement des variables de vitesse. Pour voir la structure des données, nous pouvons exécuter un code Str (ensemble de données). Ce code nous aide à comprendre la structure de l'ensemble de données. Ces fonctionnalités nous aident à prendre de meilleures décisions car nous avons une meilleure idée de la structure de l'ensemble de données. Ce code nous aide à identifier le type d'ensembles de données.

Code:

De même, pour vérifier les points de contrôle des statistiques de l'ensemble de données, nous pouvons utiliser le résumé de code (voitures). Ce code fournit la plage moyenne, médiane, de l'ensemble de données en une fois, que le chercheur peut utiliser tout en traitant le problème.

Production:

Ici, nous pouvons voir la sortie statistique de chaque variable que nous avons dans notre ensemble de données.

La représentation graphique des jeux de données

Les types de représentation graphique qui couvriront ici sont et pourquoi:

Diagramme de dispersion: À l'aide du graphique, nous pouvons voir dans quelle direction va notre modèle de régression linéaire, s'il existe des preuves solides pour prouver notre modèle ou non.
Box Plot: nous aide à trouver des valeurs aberrantes.
Diagramme de densité: Aidez-nous à comprendre la distribution de la variable indépendante, dans notre cas, la variable indépendante est «Vitesse».

Avantages de la représentation graphique

Voici les avantages suivants:

Facile à comprendre
Nous aide à prendre une décision rapide
Analyse comparative
Moins d'efforts et de temps

1. Diagramme de dispersion: il aidera à visualiser toutes les relations entre la variable indépendante et la variable dépendante.

Code:

Production:

Nous pouvons voir sur le graphique une relation linéairement croissante entre la variable dépendante (Distance) et la variable indépendante (Vitesse).

2. Diagramme en boîte: Le diagramme en boîte nous aide à identifier les valeurs aberrantes dans les ensembles de données. Les avantages de l'utilisation d'un diagramme en boîte sont les suivants:

Affichage graphique de l'emplacement et de la répartition des variables.
Cela nous aide à comprendre l'asymétrie et la symétrie des données.

Code:

Production:

3. Diagramme de densité (pour vérifier la normalité de la distribution)

Code:

Production:

Analyse de corrélation

Cette analyse nous aide à trouver la relation entre les variables. Il existe principalement six types d'analyses de corrélation.

Corrélation positive (0, 01 à 0, 99)
Corrélation négative (-0, 99 à -0, 01)
Pas de corrélation
Corrélation parfaite
Corrélation forte (une valeur plus proche de ± 0, 99)
Corrélation faible (une valeur plus proche de 0)

Le diagramme de dispersion nous aide à identifier les types d'ensembles de données de corrélation entre eux et le code pour trouver la corrélation est

Production:

Ici, nous avons une forte corrélation positive entre la vitesse et la distance, ce qui signifie qu'ils ont une relation directe entre eux.

Modèle de régression linéaire

Il s'agit du composant central de l'analyse.Plus tôt, nous essayions et testions simplement si l'ensemble de données que nous avons était suffisamment logique pour exécuter une telle analyse ou non. La fonction que nous prévoyons d'utiliser est lm (). Cette fonction contient deux éléments qui sont la formule et les données. Avant d'attribuer la variable dépendante ou indépendante, nous devons en être très sûrs car toute notre formule en dépend.

La formule ressemble à ceci,

Régression linéaire <- lm (variable dépendante ~ variable indépendante, données = Date.Frame)

Code:

Production:

Comme nous pouvons le rappeler dans le segment ci-dessus de l'article, l'équation de la régression linéaire est:

Y = β1 + β2X + ϵ

Nous allons maintenant intégrer les informations que nous avons obtenues du code ci-dessus dans cette équation.

dist = −17, 579 + 3, 932 ∗ vitesse

Seule la recherche de l'équation de régression linéaire ne suffit pas, il faut vérifier sa statistique significative également. Pour cela, nous devons passer un code «Summary» sur notre modèle de régression linéaire.

Code:

Production:

Il existe plusieurs façons de vérifier la statistique significative d'un modèle, nous utilisons ici la méthode de la valeur P. Nous pouvons considérer un modèle statistiquement adapté lorsque la valeur P est inférieure au niveau significatif statistique prédéterminé, qui est idéalement de 0, 05. Nous pouvons voir dans notre tableau de résumé (régression_linéaire) que la valeur P est inférieure à 0, 05, nous pouvons donc conclure que notre modèle est statistiquement significatif. Une fois que nous sommes sûrs de notre modèle, nous pouvons utiliser notre ensemble de données pour prédire les choses.

Articles recommandés

Ceci est un guide pour l'analyse de régression linéaire. Ici, nous discutons des trois types d'analyse de régression linéaire, la représentation graphique des ensembles de données avec des avantages et des modèles de régression linéaire. Vous pouvez également consulter nos autres articles connexes pour en savoir plus-

Formule de régression
Les tests de régression
Régression linéaire en R
Types de techniques d'analyse de données
Qu'est-ce que l'analyse de régression?
Principales différences de régression vs classification
6 principales différences de régression linéaire et de régression logistique

Analyse de régression linéaire - 3Types et modèle - Représentation graphique

Table des matières:

Introduction à l'analyse de régression linéaire

Les 3 types d'analyse de régression

L'équation de régression linéaire et le diviser en parties pertinentes

La représentation graphique des jeux de données

Avantages de la représentation graphique

Analyse de corrélation

Modèle de régression linéaire

Articles recommandés

Top 10 des questions d'entrevue de marketing par courriel (Mis à jour pour 2019)

Formule de taille d'effet - Calculatrice (exemples avec modèle Excel)

13 règles importantes d'étiquette électronique que vous pourriez enfreindre

Top Secrets d'idées de signatures de courrier électronique à faire et à ne pas faire

5 étapes les plus simples et les plus efficaces pour résoudre vos problèmes de messagerie

Installez Python - Meilleur guide sur l'installation de Python

Installez Postgresql - Guide complet pour installer PostgreSQL

Installez Perl - Installation étape par étape de Perl et Padre

Installer Ruby - Différentes étapes pour installer Ruby sur Windows

Installer Python sur Linux - Processus d'installation étape par étape

Factorial en PHP - Comment trouver factorielle de nombre en PHP avec des exemples

Factorielle en C # - Divers exemples de factoriels en C # avec code et sortie

Factorielle en C - Exemples de Factorial en C avec exemple de code et sortie

Outil Pipette dans Photoshop - Comment utiliser l'outil Pipette dans Photoshop

Factorial en R - Programmes avec exemples en Factorial en R