Qu'est-ce que l'analyse de régression? - Types et avantages de l'analyse de régression

Table des matières:

Anonim

Introduction à l'analyse de régression

L'analyse de régression est un algorithme de modélisation prédictif pour prédire le résultat d'une variable et identifier les variables (variables indépendantes) qui contribuent à la variable de résultat (ou la variable dépendante) ou en dépendent. En termes simples, c'est une technique pour trouver la relation entre les variables indépendantes et dépendantes pour produire le résultat. Il est simple à utiliser et à interpréter le résultat. Il existe de nombreux types de techniques de régression largement utilisées dans divers secteurs. Certains des exemples de régression consistent à prédire le salaire d'un employé ou les revenus d'une entreprise au cours d'une année.

Comment l'analyse de régression a-t-elle fonctionné?

Il existe de nombreux types de techniques de régression qui sont utilisées compte tenu des différents facteurs et résultats.

  • Régression linéaire
  • Régression logistique
  • Régression Lasso / Ridge
  • Régression polynomiale

Certains des tests de régression statistique importants utilisés dans divers secteurs sont indiqués ci-dessous:

1. Régression linéaire

Ceci est utilisé lorsque la variable de résultat dépend linéairement des variables indépendantes. Il est normalement utilisé lorsque nous n'avons pas un énorme ensemble de données. Il est également sensible aux valeurs aberrantes, donc si l'ensemble de données contient des valeurs aberrantes, il vaut mieux les traiter avant d'appliquer une régression linéaire. Il existe des techniques de régression à variable unique et à variables multiples. La régression linéaire simple est l'analyse lorsque la variable de résultat dépend linéairement d'une seule variable indépendante. La régression linéaire simple suit l'équation d'une droite qui est donnée ci-dessous:

Y=mx+c

Où,

Y = Variable cible, dépendante ou de critère

x = variable indépendante ou prédictive

m = coefficient de pente ou de régression

c = constant

La régression linéaire multivariable définit la relation entre la variable de résultat et plusieurs variables indépendantes. Il suit l'équation ci-dessous d'une ligne droite où les variables dépendantes sont la combinaison linéaire de toutes les variables indépendantes:

Y= m1x1+m2x2+m3x3+…mnan+c

Où,

Y = Variable cible, dépendante ou de critère

x1, x2, x3… xn = Variables indépendantes ou prédictives

m1, m2, m3… mn = Coefficients de pente ou de régression des variables respectives

c = constant

La régression linéaire suit le principe de la méthode des moindres carrés. Cette méthode indique qu'une ligne de meilleur ajustement est choisie en minimisant la somme des erreurs carrées. La ligne de meilleur ajustement est choisie où la somme des erreurs carrées entre les données observées et la ligne est minimale.

Certaines hypothèses doivent être prises en compte avant d'appliquer une régression linéaire sur l'ensemble de données.

  • Il devrait y avoir une relation linéaire entre les variables indépendantes et dépendantes.
  • Il ne devrait pas y avoir ou peu de multicolinéarité entre les variables indépendantes. La multicollinéarité est définie comme un phénomène où il existe une forte corrélation entre les variables indépendantes. Nous pouvons traiter la multicolinéarité en supprimant une variable qui est corrélée ou traite deux variables comme une seule variable.
  • Homoscédasticité: elle est définie comme un état dans lequel les termes d'erreur doivent être répartis de manière aléatoire sur toute la ligne dans l'analyse de régression. Il ne devrait pas y avoir de motif en travers de la ligne s'il y a un motif identifié que les données sont dites hétéroscédastiques.
  • Toutes les variables doivent être distribuées normalement, ce que nous voyons en traçant un tracé QQ. Si les données ne sont pas normalement distribuées, nous pouvons utiliser n'importe quelle méthode de transformation non linéaire pour les traiter.

Il est donc toujours conseillé de tester les hypothèses tout en appliquant une régression linéaire pour obtenir une bonne précision et un résultat correct.

2. Régression logistique

Cette technique de régression est utilisée lorsque la variable cible ou de résultat est de nature catégorique ou binaire. La principale différence entre régression linéaire et régression logistique réside dans la variable cible, en régression linéaire, elle doit être continue alors qu'en logistique elle doit être catégorique. La variable de résultat ne devrait avoir que deux classes, pas plus que cela. Certains des exemples sont les filtres anti-spam dans les e-mails (spam ou non), la détection de fraude (fraude / non fraude), etc. Il fonctionne sur le principe de la probabilité. Il peut être classé en deux catégories en définissant la valeur seuil.

Par exemple: s'il y a deux catégories A, B et que nous fixons la valeur seuil à 0, 5, la probabilité supérieure à 0, 5 sera considérée comme une catégorie et inférieure à 0, 5 sera une autre catégorie. La régression logistique suit une courbe en forme de S. Avant de construire le modèle de régression logistique, nous devons diviser l'ensemble de données en formation et test. Étant donné que la variable cible est catégorique ou binaire, nous devons nous assurer qu'il y a un bon équilibre de classe dans l'ensemble d'apprentissage. S'il y a un déséquilibre de classe, celui-ci peut être traité en utilisant les différentes méthodes mentionnées ci-dessous:

  • Up Sampling: Dans cette technique, la classe qui a le moins de lignes est échantillonnée pour correspondre au nombre de lignes de la classe majoritaire.
  • Échantillonnage vers le bas: Dans cette technique, la classe qui a plus de lignes est échantillonnée pour correspondre au nombre de lignes de la classe minoritaire.

Il y a quelques points importants qui sont importants à comprendre avant d'appliquer le modèle de régression logistique aux ensembles de données:

  • La variable cible doit être de nature binaire. S'il y a plus de 2 classes dans la variable cible, elle est connue sous le nom de régression logistique multinomiale .
  • Il ne devrait pas y avoir ou peu de multicolinéarité entre les variables indépendantes.
  • Cela nécessite une énorme taille d'échantillon pour fonctionner.
  • Il devrait y avoir une relation linéaire entre les variables indépendantes et le log des cotes.

Avantages de la régression

L'analyse de régression présente de nombreux avantages. Au lieu de considérer notre intuition et de prédire le résultat, nous pouvons utiliser une analyse de régression et montrer des points valides pour les résultats possibles.

Certains d'entre eux sont énumérés ci-dessous:

  • Pour prévoir les ventes et les revenus dans n'importe quel secteur pour des périodes plus ou moins longues.
  • Pour prédire le taux de désabonnement des clients de n'importe quelle industrie et trouver les mesures appropriées pour les réduire.
  • Comprendre et prévoir les niveaux d'inventaire de l'entrepôt.
  • Déterminer si l'introduction d'un nouveau produit sur le marché réussira ou non.
  • Pour prédire si un client sera en défaut de paiement ou non.
  • Pour prédire si un client achètera un produit ou non.
  • Détection de fraude ou de spam

Conclusion

Divers paramètres d'évaluation sont pris en compte après l'application du modèle. Bien qu'il y ait des hypothèses à tester avant d'appliquer le modèle, nous pouvons toujours modifier les variables en utilisant diverses méthodes mathématiques et augmenter les performances du modèle.

Articles recommandés

Ceci est un guide pour l'analyse de régression. Ici, nous discutons de l'introduction à l'analyse de régression, comment a fonctionné l'analyse de régression et les avantages de la régression. Vous pouvez également consulter nos autres articles suggérés pour en savoir plus–

  1. Analyse de régression linéaire
  2. Outils d'analyse de données
  3. Outils de test de régression
  4. Analyse de Big Data
  5. Régression vs classification | Principales différences clés