Régression multivariée - Exemples de régression multivariée

Table des matières:

Anonim

Introduction à la régression multivariée

  • Le terme en multivarié signifie modèle avec plus d'une variable
  • La régression multivariée fait partie des statistiques multivariées.
  • La régression multivariée est une technique utilisée pour estimer un modèle de régression unique lorsqu'il y a plus d'une variable de résultat.
  • La régression multivariée utilise généralement un algorithme d'apprentissage automatique qui est un algorithme d'apprentissage supervisé.

Pourquoi le modèle de régression unique ne fonctionnera pas?

  • Comme on le sait, l'analyse de régression est principalement utilisée pour explorer la relation entre une variable dépendante et indépendante.
  • Dans le monde réel, il existe de nombreuses situations où de nombreuses variables indépendantes sont influencées par d'autres variables, c'est pourquoi nous devons passer à des options différentes d'un modèle de régression unique qui ne peut prendre qu'une seule variable indépendante.

Qu'est-ce que la régression multivariée?

  • La régression multivariée permet de mesurer l'angle de plusieurs variables indépendantes et de plusieurs variables dépendantes. Il trouve la relation entre les variables (Liée linéairement).
  • Il permet de prédire le comportement de la variable de résultat et l'association des variables prédictives et comment les variables prédictives changent.
  • Il peut être appliqué à de nombreux domaines pratiques comme la politique, l'économie, la médecine, les travaux de recherche et de nombreux types d'entreprises.
  • La régression multivariée est une simple extension de la régression multiple.
  • La régression multiple est utilisée pour prédire et échanger les valeurs d'une variable en fonction de la valeur collective de plus d'une valeur de variables prédictives.
  • Tout d'abord, nous prendrons un exemple pour comprendre l'utilisation de la régression multivariée, après quoi nous chercherons la solution à ce problème.

Exemples de régression multivariée

  • Si la société de commerce électronique a collecté les données de ses clients telles que l'âge, l'historique d'achat d'un client, le sexe et la société souhaitent trouver la relation entre ces différentes personnes à charge et variables indépendantes.
  • Un entraîneur de gym a collecté les données de son client qui viennent à son gym et veulent observer certaines choses du client qui sont la santé, les habitudes alimentaires (quel type de produit le client consomme chaque semaine), le poids du client. Cela veut trouver une relation entre ces variables.

Comme vous l'avez vu dans les deux exemples ci-dessus, dans les deux situations, il y a plus d'une variable, certaines sont dépendantes et certaines sont indépendantes, donc une seule régression ne suffit pas pour analyser ce type de données.

Voici la régression multivariée qui entre en jeu.

1. Sélection des fonctionnalités -

La sélection des caractéristiques joue le rôle le plus important dans la régression multivariée.

Recherche de la fonctionnalité nécessaire pour trouver la variable qui dépend de cette fonctionnalité.

2. Fonctions de normalisation -

Pour une meilleure analyse, les fonctionnalités doivent être mises à l'échelle pour les intégrer dans une plage spécifique. Nous pouvons également modifier la valeur de chaque fonctionnalité.

3. Sélectionnez la fonction de perte et l'hypothèse -

La fonction de perte calcule la perte lorsque l'hypothèse prédit la mauvaise valeur.

Et l'hypothèse signifie la valeur prédite de la variable caractéristique.

4. Définir les paramètres d'hypothèse -

Définissez le paramètre d'hypothèse qui peut réduire la fonction de perte et peut prédire.

5. Minimisez la fonction de perte -

Minimiser la perte en utilisant un algorithme de minimisation de la perte et l'utiliser sur l'ensemble de données, ce qui peut aider à ajuster les paramètres d'hypothèse. Une fois la perte minimisée, elle peut être utilisée pour la prédiction.

Il existe de nombreux algorithmes qui peuvent être utilisés pour réduire la perte, comme la descente de gradient.

6. Testez la fonction d'hypothèse -

Vérifiez la fonction d'hypothèse dans quelle mesure elle prédit les valeurs, testez-la sur les données de test.

Étapes pour suivre la régression multivariée des archives

1) Importez les bibliothèques communes nécessaires telles que numpy, pandas

2) Lire l'ensemble de données à l'aide de la bibliothèque des pandas

3) Comme nous l'avons vu ci-dessus, nous devons normaliser les données pour obtenir de meilleurs résultats. Pourquoi la normalisation car chaque fonctionnalité a une plage de valeurs différente.

4) Créez un modèle qui peut archiver la régression si vous utilisez l'équation d'utilisation de la régression linéaire

Y = mx + c

Dans laquelle x est donnée en entrée, m est une ligne de pente, c est constant, y est la variable de sortie.

5) Former le modèle à l'aide d'un hyperparamètre. Comprendre l'hyperparamètre défini en fonction du modèle. Tels que le taux d'apprentissage, les époques, les itérations.

6) Comme expliqué ci-dessus, comment l'hypothèse joue un rôle important dans l'analyse, vérifie l'hypothèse et mesure la fonction perte / coût.

7) La fonction perte / coût nous aidera à mesurer comment la valeur de l'hypothèse est vraie et exacte.

8) Minimiser la fonction perte / coût aidera le modèle à améliorer la prédiction.

9) L'équation de perte peut être définie comme une somme de la différence au carré entre la valeur prédite et la valeur réelle divisée par deux fois la taille de l'ensemble de données.

10) Pour minimiser la fonction de perte / coût, utiliser la descente de gradient, il commence par une valeur aléatoire et trouve le point le plus faible de leur fonction de perte.

En suivant ce qui précède, nous pouvons implémenter une régression multivariée

Avantages de la régression multivariée

  • La technique multivariée permet de trouver une relation entre des variables ou des caractéristiques
  • Il aide à trouver une corrélation entre les variables indépendantes et dépendantes.

Avantages de la régression multivariée

  • Les techniques multivariées sont un calcul mathématique un peu complexe et de haut niveau
  • La sortie du modèle de régression multivariée n'est pas facilement interprétable et parfois parce que certaines sorties de perte et d'erreur ne sont pas identiques.
  • Il ne peut pas être appliqué à un petit ensemble de données car les résultats sont plus simples dans les grands ensembles de données.

Conclusion - Régression multivariée

  • Le but principal de l'utilisation de la régression multivariée est lorsque plusieurs variables sont disponibles et dans ce cas, la régression linéaire unique ne fonctionnera pas.
  • Le monde réel a principalement plusieurs variables ou fonctionnalités lorsque plusieurs variables / fonctionnalités entrent en jeu, une régression multivariée est utilisée.

Articles recommandés

Ceci est un guide de la régression multivariée. Nous discutons ici de l'introduction, des exemples de régression multivariée ainsi que des avantages et des inconvénients. Vous pouvez également consulter nos autres articles suggérés pour en savoir plus -

  1. Formule de régression
  2. Cours de Data Science à Londres
  3. Opérateurs SAS
  4. Techniques de science des données
  5. Variables en JavaScript
  6. Principales différences de régression vs classification