Régression vs classification - Principales différences et comparaison

Différence entre régression et classification

Dans cet article Régression vs classification, discutons des principales différences entre régression et classification. L'apprentissage automatique est largement divisé en deux types: l'apprentissage automatique supervisé et l'apprentissage automatique non supervisé. Dans l'apprentissage automatique supervisé, nous avons une valeur de sortie connue dans l'ensemble de données et nous formons le modèle sur la base de ceux-ci et nous l'utilisons pour la prédiction alors que dans l'apprentissage automatique non supervisé, nous n'avons pas un ensemble connu de valeurs de sortie. Avant de différencier la classification de la régression, comprenons ce que signifie cette terminologie dans l'apprentissage automatique. La régression est un algorithme d'apprentissage automatique supervisé qui peut être formé pour prédire les sorties en nombre réel. La classification est un algorithme d'apprentissage automatique supervisé qui est formé pour identifier les catégories et prédire dans quelle catégorie elles se situent pour de nouvelles valeurs.

Comparaison directe entre régression et classification (infographie)

Ci-dessous se trouve la comparaison des 5 meilleurs entre la régression et la classification :

Différences clés entre régression et classification

Laissez-nous discuter de certaines différences clés entre régression vs classification dans les points suivants:

La classification consiste à prédire une étiquette ou une catégorie. L'algorithme de classification classe l'ensemble de données requis dans l'une des deux étiquettes ou plus, un algorithme qui traite de deux classes ou catégories est appelé classificateur binaire et s'il y a plus de deux classes, il peut être appelé algorithme de classification multi-classes.
La régression consiste à trouver une fonction optimale pour identifier les données de valeurs réelles continues et faire des prévisions de cette quantité. La régression avec plusieurs variables en entrée ou des caractéristiques pour former l'algorithme est connue comme un problème de régression multivariée. Si dans le problème de régression, les valeurs d'entrée sont dépendantes ou ordonnées par le temps, alors on parle de problème de prévision de séries chronologiques.
Cependant, le modèle de classification prédira également une valeur continue qui est la probabilité que l'événement se produise appartenant à cette classe de sortie respective. Ici, la probabilité d'événement représente la probabilité d'un exemple donné appartenant à une classe spécifique. La valeur de probabilité prédite peut être convertie en valeur de classe en sélectionnant l'étiquette de classe qui a la probabilité la plus élevée.
Comprenons mieux cela en voyant un exemple, supposons que nous formons le modèle pour prédire si une personne a un cancer ou non en fonction de certaines caractéristiques. Si nous obtenons la probabilité qu'une personne ait un cancer à 0, 8 et non à 0, 2, nous pouvons convertir la probabilité de 0, 8 en une étiquette de classe ayant un cancer car elle a la probabilité la plus élevée.
Comme mentionné ci-dessus dans la classification pour voir à quel point le modèle de classification fonctionne, nous calculons la précision. Voyons comment le calcul est effectué, la précision de la classification peut être effectuée en prenant le rapport des prédictions correctes au total des prédictions multiplié par 100. S'il y a 50 prédictions faites et 10 d'entre elles sont correctes et 40 sont incorrectes, alors la précision sera de 20 %.

Précision = (Nombre de prédictions correctes / Nombre total de prédictions) * (100)

Précision = (10/50) * (100)
Précision = 20%

Comme mentionné ci-dessus dans la régression, pour voir à quel point le modèle de régression fonctionne bien, le moyen le plus populaire consiste à calculer l'erreur quadratique moyenne (RMSE). Voyons comment le calcul sera effectué.

La valeur prévue du modèle de régression est de 4, 9 tandis que la valeur réelle est de 5, 3.

La valeur prévue du modèle de régression est de 2, 3 tandis que la valeur réelle est de 2, 1.

La valeur prédite du modèle de régression est de 3, 4 tandis que la valeur réelle est de 2, 9.

Maintenant, Root signifie que l'erreur carrée peut être calculée en utilisant la formule.

L'erreur au carré est (5, 3-4, 9) 2 = 0, 16, (2, 1-2, 3) 2 = 0, 04, (2, 9-3, 4) 2 = 0, 25

Moyenne de l'erreur au carré = 0, 45 / 3 = 0, 15

Erreur quadratique moyenne = racine carrée de 0, 15 = 0, 38

Soit RMSE = 0, 38. Il existe de nombreuses autres méthodes pour calculer l'efficacité du modèle, mais RMSE est la plus utilisée car RMSE offre le score d'erreur dans les mêmes unités que la valeur prédite.

Exemples:

La plupart des ingénieurs data scientist éprouvent des difficultés à choisir entre régression et classification au début de leur carrière. Pour simplifier, voyons à quoi ressemblent les problèmes de classification et à quoi ressemblent les problèmes de régression,

Classification

Prédire s'il pleuvra ou non demain.
Prédire une personne devrait acheter ce bien ou ne pas faire de profit.
Prédire si une personne a une maladie ou non.

Si vous remarquez pour chaque situation ici, il peut y avoir un oui ou un non comme valeur prédite de sortie.

Régression

Prédire le prix du terrain.
Prédire le prix des actions.

Si vous remarquez pour chaque situation ici la plupart d'entre eux ont une valeur numérique comme sortie prédite.

Tableau de comparaison de régression vs classification

Le tableau ci-dessous résume les comparaisons entre régression et classification :

Paramètre	Régression	Classification
Type de fonction de cartographie	Dans ces algorithmes, la fonction de mappage sera choisie de type qui peut aligner les valeurs sur la sortie continue.	Dans ces algorithmes, la fonction de mappage sera choisie de type qui peut aligner les valeurs sur les classes prédéfinies.
Implique la prédiction	Pour ce type d'algorithmes, les données prédites appartiennent à la catégorie des valeurs continues. (Comme 23, 34, 45, 67, 28)	Pour ce type de données prédites par l'algorithme, appartient à la catégorie des valeurs discrètes. (Comme Oui ou Non, appartient à A ou B ou C).
Méthode de calcul	L'erreur quadratique moyenne sera calculée pour identifier le meilleur ajustement de l'ensemble de données.	La précision sera calculée pour identifier le meilleur ajustement de l'ensemble de données.
Nature des données prédites	La nature des données prédites est ordonnée. (C'est-à-dire que les valeurs prédites seront dans une certaine séquence).	La nature des données prévues n'est pas ordonnée. (C'est-à-dire que les valeurs prédites ne seront dans aucune séquence).
Des algorithmes	Prend en charge la régression vectorielle et les arbres de régression sont également connus sous le nom de forêt aléatoire, qui sont quelques-uns des exemples populaires d'algorithmes de régression.	Naive Bayes, les arbres de décision et K Nearest Neighbors sont quelques-uns des exemples populaires d'algorithmes de classification.

Conclusion

Ce sont quelques-unes des principales différences entre la classification et la régression. Dans certains cas, les valeurs de sortie continues prévues dans la régression peuvent être regroupées en étiquettes et changées en modèles de classification. Donc, nous devons comprendre clairement lequel choisir en fonction de la situation et ce que nous voulons que la sortie prévue soit.

Articles recommandés

Ceci est un guide pour la principale différence entre la régression et la classification. Ici, nous discutons également des différences clés entre régression et classification avec des infographies et un tableau de comparaison. Vous pouvez également consulter les articles suivants pour en savoir plus -