Fonctions de perte dans l'apprentissage automatique - Différents types de fonctions de perte

Table des matières:

Anonim

Présentation des fonctions de perte dans l'apprentissage automatique

Tout comme les enseignants nous guident, que nous performions bien ou non dans nos universitaires, les fonctions de perte font le même travail. C'est une méthode pour évaluer la façon dont notre algorithme modélise les données. Les fonctions de perte sont la principale source d'évaluation dans l'apprentissage automatique moderne. Lorsque vous modifiez votre algorithme afin d'améliorer votre modèle, la valeur de la fonction de perte vous dira si vous progressez ou non. Notre objectif principal devrait être de réduire la fonction de perte par optimisation. Dans cet article, nous allons discuter du fonctionnement des fonctions de perte et des différents types de fonctions de perte.

Comment fonctionnent les fonctions de perte?

Le mot «Perte» indique la pénalité pour ne pas avoir atteint la sortie attendue. Si l'écart de la valeur prédite par rapport à la valeur attendue par notre modèle est grand, alors la fonction de perte donne le nombre plus élevé en sortie et si l'écart est petit et beaucoup plus proche de la valeur attendue, il produit un nombre plus petit.

Voici un exemple lorsque nous essayons de prédire le prix de vente d'une maison dans les villes métropolitaines.

Prédit

Prix ​​de vente (en lakh)

Réel

Prix ​​de vente (en lakh)

Déviation (perte)
Bangalore: 45 0 (toutes les prédictions sont correctes)
Pune: 35
Chennai: 40
Bangalore: 40Bangalore: 45 5 lakh pour Bangalore, 2 lakh pour Chennai
Pune: 35Pune: 35
Chennai: 38Chennai: 40
Bangalore: 43 2 lakh pour Bangalore, 5 lakh pour, Pune2 lakh pour Chennai,
Pune: 30
Chennai: 45

Il est important de noter que la quantité d'écart n'a pas d'importance, ce qui importe ici, c'est de savoir si la valeur prédite par notre modèle est bonne ou mauvaise. Les fonctions de perte sont différentes en fonction de votre énoncé de problème auquel l'apprentissage automatique est appliqué. La fonction de coût est un autre terme, qui est utilisé de manière interchangeable pour la fonction de perte, mais il a une signification légèrement différente. Une fonction de perte est pour un seul exemple de formation tandis que la fonction de coût est la perte moyenne sur l'ensemble de données de train complet.

Types de fonctions de perte dans l'apprentissage automatique

Voici les différents types de fonction de perte dans l'apprentissage automatique qui sont les suivants:

1) Fonctions de perte de régression:

La régression linéaire est un concept fondamental de cette fonction. Les fonctions de perte de régression établissent une relation linéaire entre une variable dépendante (Y) et une variable indépendante (X), c'est pourquoi nous essayons d'ajuster la meilleure ligne dans l'espace sur ces variables.

Y = X0 + X1 + X2 + X3 + X4…. + Xn

X = Variables indépendantes

Y = variable dépendante

  • Perte d'erreur quadratique moyenne:

MSE (erreur L2) mesure la différence quadratique moyenne entre les valeurs réelles et prédites par le modèle. La sortie est un nombre unique associé à un ensemble de valeurs. Notre objectif est de réduire le MSE pour améliorer la précision du modèle.

Considérons l'équation linéaire, y = mx + c, nous pouvons dériver MSE comme:

MSE = 1 / N ∑i = 1 à n (y (i) - (mx (i) + b)) 2

Ici, N est le nombre total de points de données, 1 / N ∑i = 1 à n est la valeur moyenne et y (i) est la valeur réelle et mx (i) + b sa valeur prédite.

  • Perte d'erreur logarithmique quadratique moyenne (MSLE):

MSLE mesure le rapport entre la valeur réelle et la valeur prévue. Il introduit une asymétrie dans la courbe d'erreur. MSLE ne se soucie que des valeurs réelles et prévues de différence en pourcentage. Cela peut être un bon choix en tant que fonction de perte, lorsque nous voulons prédire les prix de vente des maisons, les prix de vente des boulangeries et que les données sont continues.

Ici, la perte peut être calculée comme la moyenne des données observées des différences au carré entre les valeurs réelles et prédites transformées en logarithme, qui peuvent être données comme:

L = 1nn∑i = 1 (log (y (i) +1) −log (y (i) +1)) 2

  • Erreur absolue moyenne (MAE):

MAE calcule la somme des différences absolues entre les variables réelles et prévues. Cela signifie qu'il mesure l'amplitude moyenne des erreurs dans un ensemble de valeurs prédites. L'utilisation de l'erreur quadratique moyenne est plus facile à résoudre, mais l'utilisation de l'erreur absolue est plus robuste aux valeurs aberrantes. Les valeurs aberrantes sont ces valeurs, qui s'écartent extrêmement des autres points de données observés.

MAE peut être calculé comme suit:

L = 1nn∑i = 1∣∣y (i) - y (i) ∣∣

2) Fonctions de perte de classification binaire:

Ces fonctions de perte sont faites pour mesurer les performances du modèle de classification. En cela, les points de données se voient attribuer l'une des étiquettes, à savoir 0 ou 1. De plus, ils peuvent être classés comme:

  • Entropie croisée binaire

C'est une fonction de perte par défaut pour les problèmes de classification binaire. La perte d'entropie croisée calcule les performances d'un modèle de classification qui donne une sortie d'une valeur de probabilité comprise entre 0 et 1. La perte d'entropie croisée augmente à mesure que la valeur de probabilité prédite s'écarte de l'étiquette réelle.

  • Perte de charnière

La perte de charnière peut être utilisée comme alternative à l'entropie croisée, initialement développée pour être utilisée avec un algorithme de machine à vecteur de support. La perte de charnière fonctionne mieux avec un problème de classification car les valeurs cibles sont dans l'ensemble (-1, 1). Il permet d'affecter plus d'erreurs en cas de différence de signe entre les valeurs réelles et prédites. D'où une meilleure performance que l'entropie croisée.

  • Perte de charnière carrée

Une extension de la perte de charnière, qui calcule simplement le carré du score de perte de charnière. Il réduit la fonction d'erreur et le rend plus facile à utiliser numériquement. Il trouve la limite de classification qui spécifie la marge maximale entre les points de données de différentes classes. La perte de charnière carrée convient parfaitement pour les problèmes de décision OUI OU NON, où l'écart de probabilité n'est pas le problème.

3) Fonctions de perte de classification multi-classes:

La classification multi-classes est les modèles prédictifs dans lesquels les points de données sont affectés à plus de deux classes. Chaque classe se voit attribuer une valeur unique de 0 à (Number_of_classes - 1). Il est fortement recommandé pour les problèmes de classification d'image ou de texte, où un seul papier peut avoir plusieurs sujets.

  • Entropie croisée multi-classes

Dans ce cas, les valeurs cibles sont dans l'ensemble de 0 à n soit (0, 1, 2, 3… n). Il calcule un score qui prend une différence moyenne entre les valeurs de probabilité réelles et prévues et le score est minimisé pour atteindre la meilleure précision possible. L'entropie croisée multi-classes est la fonction de perte par défaut pour les problèmes de classification de texte.

  • Entropie croisée à classes multiples clairsemée

Un processus de codage à chaud rend difficile l'entropie croisée multi-classes pour gérer un grand nombre de points de données. Une entropie croisée clairsemée résout ce problème en effectuant le calcul de l'erreur sans utiliser le codage à chaud.

  • Perte de divergence Kullback Leibler

La perte de divergence KL calcule la divergence entre la distribution de probabilité et la distribution de base et découvre combien d'informations sont perdues en termes de bits. La sortie est une valeur non négative qui spécifie la proximité de deux distributions de probabilité. Pour décrire la divergence KL en termes de vue probabiliste, le rapport de vraisemblance est utilisé.

Dans cet article, dans un premier temps, nous avons compris le fonctionnement des fonctions de perte, puis nous avons exploré une liste complète des fonctions de perte avec des exemples de cas utilisés. Cependant, la comprendre pratiquement est plus bénéfique, alors essayez d'en lire plus et de la mettre en œuvre. Cela clarifiera complètement vos doutes.

Articles recommandés

Ceci est un guide des fonctions de perte dans l'apprentissage automatique. Nous discutons ici comment fonctionnent les fonctions de perte et les types de fonctions de perte dans l'apprentissage automatique. Vous pouvez également consulter les articles suivants pour en savoir plus -

  1. Méthodes d'apprentissage automatique
  2. Introduction à l'apprentissage automatique
  3. Technologies Big Data
  4. Logiciel d'analyse de Big Data
  5. Apprenez les catogories de l'hyperparamètre
  6. Cycle de vie de l'apprentissage automatique | Top 8 étapes