Présentation de l'apprentissage automatique hyperparamètre

Pour tout modèle, nous avons besoin de certains paramètres, ce qui aide à fournir une base pour la solution du problème / analyse et évaluation du modèle. Certains de ces paramètres doivent être tirés des données et d'autres que nous devons définir de manière explicite. Les paramètres qui peuvent être appris à partir des données sans être définis explicitement sont appelés paramètres de modèle. Le paramètre défini explicitement par l'utilisateur est appelé Hyperparamètres. Les hyperparamètres sont également des paramètres du modèle uniquement, mais le terme hyperparamètres est utilisé dans l'apprentissage automatique afin de les distinguer facilement et de ne pas les confondre avec les paramètres du modèle qui sont appris à partir de l'ensemble de données.

Qu'est-ce que l'apprentissage automatique hyperparamètre?

Pour la plupart des cadres de l'apprentissage automatique, les hyperparamètres n'ont pas de définition rigoureuse. Ces hyperparamètres régissent le système sous-jacent d'un modèle qui guide les paramètres primaires (modaux) du modèle. Essayons de comprendre les hyperparamètres avec l'exemple suivant.

  • Accorder votre violon est très crucial lorsque l'on est au stade de l'apprentissage, car à ce moment-là, on crée des liens entre différents sens. Les oreilles, les doigts et les yeux apprennent tous le violon en même temps. Maintenant Au début, s'habituer au son du violon hors son crée un mauvais goût du son, ce qui gâchera toute l'expérience de tomber amoureux du processus d'apprentissage du violon.
  • C'est pourquoi l'accordage du violon peut vraiment aider quelqu'un dans le processus d'apprentissage du violon. De la même manière, l'hyperparamètre est une sorte de réglage du modèle Machine Learning pour donner la bonne direction.
  • Les hyperparamètres sont généralement définis avant d'appliquer un algorithme d'apprentissage automatique à un ensemble de données.
  • Maintenant, la tâche suivante est ce qui devrait être l'hyperparamètre et quelle devrait être sa valeur. Parce qu'il faut savoir quelles cordes doivent être accordées et comment accorder le violon avant de l'accorder. La même chose s'applique aux hyperparamètres, nous devons définir quels hyperparamètres et quelle devrait être sa valeur, fondamentalement cela dépend de chaque tâche et de chaque ensemble de données.
  • Pour comprendre cela, prenons la perspective de l'optimisation du modèle.
  • Dans la mise en œuvre du modèle d'apprentissage automatique, l'optimisation du modèle joue un rôle essentiel. Il existe un bon nombre de branches de l'apprentissage automatique qui sont uniquement dédiées à l'optimisation du modèle d'apprentissage automatique. Il est généralement perçu que pour optimiser le modèle, nous devons modifier le code afin que l'erreur puisse être minimisée.
  • Cependant, il existe des éléments cachés qui affectent l'optimisation de l'apprentissage automatique en dehors du modèle et ont une grande influence sur le comportement du modèle. Ces éléments cachés sont appelés hyperparamètres, ce sont des composants essentiels pour l'optimisation de tout modèle d'apprentissage automatique.
  • Les hyperparamètres sont des réglages / réglages fins qui contrôlent le comportement d'un modèle. Ces hyperparamètres sont définis en dehors du modèle mais ont une relation directe avec les performances du modèle. Les hyperparamètres peuvent être considérés comme orthogonaux au modèle.
  • Les critères de définition d'un hyperparamètre sont très flexibles et abstraits. Il y a sûrement des hyperparamètres comme le nombre de couches cachées, le taux d'apprentissage d'un modèle qui sont bien établis et aussi certains paramètres qui peuvent être traités comme hyperparamètres pour un modèle spécifique, comme le contrôle de la capacité du modèle.
  • Il y a des chances que l'algorithme ajuste un modèle si les algorithmes apprennent directement via les paramètres. Comme il est clair que les hyperparamètres ne sont pas appris / réglés par le biais de l'ensemble d'apprentissage, un ensemble de test ou de validation est utilisé pour la sélection des hyperparamètres. À Broadway, nous définissons différentes valeurs d'hyperparamètre, celle qui fonctionne le mieux avec un ensemble de test ou de validation est considérée comme notre meilleur hyperparamètre.

Catégories d'hyperparamètre

Pour différents types d'ensembles de données et selon le modèle, nous pouvons avoir différents hyperparamètres pour augmenter les performances du modèle. Globalement, les hyperparamètres peuvent être classés en deux catégories.

  • Hyperparamètre pour l'optimisation
  • Hyperparamètres pour des modèles spécifiques

Discutons chacun de ces derniers.

1. Hyperparamètres d'optimisation

Comme son nom l'indique, ces hyperparamètres sont utilisés pour l'optimisation du modèle.

  • Taux d'apprentissage

Cet hyperparamètre détermine dans quelle mesure les nouvelles données acquises remplaceront les anciennes données disponibles. Si la valeur de cet hyperparamètre est élevée, un taux d'apprentissage plus élevé n'optimisera pas correctement le modèle car il y a des chances qu'il saute par-dessus les minima. D'un autre côté, si le taux d'apprentissage est très inférieur, la convergence sera très lente.

Le taux d'apprentissage joue un rôle crucial dans l'optimisation des performances du modèle car dans certains cas les modèles ont des centaines de paramètres (paramètres du modèle) avec courbe d'erreur, le taux d'apprentissage décidera de la fréquence de recoupement avec tous les paramètres. De plus, il est difficile de trouver les minima locaux des courbes d'erreur car elles ont généralement des courbes irrégulières.

  • Taille du lot

Pour accélérer le processus d'apprentissage, l'ensemble d'entraînement est divisé en différents lots. Dans le cas d'une procédure stochastique de formation du modèle, un petit lot est formé, évalué et rétropropagé afin d'ajuster les valeurs de tous vos hyperparamètres, cette même opération est répétée pour l'ensemble de la formation.

Si la taille du lot est supérieure à celle-ci, cela augmentera le temps d'apprentissage et nécessitera plus de mémoire pour traiter la multiplication matricielle. Si la taille du lot est inférieure à, il y aura plus de bruit dans le calcul d'erreur.

  • Nombre d'époques

Epoch représente un cycle complet d'apprentissage des données dans le Machine Learning. Les époques jouent un rôle très important dans le processus d'apprentissage itératif.

Une erreur de validation est considérée pour déterminer le bon nombre d'époques. On peut augmenter le nombre d'époques tant qu'il y a réduction d'une erreur de validation. Si l'erreur de validation ne s'améliore pas pour des époques consécutives, alors c'est un signal pour arrêter un nombre croissant d'époques. Il est également connu comme un arrêt précoce.

2. Hyperparamètres pour des modèles spécifiques

Certains hyperparamètres interviennent dans la structure du modèle lui-même. Certains d'entre eux sont les suivants.

  • Nombre d'unités cachées

Il est essentiel de définir un certain nombre d'unités cachées pour les réseaux de neurones dans les modèles d'apprentissage profond. Cet hyperparamètre est utilisé pour définir la capacité d'apprentissage du modèle. pour les fonctions complexes, nous devons définir un certain nombre d'unités cachées, mais gardez à l'esprit qu'il ne doit pas surcharger le modèle.

  • Nombre de couches

Il est évident qu'un réseau neuronal à 3 couches donnera de meilleures performances que celui de 2 couches. Augmenter plus de 3 n'aide pas beaucoup dans les réseaux de neurones. Dans le cas de CNN, un nombre croissant de couches améliore le modèle.

Conclusion

Les hyper-paramètres sont définis explicitement avant d'appliquer un algorithme d'apprentissage automatique à un ensemble de données. Les hyperparamètres sont utilisés pour définir la complexité de plus haut niveau du modèle et la capacité d'apprentissage. Les hyperparamètres peuvent également être des paramètres pour le modèle. Certains hyperparamètres sont définis pour l'optimisation des modèles (taille de lot, taux d'apprentissage, etc.) et certains sont spécifiques aux modèles (nombre de couches cachées, etc.).

Articles recommandés

Ceci est un guide de l'apprentissage automatique hyperparamètre. Nous discutons ici de l'aperçu et de ce qu'est l'apprentissage automatique hyperparamètre avec ses catégories. Vous pouvez également consulter les articles suivants pour en savoir plus -

  1. Introduction à l'apprentissage automatique
  2. Apprentissage automatique non supervisé
  3. Types d'algorithmes d'apprentissage automatique
  4. Applications de l'apprentissage automatique
  5. Implémentation de réseaux de neurones
  6. Top 6 des comparaisons entre CNN et RNN

Catégorie: