Introduction aux réseaux de neurones convolutifs

Les réseaux de neurones convolutifs, également appelés CNN ou ConvNet, entrent dans la catégorie des réseaux de neurones artificiels utilisés pour le traitement et la visualisation d'images. L'intelligence artificielle utilise l'apprentissage en profondeur pour effectuer la tâche. Les réseaux de neurones sont soit du matériel, soit des logiciels programmés comme neurones dans le cerveau humain. Le réseau neuronal traditionnel ne prend en entrée que des images de résolution réduite. CNN résout ce problème en disposant leurs neurones comme le lobe frontal du cerveau humain. Le pré-traitement sur CNN est très inférieur par rapport à d'autres algorithmes. Convolution, une opération mathématique linéaire est utilisée sur CNN. Il utilise la convolution au lieu de la multiplication matricielle générale dans l'une de ses couches.

Couches dans les réseaux de neurones convolutifs

Voici les couches de réseaux de neurones convolutifs:

1. Couche d'entrée d'image

La couche d'entrée donne des entrées (principalement des images) et la normalisation est effectuée. La taille d'entrée doit être mentionnée ici.

2. Couche convolutionnelle

La convolution est effectuée dans cette couche et l'image est divisée en perceptrons (algorithme), des champs locaux sont créés, ce qui conduit à la compression des perceptrons pour présenter les cartes comme une matrice de taille mx n.

3. Couche de non-linéarité

Ici, les cartes d'entités sont prises en entrée et les cartes d'activation sont données en sortie à l'aide de la fonction d'activation. La fonction d'activation est généralement implémentée en tant que fonctions tangentes sigmoïdes ou hyperboliques.

4. Couche de rectification

Composante cruciale de CNN, cette couche effectue l'entraînement plus rapidement sans réduire la précision. Il effectue une opération de valeur absolue élément par élément sur les cartes d'activation.

5. Unités linéaires rectifiées (ReLU)

ReLU combine des couches non linéaires et de rectification sur CNN. Cela fait l'opération de seuil où les valeurs négatives sont converties à zéro. Cependant, ReLU ne change pas la taille de l'entrée.

6. Couche de mise en commun

La couche de regroupement est également appelée couche de sous-échantillonnage car elle est responsable de la réduction de la taille des cartes d'activation. Un filtre et une foulée de même longueur sont appliqués au volume d'entrée. Les données moins importantes sont ignorées par cette couche, la reconnaissance d'image se fait donc dans une représentation plus petite. Cette couche réduit le sur-ajustement. Étant donné que la quantité de paramètres est réduite à l'aide de la couche de mise en commun, le coût est également réduit. L'entrée est divisée en régions de regroupement rectangulaires et le maximum ou la moyenne est calculé, ce qui renvoie le maximum ou la moyenne en conséquence. Max Pooling est populaire.

7. Couche d'abandon

Cette couche met au hasard la couche d'entrée à zéro avec une probabilité donnée. Plus de résultats dans différents éléments sont supprimés après cette opération. Cette couche contribue également à réduire le sur-ajustement. Cela rend le réseau redondant. Aucun apprentissage ne se produit dans cette couche. Cette opération n'est effectuée que pendant la formation.

8. Couche entièrement connectée

Les cartes d'activation, qui sont la sortie des couches précédentes, sont transformées en une distribution de probabilité de classe dans cette couche. La couche FC multiplie l'entrée par une matrice de poids et ajoute le vecteur de biais.

9. Couche de sortie

La couche FC est suivie par les couches softmax et de classification. La fonction softmax est appliquée à l'entrée. La couche de classification calcule la fonction d'entropie croisée et de perte pour les problèmes de classification.

10. Couche de régression

Une erreur quadratique moyenne est calculée dans cette couche. Cette couche doit suivre la couche FC.

Architecture du réseau neuronal convolutif

Voici l'architecture des réseaux de neurones convolutifs:

1. LeNet

LeNet a été introduit pour la reconnaissance optique et de caractères dans les documents en 1998. Il est petit et parfait pour fonctionner dans le CPU. LeNet est petit et facile à saisir. Il repose sur trois idées principales: les champs récepteurs locaux, les poids partagés et le sous-échantillonnage spatial. Le réseau présente la meilleure représentation interne des images brutes. Il a trois couches convolutives, deux couches de mise en commun, une couche entièrement connectée et une couche de sortie. Une couche convolutionnelle a été immédiatement suivie de la couche de regroupement. Toutes les couches sont expliquées ci-dessus.

2. AlexNet

AlexNet a été développé en 2012. Cette architecture a popularisé CNN en vision par ordinateur. Il a cinq couches convolutives et trois couches entièrement connectées où ReLU est appliqué après chaque couche. Elle prend les avantages des deux couches car une couche convolutionnelle a peu de paramètres et un long calcul et c'est le contraire pour une couche entièrement connectée. Le sur-ajustement a été très réduit par l'augmentation et l'abandon des données. AlexNet était plus profond, plus gros et les couches convolutives ne sont pas séparées par une couche de mise en commun par rapport à LeNet.

3. ZF Net

ZF Net a été développé en 2013 qui était une version modifiée d'AlexNet. La taille de la couche convolutionnelle moyenne a été étendue et la taille de la foulée et du filtre de la première couche convolutionnelle a été réduite. Il vient de reconnaître les lacunes d'AlexNet et en a développé un supérieur. Toutes les couches sont les mêmes que celles d'AlexNet. ZF Net ajuste les paramètres de couche tels que la taille du filtre ou la foulée de l'AlexNet, ce qui lui permet de réduire les taux d'erreur.

4. GoogLeNet

Cette architecture a été développée en 2014. La couche de démarrage est le concept central. Cette couche couvre la plus grande zone mais prend note des petites informations de l'image. Pour améliorer les performances, neuf modules de démarrage sont utilisés dans GoogLeNet. Étant donné que la couche de démarrage est sujette au sur-ajustement, plus de non-linéarités et moins de paramètres sont utilisés ici. La couche de regroupement maximale est utilisée pour concaténer la sortie de la couche précédente. Cette architecture a 22 couches et les paramètres sont 12 fois moins. C'est plus précis qu'AlexNet, plus rapide aussi. Le taux d'erreur est comparativement plus faible. La couche de regroupement moyenne est utilisée à la fin au lieu d'une couche entièrement connectée. Le calcul est réduit, la profondeur et la largeur sont augmentées. De nombreux modules de démarrage sont connectés pour approfondir l'architecture. GoogLeNet a surpassé toutes les autres architectures développées jusqu'en 2014. Plusieurs versions de suivi sont disponibles pour cette architecture.

5. VGG Net

Il s'agissait d'une amélioration par rapport à ZFNet et par la suite à AlexNet. Il a 16 couches avec 3 × 3 couches convolutionnelles, 2 × 2 couches de mise en commun et des couches entièrement connectées. Cette architecture adopte la structure de réseau la plus simple mais elle possède la plupart des paramètres.

6. ResNet

L'architecture du réseau résiduel a été développée en 2015. Elle utilise la normalisation par lots et ignore l'utilisation des couches FC. Cette architecture utilise 152 couches et utilise des connexions de saut. ResNet est principalement utilisé dans tous les algorithmes d'apprentissage en profondeur maintenant.

Conclusion

Facebook utilise CNN pour le balisage d'images, Amazon pour les recommandations de produits et Google pour rechercher parmi les photos des utilisateurs. Tout cela est fait avec plus de précision et d'efficacité. L'avancement de l'apprentissage en profondeur a atteint un stade où CNN a été développé et aide à bien des égards. Au fur et à mesure que CNN se complique, il contribue à améliorer l'efficacité.

Article recommandé

Ceci est un guide des réseaux de neurones convolutifs. Ici, nous discutons Introduction aux réseaux de neurones convolutifs et ses couches avec l'architecture. Vous pouvez également consulter nos autres articles suggérés pour en savoir plus -

  1. Classification du réseau neuronal
  2. Apprentissage automatique vs réseau neuronal
  3. Présentation des algorithmes de réseau neuronal
  4. Réseaux de neurones récurrents (RNN)
  5. Implémentation de réseaux de neurones
  6. Top 6 des comparaisons entre CNN et RNN

Catégorie: