Introduction aux algorithmes de classification

Cet article sur les algorithmes de classification donne un aperçu des différentes méthodes de classification couramment utilisées dans les techniques d'exploration de données avec différents principes. La classification est une technique qui classe les données en un nombre distinct de classes et, à son tour, des étiquettes sont attribuées à chaque classe. L'objectif principal de la classification est d'identifier la classe pour lancer de nouvelles données en analysant l'ensemble de formation en voyant les limites appropriées. D'une manière générale, la prédiction de la classe cible et du processus ci-dessus est appelée classification.

Par exemple, la direction de l'hôpital enregistre le nom du patient, son adresse, son âge, ses antécédents de santé pour les diagnostiquer, cela permet de classer les patients. Ils peuvent être caractérisés en deux phases: une phase d'apprentissage et une phase d'évaluation. La phase d'apprentissage modélise la base d'approche et les données de formation tandis que la phase d'évaluation prédit la sortie pour les données données. Nous pourrions trouver leurs applications dans le courrier électronique indésirable, la prédiction de prêts bancaires, la reconnaissance vocale, l'analyse des sentiments. La technique comprend la fonction mathématique f avec l'entrée X et la sortie Y.

Expliquer les algorithmes de classification en détail

La classification peut être effectuée sur des données structurées et non structurées. La classification peut être classée en

  1. Classificateur Naive Bayes
  2. Arbres de décision
  3. Soutenir la machine vectorielle
  4. Forêt aléatoire
  5. K- Voisins les plus proches

1) Classificateur Naive Bayes

C'est un algorithme basé sur le théorème de Bayes, l'une des classifications statistiques et nécessite quelques quantités de données d'apprentissage pour estimer les paramètres également connus sous le nom de classificateurs probabilistes. Il est considéré comme le classificateur le plus rapide, hautement évolutif et gère à la fois les données discrètes et continues. Cet algorithme permet de faire une prédiction en temps réel. Il existe différents types de classificateurs naïfs, les Bayes naïfs multinomiaux, les Bayes naïfs de Bernoulli, les naïfs gaussiens.

La classification bayésienne avec probabilités postérieures est donnée par

Où A, B sont des événements, P (A | B) - Probabilités postérieures.

Si deux valeurs sont indépendantes l'une de l'autre,

P (A, B) = P (A) P (B)

Naïve Bayes peut être construit en utilisant la bibliothèque python. Les prédicteurs de Naïve sont indépendants, bien qu'ils soient utilisés dans les systèmes de recommandation. Ils sont utilisés dans de nombreuses applications en temps réel et utilisés en toute connaissance de cause dans la classification des documents.

Avantages:

Les avantages sont qu'ils nécessitent une puissance de calcul très inférieure, supposée dans les problèmes de prédiction de plusieurs classes, fonctionnent avec précision sur de grands ensembles de données.

Désavantage:

Le principal inconvénient de ce classificateur est qu'il n'attribuera aucune probabilité. Et ils ont des fonctionnalités indépendantes les unes des autres.

2) Arbre de décision

Il s'agit d'un modèle d'approche descendante dont la structure de l'organigramme gère les données de grande dimension. Les résultats sont prédits en fonction de la variable d'entrée donnée. Arbre de décision composé des éléments suivants: Une racine, plusieurs nœuds, branches, feuilles. Le nœud racine effectue la partition en fonction de la valeur d'attribut de la classe, le nœud interne prend un attribut pour une classification supplémentaire, les branches prennent une règle de décision pour diviser les nœuds en nœuds feuilles, enfin, les nœuds feuilles nous donnent le résultat final. La complexité temporelle de l'arbre de décision dépend du nombre d'enregistrements, des attributs des données d'apprentissage. Si l'arbre de décision est trop long, il est difficile d'obtenir les résultats souhaités.

Avantage: ils sont appliqués pour l'analyse prédictive pour résoudre les problèmes et utilisés dans les activités quotidiennes pour choisir la cible en fonction de l'analyse des décisions. Génère automatiquement un modèle basé sur les données source. Meilleur dans la gestion des valeurs manquantes.

Inconvénient: la taille de l'arbre est incontrôlable jusqu'à ce qu'il ait des critères d'arrêt. En raison de leur structure hiérarchique, l'arbre est instable.

3) Soutenir la machine vectorielle

Cet algorithme joue un rôle vital dans les problèmes de classification et le plus couramment un algorithme supervisé d'apprentissage automatique. C'est un outil important utilisé par le chercheur et le data scientist. Ce SVM est très facile et son processus consiste à trouver un hyperplan dans un point de données spatiales à N dimensions. Les hyperplans sont des limites de décision qui classent les points de données. Tout ce vecteur se rapproche de l'hyperplan, maximise la marge du classifieur. Si la marge est maximale, la plus faible est l'erreur de généralisation. Leur implémentation peut se faire avec le noyau en utilisant python avec certains jeux de données d'apprentissage. L'objectif principal du SVM est de former un objet à une classification particulière. SVM n'est pas limité pour devenir un classificateur linéaire. SVM est préféré à tout autre modèle de classification en raison de leur fonction de noyau qui améliore l'efficacité de calcul.

Avantage: ils sont hautement préférables pour leur puissance de calcul moindre et leur précision efficace. Efficace dans un espace dimensionnel élevé, bonne efficacité de la mémoire.

Inconvénient: limitations de vitesse, de noyau et de taille

4) Forêt aléatoire

Il s'agit d'un puissant algorithme d'apprentissage automatique basé sur l'approche d'apprentissage Ensemble. L'élément de base de la forêt aléatoire est l'arbre de décision utilisé pour construire des modèles prédictifs. La démonstration de travail comprend la création d'une forêt d'arbres de décision aléatoires et le processus d'élagage est effectué en définissant un fractionnement d'arrêt pour donner un meilleur résultat. La forêt aléatoire est mise en œuvre en utilisant une technique appelée ensachage pour la prise de décision. Cette mise en sac empêche le sur-ajustement des données en réduisant le biais de la même manière, ce hasard peut obtenir une meilleure précision. Une prédiction finale est prise par une moyenne de nombreux arbres de décision, à savoir des prédictions fréquentes. La forêt aléatoire comprend de nombreux cas d'utilisation comme les prédictions boursières, la détection de la fraude, les prédictions de News.

Avantages:

  • Ne nécessite aucun gros traitement pour traiter les ensembles de données et un modèle très facile à construire. Fournit une plus grande précision aide à résoudre les problèmes prédictifs.
  • Fonctionne bien dans la gestion des valeurs manquantes et détecte automatiquement une valeur aberrante.

Désavantage:

  • Nécessite un coût de calcul élevé et une mémoire élevée.
  • Nécessite beaucoup plus de temps.

5) K- Voisins les plus proches

Ici, nous allons discuter de l'algorithme K-NN avec apprentissage supervisé pour CART. Ils utilisent K petit entier positif; un objet est assigné à la classe en fonction des voisins ou nous dirons assigner un groupe en observant dans quel groupe se trouve le voisin. Ceci est choisi par la mesure de distance, la distance euclidienne et une force brute. La valeur de K peut être trouvée en utilisant le processus de réglage. KNN ne préfère pas apprendre de modèle pour former un nouvel ensemble de données et utiliser la normalisation pour redimensionner les données.

Avantage: Produit des résultats efficaces si les données d'entraînement sont énormes.

Inconvénient: le plus gros problème est que si la variable est petite, elle fonctionne bien. Deuxièmement, choisir le facteur K lors de la classification.

Conclusion

En conclusion, nous avons passé en revue les capacités de différents algorithmes de classification qui agissent toujours comme un outil puissant dans l'ingénierie des fonctionnalités, la classification d'images qui joue un grand rôle dans l'apprentissage automatique. Les algorithmes de classification sont des algorithmes puissants qui résolvent les problèmes difficiles.

Articles recommandés

Ceci est un guide des algorithmes de classification dans l'apprentissage automatique. Nous discutons ici que la classification peut être effectuée sur des données structurées et non structurées. Vous pouvez également consulter nos autres articles suggérés -

  1. Algorithmes de routage
  2. Algorithme de clustering
  3. Processus d'exploration de données
  4. Algorithmes d'apprentissage automatique
  5. Techniques d'apprentissage en ensemble les plus utilisées
  6. Algorithme C ++ | Exemples d'algorithme C ++

Catégorie: