Introduction aux algorithmes de science des données

Une description de haut niveau des algorithmes essentiels utilisés en Data Science. Comme vous le savez déjà, la science des données est un domaine d'étude où les décisions sont prises en fonction des informations que nous obtenons des données au lieu d'approches déterministes classiques basées sur des règles. En règle générale, nous pouvons diviser une tâche d'apprentissage automatique en trois parties

  • Obtention des données et cartographie du problème métier,
  • Appliquer des techniques d'apprentissage automatique et observer la métrique de performance
  • Test et déploiement du modèle

Dans tout ce cycle de vie, nous utilisons différents algorithmes de science des données pour résoudre la tâche à accomplir. Dans cet article, nous diviserons les algorithmes les plus couramment utilisés en fonction de leurs types d'apprentissage et nous en discuterons de haut niveau.

Types d'algorithmes de science des données

Sur la base des méthodologies d'apprentissage, nous pouvons simplement diviser les algorithmes d'apprentissage automatique ou de science des données en les types suivants

  1. Algorithmes supervisés
  2. Algorithmes non supervisés

1. Algorithmes supervisés

Comme son nom l'indique, les algorithmes supervisés sont une classe d'algorithmes d'apprentissage automatique où le modèle est formé avec les données étiquetées. Par exemple, sur la base des données historiques, vous souhaitez prédire qu'un client remboursera un prêt par défaut ou non. Après le prétraitement et l'ingénierie des caractéristiques des données étiquetées, les algorithmes supervisés sont formés sur les données structurées et testés sur un nouveau point de données ou dans ce cas pour prédire un prêteur défaillant. Plongeons-nous dans les algorithmes d'apprentissage automatique supervisé les plus populaires.

  • K voisins les plus proches

K voisins les plus proches (KNN) est l'un des algorithmes d'apprentissage automatique les plus simples mais puissants. Il s'agit d'un algorithme supervisé où la classification est effectuée sur la base de k points de données les plus proches. L'idée derrière KNN est que des points similaires sont regroupés, en mesurant les propriétés des points de données les plus proches, nous pouvons classer un point de données de test. Par exemple, nous résolvons un problème de classification standard où nous voulons prédire qu'un point de données appartient à la classe A ou à la classe B. Soit k = 3, nous allons maintenant tester 3 points de données les plus proches du point de données de test, si deux d'entre eux appartiennent à la classe A, nous déclarerons le point de données de test comme classe A, sinon classe B. La valeur correcte de K est trouvée par validation croisée. Il a une complexité temporelle linéaire et ne peut donc pas être utilisé pour des applications à faible latence.

  • Régression linéaire

La régression linéaire est un algorithme de science des données supervisé.

Production:

La variable est continue. L'idée est de trouver un hyperplan où le nombre maximum de points se trouve dans l'hyperplan. Par exemple, la prévision de la quantité de pluie est un problème de régression standard où la régression linéaire peut être utilisée. La régression linéaire suppose que la relation entre les variables indépendantes et dépendantes est linéaire et qu'il y a très peu ou pas de multicolinéarité.

  • Régression logistique

Bien que le nom indique régression, la régression logistique est un algorithme de classification supervisé.

Production:

L'intuition géométrique est que nous pouvons séparer différentes étiquettes de classe en utilisant une frontière de décision linéaire. La variable de sortie de la régression logistique est catégorique. Veuillez noter que nous ne pouvons pas utiliser l'erreur quadratique moyenne comme fonction de coût pour la régression logistique car elle n'est pas convexe pour la régression logistique.

  • Soutenir la machine vectorielle

En régression logistique, notre devise principale était de trouver une surface linéaire de séparation.

Production:

Nous pouvons considérer la machine à vecteurs de support comme une extension de cette idée où nous devons trouver un hyperplan qui maximise la marge. Mais qu'est-ce qu'une marge?. Pour un vecteur W (la surface de décision que nous devons trouver), nous dessinons deux lignes parallèles des deux côtés. La distance entre ces deux lignes s'appelle la marge. SVM suppose que les données sont linéairement séparables. Bien que nous puissions utiliser SVM pour des données non linéaires, nous utilisons également l'astuce du noyau.

  • Arbre de décision

L'arbre de décision est un classificateur basé sur If-Else imbriqué qui utilise une structure de graphique en forme d'arbre pour prendre la décision. Les arbres de décision sont très populaires et l'un des algorithmes d'apprentissage automatique supervisé les plus utilisés dans tout le domaine de la science des données. Il offre une meilleure stabilité et précision dans la plupart des cas comparativement à d'autres algorithmes supervisés et robuste aux valeurs aberrantes. La variable de sortie de l'arbre de décision est généralement catégorielle mais elle peut également être utilisée pour résoudre des problèmes de régression.

  • Ensembles

Les ensembles sont une catégorie populaire d'algorithmes de science des données où plusieurs modèles sont utilisés ensemble pour obtenir de meilleures performances. Si vous connaissez Kaggle (une plate-forme de google pour pratiquer et concourir dans les défis de la science des données), vous constaterez que la plupart des solutions gagnantes utilisent une sorte d'ensembles.

Nous pouvons à peu près diviser les ensembles dans les catégories suivantes

  • Ensachage
  • Booster
  • Empilage
  • En cascade

Random Forest, Gradient Boosting Decision Trees sont des exemples d'algorithmes d'ensemble populaires.

2. Algorithmes non supervisés

Des algorithmes non supervisés sont utilisés pour les tâches où les données ne sont pas étiquetées. Le cas d'utilisation le plus courant des algorithmes non supervisés est le clustering. Le clustering consiste à regrouper des points de données similaires sans intervention manuelle. Discutons ici de certains des algorithmes d'apprentissage automatique non supervisés populaires

  • K signifie

K Means est un algorithme aléatoire non supervisé utilisé pour le clustering.K Means suit les étapes ci-dessous

1. initialiser K points au hasard (c1, c2..ck)

2. Pour chaque point (Xi) de l'ensemble de données

Sélectionnez Ci (i = 1, 2, 3..k) le plus proche

Ajouter Xi à Ci

3. Recalculez le centroïde en utilisant des mesures appropriées (c.-à-d. Distance intracluster)

4, répétez l'étape (2) (3) jusqu'à ce que converge

  • K signifie ++

L'étape d'initialisation dans K moyennes est purement aléatoire et basée sur l'initialisation, le clustering change radicalement. K signifie que ++ résout ce problème en initialisant k de manière probabiliste au lieu d'une randomisation pure. K signifie que ++ est plus stable que K classique.

  • K Medoids:

K medoids est également un algorithme de clustering basé sur K moyennes. La principale différence entre les deux est que les centroïdes de K moyennes n'existent pas nécessairement dans l'ensemble de données, ce qui n'est pas le cas pour K médoïdes. Les médoïdes K offrent une meilleure interprétabilité des grappes. K signifie minimise l'erreur quadratique totale tandis que K médoïdes minimisent la dissimilarité entre les points.

Conclusion

Dans cet article, nous avons discuté des algorithmes d'apprentissage automatique les plus populaires utilisés dans le domaine de la science des données. Après tout cela, une question peut vous venir à l'esprit: « Quel algorithme est le meilleur? « Il n'y a manifestement pas de gagnant ici. Cela dépend uniquement de la tâche à accomplir et des besoins de l'entreprise. Comme meilleure pratique commence toujours par l'algorithme le plus simple et augmente progressivement la complexité.

Articles recommandés

Cela a été un guide pour les algorithmes de science des données. Ici, nous avons discuté d'un aperçu des algorithmes de science des données et de deux types d'algorithmes de science des données. Vous pouvez également parcourir nos articles pour en savoir plus-

  1. Plateforme de science des données
  2. Langages de science des données
  3. Algorithmes de classification
  4. Algorithmes d'exploration de données
  5. Techniques d'apprentissage en ensemble les plus utilisées
  6. Façons simples de créer un arbre de décision
  7. Guide complet du cycle de vie de la science des données

Catégorie: