Introduction aux méthodes de clustering
Cet article présente un aperçu des différentes méthodes de clustering utilisées dans les techniques d'exploration de données avec différents principes. Le clustering est un ensemble d'objets de données organisés en un groupement logique différent. Regroupement d'éléments de données similaires et affectation d'éléments de données similaires dans des clusters individuels. Le clustering est effectué dans de grands ensembles de données pour un apprentissage non supervisé. Pendant cela, nous effectuons une partition sur l'ensemble des données en groupes. La structure du clustering est représentée comme suit avec des sous-ensembles. C = c1, c2… c n . Comme les groupes de regroupement ont des objets similaires, certaines mesures doivent être prises dans les méthodes de regroupement pour déterminer les mesures de distance et de similitude. Les méthodes de clustering sont basées sur des modèles probabilistes. L'exploration de données nécessite un clustering pour l'évolutivité afin de gérer les bases de données élevées, de gérer l'espace multidimensionnel, de traiter les données et le bruit erronés.
Expliquez les méthodes de clustering?
Cette méthode de regroupement permet de regrouper des données précieuses en grappes et de choisir des résultats appropriés en fonction de différentes techniques. Par exemple, dans la récupération d'informations, les résultats de la requête sont regroupés en petits clusters et chaque cluster a des résultats non pertinents. Par les techniques de clustering, elles sont regroupées en catégories similaires et chaque catégorie est subdivisée en sous-catégories pour faciliter l'exploration de la sortie des requêtes. Il existe différents types de méthodes de clustering, ils sont
- Méthodes hiérarchiques
- Méthodes de partitionnement
- Basé sur la densité
- Clustering basé sur un modèle
- Modèle basé sur une grille
Voici un aperçu des techniques utilisées dans l'exploration de données et l'intelligence artificielle.
1. Méthode hiérarchique
Cette méthode crée un cluster en partitionnant de manière descendante et ascendante. Ces deux approches produisent des dendrogrammes qui font la connectivité entre elles. Le dendrogramme est un format arborescent qui conserve la séquence des clusters fusionnés. Les méthodes hiérarchiques produisent plusieurs partitions en fonction des niveaux de similitude. Ils sont divisés en groupement hiérarchique agglomératif et en cluster hiérarchique diviseur. Ici, une arborescence de clusters est créée à l'aide de techniques de fusion. Pour le processus de division diviseur est utilisé, la fusion utilise l'agglomération. Le regroupement agglomératif implique:
- Dans un premier temps, prendre tous les points de données et les considérer comme des clusters individuels commence de manière descendante. Ces grappes sont fusionnées jusqu'à ce que nous obtenions les résultats souhaités.
- Les deux clusters similaires suivants sont regroupés pour former un énorme cluster unique.
- Calculer à nouveau la proximité dans l'énorme cluster et fusionner les clusters similaires.
- La dernière étape consiste à fusionner tous les clusters produits à chaque étape pour former un seul cluster final.
2. Méthode de partitionnement:
Le principal objectif de la partition est la relocalisation. Ils déplacent les partitions en passant d'un cluster à un autre, ce qui crée un partitionnement initial. Il divise les «n» objets de données en «k» nombre de grappes. Cette méthode partitionnelle est préférée à un modèle hiérarchique en reconnaissance de formes. Les critères suivants sont définis pour satisfaire les techniques:
- Chaque cluster doit avoir un objet.
- Chaque objet de données appartient à un seul cluster.
Les techniques de partition les plus utilisées sont l'algorithme K-mean. Ils se divisent en grappes en «K» représentées par des centroïdes. Chaque centre de cluster est calculé comme la moyenne de ce cluster et la fonction R visualise le résultat. Cet algorithme comprend les étapes suivantes:
- Sélection de K objets au hasard dans l'ensemble de données et forme les centres initiaux (centroïdes)
- Assigner ensuite la distance euclidienne entre les objets et le centre moyen.
- Attribution d'une valeur moyenne pour chaque cluster individuel.
- Étapes de mise à jour du centroïde pour chaque «k» cluster.
3. Modèle de densité:
Dans ce modèle, les grappes sont définies en localisant des régions de densité plus élevée dans une grappe. Le principe principal derrière eux se concentre sur deux paramètres: le rayon maximum du voisinage et le nombre minimum de points. Le modèle basé sur la densité identifie des grappes de formes et de bruit différents. Il fonctionne en détectant des modèles en estimant l'emplacement spatial et la distance par rapport à la méthode du voisin utilisée ici est DBSCAN (Densité-based spatial clustering) qui donne des mains pour de grandes bases de données spatiales. Utilisation de trois points de données pour le regroupement, à savoir les points centraux, les points frontières et les valeurs aberrantes. L'objectif principal est d'identifier les clusters et leurs paramètres de distribution. Le processus de clustering est arrêté avec le besoin de paramètres de densité. Pour trouver les clusters, il est important d'avoir un paramètre Fonctionnalités minimales par cluster dans le calcul de la distance centrale. Les trois différents outils fournis par ce modèle sont DBSCAN, HDBSCAN, Multi-scale.
4. Clustering basé sur un modèle
Ce modèle combine deux ou trois clusters ensemble à partir de la distribution des données. L'idée de base derrière ce modèle est qu'il est nécessaire de diviser les données en deux groupes sur la base du modèle de probabilité (distributions normales multivariées). Ici, chaque groupe est affecté en tant que concepts ou classe. Chaque composant est défini par une fonction de densité. Pour trouver le paramètre dans ce modèle, l'estimation du maximum de vraisemblance est utilisée pour l'ajustement de la distribution du mélange. Chaque groupe «K» est modélisé par la distribution gaussienne avec un vecteur moyen µ k à deux paramètres et un vecteur de covariance £ k .
5. Modèle basé sur une grille
Dans cette approche, les objets sont considérés comme un espace piloté par le partitionnement de l'espace en un nombre fini de cellules pour former une grille. À l'aide de la grille, la technique de clustering est appliquée pour un traitement plus rapide qui dépend généralement des cellules et non des objets. Les étapes impliquées sont:
- Création d'une structure de grille
- La densité cellulaire est calculée pour chaque cellule
- Appliquer un mécanisme de tri à leurs densités.
- Recherche de centres de cluster et traversée sur les cellules voisines pour répéter le processus.
Importance des méthodes de clustering
- Le fait d'avoir des méthodes de clustering permet de redémarrer la procédure de recherche locale et d'éliminer l'inefficacité. Le clustering permet de déterminer la structure interne des données.
- Cette analyse de clustering a été utilisée pour l'analyse de modèles, région d'attraction vectorielle.
- Le clustering permet de comprendre le regroupement naturel dans un ensemble de données. Leur objectif est de donner un sens à la partition des données en un groupe de regroupements logiques.
- La qualité du clustering dépend des méthodes et de l'identification des modèles cachés.
- Ils jouent un rôle important dans des applications telles que la recherche économique en marketing, les blogs pour identifier les modèles de mesures de similitude, le traitement d'image, la recherche spatiale.
- Ils sont utilisés dans les détections de valeurs aberrantes pour détecter la fraude par carte de crédit.
Conclusion
Le regroupement est considéré comme une tâche générale pour résoudre le problème qui formule le problème d'optimisation. Il joue un rôle clé dans le domaine de l'exploration et de l'analyse de données. Nous avons vu différentes méthodes de regroupement qui divisent l'ensemble de données en fonction des exigences. La plupart des recherches sont basées sur des techniques traditionnelles comme les K-means et les modèles hiérarchiques. Les zones de grappes sont appliquées dans des états de haute dimension qui formeront un futur champ de chercheurs.
Article recommandé
Cela a été un guide pour les méthodes de clustering. Ici, nous avons discuté du concept, de l'importance et des techniques des méthodes de clustering. Vous pouvez également consulter nos autres articles suggérés pour en savoir plus -
- Qu'est-ce que l'ETL?
- Qu'est-ce que la science des données
- Qu'est-ce que Teradata?
- Les 6 meilleures alternatives AWS
- Clustering dans l'apprentissage automatique
- Régression multivariée
- Regroupement hiérarchique | Clustering Agglomératif & Diviseur