Qu'est-ce que l'analyse de cluster
L'analyse en grappes regroupe les données en fonction des caractéristiques qu'elles possèdent. L'analyse de cluster regroupe les objets en fonction des facteurs qui les rendent similaires. L'analyse de cluster est autrement appelée analyse de segmentation ou analyse de taxonomie. L'analyse en grappes ne différencie pas les variables dépendantes et indépendantes. L'analyse en grappes est utilisée dans une grande variété de domaines tels que la psychologie, la biologie, les statistiques, l'exploration de données, la reconnaissance de formes et d'autres sciences sociales.
Objectif de l'analyse des clusters
Le principal objectif de l'analyse par grappes est de traiter l'hétérogénéité de chaque ensemble de données. Les autres objectifs de l'analyse des grappes sont
- Description de la taxonomie - Identification des groupes dans les données
- Simplification des données - La capacité d'analyser des groupes d'observations similaires au lieu de toutes les observations individuelles
- Génération ou test d' hypothèses - Développer une hypothèse basée sur la nature des données ou pour tester l'hypothèse précédemment énoncée
- Identification des relations - La structure simplifiée de l'analyse de cluster qui décrit les relations
L'analyse de cluster a deux objectifs principaux: la compréhension et l'utilité.
Dans le cas de Understanding, l'analyse de cluster regroupe des objets qui partagent certaines caractéristiques communes
Dans le cadre de l'utilitaire, l'analyse de cluster fournit les caractéristiques de chaque objet de données aux clusters auxquels ils appartiennent.
L'analyse en grappes va de pair avec l'analyse factorielle et l'analyse discriminante.
Vous devriez vous poser quelques questions d'analyse de cluster avant de commencer
- Quelles variables sont pertinentes?
- La taille de l'échantillon est-elle suffisante?
- Les valeurs aberrantes peuvent-elles être détectées et doivent-elles être supprimées?
- Comment mesurer la similitude des objets?
- Les données devraient-elles être normalisées?
Types de clusters
Il existe trois principaux types de clustering
- Regroupement hiérarchique - qui contient une méthode d'agglomération et de division
- Clustering Partiel - Contient K-Means, Fuzzy K-Means, Isodata under it
- Clustering basé sur la densité - a Denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed under it
Hypothèses dans l'analyse de cluster
Il y a toujours deux hypothèses dans l'analyse de cluster
- On suppose que l'échantillon est représentatif de la population
- On suppose que les variables ne sont pas corrélées. Même si les variables sont corrélées, supprimez les variables corrélées ou utilisez des mesures de distance qui compensent la corrélation.
Étapes de l'analyse de cluster
-
- Étape 1: définir le problème
- Étape 2: décider de la mesure de similitude appropriée
- Étape 3: Décidez comment grouper les objets
- Étape 4: Décidez du nombre de clusters
- Étape 5: Interpréter, décrire et valider le cluster
Analyse de cluster dans SPSS
Dans SPSS, vous pouvez trouver l'option d'analyse de cluster dans l'option Analyser / Classifier. Dans SPSS, il existe trois méthodes d'analyse de cluster: le cluster K-Means, le cluster hiérarchique et le cluster en deux étapes.
La méthode de cluster K-Means classe un ensemble donné de données à travers un nombre fixe de clusters. Cette méthode est facile à comprendre et donne les meilleurs résultats lorsque les données sont bien séparées les unes des autres.
L'analyse de cluster en deux étapes est un outil conçu pour gérer de grands ensembles de données. Il crée des grappes sur des variables catégorielles et continues.
Le cluster hiérarchique est la méthode d'analyse de cluster la plus utilisée. Il combine les cas en grappes homogènes en les regroupant à travers une série d'étapes séquentielles.
L'analyse de cluster hiérarchique comprend trois étapes
- Calculez la distance
- Lier les clusters
- Choisir une solution en sélectionnant le bon nombre de clusters
Vous trouverez ci-dessous les étapes pour effectuer une analyse de cluster hiérarchique dans SPSS.
- La première étape consiste à sélectionner les variables à regrouper. La boîte de dialogue ci-dessous vous l'explique
- En cliquant sur l'option de statistiques dans la boîte de dialogue ci-dessus, vous obtiendrez la boîte de dialogue où vous souhaitez spécifier la sortie
- Dans les tracés de la boîte de dialogue, ajoutez le dendrogramme. Le dendrogramme est la représentation graphique de la méthode d'analyse des grappes hiérarchiques. Il montre comment les clusters sont combinés à chaque étape jusqu'à ce qu'ils forment un seul cluster.
- La méthode de la boîte de dialogue est cruciale. Vous pouvez mentionner la distance et la méthode de clustering ici. Dans SPSS, il existe trois mesures pour l'intervalle, le nombre et les données binaires.
- La distance euclidienne au carré est la somme des différences au carré sans prendre la racine carrée.
- Dans les décomptes, vous pouvez choisir entre la mesure du chi carré et de la mesure du phi carré
- Dans la section binaire, vous avez beaucoup d'options à choisir. La distance euclidienne au carré est la meilleure option à utiliser.
- L'étape suivante consiste à choisir la méthode de cluster. Il est toujours recommandé d'utiliser la liaison simple ou le plus proche voisin car cela permet facilement d'identifier les valeurs aberrantes. Une fois les valeurs aberrantes identifiées, vous pouvez utiliser la méthode de Ward.
- La dernière étape est la normalisation
Critiques de l'analyse des clusters
Les critiques les plus courantes sont énumérées ci-dessous
- Il est descriptif, théorique et non inférentiel.
- Il produira des clusters indépendamment de l'existence réelle de toute structure
- Il ne peut pas être utilisé largement car il dépend totalement des variables utilisées comme base pour la mesure de similarité
Qu'est-ce que l'analyse factorielle?
L'analyse factorielle est une analyse exploratoire qui aide à regrouper des variables similaires en dimensions. Il peut être utilisé pour simplifier les données en réduisant les dimensions des observations. L'analyse factorielle a plusieurs méthodes de rotation différentes.
L'analyse factorielle est principalement utilisée à des fins de réduction des données.
Il existe deux types d'analyse factorielle - exploratoire et confirmatoire
- La méthode exploratoire est utilisée lorsque vous n'avez pas d'idée prédéfinie sur les structures ou les dimensions d'un ensemble de variables.
- La méthode de confirmation est utilisée lorsque vous souhaitez tester des hypothèses spécifiques sur les structures ou les dimensions d'un ensemble de variables.
Objectifs de l'analyse factorielle
L'analyse factorielle a deux objectifs principaux, mentionnés ci-dessous.
- Identification des facteurs sous-jacents - Cela comprend le regroupement des variables en ensembles homogènes, la création de nouvelles variables et l'aide à acquérir des connaissances sur les catégories
- Filtrage des variables - Il est utile dans la régression et identifie les regroupements pour vous permettre de sélectionner une variable qui en représente plusieurs.
Hypothèses de l'analyse factorielle
Il y a quatre hypothèses principales de l'analyse factorielle qui sont mentionnées ci-dessous
- Les modèles sont généralement basés sur des relations linéaires
- Il suppose que les données collectées sont échelonnées
- La multicolinéarité dans les données est souhaitable car l'objectif est de découvrir l'ensemble de variables interdépendantes
- Les données doivent être ouvertes et adaptées à l'analyse factorielle. Elle ne doit pas être telle qu’une variable ne soit corrélée qu’à elle-même et qu’il n’existe aucune corrélation avec aucune autre variable. L'analyse factorielle ne peut pas être effectuée sur ces données.
Types d'affacturage
- Factorisation des composants principaux - Méthode la plus couramment utilisée où les poids des facteurs sont calculés pour extraire la variance maximale possible et se poursuit jusqu'à ce qu'il ne reste plus de variance significative.
- Analyse factorielle canonique - Recherche les facteurs qui ont la corrélation canonique la plus élevée avec les variables observées
- Analyse des facteurs communs - Recherche le moins de facteurs pouvant expliquer la variance commune d'un ensemble de variables
- Affacturage d'image - Basé sur la matrice de corrélation où chaque variable est prédite à partir des autres en utilisant une régression multiple
- Alpha Factoring - Maximise la fiabilité des facteurs
- Modèle de régression factorielle - Combinaison du modèle factoriel et du modèle de régression dont les facteurs sont partiellement connus
Critères d'analyse factorielle
-
Critères de valeurs propres
- Représente la quantité de variance dans les variables d'origine qui est liée à un facteur
- La somme du carré des chargements factoriels de chaque variable sur un facteur représente la valeur propre
- Les facteurs avec des valeurs propres supérieures à 1, 0 sont conservés
-
Critères de tracé d'éboulis
- Un tracé des valeurs propres par rapport au nombre de facteurs, par ordre d'extraction.
- La forme du tracé détermine le nombre de facteurs
-
Pourcentage des critères de variance
- Le nombre de facteurs extraits est découvert afin que le pourcentage croissant de variance extrait par les facteurs atteigne le niveau de satisfaction.
-
Critères de test de signification
- On découvre l'importance statistique des valeurs propres distinctes et seuls les facteurs statistiquement significatifs sont conservés
L'analyse factorielle est utilisée dans divers domaines comme la psychologie, la sociologie, les sciences politiques, l'éducation et la santé mentale.
Analyse factorielle dans SPSS
Dans SPSS, l'option d'analyse factorielle se trouve dans la section Analyse à Réduction de dimension à Facteur
- Commencez par ajouter les variables à la liste des variables
- Cliquez sur l'onglet Descriptif et ajoutez quelques statistiques sous lesquelles les hypothèses de l'analyse factorielle sont vérifiées.
- Cliquez sur l'option Extraction qui vous permettra de choisir la méthode d'extraction et de couper la valeur pour l'extraction
- Les composants principaux (ACP) est la méthode d'extraction par défaut qui extrait même les combinaisons linéaires non corrélées des variables. L'ACP peut être utilisée lorsqu'une matrice de corrélation est singulière. Elle est très similaire à l'analyse de corrélation canonique où le premier facteur a une variance maximale et les facteurs suivants expliquent une partie plus petite de la variance.
- La deuxième analyse la plus générale est la factorisation de l'axe principal. Il identifie les constructions latentes derrière les observations.
- L'étape suivante consiste à sélectionner une méthode de rotation. La méthode la plus fréquemment utilisée est Varimax. Cette méthode simplifie l'interprétation des facteurs.
- La deuxième méthode est Quartimax. Cette méthode fait tourner les facteurs afin de minimiser le nombre de facteurs. Il simplifie l'interprétation de la variable observée.
- La méthode suivante est Equamax qui est une combinaison des deux méthodes ci-dessus.
- Dans la boîte de dialogue en cliquant sur les «options» vous pouvez gérer les valeurs manquantes
- Avant d'enregistrer les résultats dans l'ensemble de données, exécutez d'abord l'analyse factorielle et vérifiez les hypothèses et confirmez que les résultats sont significatifs et utiles.
Analyse de cluster vs analyse factorielle
L'analyse en grappes et l'analyse factorielle sont toutes deux des méthodes d'apprentissage non supervisées utilisées pour la segmentation des données. De nombreux chercheurs qui sont nouveaux dans ce domaine estiment que l'analyse en grappes et l'analyse factorielle sont similaires. Cela peut sembler similaire, mais ils diffèrent à bien des égards. Les différences entre l'analyse en grappes et l'analyse factorielle sont répertoriées ci-dessous
-
Objectif
Les objectifs de l'analyse des grappes et des facteurs sont différents. L'objectif de l'analyse en grappes est de diviser les observations en groupes homogènes et distincts. L'analyse factorielle explique en revanche l'homogénéité des variables résultant de la similitude des valeurs.
-
Complexité
La complexité est un autre facteur sur lequel l'analyse des grappes et des facteurs diffère. La taille des données affecte différemment l'analyse. Si la taille des données est trop grande, elle devient intraitable sur le plan du calcul dans l'analyse de cluster.
-
Solution
La solution à un problème est plus ou moins similaire à la fois dans l'analyse factorielle et l'analyse en grappes. Mais l'analyse factorielle offre une meilleure solution au chercheur sous un meilleur aspect. L'analyse de cluster ne donne pas le meilleur résultat car tous les algorithmes de l'analyse de cluster sont inefficaces sur le plan des calculs.
-
Applications
L'analyse factorielle et l'analyse en grappes sont appliquées différemment aux données réelles. L'analyse factorielle convient à la simplification de modèles complexes. Il réduit le grand ensemble de variables à un ensemble beaucoup plus petit de facteurs. Le chercheur peut développer un ensemble d'hypothèses et effectuer une analyse factorielle pour confirmer ou infirmer ces hypothèses.
L'analyse de cluster convient pour classer des objets en fonction de certains critères. Le chercheur peut mesurer certains aspects d'un groupe et les diviser en catégories spécifiques à l'aide d'une analyse en grappes.
Il y a aussi beaucoup d'autres différences qui sont mentionnées ci-dessous
- L'analyse en grappes tente de regrouper les observations, tandis que l'analyse factorielle tente de regrouper les entités.
- L'analyse en grappes est utilisée pour trouver de plus petits groupes de cas représentatifs d'une donnée dans son ensemble. L'analyse factorielle est utilisée pour trouver un plus petit groupe d'entités représentatives des entités d'origine des ensembles de données.
- La partie la plus importante de l'analyse des clusters consiste à trouver le nombre de clusters. Fondamentalement, les méthodes de regroupement sont divisées en deux: la méthode d'agglomération et la méthode de partitionnement. La méthode d'agglomération commence avec chaque cas dans son propre cluster et s'arrête lorsqu'un critère est atteint. La méthode de partitionnement commence avec tous les cas dans un cluster.
- L'analyse factorielle est utilisée pour découvrir une structure sous-jacente dans un ensemble de données.
Conclusion
J'espère que cet article vous aurait aidé à comprendre les bases de l'analyse de cluster et de l'analyse factorielle et les différences entre les deux.
Cours connexes :-
- Cours d'analyse de cluster