Clustering dans l'apprentissage automatique - La plupart des méthodes et applications

Table des matières:

Anonim

Introduction au clustering dans l'apprentissage automatique

Nous allons d'abord comprendre l'apprentissage automatique. Nous pouvons voir les données croître rapidement autour de nous. Les données se présentent sous différentes formes comme la vidéo, l'audio, les images, etc. Le clustering dans l'apprentissage automatique utilise ces données pour répondre à la question. Par exemple (détection d'une maladie de la peau), le médecin utilisera l'apprentissage automatique pour comprendre la marque sur la peau et prédira de quel type de maladie il s'agit. Le clustering n'est rien d'autre que le regroupement des ensembles de données sans étiquette. Prenons un exemple de votre film (que vous souhaitez regarder). Vous aimez peut-être les films romantiques, mais votre sœur aime les films de comédie. Vous pourriez aimer les films romantiques de Bollywood ou les films romantiques d'Hollywood. Mais votre sœur aime les films de comédie de Telegu, ici vous pouvez vous voir et votre sœur a un choix différent de films. Vous avez tous deux découvert des informations détaillées sur les films. Ici, nous avons regroupé l'ensemble de données non étiqueté (films) pour regarder le film.

Comment fonctionne le clustering dans l'apprentissage automatique?

Dans le clustering, nous regroupons un ensemble de données sans étiquette, appelé apprentissage non supervisé. Lorsque nous regroupons pour la première fois des données sans étiquette, nous devons trouver un groupe similaire. Lorsque nous créons un groupe, nous devons comprendre les caractéristiques des ensembles de données, c'est-à-dire des choses similaires. Si nous créons un groupe par une ou deux entités, il est facile de mesurer la similitude.

  • Exemple # 1: Films du réalisateur. Une fois la mise en cluster terminée, chaque cluster reçoit un numéro de cluster appelé ClusterID. Le système d'apprentissage automatique comme YouTube utilise clusterID pour représenter plus facilement les données complexes.
  • Exemple n ° 2: YouTube utilise notre historique de recherche ou historique regardé et suggère des vidéos que nous pourrions aimer. L'ensemble de données sur les fonctionnalités de Facebook contient les personnes que nous suivons, les pages que nous suivons, les commentaires que nous saisissons, les photos ou vidéos que nous aimons, les photos ou les photos sur lesquelles nous taguons. Le regroupement de vidéos ou de photos Facebook remplacera un ensemble de fonctionnalités par un clusterID unique en raison de la compression des données.

Top 4 des méthodes de clustering dans l'apprentissage automatique

Voici les méthodes de clustering dans l'apprentissage automatique:

1. Hiérarchique

Le nom de clustering définit une façon de travailler, cette méthode forme un cluster de manière hiérarchique. Le nouveau cluster est formé en utilisant une structure précédemment formée. Nous devons comprendre les différences entre l'approche Divisive et l'approche Agglomérative. L'agglomération est une approche ascendante, elle commence par des points individuels dans un cluster et combine certains arbitraires. La division commence par un seul cluster, tous les points d'un cluster et le divise en plusieurs clusters.

2. Basé sur la densité

Dans cette méthode, la région dense est considérée comme un cluster qui présente certaines similitudes. Elle est différente de la région dense inférieure de l'espace objet. DBSCAN est connu comme le clustering spatial basé sur la densité des applications avec bruit. Pour l'orientation des objets de données, DBSCAN recherche un epsilon, nous définissons un rayon epsilon et le nombre minimum de points. Dans un rayon, si nous dépassons un certain nombre minimum de points, nous classons un cluster à haute densité. Ainsi, de cette façon, nous pouvons considérer les données avec une région de haute densité. DBSCAN diffère de la méthode de clustering centroïde car ce n'est pas une approche stricte. Les points de bruit sont des points dans des zones à faible densité qui ne sont pas marqués ou étiquetés comme aberrants. C'est la raison pour laquelle nous n'avons pas besoin d'un K. spécifique. Nous pouvons spécifier des points minimaux pour la région à haute densité et le rayon que nous voulons qu'une région soit ou des grappes.

3. Partitionnement

Lorsque nous avons un ensemble de données de N nombre d'objets. Cette méthode construit «K» comme partition de données. Cette partition est le cluster c'est-à-dire construire K, partition (K <= N).

Exigences à respecter:

  • Chaque groupe ou jeu de données doit contenir au moins un objet.
  • Chaque objet doit appartenir à un seul groupe.

L'un des exemples de partitionnement est le clustering K-means.

4. Basé sur une grille

Espace objet, un nombre fini de cellules forme une structure de grille. Cette méthode permet un traitement de cluster rapide. Ceux-ci sont indépendants de l'espace objet.

Applications du clustering dans l'apprentissage automatique

Voici les applications du clustering dans l'apprentissage automatique:

1. Médical

Le médecin peut utiliser un algorithme de clustering pour trouver la détection d'une maladie. Prenons un exemple de maladie thyroïdienne. L'ensemble de données sur la maladie thyroïdienne peut être identifié à l'aide d'un algorithme de clustering lorsque nous appliquons un apprentissage non supervisé sur un ensemble de données qui contient un ensemble de données thyroïdien et non thyroïdien. Le regroupement permettra d'identifier la cause de la maladie et donnera une recherche de résultats réussie.

2. Réseau social

Nous sommes la génération de l'ère Internet, nous pouvons rencontrer n'importe qui ou faire connaissance avec une identité individuelle via Internet. Les sites de réseautage social utilisent le clustering pour la compréhension du contenu, le visage des gens ou l'emplacement de l'utilisateur. Lorsque l'apprentissage non supervisé est utilisé en social, il est utile pour la traduction de la langue. Par exemple, Instagram et Facebook offrent la fonctionnalité de traduction de la langue.

3. Marketing

Nous pouvons voir ou observer que différentes technologies se développent à côté de nous et que les gens attirent à utiliser ces technologies comme le cloud, le marketing numérique. Pour attirer un plus grand nombre de clients, chaque entreprise développe des fonctionnalités et une technologie faciles à utiliser. Pour comprendre le client, nous pouvons utiliser le clustering. Le clustering aidera l'entreprise à comprendre le segment d'utilisateurs, puis à classer chaque client. De cette façon, nous pouvons comprendre le client et trouver des similitudes entre les clients et les regrouper.

4. Banque

Nous avons observé qu'une fraude financière se produit autour de nous et l'entreprise en avertit les clients. Avec l'aide du clustering, les compagnies d'assurance peuvent trouver des fraudes, en reconnaître les clients et comprendre les politiques apportées par le client.

5. Google

Google est l'un des moteurs de recherche que les gens utilisent. Prenons un exemple lorsque nous recherchons des informations comme une animalerie dans la région, Google nous fournira différentes options. Ceci est le résultat du clustering, le clustering d'un résultat similaire qui vous est fourni.

Conclusion

Nous avons appris le clustering et l'apprentissage automatique. La méthode de clustering fonctionne en machine learning. Informations sur l'apprentissage non supervisé. Utilisation en temps réel de l'apprentissage non supervisé. Méthodes de clustering et fonctionnement de chaque méthode dans le machine learning.

Article recommandé

Ceci est un guide sur le clustering dans l'apprentissage automatique. Nous discutons ici des 4 principales méthodes de clustering dans l'apprentissage automatique ainsi que des applications. Vous pouvez également consulter nos autres articles suggérés pour en savoir plus -
  1. Cadres d'apprentissage automatique Top 10
  2. K- signifie un algorithme de clustering avec des avantages
  3. Introduction aux techniques d'apprentissage automatique
  4. Modèles d'apprentissage automatique | Top 5 des types
  5. Bibliothèque C ++ Machine Learning