Introduction à l'algorithme KNN dans R

Dans l'algorithme KNN dans R, KNN signifie l'algorithme K le plus proche voisin et R est un langage de programmation. Il serait le plus simple de l'algorithme d'apprentissage automatique. KNN est un algorithme supervisé qui classe les points de données dans une classe cible en comparant les entités avec son voisin le plus proche.

Exemple: supposons que vous souhaitiez classer un écran tactile et un téléphone à clavier. Il existe différents facteurs qui impliquent la différenciation des deux téléphones. Cependant, le facteur qui différencie les deux téléphones est le clavier. Ainsi, lorsque nous recevons un point de données (par exemple, un téléphone). Nous le comparons avec les caractéristiques similaires des points de données voisins pour le classer comme un clavier ou un téléphone tactile.

Caractéristiques de l'algorithme KNN

Ici, nous étudierons les caractéristiques de l'algorithme KNN:

  • L'algorithme KNN utilise les données d'entrée pour prédire les points de données de l'ensemble de sortie.
  • L'algorithme peut être appliqué à divers ensembles de problèmes.
  • Met l'accent sur la similitude des fonctionnalités pour classer les données.
  • L'algorithme KNN gère des données réalistes et ne fait aucune hypothèse sur les points de données.
  • KNN mémorise l'ensemble de données d'entraînement plutôt que d'être intuitif. On peut également dire qu'il a une approche paresseuse.
  • Il peut résoudre des problèmes de classification et de régression.

Résolution des problèmes dans l'algorithme KNN dans R

Problème d'adressage suivant:

1. Problème de classification

Dans le problème de classification, les valeurs sont discrètes tout comme si vous aimez manger de la pizza avec ou sans garniture. Il y a un terrain d'entente. L'algorithme KNN aide à résoudre un tel problème.

2. Problème de régression

Le problème de régression entre en jeu lorsque nous avons une variable dépendante et une variable indépendante. Ex: indice BMI. En règle générale, chaque ligne contient un point d'observation ou de données et un exemple.

L'algorithme KNN dans R

Examinons les étapes de l'algorithme à suivre:

Étape 1: chargez les données d'entrée.

Étape 2: initialisez K avec le nombre de voisins les plus proches.

Étape 3: Calcul des données (c'est-à-dire la distance entre le courant et le plus proche voisin)

Étape 4: Ajout de la distance à l'ensemble de données commandé actuel.

Étape 5: Récupérer les entrées K et les étiqueter.

Étape 6: Renvoyez la valeur moyenne du problème de régression.

Étape 7: renvoyer la valeur de mode pour les problèmes de classification.

Points à retenir lors de la mise en œuvre de l'algorithme KNN

  • Nous devons nous assurer que la valeur K est supérieure à un, elle empêche la prédiction d'être précise.
  • Plus la valeur K est élevée, plus la prédiction peut être précise grâce à la majorité.
  • Il est préférable d'avoir K comme nombre impair. Sinon, cela peut conduire à un bris d'égalité.

Pseudocode KNN

Dans la formule ci-dessous, représente les variables et représente les points de données où (i = 1, 2, 3….)

Set(, )

Cas d'utilisation

Voici les cas d'utilisation de l'algorithme KNN dans R:

1. Comparaison des produits et aide aux recommandations d'achat

Lorsque nous achetons un ordinateur portable ou un ordinateur sur un site de commerce électronique en ligne, nous voyons également des recommandations d'achat, comme l'achat d'un logiciel anti-virus ou de haut-parleurs. Tout cela parce que lorsqu'un client précédent achète un ordinateur portable, il est principalement acheté avec un antivirus ou des haut-parleurs. L'apprentissage automatique aide dans les recommandations de commerce électronique.

2. Recommandations alimentaires

L'apprentissage automatique aide également à formuler des recommandations basées sur des aliments commandés précédemment et propose également des restaurants en conséquence.

Exemple de l'algorithme KNN

Voici les exemples de l'algorithme KNN:

1. Importation de données

Prenons les données fictives sur nous prédisant la taille du t-shirt d'un gars à l'aide de la taille et du poids.

Hauteur (cm) Poids (kg) Taille
140 58 S
140 59 S
140 63 S
150 59 M
152 60 M
153 60 M
154 61 M
155 64 M
156 64 M
157 61 M
160 62 L
161 65 L
162 62 L
163 63 L
163 66 L
165 63 L
165 64 L
165 68 L

2. Trouver les similitudes en calculant la distance

Nous pouvons utiliser à la fois Manhattan et la distance euclidienne car les données sont continues. Nous calculons la distance entre le nouvel échantillon et l'ensemble de données d'apprentissage, puis trouvons K le plus proche.

Exemple: disons que «Raj» a une hauteur de 165 cm et pèse 63 kg. Nous calculons la distance euclidienne en utilisant la première observation avec le nouvel échantillon: SQRT ((165-140) 2 + (63-58) 2)

3. Trouver K-voisins les plus proches

Supposons K = 4, il y a 4 clients dont 3 de taille moyenne et 1 de grande taille. La meilleure prédiction est de taille moyenne pour Raj.

Différence entre KNN et K-mean

Voici la différence:

  • KNN est un algorithme supervisé (variable dépendante) tandis que K-mean est un algorithme non supervisé (pas de variable dépendante).
  • K-mean utilise une technique de clustering pour diviser les points de données formant des K-clusters.KNN utilise K-voisins les plus proches pour classer les points de données et les combine.

Avantages et inconvénients de KNN

Voici les avantages:

  • L'algorithme KNN est polyvalent, peut être utilisé pour les problèmes de classification et de régression.
  • Pas besoin d'un modèle antérieur pour construire l'algorithme KNN.
  • Simple et facile à mettre en œuvre.

Voici les inconvénients:

  • L'algorithme à mesure que le nombre d'échantillons augmente (c'est-à-dire le nombre de variables)

Articles recommandés

Ceci est un guide de l'algorithme KNN dans R. Ici, nous discutons des fonctionnalités, des exemples, du pseudocode, des étapes à suivre dans l'algorithme KNN. Vous pouvez également consulter nos autres articles connexes pour en savoir plus-

  1. Algorithmes de science des données
  2. Qu'est-ce que l'algorithme génétique?
  3. Algorithmes de routage
  4. Algorithmes de réseau neuronal
  5. Algorithme C ++ | Exemples d'algorithme C ++

Catégorie: