Créer un arbre de décision - Façons simples de visualiser le diagramme d'arbre de décision

Table des matières:

Anonim

Introduction à la création d'un arbre de décision

Avec la croissance rapide récente de la quantité de données générées par les systèmes d'information, pour gérer des ensembles de données volumineux, il est primordial que l'arbre de décision réduise la complexité du calcul. Un arbre de décision peut être considéré comme l'approche la plus importante pour représenter les classificateurs. En d'autres termes, nous pouvons dire que les données sont structurées en utilisant une stratégie de division et de conquête. savoir que nous avons seulement exploré. Un arbre de décision est structuré comme un cadre pour préciser les valeurs et la probabilité des décisions de résultats fro

m chaque niveau du nœud, aidant les décideurs à choisir des prédictions correctes parmi les diverses données inappropriées. Dans cet article, vous allez découvrir comment créer un arbre de décision basé sur des exemples de données de manière simple.

Qu'est-ce que l'arbre de décision?

Un arbre de décision est une structure hiérarchique binaire qui identifie la façon dont chaque nœud divise un ensemble de données en fonction de différentes conditions. Construire un arbre optimal avec une approche modèle pour classer une variable de réponse qui prédit la valeur d'une variable cible avec des règles de décision simples (instructions if-then-else). L'approche est un apprentissage supervisé principalement utilisé dans les problèmes de classification et considéré comme un modèle prédictif très efficace. Ils sont utilisés dans différents domaines d'application comme la théorie des jeux, l'intelligence artificielle, l'apprentissage automatique, l'exploration de données et des domaines comme la sécurité et la médecine.

Comment créer un arbre de décision?

Un arbre de décision est créé de manière simple avec la méthode descendante; ils sont constitués de nœuds qui forment un nœud dirigé qui a des nœuds racine sans bords entrants tous les autres nœuds sont appelés nœuds de décision (nœuds internes et nœuds feuilles qui correspondent aux étiquettes d'attribut et de classe) avec au moins un bord entrant. L'objectif principal des ensembles de données est de minimiser les erreurs de généralisation en trouvant la solution optimale dans l'arbre de décision.

Un exemple d'arbre de décision est expliqué ci-dessous avec un échantillon de données. L'objectif est de prédire si un profit est en baisse ou en hausse en utilisant les attributs de la vie et de la concurrence. Ici, les variables de l'arbre de décision sont catégorielles (Oui, Non).

L'ensemble de données

La vie Compétition Type Profit
Vieux Oui Logiciel Vers le bas
Vieux Non Logiciel Vers le bas
Vieux Non Matériel Vers le bas
Milieu Oui Logiciel Vers le bas
Milieu Oui Matériel Vers le bas
Milieu Non Matériel En haut
Milieu Non Logiciel En haut
Nouveau Oui Logiciel En haut
Nouveau Non Matériel En haut
Nouveau Non Logiciel En haut

De l'ensemble de données ci-dessus: la vie, la concurrence, le type sont les prédicteurs et l'attribut profit est la cible. Il existe différents algorithmes pour implémenter un arbre de décision, mais le meilleur algorithme utilisé pour construire un arbre de décision est ID3 qui met l'accent sur une approche de recherche gourmande. L'arbre de décision suit la règle d'inférence de décision ou la forme normale disjonctive (^).

Arbre de décision

Initialement, tous les attributs de formation sont considérés comme la racine. L'ordre de priorité pour placer les attributs en tant que root se fait par l'approche suivante. Ce processus est connu pour attribuer la sélection pour identifier quel attribut est fait pour être un nœud racine à chaque niveau. L'arbre suit deux étapes: construction d'un arbre, élagage d'arbre. Et les données sont réparties dans tous les nœuds de décision.

Gain d'informations

C'est la mesure du changement d'entropie basée sur la variable indépendante. L'arbre de décision doit trouver le gain d'informations le plus élevé.

Entropie

L'entropie est définie comme pour l'ensemble fini, la mesure du caractère aléatoire des données ou de la prévisibilité des événements, si l'échantillon est de valeurs similaires, alors l'entropie est nulle et si elle est divisée également avec l'échantillon, elle en est une.

Entropie pour la classe

Où p est la probabilité d'obtenir un profit pour dire «oui» et N est une perte pour dire «non».

par conséquent, l'entropie = 1

Une fois la valeur d'entropie calculée, il est nécessaire de choisir un nœud racine à partir de l'attribut.

Entropie d'âge

Selon l'ensemble de données pour l'attribut Life, nous avons l'ancien = 3 vers le bas, le milieu = 2 vers le bas et un vers le haut concernant l'étiquette de profit.

La vie Pi ni I (pi, ni)
Vieux 0 3 0
Milieu 2 2 1
Nouveau 3 0 0

Gain = Entropie de classe - Entropie de vie = 1 - 0, 4 = 0, 6

Entropie (compétition) = 0, 87

Compétition Pi ni I (pi, ni)
Oui 1 3 0, 8
Non 4 2 0, 9

Gain = Entropie de classe - Entropie de vie = 1 - 0, 87 = 0, 12

Maintenant, le problème se pose dans l'attribut Life où le milieu a une probabilité égale à la fois vers le haut et vers le bas. par conséquent, l'entropie est 1. de même, elle est calculée pour l'attribut type à nouveau, l'entropie est 1 et le gain est 0. Maintenant, une décision complète a été créée pour obtenir un résultat précis pour la valeur moyenne.

Avantages de l'arbre de décision

  • Ils sont faciles à comprendre et les règles générées sont flexibles. A peu d'efforts pour la préparation des données.
  • Une approche visuelle pour représenter les décisions et les résultats est très utile.
  • L'arbre de décision gère l'ensemble de données d'apprentissage avec des erreurs et des valeurs manquantes.
  • Ils peuvent gérer une valeur discrète et un attribut numérique. Il fonctionne avec des variables catégorielles et continues pour l'entrée et la sortie.
  • Ils sont un outil utile pour le domaine des entreprises qui doit prendre des décisions après analyse sous certaines conditions.

Inconvénients de l'arbre de décision

  • Les apprenants peuvent créer un arbre de décision complexe en fonction des données formées. ce processus est qualifié de sur-ajustement, un processus difficile dans les modèles d'arbre de décision.
  • Les valeurs préférées sont catégoriques, si elles sont continues, l'arbre de décision perd des informations, ce qui entraîne des erreurs. La croissance des calculs exponentiels est plus élevée lors de l'analyse.
  • De nombreuses étiquettes de classe conduisent à des calculs complexes incorrects et donnent une faible précision de prédiction de l'ensemble de données.
  • Les informations obtenues dans l'algorithme DT donnent une réponse biaisée aux valeurs supérieures catégoriques.

Conclusion

Par conséquent, pour conclure, les arbres de décision fournissent une méthode d'apprentissage pratique et facile et sont connus comme des outils efficaces pour l'apprentissage automatique car en peu de temps ils fonctionnent bien avec de grands ensembles de données. C'est une tâche d'apprentissage qui utilise une approche statistique pour tirer une conclusion généralisée. Maintenant, il est mieux compris pourquoi l'arbre de décision est utilisé dans la modélisation prédictive et pour les scientifiques des données, ils sont l'outil puissant.

Articles recommandés

Ceci est un guide pour créer un arbre de décision. Nous expliquons ici comment créer un arbre de décision ainsi que divers avantages et inconvénients. Vous pouvez également consulter nos autres articles suggérés pour en savoir plus -

  1. Vue d'ensemble de l'arbre de décision dans R
  2. Qu'est-ce que l'algorithme d'arbre de décision?
  3. Introduction aux outils d'intelligence artificielle
  4. Top 10 des questions d'entrevue en intelligence artificielle