Apprenez les 10 meilleures différences entre MapReduce et Yarn

Table des matières:

Anonim

Différence entre la réduction de carte et le fil

Yarn signifie Yet Another Resource Negotiator, c'est le nouveau cadre de gestion des ressources (mémoire et CPU). Il nous aide à développer l'application distribuée de toute nature, il nous fournit les démons et les API nécessaires. Une autre caractéristique importante de YARN est qu'il gère et planifie la demande de ressources de l'application et aide le processus à exécuter la demande. YARN est une plate-forme générique pour exécuter n'importe quelle application distribuée, Map Reduce version 2 est l'application distribuée qui s'exécute au-dessus de YARN, alors que map Reduce est l'unité de traitement du composant Hadoop, il traite les données en parallèle dans l'environnement distribué. Donc, essentiellement, réduisez le travail sur un énorme composant de données, il traite les données et les stocke dans HDFS de manière à ce que la récupération soit plus facile que le stockage traditionnel.

Comparaison directe entre MapReduce et Yarn (infographie)

Ci-dessous est la comparaison du Top 10 entre le MapReduce vs Yarn

Différence clé entre MapReduce et Yarn

  1. Dans Hadoop 1, il a deux composants, le premier est HDFS (Hadoop Distributed File System) et le second est Map Reduce. Alors que dans Hadoop 2, il a également deux composants HDFS et YARN / MRv2 (nous avons généralement appelé YARN comme Map réduire la version 2).
  2. Dans Map Reduce, lorsque Map-Reduce cesse de fonctionner, alors automatiquement tout son nœud esclave cessera de fonctionner, c'est le seul scénario où l'exécution du travail peut s'interrompre et cela s'appelle un seul point de défaillance. YARN surmonte ce problème en raison de son architecture, YARN a le concept de nœud de nom actif ainsi que de nœud de nom de secours. Lorsque le nœud actif cesse de fonctionner pendant un certain temps, le nœud passif commence à fonctionner en tant que nœud actif et continue l'exécution.
  3. La carte réduit a une architecture maître unique et plusieurs esclaves.Si maître-esclave tombe en panne, alors l'esclave entier cessera de fonctionner, c'est le seul point de défaillance dans HADOOP1, tandis que HADOOP2 qui est basé sur l'architecture YARN a le concept de plusieurs maîtres et esclaves, si un maître tombe en panne, un autre maître reprendra son processus et poursuivra l'exécution.
  4. Comme nous pouvons le voir dans le diagramme ci-dessous, la différence entre les écosystèmes HADOOP1 et HADOOP2. La gestion des ressources YARN au niveau des composants interagit avec Map-Reduce et HDFS.

Donc, fondamentalement, YARN est responsable de la gestion des ressources signifie quel travail sera exécuté par quel système sera décidé par YARN, tandis que map reduction est un cadre de programmation qui est responsable de la façon d'exécuter un travail particulier, donc fondamentalement map-reduction a un mappeur et un réducteur à deux composants pour l'exécution d'un programme.

  1. Dans Map, chaque nœud de données est réduit individuellement tandis que dans Yarn, chaque nœud de données est exécuté par un gestionnaire de nœuds.
  2. La carte réduit utilise Job tracker pour créer et attribuer une tâche à task tracker en raison des données, la gestion de la ressource n'est pas impressionnante, car certains des nœuds de données resteront inactifs et ne seront d'aucune utilité, tandis que dans YARN, il y a un gestionnaire de ressources pour chaque cluster et chaque nœud de données exécute un gestionnaire de nœuds. Pour chaque travail, un nœud esclave servira de maître d'application, surveillant les ressources / tâches.

Tableau de comparaison MapReduce vs Yarn

Base de comparaison FIL Réduire la carte
SensYARN représente encore un autre négociateur de ressources.Map Reduce est auto-défini.
VersionIntroduire dans Hadoop 2.0Introduire dans Hadoop 1.0
ResponsabilitéMaintenant, YARN est responsable de la partie Gestion des ressources.Auparavant, Map Reduce était responsable de la gestion des ressources ainsi que du traitement des données.
Modèle d'exécutionLe modèle d'exécution du fil est plus générique que la réduction de la carteMoins générique que YARN.
Exécution d'applicationYARN peut également exécuter les applications qui ne suivent pas le modèle Map ReduceMap Reduce peut exécuter sa propre application basée sur un modèle.
ArchitectureYARN est introduit dans MR2 en plus du traqueur de travaux et du traqueur de tâches. À la place de l'application Job Tracker et Task Tracker, le maître entre en scène.Dans la version précédente de MR1, YARN n'est pas là. À la place de YARN, le traqueur de travaux et le traqueur de tâches étaient présents, ce qui aide à l'exécution de l'application ou des travaux
La flexibilitéYARN est plus isolé et évolutifMoins évolutif par rapport à YARN.
DémonsYARN a un nœud de nom, un nœud de données, un nœud de nom secondaire, un gestionnaire de ressources et un gestionnaire de nœuds.Map Reduce a un nœud de nom, un nœud de données, un nœud de nom secondaire, un traqueur de travaux et un traqueur de tâches.
LimitationIl n'y a pas de concept de point de défaillance unique dans YARN car il a plusieurs maîtres, donc si l'un échoue, un autre maître le ramasse et reprend l'exécution.Point de défaillance unique, faible utilisation des ressources (maximum de 4200 grappes par YAHOO) et moins d'évolutivité par rapport à YARN
TaillePar défaut, la taille d'un nœud de données dans YARN est de 128 MoPar défaut, la taille d'un nœud de données dans Map Reduce est de 64 Mo.

Conclusion - MapReduce vs Yarn

Dans Hadoop 1 qui est basé sur Map Reduce, plusieurs problèmes ont été résolus dans Hadoop 2 avec Yarn. Comme dans Hadoop 1, le job tracker est responsable de la gestion des ressources mais YARN a le concept de gestionnaire de ressources ainsi que de gestionnaire de nœuds qui prend en charge la gestion des ressources. La réduction de la carte a un seul point de défaillance, c'est-à-dire le suivi des travaux, si le suivi des travaux cesse de fonctionner, nous devons redémarrer l'ensemble de notre cluster et exécuter à nouveau notre travail à partir d'Initial. Dans un scénario réel, aucune organisation ne veut prendre ce genre de risque, en particulier dans un secteur de défense bancaire. Une telle organisation qui travaille sur la rationalisation des données ne sera pas prête à prendre ce genre de risque. Pour quelques minutes, ils vont perdre leurs données et peuvent avoir un impact commercial critique. Ainsi, YARN a un meilleur résultat que Map-Reduce.

Article recommandé

Ceci a été un guide pour MapReduce vs Yarn, leur signification, leur comparaison directe, leurs principales différences, leur tableau de comparaison et leur conclusion. Vous pouvez également consulter les articles suivants pour en savoir plus -

  1. 15 choses à savoir sur MapReduce vs Spark
  2. Les 5 meilleures différences entre Hadoop et MapReduce
  3. 10 Différence utile entre Hadoop et Redshift
  4. Apache Hadoop vs Apache Spark | Top 10 des comparaisons que vous devez savoir!
  5. Comment fonctionne MapReduce?