Qu'est-ce que MapReduce dans Hadoop

MapReduce est un framework de Hadoop qui est utilisé pour traiter de manière fiable d'énormes quantités de données sur de grands clusters de matériel de base. Hadoop est un projet open source fourni par la fondation logicielle Apache. Hadoop effectuait une analyse rapide et fiable pour les données structurées et les données non structurées. Hadoop peut gérer de très grands ensembles de données et qui peuvent être à la fois des données structurées et des données non structurées, qui sont en fait associées aux mégadonnées. Framework Hadoop qui permet à une application de stocker les données sous une forme distribuée et de traiter de grands ensembles de données sur des clusters d'ordinateurs à l'aide d'un modèle de programmation simple, c'est ce que Map Reduce, En d'autres termes, nous pouvons appeler Map Reduce comme modèle de programmation utilisé pour le traitement énorme quantité de données réparties sur le nombre de clusters. Hadoop peut passer de serveurs uniques à des milliers de nœuds de calcul ou de machines que chacun utilise pour le calcul et le stockage.

Le projet Apache Hadoop contient un certain nombre de sous-projets comme:

  • Hadoop Common: Hadoop Common possède des utilitaires qui prennent en charge les autres sous-projets Hadoop.
  • Hadoop Distributed File System (HDFS): Hadoop Distributed File System permet d'accéder au fichier distribué aux données d'application.
  • Hadoop MapReduce: Hadoop MapReduce est un cadre logiciel pour le traitement de grands ensembles de données distribués sur des clusters de calcul.
  • Hadoop YARN: Hadoop YARN est un cadre pour la gestion des ressources et la planification des travaux.

Comment MapReduce dans Hadoop facilite-t-il le travail?

MapReduce facilite la mise à l'échelle du traitement des données sur des centaines ou des milliers de machines en cluster. Le modèle MapReduce fonctionne en fait en deux étapes appelées map et réduire et le traitement appelé respectivement mappeur et réducteur. Une fois que nous écrivons MapReduce pour une application, l'application à évoluer pour s'exécuter sur plusieurs ou même plusieurs milliers de clusters n'est qu'un changement de configuration. Cette fonctionnalité du modèle MapReduce a attiré de nombreux programmeurs à l'utiliser.

Comment fonctionne MapReduce dans Hadoop?

Le programme MapReduce s'exécute principalement en quatre étapes:

  1. Divisions d'entrée
  2. Carte
  3. Shuffle
  4. Réduire

Nous allons maintenant voir à chaque étape comment elles fonctionnent.

1. Étape de la carte -

Cette étape est la combinaison de l'étape de fractionnement d'entrée et de l'étape Carte. À l'étape Carte, le fichier source est transmis ligne par ligne. Avant que l'entrée ne passe au travail de fonction Map, l'entrée est divisée en la petite taille fixe appelée Splits d'entrée. Le fractionnement d'entrée est un morceau de l'entrée qui pourrait être consommé par une seule carte. Dans l'étape de mappage, chaque donnée fractionnée est transmise à la fonction de mappage, puis la fonction de mappage traite les données, puis les valeurs de sortie. Généralement, les données d'entrée de travail de la carte ou du mappeur se présentent sous la forme d'un fichier ou d'un répertoire stocké dans le système de fichiers Hadoop (HDFS).

2. Réduisez le

Cette étape est la combinaison de l'étape Shuffle et de la réduction. La fonction de réduction ou le travail du réducteur prend les données qui sont le résultat de la fonction de carte. Après le traitement en réduisant la fonction, un nouvel ensemble de résultats produit qui est à nouveau stocké dans le HDFS.

Dans une infrastructure Hadoop, il n'est pas sûr que chaque cluster effectue quel travail soit Map or Reduce, soit Map and Reduce à la fois. Par conséquent, la demande des tâches de mappage et de réduction doit être envoyée aux serveurs appropriés du cluster. Le framework Hadoop gère lui-même toutes les tâches d'émission, de vérification de l'achèvement du travail, de récupération des données depuis HDFS, de copie des données vers le cluster des nœuds et ainsi de suite. Dans Hadoop, l'informatique se déroule principalement sur les nœuds avec les données dans les nœuds eux-mêmes, ce qui réduit le trafic réseau.

Le framework MapReduce est donc très utile dans le framework Hadoop.

Avantages de MapReduce

  1. Évolutivité - MapReduce rend Hadoop hautement évolutif car il permet de stocker de grands ensembles de données sous forme de distribution sur plusieurs serveurs. Comme il est réparti sur plusieurs, il peut donc fonctionner en parallèle.
  2. Solution rentable - MapReduce fournit une solution très rentable pour les entreprises qui ont besoin de stocker les données croissantes et de traiter les données de manière très rentable, ce qui est le besoin commercial actuel.
  3. Flexibilité - Le MapReduce rend Hadoop très flexible pour différentes sources de données et même pour différents types de données telles que des données structurées ou non structurées. Il est donc très flexible d'accéder à des données structurées ou non structurées et de les traiter.
  4. Rapide - En tant que données de stockage Hadoop dans le système de fichiers distribué, par lequel le stockage des données sur le disque local d'un cluster et les programmes MapReduce sont également généralement situés sur les mêmes serveurs, ce qui permet un traitement plus rapide des données sans besoin d'accéder à les données d'autres serveurs.
  5. Traitement parallèle - Comme les données de stockage Hadoop dans le système de fichiers distribué et le fonctionnement du programme MapReduce sont tels qu'ils divisent la carte des tâches et la réduisent et peuvent s'exécuter en parallèle. Et encore une fois, en raison de l'exécution parallèle, cela réduit la durée totale d'exécution.

Compétences

Les compétences requises pour MapReduce dans Hadoop sont de bonnes connaissances en programmation de Java (obligatoire), le système d'exploitation Linux et la connaissance des requêtes SQL.

La portée de MapReduce dans Hadoop

Le MapReduce dans Hadoop est un domaine à croissance rapide à mesure que le domaine des mégadonnées se développe, de sorte que la portée de MapReduce dans Hadoop est très prometteuse à l'avenir, car la quantité de données structurées et non structurées augmente de façon exponentielle de jour en jour. Les plateformes de médias sociaux génèrent de nombreuses données non structurées qui peuvent être extraites pour obtenir de véritables informations dans différents domaines.

Conclusion

  • MapReduce est un framework de Hadoop qui est utilisé pour traiter de manière fiable d'énormes quantités de données sur de grands clusters de matériel de base.
  • Le projet Apache Hadoop contient un certain nombre de sous-projets tels que Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
  • Dans l'étape de mappage, chaque donnée fractionnée est transmise à la fonction de mappage, puis la fonction de mappage traite les données, puis affiche les valeurs.
  • La fonction de réduction ou le travail du réducteur prend les données qui sont le résultat de la fonction de carte.
  • Les avantages de MapReduce tels qu'évolutivité, solution rentable, flexibilité, traitement rapide et parallèle.

Articles recommandés

Ceci a été un guide sur Qu'est-ce que MapReduce dans Hadoop. Ici, nous avons discuté des composants, du travail, des compétences, de la croissance de carrière et des avantages de MapReduce dans Hadoop. Vous pouvez également consulter nos autres articles suggérés pour en savoir plus

  1. Qu'est-ce qu'un algorithme?
  2. Différences entre Hadoop et MapReduce
  3. Qu'est-ce qu'Azure?
  4. Qu'est-ce que la technologie Big Data?
  5. Fonctionnement de MapReduce

Catégorie: