Outils Hadoop - Apprenez les différents outils de Hadoop avec leurs fonctionnalités

Introduction aux outils Hadoop

Les outils Hadoop sont le cadre utilisé pour traiter une grande quantité de données. Ces données sont distribuées sur un cluster et l'informatique distribuée est effectuée. Les données sont stockées dans des blocs de 128 Mo et pour traiter et obtenir un résultat de puissance de réduction de carte est utilisé. Traditionnellement, Map et Reduce étaient écrits en Java, mais il était difficile de croiser les compétences des ressources travaillant dans l'entrepôt de données car elles n'en avaient pas l'expérience. Le SQL est bien connu et facile à utiliser, donc en trouvant un moyen d'écrire un SQL comme une requête qui est convertie en Map and Reduce, cela a été fondé par Facebook et plus tard donné à Apache, cet outil est connu sous le nom de Hive. Yahoo a également proposé un outil appelé Pig qui est converti en Map Reduce lors de l'exécution, de même, nous avons Sqoop et flume pour les outils de déplacement et d'injection de données. HBase est un outil de système de gestion de base de données.

Caractéristiques des outils Hadoop

Ruche
Porc
Sqoop
HBase
Zookeeper
Buse

Nous allons maintenant voir les fonctionnalités avec une brève explication.

1. Ruche

L'Apache Hive a été fondée par Facebook et plus tard donnée à la fondation Apache qui est une infrastructure d'entrepôt de données, elle facilite l'écriture de SQL comme Query appelé HQL ou HiveQL. Ces requêtes sont converties en interne en tâches Map Reduce et le traitement est effectué à l'aide de l'informatique distribuée de Hadoop. Il peut traiter les données qui résident dans HDFS, S3 et tout le stockage compatible avec Hadoop. Nous pouvons tirer parti des fonctionnalités fournies par Map Reduce chaque fois que nous trouvons quelque chose de difficile à implémenter dans Hive en l'implémentant dans les fonctions définies par l'utilisateur. Il permet à l'utilisateur d'enregistrer des FDU et de les utiliser dans les travaux.

Caractéristiques de Hive

Hive peut traiter de nombreux types de formats de fichiers tels que fichier de séquence, fichier ORC, fichier texte, etc.
Le partitionnement, le regroupement et l'indexation sont disponibles pour une exécution plus rapide.
Les données compressées peuvent également être chargées dans une table de ruche.
Les tables gérées ou internes et les tables externes sont les principales caractéristiques de Hive.

2. Cochon

Yahoo a développé Apache Pig pour avoir un outil supplémentaire pour renforcer Hadoop en ayant une manière ad-hoc d'implémenter Map Reduce. Pig a un moteur appelé Pig Engine qui convertit les scripts en Map Reduce. Pig est un langage de script, les scripts écrits pour Pig sont en PigLatin, tout comme Hive ici aussi, nous pouvons avoir des UDF pour améliorer la fonctionnalité. Les tâches dans Pig sont optimisées automatiquement, les programmeurs n'ont donc pas à s'en soucier. Pig gère à la fois les données structurées et non structurées.

Caractéristiques de Pig

Les utilisateurs peuvent avoir leurs propres fonctions pour effectuer un type spécial de traitement des données.
Il est facile d'écrire des codes dans Pig comparativement aussi la longueur du code est moindre.
Le système peut optimiser automatiquement l'exécution.

3. Sqoop

Sqoop est utilisé pour transférer des données de HDFS vers RDBMS et vice versa. Nous pouvons extraire les données vers HDFS de RDBMS, Hive, etc. et nous pouvons les traiter et les exporter de nouveau vers RDBMS. Nous pouvons ajouter les données plusieurs fois dans une table, nous pouvons également créer un travail Sqoop et l'exécuter 'n' plusieurs fois.

Caractéristiques de Sqoop

Sqoop peut importer toutes les tables à la fois dans HDFS.
Nous pouvons intégrer des requêtes SQL ainsi que des conditions sur l'importation de données.
Nous pouvons importer des données dans la ruche si une table est présente à partir de HDFS.
Le nombre de mappeurs peut être contrôlé, c'est-à-dire que l'exécution parallèle peut être contrôlée en spécifiant le nombre de mappeurs.

4. HBase

Le système de gestion de base de données au-dessus de HDFS est appelé HBase. HBase est une base de données NoSQL, développée au-dessus de HDFS. HBase n'est pas une base de données relationnelle, il ne prend pas en charge les langages de requête structurés. HBase utilise un traitement distribué de HDFS. Il peut avoir de grandes tables avec des millions et des millions d'enregistrements.

Caractéristiques de HBase

HBase offre une évolutivité à la fois linéaire et modulaire.
Les API de JAVA peuvent être utilisées pour l'accès client.
HBase fournit un shell pour exécuter les requêtes.

5. Gardien

Apache Zookeeper est un service de maintenance de configuration centralisé, il conserve un enregistrement des informations, des noms, il fournit également des services de synchronisation et de groupe distribués. Zookeeper est un référentiel centralisé qui est utilisé par les applications distribuées pour y placer et obtenir des données. Il aide également à gérer les nœuds, c'est-à-dire à rejoindre ou quitter un nœud dans le cluster. Il fournit un registre de données très fiable lorsque peu de nœuds sont en panne.

Caractéristiques de Zookeeper

Les performances peuvent être augmentées en répartissant les tâches qui sont réalisées en ajoutant plus de machines.
Il cache la complexité de la distribution et se présente comme une seule machine.
La défaillance de quelques systèmes n'affecte pas l'ensemble du système, mais l'inconvénient est qu'elle peut entraîner une perte partielle de données.
Il fournit Atomicity, c'est-à-dire que la transaction a réussi ou échoué, mais pas dans un état imparfait.

6. Flume

Apache Flume est un outil qui fournit l'ingestion de données, qui peut collecter, agréger et transporter une énorme quantité de données de différentes sources vers un HDFS, HBase, etc. Flume est très fiable et peut être configuré. Il a été conçu pour ingérer des données de streaming du serveur Web ou des données d'événements vers HDFS, par exemple, il peut ingérer des données Twitter vers HDFS. Flume peut stocker des données dans l'un des magasins de données centralisés tels que HBase / HDFS. S'il y a une situation où les données produites sont à un taux plus élevé que celui de la vitesse à laquelle les données peuvent être écrites, alors le canal joue le rôle de médiateur et garantit un flux constant des données.

Caractéristiques de Flume

Il peut ingérer des données de serveurs Web avec les données d'événement telles que les données des médias sociaux.
Les transactions de canal sont basées sur le canal, c'est-à-dire que deux messages sont conservés, l'un pour l'envoi et l'autre pour la réception.
La mise à l'échelle horizontale est possible dans un canal.
Il est très tolérant aux pannes car le routage contextuel est présent dans un canal.

Conclusion - Outils Hadoop

Ici, dans cet article, nous avons découvert quelques-uns des outils Hadoop et leur utilité dans le monde des données. Nous avons vu Hive and Pig qui est utilisé pour interroger et analyser des données, sqoop pour déplacer des données et flume pour ingérer des données en streaming sur HDFS.

Articles recommandés

Cela a été un guide pour les outils Hadoop. Nous discutons ici des différents outils de Hadoop avec leurs fonctionnalités. Vous pouvez également consulter nos autres articles suggérés pour en savoir plus -

Alternatives à Hadoop
Base de données Hadoop
Fonctions de chaîne SQL
Qu'est-ce que le Big Data

Outils Hadoop - Apprenez les différents outils de Hadoop avec leurs fonctionnalités

Table des matières:

Introduction aux outils Hadoop

Caractéristiques des outils Hadoop

1. Ruche

2. Cochon

3. Sqoop

4. HBase

5. Gardien

6. Flume

Conclusion - Outils Hadoop

Articles recommandés

Sites d'hébergement Web gratuits - Top 6 des sites d'hébergement Web populaires

Les 14 principales questions posées aux développeurs frontaux (mises à jour pour 2019)

Front End Vs Back End - Les 6 principales différences que vous devez savoir

Commandes FTP - Six types différents de commandes FTP

Formule de fréquence dans Excel (exemple) - Comment utiliser la formule de fréquence?

VBA GetOpenFileName - Comment utiliser GetOpenFileName dans Excel VBA?

Format VBA - Comment utiliser le format VBA dans Excel avec des exemples

Variables globales VBA - Comment déclarer des variables globales dans Excel VBA?

VBA FreeFile - Comment utiliser la fonction FreeFile dans Excel VBA?

VBA Goal Seek - Utilisation de la recherche d'objectifs pour atteindre l'objectif dans Excel VBA

Effet de coloration sélective dans Photoshop

Photo à motif de points colorés avec Photoshop

Créer un arrière-plan Portrait Studio - Tutoriel Photoshop

Ajouter des montures photo à une photo - Partie 1 - Tutoriel Photoshop

Photo à esquisser avec plus de détails - Tutoriel Photoshop