Introduction aux outils Hadoop

Les outils Hadoop sont le cadre utilisé pour traiter une grande quantité de données. Ces données sont distribuées sur un cluster et l'informatique distribuée est effectuée. Les données sont stockées dans des blocs de 128 Mo et pour traiter et obtenir un résultat de puissance de réduction de carte est utilisé. Traditionnellement, Map et Reduce étaient écrits en Java, mais il était difficile de croiser les compétences des ressources travaillant dans l'entrepôt de données car elles n'en avaient pas l'expérience. Le SQL est bien connu et facile à utiliser, donc en trouvant un moyen d'écrire un SQL comme une requête qui est convertie en Map and Reduce, cela a été fondé par Facebook et plus tard donné à Apache, cet outil est connu sous le nom de Hive. Yahoo a également proposé un outil appelé Pig qui est converti en Map Reduce lors de l'exécution, de même, nous avons Sqoop et flume pour les outils de déplacement et d'injection de données. HBase est un outil de système de gestion de base de données.

Caractéristiques des outils Hadoop

  1. Ruche
  2. Porc
  3. Sqoop
  4. HBase
  5. Zookeeper
  6. Buse

Nous allons maintenant voir les fonctionnalités avec une brève explication.

1. Ruche

L'Apache Hive a été fondée par Facebook et plus tard donnée à la fondation Apache qui est une infrastructure d'entrepôt de données, elle facilite l'écriture de SQL comme Query appelé HQL ou HiveQL. Ces requêtes sont converties en interne en tâches Map Reduce et le traitement est effectué à l'aide de l'informatique distribuée de Hadoop. Il peut traiter les données qui résident dans HDFS, S3 et tout le stockage compatible avec Hadoop. Nous pouvons tirer parti des fonctionnalités fournies par Map Reduce chaque fois que nous trouvons quelque chose de difficile à implémenter dans Hive en l'implémentant dans les fonctions définies par l'utilisateur. Il permet à l'utilisateur d'enregistrer des FDU et de les utiliser dans les travaux.

Caractéristiques de Hive

  • Hive peut traiter de nombreux types de formats de fichiers tels que fichier de séquence, fichier ORC, fichier texte, etc.
  • Le partitionnement, le regroupement et l'indexation sont disponibles pour une exécution plus rapide.
  • Les données compressées peuvent également être chargées dans une table de ruche.
  • Les tables gérées ou internes et les tables externes sont les principales caractéristiques de Hive.

2. Cochon

Yahoo a développé Apache Pig pour avoir un outil supplémentaire pour renforcer Hadoop en ayant une manière ad-hoc d'implémenter Map Reduce. Pig a un moteur appelé Pig Engine qui convertit les scripts en Map Reduce. Pig est un langage de script, les scripts écrits pour Pig sont en PigLatin, tout comme Hive ici aussi, nous pouvons avoir des UDF pour améliorer la fonctionnalité. Les tâches dans Pig sont optimisées automatiquement, les programmeurs n'ont donc pas à s'en soucier. Pig gère à la fois les données structurées et non structurées.

Caractéristiques de Pig

  • Les utilisateurs peuvent avoir leurs propres fonctions pour effectuer un type spécial de traitement des données.
  • Il est facile d'écrire des codes dans Pig comparativement aussi la longueur du code est moindre.
  • Le système peut optimiser automatiquement l'exécution.

3. Sqoop

Sqoop est utilisé pour transférer des données de HDFS vers RDBMS et vice versa. Nous pouvons extraire les données vers HDFS de RDBMS, Hive, etc. et nous pouvons les traiter et les exporter de nouveau vers RDBMS. Nous pouvons ajouter les données plusieurs fois dans une table, nous pouvons également créer un travail Sqoop et l'exécuter 'n' plusieurs fois.

Caractéristiques de Sqoop

  • Sqoop peut importer toutes les tables à la fois dans HDFS.
  • Nous pouvons intégrer des requêtes SQL ainsi que des conditions sur l'importation de données.
  • Nous pouvons importer des données dans la ruche si une table est présente à partir de HDFS.
  • Le nombre de mappeurs peut être contrôlé, c'est-à-dire que l'exécution parallèle peut être contrôlée en spécifiant le nombre de mappeurs.

4. HBase

Le système de gestion de base de données au-dessus de HDFS est appelé HBase. HBase est une base de données NoSQL, développée au-dessus de HDFS. HBase n'est pas une base de données relationnelle, il ne prend pas en charge les langages de requête structurés. HBase utilise un traitement distribué de HDFS. Il peut avoir de grandes tables avec des millions et des millions d'enregistrements.

Caractéristiques de HBase

  • HBase offre une évolutivité à la fois linéaire et modulaire.
  • Les API de JAVA peuvent être utilisées pour l'accès client.
  • HBase fournit un shell pour exécuter les requêtes.

5. Gardien

Apache Zookeeper est un service de maintenance de configuration centralisé, il conserve un enregistrement des informations, des noms, il fournit également des services de synchronisation et de groupe distribués. Zookeeper est un référentiel centralisé qui est utilisé par les applications distribuées pour y placer et obtenir des données. Il aide également à gérer les nœuds, c'est-à-dire à rejoindre ou quitter un nœud dans le cluster. Il fournit un registre de données très fiable lorsque peu de nœuds sont en panne.

Caractéristiques de Zookeeper

  • Les performances peuvent être augmentées en répartissant les tâches qui sont réalisées en ajoutant plus de machines.
  • Il cache la complexité de la distribution et se présente comme une seule machine.
  • La défaillance de quelques systèmes n'affecte pas l'ensemble du système, mais l'inconvénient est qu'elle peut entraîner une perte partielle de données.
  • Il fournit Atomicity, c'est-à-dire que la transaction a réussi ou échoué, mais pas dans un état imparfait.

6. Flume

Apache Flume est un outil qui fournit l'ingestion de données, qui peut collecter, agréger et transporter une énorme quantité de données de différentes sources vers un HDFS, HBase, etc. Flume est très fiable et peut être configuré. Il a été conçu pour ingérer des données de streaming du serveur Web ou des données d'événements vers HDFS, par exemple, il peut ingérer des données Twitter vers HDFS. Flume peut stocker des données dans l'un des magasins de données centralisés tels que HBase / HDFS. S'il y a une situation où les données produites sont à un taux plus élevé que celui de la vitesse à laquelle les données peuvent être écrites, alors le canal joue le rôle de médiateur et garantit un flux constant des données.

Caractéristiques de Flume

  • Il peut ingérer des données de serveurs Web avec les données d'événement telles que les données des médias sociaux.
  • Les transactions de canal sont basées sur le canal, c'est-à-dire que deux messages sont conservés, l'un pour l'envoi et l'autre pour la réception.
  • La mise à l'échelle horizontale est possible dans un canal.
  • Il est très tolérant aux pannes car le routage contextuel est présent dans un canal.

Conclusion - Outils Hadoop

Ici, dans cet article, nous avons découvert quelques-uns des outils Hadoop et leur utilité dans le monde des données. Nous avons vu Hive and Pig qui est utilisé pour interroger et analyser des données, sqoop pour déplacer des données et flume pour ingérer des données en streaming sur HDFS.

Articles recommandés

Cela a été un guide pour les outils Hadoop. Nous discutons ici des différents outils de Hadoop avec leurs fonctionnalités. Vous pouvez également consulter nos autres articles suggérés pour en savoir plus -

  1. Alternatives à Hadoop
  2. Base de données Hadoop
  3. Fonctions de chaîne SQL
  4. Qu'est-ce que le Big Data

Catégorie: