Introduction aux questions et réponses d'entrevue d'Hbase

HBase est un système de gestion de base de données NoSQL orienté colonnes populaire qui s'exécute au-dessus du système de fichiers distribués Hadoop (HDFS). Il est bien adapté aux ensembles de données clairsemés, qui sont courants dans de nombreux cas d'utilisation du Big Data.

Voici les 10 questions et réponses d'entrevue HBase les plus demandées en 2019: vous avez enfin trouvé l'emploi de vos rêves chez HBase, mais vous vous demandez comment réussir l'interview Hbase et quelles pourraient être les questions probables de l'interview Hbase 2019. Chaque entretien est différent et la portée d'un travail est également différente. Gardant cela à l'esprit, nous avons conçu les questions et les réponses les plus courantes à Hbase pour vous aider à réussir votre entrevue. Ces questions sont divisées en deux parties:

Partie 1 - Questions d'entrevue HBase (de base)

Cette première partie couvre les questions et réponses d'entrevue de base de HBase.

1. Quand devez-vous utiliser HBase?

Répondre:
Hbase ne convient pas à tous les cas d'utilisation. Un meilleur scénario approprié peut être identifié par les vérifications suivantes -
Volume de données : doit contenir des pétaoctets de données à traiter dans un environnement distribué.
ii.Application: HBase n'est pas adapté aux systèmes OLTP (Online Transaction Processing) qui nécessitent des transactions complexes à plusieurs états, il manque également un support SQL complexe qui est requis pour l'analyse relationnelle.Il est préférable lorsque vous avez une énorme quantité de données avec un schéma légèrement différent.
iii.Matériel du cluster: HBase fonctionne au-dessus de HDFS. Et HDFS fonctionne efficacement avec un grand nombre de nœuds (minimum 5) .Alors HBase ne peut être une bonne sélection qu'avec un bon support matériel.
iv. SGBDR non traditionnel: Hbase ne peut prendre en charge aucun cas d'utilisation qui nécessite des fonctionnalités traditionnelles telles que Joindre plusieurs tables, SQls complexes avec fonctions imbriquées ou de fenêtre, etc.
v.Accès aléatoire rapide aux données: si vous avez besoin d'un accès aléatoire et en temps réel à vos données, alors HBase est un candidat approprié. C'est également un ajustement parfait pour stocker de grandes tables avec des données multi-structurées.

2. Quelle est la différence entre Cassandra et HBase?

Répondre:
HBase et Cassandra ont distribué la base de données NoSQL pour les Big Data de l'écosystème Hadoop. Tous deux conçus pour différents cas d'utilisation.
Le HBase a une sorte d'architecture maître-esclave avec plusieurs composants comme Zookeeper, Namenode, HBase Master (Hmaster) et Data Nodes etc. Cassandra traite tous les nœuds comme des maîtres, ce qui signifie que tous les nœuds sont égaux et remplissent toutes les fonctions.
HBase est optimisé pour les lectures, l'écriture n'arrive qu'au nœud maître et a une forte cohérence pour la lecture après l'écriture. Cassandra a d'excellentes performances de lecture sur une seule ligne si une cohérence éventuelle est sélectionnée.
Hbase ne prend pas en charge nativement les index secondaires, Cassandra prend en charge les index secondaires sur les familles de colonnes dont le nom de colonne est connu.
Au départ, Hbase est créé dans Google et ils l'ont nommé BigTable. Même maintenant, les API de Bigtable et HBase sont compatibles. L'origine de Cassandra provient d'un document pour DynamoDB qui est une base de données NoSQL d'AWS.

Passons aux prochaines questions d'entretien de HBase.

3. Quels sont les principaux composants d'Hbase?

Répondre:
HBase a comprend trois composants importants: HMaster, Region Server et ZooKeeper.
i.HBase Master - Les tables HBase sont divisées en régions. Pendant le démarrage, Master décide quelle région attribuer à quel serveur de région (le serveur de région sera un nœud dans un cluster) .Il gère également les opérations de métadonnées de table comme créer ou modifier le schéma. Ce composant joue également un rôle important dans la récupération après panne
ii. Serveur de région - Comme mentionné ci-dessus, c'est là que l'écriture et la lecture des données se produisent. Ce sont de véritables nœuds de cluster. Cela aura des régions de nombreuses tables qui sont décidées en commençant et en terminant les clés de ligne. Un serveur de région typique peut desservir jusqu'à mille régions
iii.ZooKeeper - ZooKeeper est un cadre de coordination de cluster largement utilisé dans l'écosystème Hadoop.Zookeeper suit tous les serveurs (serveurs maîtres et régionaux) présents dans les contacts du cluster HMaster ZooKeeper et des notifications sont produites en cas d'erreurs.

4. Qu'est-ce que HBase Bloom Filter?

Répondre:
Ce sont les questions courantes posées lors d'un entretien avec HBase. Un filtre HBase Bloom est un mécanisme efficace pour tester si un fichier de magasin (quand quelque chose est écrit dans HBase, il est d'abord écrit dans un magasin en mémoire, une fois que ce magasin de mémoire atteint une certaine taille, il est vidé sur le disque dans un fichier de magasin ) contient une ligne ou une cellule col-ligne spécifique. Normalement, la seule façon de décider si une clé de ligne est présente dans un fichier de magasin est de vérifier l'index de bloc du fichier, qui a la clé de ligne de début de chaque bloc dans le fichier de magasin. Les filtres Bloom agissent comme une structure de données en mémoire qui aide à réduire les lectures de disque aux seuls fichiers susceptibles de contenir cette ligne - Pas tous les fichiers de stockage. Il agit donc comme un index en mémoire pour indiquer une probabilité de trouver une ligne dans un fichier de magasin particulier.

5. Qu'est-ce que le compactage? Expliquez-en différents types.

Répondre:
HBase stocke toutes les opérations reçues dans sa zone de mémoire memstore. Lorsque le tampon mémoire est plein, il est vidé sur le disque. Parce que cela peut créer de nombreux petits fichiers dans HDFS, de temps en temps, HBase peut sélectionner des fichiers à compacter ensemble en un plus gros. Un compactage est appelé mineur lorsque HBase choisit seulement certains des HFiles à compacter, mais pas tous. Dans un compactage majeur, tous les fichiers sont choisis pour être compactés ensemble. Un compactage majeur fonctionne comme un compact, sauf que les marqueurs de suppression peuvent être supprimés après avoir été appliqués à toutes les cellules associées et toutes les versions supplémentaires de la même cellule seront également supprimées.

Partie 2 - Questions d'entrevue HBase (avancé)

Jetons maintenant un coup d'œil aux questions d'entrevue avancées de HBase.

6.Comment les données de version HBase?

Répondre:
Lorsqu'un élément de données est inséré / mis à jour / supprimé, HBase crée une nouvelle version pour cette colonne. La suppression effective ne se produit que pendant le compactage. Si une cellule particulière dépasse le nombre de versions autorisées, des versions supplémentaires seront supprimées pendant le compactage

7. Quelle est la différence entre obtenir et numériser?

Répondre:
Get renvoie une seule ligne de la table Hbase en fonction de la clé de ligne donnée. La commande de numérisation renvoie un ensemble de lignes en fonction de la condition de recherche donnée. Obtenir est généralement plus rapide que numériser. Donc, je préfère l'utiliser si possible.

Passons aux prochaines questions d'entretien de HBase.

8. Que se passe-t-il lors de la suppression d'une ligne?

Répondre:
Au moment de la suppression, les données de commande ne sont pas physiquement supprimées du système de fichiers, mais sont rendues invisibles en définissant un marqueur. La suppression physique se produit pendant un compactage
Les marqueurs de suppression de colonne, de version et de famille sont trois types de marqueurs différents qui marquent la suppression d'une colonne, d'une version de colonne et d'une famille de colonnes respectivement.

9. Expliquez la différence entre HBase et Hive.

Répondre:
Ceci est la question d'entretien avancée de HBase posée dans une interview. HBase et Hive sont tous deux des technologies Hadoop complètement différentes pour le traitement des données. Hive est un cadre de stockage distribué compatible SQL de type relationnel tandis que HBase est un magasin de valeurs-clés NoSQL. Hive agit comme une couche d'abstraction au-dessus de Hadoop avec prise en charge SQL. Le modèle d'accès aux données HBase est très limité avec deux opérations principales: obtenir et analyser. HBase est idéal pour le traitement des données en temps réel où Hive est un choix idéal pour le traitement des données par lots.

10. Que sont Hlog et HFile?

Répondre:
HLog est le fichier journal d'écriture anticipée, également appelé WAL et HFile est le véritable fichier de stockage de données. Les données sont d'abord écrites dans le fichier journal d'écriture anticipée et également écrites dans MemStore.Une fois que MemStore est plein, le contenu du MemStore est vidé sur le disque dans HFiles.

Article recommandé

Ceci a été un guide pour la liste des questions et réponses d'entrevue Hbase afin que le candidat puisse réprimer ces questions d'entrevue Hbase facilement. Vous pouvez également consulter les articles suivants pour en savoir plus -

  1. Questions d'entrevue de groupe utiles
  2. Conseils d'entretien de base importants
  3. Étapes essentielles pour la préparation de l'entrevue
  4. Questions d'entrevue à poser à un candidat en finance