Introduction aux questions et réponses des entretiens avec Hadoop Admin

Vous avez donc finalement trouvé votre emploi de rêve dans Hadoop Admin, mais vous vous demandez comment résoudre l'interview Hadoop Admin et quelles pourraient être les questions probables de l'interview Hadoop Admin. Chaque entretien est différent et la portée d'un travail est également différente. En gardant cela à l'esprit, nous avons conçu les questions et les réponses les plus courantes aux entretiens avec les administrateurs Hadoop pour vous aider à réussir votre entrevue.

Vous trouverez ci-dessous les questions d'entrevue administrateur Hadoop qui vous aideront à obtenir une interview avec Hadoop.

1. Qu'est-ce que la sensibilisation au rack? Et pourquoi est-ce nécessaire?

Répondre:
La reconnaissance des racks consiste à répartir les nœuds de données sur plusieurs racks.HDFS suit l'algorithme de reconnaissance des racks pour placer les blocs de données. Un rack contient plusieurs serveurs. Et pour un cluster, il peut y avoir plusieurs racks. Disons qu'il existe un cluster Hadoop configuré avec 12 nœuds. Il peut y avoir 3 racks avec 4 serveurs chacun. Les 3 racks sont connectés de manière à ce que les 12 nœuds soient connectés et forment un cluster. Tout en décidant du nombre de racks, le point important à considérer est le facteur de réplication. S'il y a 100 Go de données qui vont circuler chaque jour avec le facteur de réplication 3. Alors c'est 300 Go de données qui devront résider sur le cluster. Il est préférable de répliquer les données sur les racks. Même si un nœud tombe en panne, la réplique sera dans un autre rack.

2. Quelle est la taille de bloc par défaut et comment est-elle définie?

Répondre:
128 Mo et il est défini dans hdfs-site.xml, ce qui est également personnalisable en fonction du volume des données et du niveau d'accès. Disons que 100 Go de données circulent en une journée, les données sont séparées et stockées dans le cluster. Quel sera le nombre de fichiers? 800 fichiers. (1024 * 100/128) (1024 à converti un Go en Mo). Il existe deux façons de définir la taille du bloc de données personnalisé.

  1. hadoop fs -D fs.local.block.size = 134217728 (en bits)
  2. Dans hdfs-site.xml, ajoutez cette propriété à block.size avec la taille des bits.

Si vous modifiez la taille par défaut à 512 Mo car la taille des données est énorme, le nombre de fichiers générés sera alors de 200. (1024 * 100/512)

3. Comment obtenez-vous le rapport du système de fichiers hdfs? À propos de la disponibilité du disque et du nombre de nœuds actifs?

Répondre:
Commande: sudo -u hdfs dfsadmin –report

Voici la liste des informations qu'il affiche,

  1. Capacité configurée - Capacité totale disponible en hdfs
  2. Capacité actuelle - Il s'agit de la quantité totale d'espace allouée pour que les ressources résident à côté du métastore et de l'utilisation de fsimage de l'espace.
  3. DFS restant - C'est la quantité d'espace de stockage encore disponible pour le HDFS pour stocker plus de fichiers
  4. DFS utilisé - C'est l'espace de stockage qui a été utilisé par HDFS.
  5. DFS utilisé% - en pourcentage
  6. Sous blocs répliqués - Nombre de blocs
  7. Blocs avec des répliques corrompues - Si des blocs corrompus
  8. Blocs manquants
  9. Blocs manquants (avec facteur de réplication 1)

4. Qu'est-ce que l'équilibreur Hadoop et pourquoi est-il nécessaire?

Répondre:
Les données réparties sur les nœuds ne sont pas réparties dans la bonne proportion, ce qui signifie que l'utilisation de chaque nœud peut ne pas être équilibrée. Un nœud pourrait être sur-utilisé et l'autre pourrait être sous-utilisé. Cela conduit à avoir un effet de coût élevé lors de l'exécution de n'importe quel processus et cela finirait par fonctionner avec une utilisation intensive de ces nœuds. Pour résoudre ce problème, un équilibreur Hadoop est utilisé pour équilibrer l'utilisation des données dans les nœuds. Ainsi, chaque fois qu'un équilibreur est exécuté, les données sont déplacées à travers où les nœuds sous-utilisés sont remplis et les nœuds surutilisés sont libérés.

5. Différence entre Cloudera et Ambari?

Répondre:

Cloudera ManagerAmbari
Outil d'administration pour ClouderaOutil d'administration pour les travaux Horton
Surveille et gère l'ensemble du cluster et signale l'utilisation et tout problèmeSurveille et gère l'ensemble du cluster et signale l'utilisation et tout problème
Livré avec le service payant ClouderaOpen source

6. Quelles sont les principales actions effectuées par l'administrateur Hadoop?

Répondre:
Surveiller la santé du cluster -Il existe de nombreuses pages d'application qui doivent être surveillées si des processus s'exécutent. (Serveur d'historique des travaux, gestionnaire de ressources YARN, gestionnaire Cloudera / ambary selon la distribution)

activer la sécurité - SSL ou Kerberos

Tune performance - Hadoop balancer

Ajoutez de nouveaux nœuds de données selon vos besoins - Modifications et configurations de l'infrastructure

Facultatif pour activer le serveur de suivi de l'historique des travaux MapReduce à Parfois, le redémarrage des services aiderait à libérer de la mémoire cache. C'est lorsque le cluster avec un processus vide.

7. Qu'est-ce que Kerberos?

Répondre:
Il s'agit d'une authentification requise pour chaque service à synchroniser afin d'exécuter le processus. Il est recommandé d'activer Kerberos. Étant donné que nous traitons de l'informatique distribuée, il est toujours recommandé d'avoir un chiffrement lors de l'accès aux données et de leur traitement. Au fur et à mesure que chaque nœud est connecté et que tout passage d'informations se fait à travers un réseau. Comme Hadoop utilise Kerberos, les mots de passe ne sont pas envoyés sur les réseaux. Au lieu de cela, des mots de passe sont utilisés pour calculer les clés de chiffrement. Les messages sont échangés entre le client et le serveur. En termes simples, Kerberos se fournit une identité mutuelle (nœuds) de manière sécurisée avec le chiffrement.

Configuration dans core-site.xml
Hadoop.security.authentication: Kerberos

8. Quelle est la liste importante des commandes hdfs?

Répondre:

CommandesObjectif
hdfs dfs –lsPour répertorier les fichiers du système de fichiers hdfs.
Hdfs dfs –putCopiez le fichier du système local vers le système de fichiers hdfs
Hdfs dfs –chmod 777Donnez une autorisation de lecture, d'écriture et d'exécution au fichier
Hdfs dfs –getCopiez le fichier du système de fichiers hdfs vers le système de fichiers local
Hdfs dfs –catAfficher le contenu du fichier à partir du système de fichiers hdfs
Hdfs dfs –rmSupprimez le fichier du système de fichiers hdfs. Mais il sera déplacé vers le chemin du fichier de la corbeille (c'est comme une corbeille dans Windows)
Hdfs dfs –rm –skipTrashSupprime définitivement le fichier du cluster.
Hdfs dfs –touchzCréer un fichier dans le système de fichiers hdfs

9. Comment vérifier les journaux d'un travail Hadoop soumis dans le cluster et comment terminer le processus déjà en cours?

Répondre:
yarn logs –applicationId - Le maître d'application génère des journaux sur son conteneur et il sera ajouté à l'ID qu'il génère. Cela sera utile pour surveiller l'état d'exécution du processus et les informations du journal.

yarn application –kill - Si un processus existant qui s'exécutait dans le cluster doit être arrêté, la commande kill est utilisée lorsque l'ID d'application est utilisé pour terminer le travail dans le cluster.

Article recommandé

Ceci a été un guide pour la liste des questions et réponses d'entrevue administrateur Hadoop afin que le candidat puisse réprimer facilement ces questions d'entrevue administrateur Hadoop. Vous pouvez également consulter les articles suivants pour en savoir plus

  1. Hadoop Cluster Interview Questions and Answer - Top 10 des plus utiles
  2. Questions d'entrevue de modélisation de données - 10 question importante
  3. Questions d'entretiens chez SAS System - Top 10 des questions utiles