D'entretiens chez Hadoop Admin - Le plus utile et le plus demandé

Introduction aux questions et réponses des entretiens avec Hadoop Admin

Vous avez donc finalement trouvé votre emploi de rêve dans Hadoop Admin, mais vous vous demandez comment résoudre l'interview Hadoop Admin et quelles pourraient être les questions probables de l'interview Hadoop Admin. Chaque entretien est différent et la portée d'un travail est également différente. En gardant cela à l'esprit, nous avons conçu les questions et les réponses les plus courantes aux entretiens avec les administrateurs Hadoop pour vous aider à réussir votre entrevue.

Vous trouverez ci-dessous les questions d'entrevue administrateur Hadoop qui vous aideront à obtenir une interview avec Hadoop.

1. Qu'est-ce que la sensibilisation au rack? Et pourquoi est-ce nécessaire?

Répondre:
La reconnaissance des racks consiste à répartir les nœuds de données sur plusieurs racks.HDFS suit l'algorithme de reconnaissance des racks pour placer les blocs de données. Un rack contient plusieurs serveurs. Et pour un cluster, il peut y avoir plusieurs racks. Disons qu'il existe un cluster Hadoop configuré avec 12 nœuds. Il peut y avoir 3 racks avec 4 serveurs chacun. Les 3 racks sont connectés de manière à ce que les 12 nœuds soient connectés et forment un cluster. Tout en décidant du nombre de racks, le point important à considérer est le facteur de réplication. S'il y a 100 Go de données qui vont circuler chaque jour avec le facteur de réplication 3. Alors c'est 300 Go de données qui devront résider sur le cluster. Il est préférable de répliquer les données sur les racks. Même si un nœud tombe en panne, la réplique sera dans un autre rack.

2. Quelle est la taille de bloc par défaut et comment est-elle définie?

Répondre:
128 Mo et il est défini dans hdfs-site.xml, ce qui est également personnalisable en fonction du volume des données et du niveau d'accès. Disons que 100 Go de données circulent en une journée, les données sont séparées et stockées dans le cluster. Quel sera le nombre de fichiers? 800 fichiers. (1024 * 100/128) (1024 à converti un Go en Mo). Il existe deux façons de définir la taille du bloc de données personnalisé.

hadoop fs -D fs.local.block.size = 134217728 (en bits)
Dans hdfs-site.xml, ajoutez cette propriété à block.size avec la taille des bits.

Si vous modifiez la taille par défaut à 512 Mo car la taille des données est énorme, le nombre de fichiers générés sera alors de 200. (1024 * 100/512)

3. Comment obtenez-vous le rapport du système de fichiers hdfs? À propos de la disponibilité du disque et du nombre de nœuds actifs?

Répondre:
Commande: sudo -u hdfs dfsadmin –report

Voici la liste des informations qu'il affiche,

Capacité configurée - Capacité totale disponible en hdfs
Capacité actuelle - Il s'agit de la quantité totale d'espace allouée pour que les ressources résident à côté du métastore et de l'utilisation de fsimage de l'espace.
DFS restant - C'est la quantité d'espace de stockage encore disponible pour le HDFS pour stocker plus de fichiers
DFS utilisé - C'est l'espace de stockage qui a été utilisé par HDFS.
DFS utilisé% - en pourcentage
Sous blocs répliqués - Nombre de blocs
Blocs avec des répliques corrompues - Si des blocs corrompus
Blocs manquants
Blocs manquants (avec facteur de réplication 1)

4. Qu'est-ce que l'équilibreur Hadoop et pourquoi est-il nécessaire?

Répondre:
Les données réparties sur les nœuds ne sont pas réparties dans la bonne proportion, ce qui signifie que l'utilisation de chaque nœud peut ne pas être équilibrée. Un nœud pourrait être sur-utilisé et l'autre pourrait être sous-utilisé. Cela conduit à avoir un effet de coût élevé lors de l'exécution de n'importe quel processus et cela finirait par fonctionner avec une utilisation intensive de ces nœuds. Pour résoudre ce problème, un équilibreur Hadoop est utilisé pour équilibrer l'utilisation des données dans les nœuds. Ainsi, chaque fois qu'un équilibreur est exécuté, les données sont déplacées à travers où les nœuds sous-utilisés sont remplis et les nœuds surutilisés sont libérés.

5. Différence entre Cloudera et Ambari?

Répondre:

Cloudera Manager	Ambari
Outil d'administration pour Cloudera	Outil d'administration pour les travaux Horton
Surveille et gère l'ensemble du cluster et signale l'utilisation et tout problème	Surveille et gère l'ensemble du cluster et signale l'utilisation et tout problème
Livré avec le service payant Cloudera	Open source

6. Quelles sont les principales actions effectuées par l'administrateur Hadoop?

Répondre:
Surveiller la santé du cluster -Il existe de nombreuses pages d'application qui doivent être surveillées si des processus s'exécutent. (Serveur d'historique des travaux, gestionnaire de ressources YARN, gestionnaire Cloudera / ambary selon la distribution)

activer la sécurité - SSL ou Kerberos

Tune performance - Hadoop balancer

Ajoutez de nouveaux nœuds de données selon vos besoins - Modifications et configurations de l'infrastructure

Facultatif pour activer le serveur de suivi de l'historique des travaux MapReduce à Parfois, le redémarrage des services aiderait à libérer de la mémoire cache. C'est lorsque le cluster avec un processus vide.

7. Qu'est-ce que Kerberos?

Répondre:
Il s'agit d'une authentification requise pour chaque service à synchroniser afin d'exécuter le processus. Il est recommandé d'activer Kerberos. Étant donné que nous traitons de l'informatique distribuée, il est toujours recommandé d'avoir un chiffrement lors de l'accès aux données et de leur traitement. Au fur et à mesure que chaque nœud est connecté et que tout passage d'informations se fait à travers un réseau. Comme Hadoop utilise Kerberos, les mots de passe ne sont pas envoyés sur les réseaux. Au lieu de cela, des mots de passe sont utilisés pour calculer les clés de chiffrement. Les messages sont échangés entre le client et le serveur. En termes simples, Kerberos se fournit une identité mutuelle (nœuds) de manière sécurisée avec le chiffrement.

Configuration dans core-site.xml
Hadoop.security.authentication: Kerberos

8. Quelle est la liste importante des commandes hdfs?

Répondre:

Commandes	Objectif
hdfs dfs –ls	Pour répertorier les fichiers du système de fichiers hdfs.
Hdfs dfs –put	Copiez le fichier du système local vers le système de fichiers hdfs
Hdfs dfs –chmod 777	Donnez une autorisation de lecture, d'écriture et d'exécution au fichier
Hdfs dfs –get	Copiez le fichier du système de fichiers hdfs vers le système de fichiers local
Hdfs dfs –cat	Afficher le contenu du fichier à partir du système de fichiers hdfs
Hdfs dfs –rm	Supprimez le fichier du système de fichiers hdfs. Mais il sera déplacé vers le chemin du fichier de la corbeille (c'est comme une corbeille dans Windows)
Hdfs dfs –rm –skipTrash	Supprime définitivement le fichier du cluster.
Hdfs dfs –touchz	Créer un fichier dans le système de fichiers hdfs

9. Comment vérifier les journaux d'un travail Hadoop soumis dans le cluster et comment terminer le processus déjà en cours?

Répondre:
yarn logs –applicationId - Le maître d'application génère des journaux sur son conteneur et il sera ajouté à l'ID qu'il génère. Cela sera utile pour surveiller l'état d'exécution du processus et les informations du journal.

yarn application –kill - Si un processus existant qui s'exécutait dans le cluster doit être arrêté, la commande kill est utilisée lorsque l'ID d'application est utilisé pour terminer le travail dans le cluster.

Article recommandé

Ceci a été un guide pour la liste des questions et réponses d'entrevue administrateur Hadoop afin que le candidat puisse réprimer facilement ces questions d'entrevue administrateur Hadoop. Vous pouvez également consulter les articles suivants pour en savoir plus

Hadoop Cluster Interview Questions and Answer - Top 10 des plus utiles
Questions d'entrevue de modélisation de données - 10 question importante
Questions d'entretiens chez SAS System - Top 10 des questions utiles

D'entretiens chez Hadoop Admin - Le plus utile et le plus demandé

Table des matières:

Introduction aux questions et réponses des entretiens avec Hadoop Admin

1. Qu'est-ce que la sensibilisation au rack? Et pourquoi est-ce nécessaire?

2. Quelle est la taille de bloc par défaut et comment est-elle définie?

3. Comment obtenez-vous le rapport du système de fichiers hdfs? À propos de la disponibilité du disque et du nombre de nœuds actifs?

4. Qu'est-ce que l'équilibreur Hadoop et pourquoi est-il nécessaire?

5. Différence entre Cloudera et Ambari?

6. Quelles sont les principales actions effectuées par l'administrateur Hadoop?

7. Qu'est-ce que Kerberos?

8. Quelle est la liste importante des commandes hdfs?

9. Comment vérifier les journaux d'un travail Hadoop soumis dans le cluster et comment terminer le processus déjà en cours?

Article recommandé

Outil de développement d'applications mobiles - Outil de développement d'applications mobiles utile.

Outils d'analyse d'applications mobiles que tout le monde doit utiliser dans l'industrie - eduCBA

MIRR dans Excel (formule, exemples) - Comment utiliser la fonction MIRR?

7 Fonctionnalités importantes de Microsoft Word - modèles - introduction

32 meilleurs et incroyables blogs d'application mobile à suivre

Interview J2EE Questions et réponses que vous devez savoir

Top 10 des questions et réponses d'entrevue sur la sécurité informatique (Mis à jour pour 2019)

Qu'est-ce qu'un professionnel de l'informatique - Définition - Outils - Sens

Java 8 contre Java 9 - Les 9 meilleures différences que vous devez savoir

Compilateurs Java - Concept et différents types de compilateurs Java

US GAAP vs IFRS - 6 meilleures différences (avec infographie)

Utilisations d'Unix - Pourquoi et quand les utilisations d'Unix conviennent dans la vraie vie

Top 10 des questions et réponses d'entrevue de concepteur UX (Mise à jour pour 2019)

Utilisations de WordPress - Pourquoi devriez-vous utiliser WordPress pour votre site Web

Variables en C ++ - Types et comment travailler avec des variables en C ++ avec exemple