Questions et réponses de l'entretien de Hadoop Cluster

Le but de cet article est d'aider tous les aspirants au Big Data à répondre à toutes les questions de l'entretien Hadoop Cluster liées à la configuration de l'environnement Big Data dans une organisation. Ce questionnaire aidera à configurer les nœuds de données, le nœud de nom et à définir la capacité du serveur hébergé des démons Big Data.

Donc, si vous avez enfin trouvé votre emploi de rêve dans Hadoop Cluster mais que vous vous demandez comment résoudre l'interview de Hadoop Cluster et quelles pourraient être les questions probables de l'interview de Hadoop Cluster. Chaque entretien est différent et la portée d'un travail est également différente. En gardant cela à l'esprit, nous avons conçu les questions et les réponses les plus courantes à Hadoop Cluster pour vous aider à réussir votre entrevue.

Certaines des questions d'entrevue les plus importantes du cluster Hadoop qui sont fréquemment posées lors d'une interview sont les suivantes:

1.Quels sont les principaux composants Hadoop du cluster Hadoop?

Répondre :
Hadoop est un cadre où nous traitons les mégadonnées ou Hadoop est la plate-forme où l'on peut traiter l'énorme quantité de données sur des serveurs de base. Hadoop est la combinaison de nombreux composants. Voici les principaux composants de l'environnement Hadoop.
Nœud de nom : c'est le nœud maître qui s'occupe de toutes les informations des nœuds de données et de l'emplacement de stockage des données au format de métadonnées.
Noeud de nom secondaire : il fonctionne comme noeud de nom principal si le noeud de nom principal tombe en panne.
HDFS (Hadoop Distributed File System) : Il prend en charge tout le stockage du cluster Hadoop.
Nœuds de données : les nœuds de données sont des nœuds esclaves. Les données réelles sont enregistrées sur les nœuds esclaves pour le traitement.
YARN (Yet Another Resource Negotiator) : Un cadre logiciel pour écrire les applications et traiter de grandes quantités de données. Il fournit les mêmes fonctionnalités que MapReduce en plus, il permettrait à chaque travail par lots de s'exécuter parallèlement dans le cluster Hadoop.

2.Comment planifier le stockage des données dans le cluster Hadoop?

Répondre :
Le stockage est basé sur la formule (Stockage = ingestion quotidienne de données * réplication).
Si le cluster Hadoop reçoit quotidiennement 120 To de données et que nous avons un facteur de réplication par défaut, l'exigence de stockage de données quotidiennes serait
Besoin de stockage = 120 To (ingestion quotidienne de données) * 3 (réplication par défaut) => 360 To
Par conséquent, nous devons configurer au moins un cluster de données de 360 ​​To pour les besoins quotidiens d'ingestion de données.
Le stockage dépend également des exigences de conservation des données. Dans le cas où nous voulons que les données soient stockées pendant 2 ans dans le même cluster, nous devons donc organiser les nœuds de données conformément à l'exigence de rétention.

3.Calculez le nombre de nœuds de données.

Répondre :
Nous devons calculer un certain nombre de nœuds de données requis pour le cluster Hadoop. Supposons que nous ayons des serveurs avec JBOD de 10 disques et que chaque disque ait une taille de stockage de 4 To, donc chaque serveur dispose d'un stockage de 40 To. Le cluster Hadoop obtient des données de 120 To par jour et 360 To après application du facteur de réplication par défaut.
Nombre de nœuds de données = ingestion quotidienne de données / capacité des nœuds de données
Nombre de nœuds de données = 360/40 => 9 nœuds de données
Par conséquent, pour le cluster Hadoop obtenant des données de 120 To avec la configuration ci-dessus, vous devez configurer 9 nœuds de données uniquement.

4.Comment changer le facteur de réplication dans le cluster Hadoop?

Répondre :
Modifiez le fichier hdfs-site.xml. Le chemin par défaut se trouve dans le dossier conf / du répertoire d'installation de Hadoop. changer / ajouter la propriété suivante dans hdfs-site.xml:
dfs.replication
3
Bloquer la réplication
Il n'est pas obligatoire d'avoir le facteur de réplication 3. Il peut également être défini sur 1. Le facteur de réplication 5 fonctionne également dans le cluster Hadoop. La configuration de la valeur par défaut rend le cluster plus efficace et un matériel minimum est requis.
L'augmentation du facteur de réplication augmenterait les exigences matérielles car le stockage des données est multiplié par le facteur de réplication.

5.Quelle est la taille de bloc de données par défaut dans Hadoop et comment la modifier?

Répondre :
La taille des blocs réduit / divise les données en blocs et les enregistre sur des nœuds de données différents.
Par défaut, la taille de bloc est de 128 Mo (dans Apache Hadoop) et nous pouvons modifier la taille de bloc par défaut.
Modifiez le fichier hdfs-site.xml. Le chemin par défaut se trouve dans le dossier conf / du répertoire d'installation de Hadoop. changer / ajouter la propriété suivante dans hdfs-site.xml:
dfs.block.size
134217728
Taille de bloc
la taille des blocs en octets est de 134 217 728 ou 128 Mo. Spécifiez également la taille avec un suffixe (insensible à la casse) tel que k (kilo-), m (méga-), g (giga-) ou t (tera-) pour définir la taille du bloc en Ko, Mo, To, etc.…

6.Combien de temps le cluster Hadoop doit-il conserver un fichier HDFS supprimé dans le répertoire delete / trash?

Répondre :
«Fs.trash.interval» est le paramètre qui spécifie la durée pendant laquelle HDFS peut conserver tout fichier supprimé dans l'environnement Hadoop pour récupérer le fichier supprimé.
La période d'intervalle peut être définie en minutes seulement. Pendant 2 jours d'intervalle de récupération, nous devons spécifier la propriété dans un format fluide.
Modifiez le fichier core-site.xml et ajoutez / modifiez-le à l'aide de la propriété suivante
fs.trash.interval
2880
Par défaut, l'intervalle de récupération est 0, mais l'administrateur Hadoop peut ajouter / modifier la propriété ci-dessus selon les exigences.

7.Quelles sont les commandes de base pour démarrer et arrêter les démons Hadoop?

Répondre :
Toutes les commandes pour démarrer et arrêter les démons stockés dans le dossier sbin /.
./sbin/stop-all.sh - Pour arrêter tous les démons à la fois.
noeud de nom de début hadoop-daemon.sh
Noeud de données de démarrage Hadoop-daemon.sh
yarn-daemon.sh, démarrer le gestionnaire de ressources
yarn-daemon.sh, démarrer le gestionnaire de nœuds
mr-jobhistory-daemon.sh démarrer le serveur d'historique

8.Quelle est la propriété pour définir l'allocation de mémoire pour les tâches gérées par YARN?

Répondre :
La propriété «yarn.nodemanager.resource.memory-mb» doit être modifiée / ajoutée pour changer l'allocation de mémoire pour toutes les tâches gérées par YARN.
Il spécifie la quantité de RAM en Mo. Les nœuds de données utilisent 70% de la RAM réelle pour être utilisés pour YARN. Le nœud de données avec 96 Go utilisera 68 Go pour YARN, le reste de la RAM est utilisé par le démon Data Node pour «Non-YARN-Work»
Modifiez le fichier «fichier yarn.xml» et ajoutez / modifiez la propriété suivante.
yarn.nodemanager.resource.memory-mb
68608
La valeur par défaut de yarn.nodemanager.resource.memory-mb est 8 192 Mo (8 Go). Si les nœuds de données ont une grande capacité de RAM, nous devons changer la valeur jusqu'à 70% sinon nous gaspillerons notre mémoire.

9.Quelles sont les recommandations pour le dimensionnement du nœud de nom?

Répondre :
Les détails suivants sont recommandés pour configurer le nœud maître à un stade très initial.
Processeurs: Pour les processus, un seul processeur avec 6-8 cœurs suffit.
Mémoire RAM: pour le traitement des données et des travaux, le serveur doit avoir au moins 24 à 96 Go de RAM.
Stockage: aucune donnée HDFS n'est stockée sur le nœud maître. Vous pouvez 1-2 To comme stockage local
Comme il est difficile de décider des futures charges de travail, concevez votre cluster en sélectionnant du matériel tel que le CPU, la RAM et la mémoire qui peut facilement être mis à niveau au fil du temps.

10.Quels sont les ports par défaut dans le cluster Hadoop?

Répondre :

Nom du démonNuméro de port par défaut
Nœud de nom.50070
Noeuds de données.50075
Noeud de nom secondaire.50090
Noeud de sauvegarde / point de contrôle.50105
Job Tracker.50030
Suivi des tâches.50060

Articles recommandés

Cela a été un guide pour la liste des questions et réponses d'entrevue de cluster Hadoop afin que le candidat puisse réprimer facilement ces questions d'entrevue de cluster Hadoop. Vous pouvez également consulter les articles suivants pour en savoir plus -

  1. Questions et réponses d'entretien d'Elasticsearch et les plus utiles
  2. 9 questions et réponses d'entrevue étonnantes de MapReduce
  3. 8 Guide le plus utile des questions d'entrevue Big Data
  4. Questions et réponses d'entrevue ETL que vous devez savoir