Commande HDFS - Commande de base à avancée avec trucs et astuces

Introduction aux commandes HDFS

Les mégadonnées sont un mot pour des ensembles de données qui sont si énormes ou si complexes que les logiciels d'application de traitement de données conventionnels ne suffisent pas à pactiser avec eux. Hadoop est un cadre de programmation open source basé sur Java qui enchaîne l'espace de traitement et de stockage d'ensembles de données extrêmement volumineux dans un environnement informatique disséminé. La fondation du logiciel Apache est la clé pour installer Hadoop

Caractéristiques de HDFS:

HDFS fonctionne sur une architecture maître / esclave
Les fichiers sont utilisés par HDFS pour stocker les données liées à l'utilisateur
contient un énorme ensemble de répertoires et de fichiers qui sont stockés dans un format hiérarchique.
À l'intérieur, un fichier est extrait en blocs plus petits et ces blocs sont stockés dans un ensemble de Datanodes.
Namenode et Datanode sont la partie des logiciels destinés à être exécutés sur des machines de produits qui s'exécutent classiquement sur GNU / Linux OS.

Namenode:

Ici, le système de fichiers est géré par nom de nœud
Namenode est également responsable de la journalisation de toutes les modifications du système de fichiers et conserve en plus une image de l'espace de noms du système de fichiers complet et du fichier Blockmap en mémoire
Le contrôle est effectué périodiquement. d'où un retour facile à l'étape avant que le point de crash ne puisse être atteint ici.

Datanode:

Un Datanode fournit des données dans des fichiers dans son système de fichiers local
Afin d'intimer son existence, le nœud de données envoie le rythme cardiaque au namenode
Un rapport de blocage sera généré pour chaque 10e battement de cœur reçu
La réplication est implicite sur les données stockées dans ces nœuds de données

Réplication des données:

Ici, la séquence de blocs forme un fichier avec une taille de bloc par défaut de 128 Mo
Tous les blocs du fichier, à l'exception du fichier final, sont de taille similaire.
De chaque nœud de données du cluster, l'élément namenode reçoit un battement de cœur
BlockReport contient tous les blocs d'un Datanode.
contient un énorme ensemble de répertoires et de fichiers qui sont stockés dans un format hiérarchique.
À l'intérieur, un fichier est extrait en blocs plus petits et ces blocs sont stockés dans un ensemble de Datanodes.
Namenode et Datanode sont la partie des logiciels destinés à être exécutés sur des machines de produits qui s'exécutent classiquement sur GNU / Linux OS.

Job tracker: JobTracker débat au NameNode pour conclure la position des données. Recherchez également les meilleurs nœuds TaskTracker pour effectuer des tâches en fonction de la localité des données

Suivi des tâches: un TaskTracker est un nœud du cluster qui accepte les tâches - Mapper, Réduire et Mélanger - à partir d'un JobTracker.

Noeud de nom secondaire (ou) noeud de point de contrôle: obtient le journal d'édition du noeud de nom à intervalles réguliers et s'applique à son image FS. Et copie une image FS terminée sur le nœud de nom lors de son redémarrage. Le but du nœud de nom secondaire est d'avoir un point de contrôle dans HDFS.

FIL:

YARN possède un composant de gestionnaire de ressources central qui gère les ressources et attribue les ressources à chaque application.
Ici, le gestionnaire de ressources est le maître qui attribue les ressources associées au cluster, le gestionnaire de ressources est enroulé de deux composants, le gestionnaire d'applications et un planificateur, ces deux composants gèrent ensemble les travaux sur les systèmes de cluster. un autre composant appelle le Node Manager (NM) qui est responsable de la gestion des travaux et du workflow des utilisateurs sur un nœud donné.
Une réplication exacte des données dans le namenode actif est détenue par le NameNode de secours. Il agit comme un esclave, maintient un état suffisant pour fournir un basculement rapide, si essentiel.

Commandes HDFS de base:

Commandes HDFS de base
Sr.Non	Propriété de commande HDFS	Commande HDFS
1	Imprimer la version hadoop	$ hadoop version
2	Lister le contenu du répertoire racine dans HDFS	$ hadoop fs -ls
3	Signaler la quantité d'espace utilisée et disponible sur un système de fichiers actuellement monté	$ hadoop fs -df hdfs: /
4	L'équilibreur HDFS rééquilibre les données entre les nœuds de données, déplaçant les blocs des nœuds surutilisés aux nœuds sous-utilisés.	$ hadoop balancer
5	Commande d'aide	$ hadoop fs -help

Commandes HDFS intermédiaires:

Commandes HDFS intermédiaires
Sr.Non	Propriété de commande HDFS	Commande HDFS
6	crée un répertoire à l'emplacement HDFS spécifié	$ hadoop fs -mkdir / user / cloudera /
sept	Copie les données d'un emplacement à un autre	$ hadoop fs -put data / sample.txt / user / training / hadoop
8	Voir l'espace occupé par un répertoire particulier dans HDFS	$ hadoop fs -du -s -h / user / cloudera /
9	Supprimer un répertoire dans Hadoop	$ hadoop fs -rm -r / user / cloudera / pigjobs /
dix	Supprime tous les fichiers du répertoire donné	$ hadoop fs -rm -skipTrash hadoop / retail / *
11	Pour vider la poubelle	$ hadoop fs -expunge
12	copie les données de et vers local vers HDFS	$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume / $ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Commandes HDFS avancées:

Commandes HDFS intermédiaires
Sr.Non	Propriété de commande HDFS	Commande HDFS
13	modifier les autorisations de fichier	$ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume /
14	définir le facteur de réplication des données pour un fichier	$ hadoop fs -setrep -w 5 / utilisateur / cloudera / pigjobs /
15	Compter le nombre de répertoires, fichiers et octets sous hdfs	$ hadoop fs -count hdfs: /
16	faire en sorte que le namenode existe en mode sans échec	$ sudo -u hdfs hdfs dfsadmin -safemode quitter
17	Hadoop formate un namenode	$ hadoop namenode -format

Trucs et astuces HDFS:

1) Nous pouvons obtenir une récupération plus rapide lorsque le nombre de nœuds de cluster est plus élevé.

2) L'augmentation du stockage par unité de temps augmente le temps de récupération.

3) Le matériel Namenode doit être très fiable.

4) Une surveillance sophistiquée peut être obtenue par le biais d'ambari.

5) La famine du système peut être diminuée en augmentant le nombre de réducteurs.

Articles recommandés

Cela a été un guide pour les commandes HDFS. Ici, nous avons discuté des commandes HDFS, des fonctionnalités, de ses commandes de base, intermédiaires et avancées avec une représentation picturale, des conseils et des astuces sur les commandes. Vous pouvez également consulter nos autres articles suggérés pour en savoir plus -

Commandes de nœud
Commandes Matlab
Avantages du SGBD
Écosystème Hadoop
Commandes Hadoop fs

Commande HDFS - Commande de base à avancée avec trucs et astuces

Table des matières:

Introduction aux commandes HDFS

Caractéristiques de HDFS:

Namenode:

Datanode:

Réplication des données:

FIL:

Commandes HDFS de base:

Commandes HDFS intermédiaires:

Commandes HDFS avancées:

Trucs et astuces HDFS:

Articles recommandés

MongoDB vs SQL Server - 20 différences les plus réussies à apprendre

Exemples de concurrence monopolistique (Top 5 exemples réels)

Exemples de monopole - Top 6 des exemples réels de monopole

Noyau monolithique - Comment ça marche - Portée et carrière - Usages et avantages

MongoDB vs SQL - 7 différences les plus réussies à apprendre

Surcharge de fonctions en C ++ - Différentes façons de surcharger la fonction en C ++

Fonctions du marché financier - 5 fonctions principales du marché financier

9 façons utiles de financement des exigences pour le démarrage d'une entreprise - eduCBA

Formule de valeur future - Calculatrice (modèle Excel)

Tests Fuzz - Comment ça marche - Outils de test et exemples de Fuzzers

Création d'un ensemble dans Tableau - Comment créer un ensemble dans Tableau

Important sur la différence entre CRM et PRM - Quelle est la différence

Logiciel CRM vs PM - Comment les séparer? - edu CBA

10 stratégies de crowdsourcing importantes pour réussir

CRR vs SLR - 6 différences les plus précieuses que vous devez savoir