Introduction aux commandes HDFS
Les mégadonnées sont un mot pour des ensembles de données qui sont si énormes ou si complexes que les logiciels d'application de traitement de données conventionnels ne suffisent pas à pactiser avec eux. Hadoop est un cadre de programmation open source basé sur Java qui enchaîne l'espace de traitement et de stockage d'ensembles de données extrêmement volumineux dans un environnement informatique disséminé. La fondation du logiciel Apache est la clé pour installer Hadoop
Caractéristiques de HDFS:
- HDFS fonctionne sur une architecture maître / esclave
- Les fichiers sont utilisés par HDFS pour stocker les données liées à l'utilisateur
- contient un énorme ensemble de répertoires et de fichiers qui sont stockés dans un format hiérarchique.
- À l'intérieur, un fichier est extrait en blocs plus petits et ces blocs sont stockés dans un ensemble de Datanodes.
- Namenode et Datanode sont la partie des logiciels destinés à être exécutés sur des machines de produits qui s'exécutent classiquement sur GNU / Linux OS.
Namenode:
- Ici, le système de fichiers est géré par nom de nœud
- Namenode est également responsable de la journalisation de toutes les modifications du système de fichiers et conserve en plus une image de l'espace de noms du système de fichiers complet et du fichier Blockmap en mémoire
- Le contrôle est effectué périodiquement. d'où un retour facile à l'étape avant que le point de crash ne puisse être atteint ici.
Datanode:
- Un Datanode fournit des données dans des fichiers dans son système de fichiers local
- Afin d'intimer son existence, le nœud de données envoie le rythme cardiaque au namenode
- Un rapport de blocage sera généré pour chaque 10e battement de cœur reçu
- La réplication est implicite sur les données stockées dans ces nœuds de données
Réplication des données:
- Ici, la séquence de blocs forme un fichier avec une taille de bloc par défaut de 128 Mo
- Tous les blocs du fichier, à l'exception du fichier final, sont de taille similaire.
- De chaque nœud de données du cluster, l'élément namenode reçoit un battement de cœur
- BlockReport contient tous les blocs d'un Datanode.
- contient un énorme ensemble de répertoires et de fichiers qui sont stockés dans un format hiérarchique.
- À l'intérieur, un fichier est extrait en blocs plus petits et ces blocs sont stockés dans un ensemble de Datanodes.
- Namenode et Datanode sont la partie des logiciels destinés à être exécutés sur des machines de produits qui s'exécutent classiquement sur GNU / Linux OS.
Job tracker: JobTracker débat au NameNode pour conclure la position des données. Recherchez également les meilleurs nœuds TaskTracker pour effectuer des tâches en fonction de la localité des données
Suivi des tâches: un TaskTracker est un nœud du cluster qui accepte les tâches - Mapper, Réduire et Mélanger - à partir d'un JobTracker.
Noeud de nom secondaire (ou) noeud de point de contrôle: obtient le journal d'édition du noeud de nom à intervalles réguliers et s'applique à son image FS. Et copie une image FS terminée sur le nœud de nom lors de son redémarrage. Le but du nœud de nom secondaire est d'avoir un point de contrôle dans HDFS.
FIL:
- YARN possède un composant de gestionnaire de ressources central qui gère les ressources et attribue les ressources à chaque application.
- Ici, le gestionnaire de ressources est le maître qui attribue les ressources associées au cluster, le gestionnaire de ressources est enroulé de deux composants, le gestionnaire d'applications et un planificateur, ces deux composants gèrent ensemble les travaux sur les systèmes de cluster. un autre composant appelle le Node Manager (NM) qui est responsable de la gestion des travaux et du workflow des utilisateurs sur un nœud donné.
- Une réplication exacte des données dans le namenode actif est détenue par le NameNode de secours. Il agit comme un esclave, maintient un état suffisant pour fournir un basculement rapide, si essentiel.
Commandes HDFS de base:
Commandes HDFS de base |
||
Sr.Non | Propriété de commande HDFS | Commande HDFS |
1 | Imprimer la version hadoop | $ hadoop version |
2 | Lister le contenu du répertoire racine dans HDFS | $ hadoop fs -ls |
3 | Signaler la quantité d'espace utilisée et disponible sur un système de fichiers actuellement monté | $ hadoop fs -df hdfs: / |
4 | L'équilibreur HDFS rééquilibre les données entre les nœuds de données, déplaçant les blocs des nœuds surutilisés aux nœuds sous-utilisés. | $ hadoop balancer |
5 | Commande d'aide | $ hadoop fs -help |
Commandes HDFS intermédiaires:
Commandes HDFS intermédiaires |
||
Sr.Non | Propriété de commande HDFS | Commande HDFS |
6 | crée un répertoire à l'emplacement HDFS spécifié | $ hadoop fs -mkdir / user / cloudera / |
sept | Copie les données d'un emplacement à un autre | $ hadoop fs -put data / sample.txt / user / training / hadoop |
8 | Voir l'espace occupé par un répertoire particulier dans HDFS | $ hadoop fs -du -s -h / user / cloudera / |
9 | Supprimer un répertoire dans Hadoop | $ hadoop fs -rm -r / user / cloudera / pigjobs / |
dix | Supprime tous les fichiers du répertoire donné | $ hadoop fs -rm -skipTrash hadoop / retail / * |
11 | Pour vider la poubelle | $ hadoop fs -expunge |
12 | copie les données de et vers local vers HDFS | $ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /
$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie / |
Commandes HDFS avancées:
Commandes HDFS intermédiaires |
||
Sr.Non | Propriété de commande HDFS | Commande HDFS |
13 | modifier les autorisations de fichier | $ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume / |
14 | définir le facteur de réplication des données pour un fichier | $ hadoop fs -setrep -w 5 / utilisateur / cloudera / pigjobs / |
15 | Compter le nombre de répertoires, fichiers et octets sous hdfs | $ hadoop fs -count hdfs: / |
16 | faire en sorte que le namenode existe en mode sans échec | $ sudo -u hdfs hdfs dfsadmin -safemode quitter |
17 | Hadoop formate un namenode | $ hadoop namenode -format |
Trucs et astuces HDFS:
1) Nous pouvons obtenir une récupération plus rapide lorsque le nombre de nœuds de cluster est plus élevé.
2) L'augmentation du stockage par unité de temps augmente le temps de récupération.
3) Le matériel Namenode doit être très fiable.
4) Une surveillance sophistiquée peut être obtenue par le biais d'ambari.
5) La famine du système peut être diminuée en augmentant le nombre de réducteurs.
Articles recommandés
Cela a été un guide pour les commandes HDFS. Ici, nous avons discuté des commandes HDFS, des fonctionnalités, de ses commandes de base, intermédiaires et avancées avec une représentation picturale, des conseils et des astuces sur les commandes. Vous pouvez également consulter nos autres articles suggérés pour en savoir plus -
- Commandes de nœud
- Commandes Matlab
- Avantages du SGBD
- Écosystème Hadoop
- Commandes Hadoop fs