Top 10 des questions et réponses de l'entretien Apache PIG (mis à jour pour 2019)

Introduction aux questions et réponses de l'entretien Apache PIG

Vous avez donc finalement trouvé votre emploi de rêve dans Apache PIG, mais nous nous demandons comment résoudre l'interview d'Apache PIG 2019 et quelles pourraient être les questions probables de l'interview d'Apache PIG. Chaque entretien avec Apache PIG est différent et la portée d'un travail est également différente. Gardant cela à l'esprit, nous avons conçu les questions et les réponses les plus courantes à l'entretien Apache PIG pour vous aider à réussir votre entretien Apache PIG.

Ce qui suit est la liste des questions d'entrevue Apache PIG 2019 qui sont posées principalement

1. Quelles sont les principales différences entre MapReduce et Apache Pig?

Répondre:
Voici les principales différences entre Apache Pig et MapReduce en raison de laquelle Apache Pig est apparu dans l'image:
• MapReduce est un modèle de traitement de données de bas niveau alors qu'Apache Pig est une plate-forme de flux de données de haut niveau
• Sans écrire les implémentations Java complexes dans MapReduce, les programmeurs peuvent facilement réaliser les mêmes implémentations en utilisant Pig Latin.
• Apache Pig fournit des types de données imbriqués tels que des sacs, des tuples et des cartes car ils sont absents de MapReduce.
• Pig prend en charge les opérations de données comme les filtres, les jointures, la commande, le tri, etc. avec de nombreux opérateurs intégrés. Alors que réaliser la même fonction dans MapReduce est une tâche immense.

2. Expliquez les utilisations de MapReduce dans Pig.

Répondre:
Les programmes Apache Pig sont écrits dans un langage de requête appelé Pig Latin qui est similaire au langage de requête SQL. Pour exécuter une requête, il faut un moteur d'exécution. Et le moteur Pig convertit les requêtes en travaux MapReduce et donc MapReduce agit comme moteur d'exécution et est nécessaire pour exécuter les programmes.

3. Expliquez les utilisations de Pig.

Répondre:
On peut utiliser le Cochon en trois catégories, ce sont:
• Pipeline de données ETL: il permet de remplir notre entrepôt de données. Pig peut canaliser les données vers une application externe, il attendra la fin pour qu'il ait reçu les données traitées et continue à partir de là. C'est le cas d'utilisation le plus courant pour Pig.
• Recherche sur données brutes.
• Traitement itératif.

4. Comparez Apache Pig et SQL.

Répondre:
• Apache Pig diffère de SQL dans son utilisation pour l'ETL, l'évaluation paresseuse, le stockage des données à tout moment dans le pipeline, la prise en charge des divisions de pipeline et la déclaration explicite des plans d'exécution. SQL (langage de requête structurel) est orienté autour de requêtes qui produisent un résultat unique. SQL n'a pas de mécanisme intégré pour diviser le flux de traitement des données et appliquer différents opérateurs à chaque sous-flux.
• Apache Pig permet d'inclure du code utilisateur à tout moment dans le pipeline alors que si SQL, où les données doivent être utilisées, doit d'abord être importé dans la base de données, puis le processus de nettoyage et de transformation commence.

5. Expliquez les différents types de données complexes dans Pig.

Répondre:
Apache Pig prend en charge trois types de données complexes:
• Cartes - Ce sont des magasins de valeur clés réunis à l'aide de #.
Exemple: ('city' # 'pune', 'pin' # 411045) • Tuples - Similaire à la ligne d'un tableau, où différents éléments sont séparés par une virgule. Les tuples peuvent avoir plusieurs attributs.
• Sacs - Une collection non triée de tuples. Le sac permet plusieurs tuples en double.
Exemple: (('Mumbai', 022), ('New Delhi', 011), ('Kolkata', 44))

6. Expliquez les différents modèles d'exécution disponibles dans Pig.

Répondre:
Trois modes d'exécution différents disponibles dans Pig:
• Mode interactif ou mode Grunt.
Mode interactif ou mode grognement: le shell interactif de Pig est appelé grunt shell. Si aucun fichier n'est spécifié pour s'exécuter dans Pig, il démarre.
• Mode batch ou mode script.
Pig exécute les commandes spécifiées dans le fichier de script.
• Mode intégré
Nous pouvons intégrer des programmes Pig dans Java et nous pouvons exécuter les programmes à partir de Java.

7. Expliquer les plans d'exécution (plan logique et physique) d'un Pig Script

Répondre:
Des plans logiques et physiques sont créés lors de l'exécution d'un script pig. Les scripts Pig sont basés sur la vérification de l'interpréteur. Le plan logique est produit par une vérification sémantique et une analyse de base et aucun traitement de données n'a lieu lors de la création d'un plan logique. Pour chaque ligne du script Pig, la vérification de la syntaxe est effectuée pour les opérateurs et un plan logique est créé. Chaque fois qu'une erreur est rencontrée dans le script, une exception est levée et l'exécution du programme se termine, sinon pour chaque instruction du script a son propre plan logique.
Un plan logique contient la collection d'opérateurs dans le script mais ne contient pas les bords entre les opérateurs.
Une fois le plan logique généré, l'exécution du script se déplace vers le plan physique où se trouve une description des opérateurs physiques qu'Apache Pig utilisera pour exécuter le script Pig. Un plan physique ressemble plus ou moins à une série de travaux MapReduce, mais le plan n'a aucune référence sur la façon dont il sera exécuté dans MapReduce. Lors de la création d'un plan physique, l'opérateur logique du cogroupe est converti en 3 opérateurs physiques, à savoir –Réorganisation locale, Réorganisation globale et Package. Les fonctions de chargement et de stockage sont généralement résolues dans le plan physique.

8. Quels sont les outils de débogage utilisés pour les scripts Apache Pig?

Répondre:
Décrivez et expliquez les principaux utilitaires de débogage d'Apache Pig.
• L'utilitaire Explain est utile pour les développeurs Hadoop lorsqu'ils essaient de déboguer une erreur ou d'optimiser des scripts PigLatin. expliquer peut être appliqué à un alias particulier dans le script ou il peut être appliqué à l'ensemble du script dans le shell interactif grunt. L'utilitaire d'explication produit plusieurs graphiques au format texte qui peuvent être imprimés dans un fichier.
• Décrire l'utilitaire de débogage est utile aux développeurs lors de l'écriture de scripts Pig car il montre le schéma d'une relation dans le script. Pour les débutants qui essaient d'apprendre Apache Pig peuvent utiliser l'utilitaire de description pour comprendre comment chaque opérateur modifie les données. Un script pig peut avoir plusieurs descriptions.

9. Quels sont les cas d'utilisation d'Apache Pig auxquels vous pouvez penser?

Répondre:
• L'outil Big Data Apache Pig est utilisé notamment pour le traitement itératif, la recherche sur les données brutes et pour les pipelines de données ETL traditionnels. Comme Pig peut fonctionner dans des circonstances où le schéma n'est pas connu, incohérent ou incomplet, il est largement utilisé par les chercheurs qui souhaitent utiliser les données avant de les nettoyer et de les charger dans l'entrepôt de données.
• Pour construire des modèles de prédiction de comportement, par exemple, il peut être utilisé par un site Web pour suivre la réponse des visiteurs à divers types d'annonces, d'images, d'articles, etc.

10. Mettez en évidence la différence entre les opérateurs de groupe et de Cogroup dans Pig.

Répondre:
Les deux opérateurs peuvent travailler avec une ou plusieurs relations. Les opérateurs de groupe et de groupe sont identiques. L'opérateur de groupe collecte tous les enregistrements avec la même clé. Cogroup est une combinaison de groupe et de jointure, c'est une généralisation d'un groupe au lieu de collecter des enregistrements d'une entrée dépend d'une clé, il collecte des enregistrements de n entrées en fonction d'une clé. À la fois, nous pouvons Cogroup jusqu'à 127 relations.

Articles recommandés

Ceci a été un guide pour la liste des questions et réponses de l'entretien Apache PIG afin que le candidat puisse réprimer facilement ces questions de l'entretien Apache PIG. Cet article se compose de toutes les questions et réponses utiles d'Apache PIG Interview qui vous aideront dans une interview. Vous pouvez également consulter les articles suivants pour en savoir plus -

Apache Pig vs Apache Hive
Top 10 des questions d'entretien difficiles
8 étapes efficaces pour se préparer à une entrevue interne
Conseils importants pour survivre à un entretien avec un panel (utile)

Top 10 des questions et réponses de l'entretien Apache PIG (mis à jour pour 2019)

Table des matières:

Introduction aux questions et réponses de l'entretien Apache PIG

1. Quelles sont les principales différences entre MapReduce et Apache Pig?

2. Expliquez les utilisations de MapReduce dans Pig.

3. Expliquez les utilisations de Pig.

4. Comparez Apache Pig et SQL.

5. Expliquez les différents types de données complexes dans Pig.

6. Expliquez les différents modèles d'exécution disponibles dans Pig.

7. Expliquer les plans d'exécution (plan logique et physique) d'un Pig Script

8. Quels sont les outils de débogage utilisés pour les scripts Apache Pig?

9. Quels sont les cas d'utilisation d'Apache Pig auxquels vous pouvez penser?

10. Mettez en évidence la différence entre les opérateurs de groupe et de Cogroup dans Pig.

Articles recommandés

Principes de Prince2 - Apprenez les 7 principaux principes de Prince2

Nombre premier en C ++ - Trouver des nombres premiers à l'aide de diverses méthodes

Principes du Manifeste Agile - Découvrez les 12 principes du Manifeste Agile

Principes d'animation - Comprendre les douze principes de base

Principes de gestion des ressources humaines - Rôles et nature de la GRH

Les 5 meilleurs modes de fusion de Photoshop que vous devez connaître - Photoshop Essentials

L'outil Lasso magnétique - Sélections Photoshop

L'outil Baguette magique - Sélections Photoshop

Enregistrement en arrière-plan et enregistrement automatique dans Photoshop CS6

Comment utiliser l'outil de sélection d'objets dans Photoshop CC 2020

Fonctions de chaîne PowerShell - Diverses fonctions de chaîne avec exemple

Powershell vs Bash - Lequel est le meilleur (avec infographie)

PowerShell vs CMD - Lequel est le meilleur (avec infographie)

Boucle PowerShell ForEach - Comment fonctionne ForEach Loop dans PowerShell?

Graphique en cascade Power BI - Comment créer un graphique en cascade dans Power BI?