Introduction aux questions et réponses de l'entretien Apache PIG

Vous avez donc finalement trouvé votre emploi de rêve dans Apache PIG, mais nous nous demandons comment résoudre l'interview d'Apache PIG 2019 et quelles pourraient être les questions probables de l'interview d'Apache PIG. Chaque entretien avec Apache PIG est différent et la portée d'un travail est également différente. Gardant cela à l'esprit, nous avons conçu les questions et les réponses les plus courantes à l'entretien Apache PIG pour vous aider à réussir votre entretien Apache PIG.

Ce qui suit est la liste des questions d'entrevue Apache PIG 2019 qui sont posées principalement

1. Quelles sont les principales différences entre MapReduce et Apache Pig?

Répondre:
Voici les principales différences entre Apache Pig et MapReduce en raison de laquelle Apache Pig est apparu dans l'image:
• MapReduce est un modèle de traitement de données de bas niveau alors qu'Apache Pig est une plate-forme de flux de données de haut niveau
• Sans écrire les implémentations Java complexes dans MapReduce, les programmeurs peuvent facilement réaliser les mêmes implémentations en utilisant Pig Latin.
• Apache Pig fournit des types de données imbriqués tels que des sacs, des tuples et des cartes car ils sont absents de MapReduce.
• Pig prend en charge les opérations de données comme les filtres, les jointures, la commande, le tri, etc. avec de nombreux opérateurs intégrés. Alors que réaliser la même fonction dans MapReduce est une tâche immense.

2. Expliquez les utilisations de MapReduce dans Pig.

Répondre:
Les programmes Apache Pig sont écrits dans un langage de requête appelé Pig Latin qui est similaire au langage de requête SQL. Pour exécuter une requête, il faut un moteur d'exécution. Et le moteur Pig convertit les requêtes en travaux MapReduce et donc MapReduce agit comme moteur d'exécution et est nécessaire pour exécuter les programmes.

3. Expliquez les utilisations de Pig.

Répondre:
On peut utiliser le Cochon en trois catégories, ce sont:
• Pipeline de données ETL: il permet de remplir notre entrepôt de données. Pig peut canaliser les données vers une application externe, il attendra la fin pour qu'il ait reçu les données traitées et continue à partir de là. C'est le cas d'utilisation le plus courant pour Pig.
• Recherche sur données brutes.
• Traitement itératif.

4. Comparez Apache Pig et SQL.

Répondre:
• Apache Pig diffère de SQL dans son utilisation pour l'ETL, l'évaluation paresseuse, le stockage des données à tout moment dans le pipeline, la prise en charge des divisions de pipeline et la déclaration explicite des plans d'exécution. SQL (langage de requête structurel) est orienté autour de requêtes qui produisent un résultat unique. SQL n'a pas de mécanisme intégré pour diviser le flux de traitement des données et appliquer différents opérateurs à chaque sous-flux.
• Apache Pig permet d'inclure du code utilisateur à tout moment dans le pipeline alors que si SQL, où les données doivent être utilisées, doit d'abord être importé dans la base de données, puis le processus de nettoyage et de transformation commence.

5. Expliquez les différents types de données complexes dans Pig.

Répondre:
Apache Pig prend en charge trois types de données complexes:
• Cartes - Ce sont des magasins de valeur clés réunis à l'aide de #.
Exemple: ('city' # 'pune', 'pin' # 411045) • Tuples - Similaire à la ligne d'un tableau, où différents éléments sont séparés par une virgule. Les tuples peuvent avoir plusieurs attributs.
• Sacs - Une collection non triée de tuples. Le sac permet plusieurs tuples en double.
Exemple: (('Mumbai', 022), ('New Delhi', 011), ('Kolkata', 44))

6. Expliquez les différents modèles d'exécution disponibles dans Pig.

Répondre:
Trois modes d'exécution différents disponibles dans Pig:
• Mode interactif ou mode Grunt.
Mode interactif ou mode grognement: le shell interactif de Pig est appelé grunt shell. Si aucun fichier n'est spécifié pour s'exécuter dans Pig, il démarre.
• Mode batch ou mode script.
Pig exécute les commandes spécifiées dans le fichier de script.
• Mode intégré
Nous pouvons intégrer des programmes Pig dans Java et nous pouvons exécuter les programmes à partir de Java.

7. Expliquer les plans d'exécution (plan logique et physique) d'un Pig Script

Répondre:
Des plans logiques et physiques sont créés lors de l'exécution d'un script pig. Les scripts Pig sont basés sur la vérification de l'interpréteur. Le plan logique est produit par une vérification sémantique et une analyse de base et aucun traitement de données n'a lieu lors de la création d'un plan logique. Pour chaque ligne du script Pig, la vérification de la syntaxe est effectuée pour les opérateurs et un plan logique est créé. Chaque fois qu'une erreur est rencontrée dans le script, une exception est levée et l'exécution du programme se termine, sinon pour chaque instruction du script a son propre plan logique.
Un plan logique contient la collection d'opérateurs dans le script mais ne contient pas les bords entre les opérateurs.
Une fois le plan logique généré, l'exécution du script se déplace vers le plan physique où se trouve une description des opérateurs physiques qu'Apache Pig utilisera pour exécuter le script Pig. Un plan physique ressemble plus ou moins à une série de travaux MapReduce, mais le plan n'a aucune référence sur la façon dont il sera exécuté dans MapReduce. Lors de la création d'un plan physique, l'opérateur logique du cogroupe est converti en 3 opérateurs physiques, à savoir –Réorganisation locale, Réorganisation globale et Package. Les fonctions de chargement et de stockage sont généralement résolues dans le plan physique.

8. Quels sont les outils de débogage utilisés pour les scripts Apache Pig?

Répondre:
Décrivez et expliquez les principaux utilitaires de débogage d'Apache Pig.
• L'utilitaire Explain est utile pour les développeurs Hadoop lorsqu'ils essaient de déboguer une erreur ou d'optimiser des scripts PigLatin. expliquer peut être appliqué à un alias particulier dans le script ou il peut être appliqué à l'ensemble du script dans le shell interactif grunt. L'utilitaire d'explication produit plusieurs graphiques au format texte qui peuvent être imprimés dans un fichier.
• Décrire l'utilitaire de débogage est utile aux développeurs lors de l'écriture de scripts Pig car il montre le schéma d'une relation dans le script. Pour les débutants qui essaient d'apprendre Apache Pig peuvent utiliser l'utilitaire de description pour comprendre comment chaque opérateur modifie les données. Un script pig peut avoir plusieurs descriptions.

9. Quels sont les cas d'utilisation d'Apache Pig auxquels vous pouvez penser?

Répondre:
• L'outil Big Data Apache Pig est utilisé notamment pour le traitement itératif, la recherche sur les données brutes et pour les pipelines de données ETL traditionnels. Comme Pig peut fonctionner dans des circonstances où le schéma n'est pas connu, incohérent ou incomplet, il est largement utilisé par les chercheurs qui souhaitent utiliser les données avant de les nettoyer et de les charger dans l'entrepôt de données.
• Pour construire des modèles de prédiction de comportement, par exemple, il peut être utilisé par un site Web pour suivre la réponse des visiteurs à divers types d'annonces, d'images, d'articles, etc.

10. Mettez en évidence la différence entre les opérateurs de groupe et de Cogroup dans Pig.

Répondre:
Les deux opérateurs peuvent travailler avec une ou plusieurs relations. Les opérateurs de groupe et de groupe sont identiques. L'opérateur de groupe collecte tous les enregistrements avec la même clé. Cogroup est une combinaison de groupe et de jointure, c'est une généralisation d'un groupe au lieu de collecter des enregistrements d'une entrée dépend d'une clé, il collecte des enregistrements de n entrées en fonction d'une clé. À la fois, nous pouvons Cogroup jusqu'à 127 relations.

Articles recommandés

Ceci a été un guide pour la liste des questions et réponses de l'entretien Apache PIG afin que le candidat puisse réprimer facilement ces questions de l'entretien Apache PIG. Cet article se compose de toutes les questions et réponses utiles d'Apache PIG Interview qui vous aideront dans une interview. Vous pouvez également consulter les articles suivants pour en savoir plus -

  1. Apache Pig vs Apache Hive
  2. Top 10 des questions d'entretien difficiles
  3. 8 étapes efficaces pour se préparer à une entrevue interne
  4. Conseils importants pour survivre à un entretien avec un panel (utile)