Installer Spark - Guide complet sur l'installation de Spark

Table des matières:

Anonim

Comment installer Spark?

Spark est un framework open source pour exécuter des applications d'analyse. Il s'agit d'un moteur de traitement de données hébergé chez Apache Software Foundation, indépendant du fournisseur, pour travailler sur des ensembles de données volumineux ou des données volumineuses. Il s'agit d'un système informatique en grappe à usage général qui fournit des API de haut niveau dans Scala, Python, Java et R. Il a été développé pour surmonter les limitations du paradigme MapReduce de Hadoop. Les scientifiques des données pensent que Spark s'exécute 100 fois plus rapidement que MapReduce car il peut mettre en cache les données en mémoire tandis que MapReduce fonctionne davantage en lisant et en écrivant sur des disques. Il effectue un traitement en mémoire qui le rend plus puissant et plus rapide.

Spark n'a pas son propre système de fichiers. Il traite les données de diverses sources de données telles que Hadoop Distributed File System (HDFS), le système S3 d'Amazon, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Il peut fonctionner sur Hadoop YARN (Yet Another Resource Negotiator), sur Mesos, sur EC2, sur Kubernetes ou en utilisant le mode cluster autonome. Il utilise des RDD (Resilient Distributed Dataset) pour déléguer des charges de travail à des nœuds individuels qui prennent en charge les applications itératives. Grâce à RDD, la programmation est facile par rapport à Hadoop.

Spark se compose de divers composants appelés composants de l'écosystème Spark.

  • Spark Core: c'est le fondement de l'application Spark dont les autres composants dépendent directement. Il fournit une plate-forme pour une grande variété d'applications telles que la planification, la répartition répartie des tâches, le traitement de la mémoire et le référencement des données.
  • Spark Streaming: c'est le composant qui fonctionne sur les données de streaming en direct pour fournir des analyses en temps réel. Les données en direct sont ingérées dans des unités discrètes appelées lots qui sont exécutées sur Spark Core.
  • Spark SQL: c'est le composant qui fonctionne au-dessus du noyau Spark pour exécuter des requêtes SQL sur des données structurées ou semi-structurées. Data Frame est le moyen d'interagir avec Spark SQL.
  • GraphX: c'est le moteur ou le framework de calcul de graphes qui permet de traiter les données de graphes. Il fournit divers algorithmes graphiques à exécuter sur Spark.
  • MLlib: il contient des algorithmes d'apprentissage automatique qui fournissent un cadre d'apprentissage automatique dans un environnement distribué basé sur la mémoire. Il exécute efficacement des algorithmes itératifs en raison de la capacité de traitement des données en mémoire.
  • SparkR: Spark fournit un package R pour exécuter ou analyser des ensembles de données à l'aide du shell R.

Il existe trois façons d'installer ou de déployer spark sur vos systèmes:

  1. Mode autonome dans Apache Spark
  2. Hadoop YARN / Mesos
  3. SIMR (Spark dans MapReduce)

Voyons le déploiement en mode autonome.

Mode de déploiement autonome Spark:

Étape 1: mettre à jour l'index du package

Cela est nécessaire pour mettre à jour tous les packages présents sur votre machine.

Utilisez la commande : $ sudo apt-get update

Étape 2: installer le kit de développement Java (JDK)

Cela installera JDK sur votre machine et vous aidera à exécuter des applications Java.

Étape 3: Vérifiez si Java s'est installé correctement

Java est une condition préalable à l'utilisation ou à l'exécution des applications Apache Spark.

Utilisez la commande : $ java –version

Cette capture d'écran montre la version java et assure la présence de java sur la machine.

Étape 4: installez Scala sur votre machine

Comme Spark est écrit en scala, une balance doit être installée pour exécuter spark sur votre machine.

Utilisez la commande: $ sudo apt-get install scala

Étape 5: Vérifiez si Scala est correctement installé

Cela garantira une installation réussie de la balance sur votre système.

Utilisez la commande : $ scala –version

Étape 6: Téléchargez Apache Spark

Téléchargez Apache Spark en fonction de votre version Hadoop depuis https://spark.apache.org/downloads.html

Lorsque vous irez sur le lien ci-dessus, une fenêtre apparaîtra.

Étape 7: Sélectionnez la version appropriée en fonction de votre version Hadoop et cliquez sur le lien marqué.

Une autre fenêtre apparaîtrait.

Étape 8: Cliquez sur le lien marqué et Apache spark serait téléchargé dans votre système.

Vérifiez si le fichier .tar.gz est disponible dans le dossier des téléchargements.

Étape 9: installer Apache Spark

Pour l'installation de Spark, le fichier tar doit être extrait.

Utilisez la commande: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Vous devez changer la version mentionnée dans la commande en fonction de votre version téléchargée. Dans ce document, nous avons téléchargé la version spark-2.4.0-bin-hadoop2.7.

Étape 10: Configuration de la variable d'environnement pour Apache Spark

Utilisez la commande: $ source ~ / .bashrc

Ajouter une ligne : export PATH = $ PATH: / usr / local / spark / bin

Étape 11: vérifier l'installation d'Apache Spark

Utilisez la commande : $ spark-shell

Si l'installation a réussi, la sortie suivante sera produite.

Cela signifie que l'installation d'Apache Spark sur votre machine a réussi et qu'Apache Spark démarrera dans Scala.

Déploiement de Spark sur Hadoop YARN:

Il existe deux modes pour déployer Apache Spark sur Hadoop YARN.

  1. Mode cluster: dans ce mode, YARN sur le cluster gère le pilote Spark qui s'exécute dans un processus maître d'application. Après avoir lancé l'application, le client peut aller.
  2. Mode client: dans ce mode, les ressources sont demandées à YARN par le maître d'application et le pilote Spark s'exécute dans le processus client.

Pour déployer une application Spark en mode cluster, utilisez la commande:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

La commande ci-dessus démarrera un programme client YARN qui démarrera le maître d'application par défaut.

Pour déployer une application Spark en mode client, utilisez la commande:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Vous pouvez exécuter spark shell en mode client à l'aide de la commande:

$ spark-shell –master yarn –deploy-mode client

Trucs et astuces pour utiliser l'installation par étincelle:

  1. Assurez-vous que Java est installé sur votre machine avant d'installer spark.
  2. Si vous utilisez le langage scala, assurez-vous que la balance est déjà installée avant d'utiliser Apache Spark.
  3. Vous pouvez également utiliser Python au lieu de Scala pour la programmation dans Spark, mais il doit également être préinstallé comme Scala.
  4. Vous pouvez également exécuter Apache Spark sur Windows, mais il est suggéré de créer une machine virtuelle et d'installer Ubuntu à l'aide d'Oracle Virtual Box ou de VMWare Player .
  5. Spark peut fonctionner sans Hadoop (c'est-à-dire en mode autonome) mais si une configuration à plusieurs nœuds est requise, des gestionnaires de ressources comme YARN ou Mesos sont nécessaires.
  6. Lors de l'utilisation de YARN, il n'est pas nécessaire d'installer Spark sur les trois nœuds. Vous devez installer Apache Spark sur un seul nœud.
  7. Lorsque vous utilisez YARN si vous êtes sur le même réseau local que le cluster, vous pouvez utiliser le mode client, tandis que si vous êtes loin, vous pouvez utiliser le mode cluster.

Articles recommandés - Spark Install

Cela a été un guide sur la façon d'installer Spark. Ici, nous avons vu comment déployer Apache Spark en mode autonome et en plus du gestionnaire de ressources YARN, ainsi que quelques conseils et astuces sont également mentionnés pour une installation en douceur de Spark. Vous pouvez également consulter l'article suivant pour en savoir plus -

  1. Comment utiliser les commandes Spark
  2. Une carrière dans Spark - Vous devez essayer
  3. Différences de Splunk vs Spark
  4. Questions et réponses d'entretiens chez Spark
  5. Avantages du Spark Streaming
  6. Types de jointures dans Spark SQL (exemples)