Entrepôt de données vs Hadoop - 6 différences importantes à savoir

Table des matières:

Anonim

Différences entre Data Warehouse et Hadoop

Au cours de chaque décennie, l'industrie informatique connaît une innovation majeure qui secoue l'ensemble de l'industrie informatique. Ces dernières années, Apache Hadoop a fait la même chose en insufflant aux centres de données une nouvelle infrastructure

En donnant la puissance du traitement parallèle au programmeur, Hadoop connaît une augmentation exponentielle de l'adoption et son écosystème se développe à la fois en profondeur et en largeur, il est naturel de se demander si Hadoop va remplacer le Data Warehouse traditionnel.

Voyons ce qu'Alasdair Anderson (vice-président exécutif de Nordea) a dit lors d'un sommet Hadoop sur ce sujet brûlant dans la ville.

«Il n'y a pas de relation entre l'EDW et Hadoop en ce moment - ils vont être complémentaires. Il ne s'agit PAS de rip et de remplacement: nous n'allons pas nous débarrasser du SGBDR ou du MPP, mais à la place, utiliser le bon outil pour le bon travail - et cela dépendra beaucoup du prix. "

Chaque fois que cette discussion intéressante commence, beaucoup de questions nous viennent à l'esprit comme:

1) Si vous avez des mégadonnées, avez-vous besoin d'un entrepôt de données?

2) Hadoop remplacera-t-il l'entrepôt de données?

3) Est-ce la mort de l'ère traditionnelle du Data Warehouse?

Pour connaître les réponses à toutes ces questions, nous devons examiner le contexte plus large de cette image.

1. Qu'est-ce que Hadoop?

Qui n'a pas entendu parler du Big Data ces derniers temps? Avec des centaines de téraoctets de données générées chaque jour à partir de différentes sources, il est clair que le monde moderne d'aujourd'hui est un monde de Big Data

Lorsque vous commencerez à parler du Big Data, vous commencerez tôt ou tard à discuter du sujet le plus chaud du monde du Big Data: Hadoop - mais de quoi s'agit-il exactement?

Hadoop est un framework de programmation open-source basé sur Java qui prend en charge le traitement et le stockage d'ensembles de données extrêmement volumineux dans un environnement informatique distribué.

Les 4 modules de Hadoop -

Hadoop est composé de 4 modules -

  1. Système de fichiers distribué

Le système de fichiers distribués permet de stocker les données dans un format facilement accessible, sur un grand nombre de périphériques de stockage liés.

  1. Réduire la carte

Map Reduce est la combinaison de deux opérations: lire les données de la base de données et les mettre dans un format adapté à l'analyse (carte) et effectuer des opérations mathématiques (réduire).

  1. Hadoop Common

Hadoop Common fournit les outils nécessaires pour les données stockées dans HDFS (Hadoop Distributed File System)

  1. FIL

YARN gère les ressources des systèmes stockant les données et exécutant l'analyse.

2. Qu'est-ce qu'un entrepôt de données?

Un entrepôt de données est une base de données relationnelle conçue pour les données de requête et d'analyse. Il contient généralement des données historiques dérivées de différentes sources.

L'environnement d'entrepôt de données comprend des solutions ETL, un moteur de traitement analytique en ligne (OLAP), des outils d'analyse client et d'autres applications qui gèrent le processus d'analyse des données et de leur livraison aux utilisateurs professionnels.

Résumons ce qu'est l'entrepôt de données -

  1. Orienté sujet

Un entrepôt de données peut être utilisé pour analyser un domaine particulier comme les ventes, les finances et l'inventaire. Chaque domaine contient des données détaillées.

  1. Intégré

Un entrepôt de données intègre des données provenant de plusieurs sources de données. Par exemple, les dates sont au même format, les codes masculin / féminin sont cohérents. Dans un entrepôt de données, il n'y aura qu'une seule façon d'identifier un produit et ils utilisent le même enregistrement client, pas des copies

  1. Non volatile

Les données sont stockées dans l'entrepôt de données non modifiées et elles ne changeront pas. Ainsi, les données historiques d'un entrepôt de données ne doivent jamais être modifiées.

  1. Variante temporelle

on peut récupérer des données de 3 mois, 6 mois, 12 mois, ou même des données plus anciennes d'un entrepôt de données.

  1. Pas virtuel

L'entrepôt de données est un référentiel physique persistant.

Entrepôt de données vs Hadoop (infographie)

Vous trouverez ci-dessous les 6 meilleures comparaisons entre Data Warehouse et Hadoop

Entrepôt de données vs Hadoop - lequel utiliser?

  • Si vous disposez de données propres, cohérentes et de haute qualité, vous devriez opter pour Data Warehouse car Hadoop manque de qualité des données dans certaines de ses solutions.
  • Si vous avez des données brutes non structurées, vous devez opter pour Hadoop car Hadoop fonctionne bien avec les données non structurées / brutes mais Data Warehouse ne fonctionne qu'avec les données structurées.
  • Pour les rapports à faible latence et interactifs, vous devriez opter pour Data Warehouse
  • Pour les requêtes OLTP / en temps réel / ponctuelles, vous devriez opter pour Data Warehouse car Hadoop fonctionne bien avec les données par lots.
  • Pour les ensembles de données volumineux, vous devriez opter pour Hadoop car Hadoop est conçu pour résoudre les problèmes de Big Data.

Tableau de comparaison directe entre Data Warehouse et Hadoop

Ci-dessous la liste des points décrivant les comparaisons entre Data Warehouse et Hadoop

Base de comparaisonEntrepôt de donnéesHadoop
Les donnéesDans Data Warehouse, nous analysons les données structurées et traitéesDans Hadoop, nous pouvons traiter tout type de données, y compris structurées / non structurées / semi-structurées et brutes
En traitementSon traitement est basé sur des concepts de schéma en écritureSon traitement est basé sur des concepts de schéma en lecture
Espace de rangementConvient aux données avec un petit volume et c'est trop cher pour les données à grand volumeIl fonctionne bien avec de grands ensembles de données ayant un volume, une vitesse et une variété énormes
AgilitéIl est moins agile et de configuration fixeIl est très agile, configure et reconfigure au besoin
SécuritéLes technologies de Data Warehouse existent depuis des décennies. Ainsi en terme de sécurité, on peut compter sur Data WarehouseBien que les technologies Hadoop soient relativement nouvelles par rapport à Data Warehouse, la sécurité est donc une grande préoccupation ici
UtilisateursLes professionnels utilisent généralement l'entrepôt de donnéesHadoop est assez célèbre dans le domaine de la science des données et de l'ingénierie des données

Conclusion - Entrepôt de données vs Hadoop

Maintenant que nous connaissons Data Warehouse et Hadoop, revenons en arrière et examinons la question que nous avons posée au début de cet article Data Warehouse et Hadoop -

1) Si vous avez du Big Data, avez-vous besoin d'un Data Warehouse?

Réponse - tant que votre organisation a besoin de données fiables, crédibles et accessibles, vous avez besoin d'un entrepôt de données.

2) Hadoop remplacera-t-il l'entrepôt de données?

Réponse - Comparer Data Warehouse vs Hadoop, c'est comme comparer des pommes et des oranges. Les deux Data Warehouse et Hadoop ont leurs propres avantages dans différents scénarios de cas d'utilisation. Dans certains cas, nous dépendons toujours des techniques traditionnelles de l'entrepôt de données, mais à mesure que le temps change, nous nous concentrons davantage sur Hadoop Framework pour gérer les problèmes de Big Data.

3) S'agit-il d'une mort de l'ère traditionnelle de l'entrepôt de données?

Réponse - Comme vous pouvez le voir, ce n'est pas vraiment une question simple et ne se prête donc pas bien à une réponse simple. Il est vrai que les mégadonnées vont changer l'approche traditionnelle de l'entreposage de données au cours des prochaines années, mais elles n'observeront pas les concepts et la pratique de l'entreposage de données.

Article recommandé

Cela a été un guide utile pour Data Warehouse vs Hadoop ici, nous avons discuté de leur signification, de leur comparaison directe, de leur différence clé et de leur conclusion. Vous pouvez également consulter l'article suivant pour en savoir plus -

  1. Hadoop vs Splunk - Découvrez les 7 meilleures différences
  2. Hadoop vs Elasticsearch - Lequel est le plus utile
  3. Big Data vs Data Warehouse - Découvrez les meilleures différences
  4. Business Intelligence vs Data Warehouse
  5. Splunk vs Nagios