Introduction à l'intégration de données Talend
L'intégration de Talend Data signifie combiner des données provenant de différentes sources et les combiner à une seule vue pour obtenir des données significatives de celles qui peuvent aider l'entreprise ou l'organisation à améliorer leur entreprise en analysant ces données. L'intégration aide à obtenir des données, à nettoyer les données en effectuant certaines transformations requises, etc., puis à les charger dans un entrepôt de données.
Qu'est-ce que Talend Data Integration?
- Talend est un outil ETL utilisé pour l'intégration de données. Talend fournit une solution pour la préparation des données, la qualité des données, l'intégration des données et le big data.
- Talend propose Open Studio qui est un open-source pour l'intégration de données et le big data.
- Talend open studio aide à gérer des données volumineuses avec des composants de données volumineuses. Il compte plus de 800+ composants à diverses fins d'intégration. Ici, nous allons discuter de certains des composants. Pour simplifier, voir l'exemple ci-dessous
- Un opérateur de simulation possède d'énormes données sur les plans, les clients, les détails de la simulation, etc.
Client A achetant une carte SIM à l'aide d'un identifiant gouvernemental.
Donner son nom: AB C
Adresse en tant que: Chennai, Chennai
Numéro de téléphone: 1234567890
Après l'intégration des données
Prénom: AB
Nom: C
Adresse: Chennai, Inde
Numéro de téléphone: +911234567890
Ici, les données sont nettoyées et transformées en quelque chose de plus significatif.
Avantages de l'intégration des données
Ici, nous discuterons des avantages de l'intégration des données.
- Analyse des tendances commerciales à l'aide de l'intégration de données
- Combiner des données en un seul système
- Gain de temps et plus efficace et moins de retouches
- Génération facile de rapports - utilisée par les outils de BI
- Maintenance et insertion de données dans l'entrepôt de données et les data marts
Application de l'intégration des données Talend
Ici, nous allons discuter de l'application de l'intégration de données Talend.
1. Travailler avec Talend
- Assurez-vous que java est installé et que les variables d'environnement sont définies.
- Téléchargez l'open-source depuis le site Web de Talend et installez le logiciel.
- Créez un nouveau projet et terminez la configuration
- Talend s'ouvrira avec l'onglet designer.
- Talend est un outil basé sur une éclipse et les composants peuvent être glissés depuis la palette ou vous pouvez cliquer et taper le nom des composants.
2. Premier travail de lecture d'un fichier
- Recherchez le composant tFileinputdelimited. Ce composant est utilisé pour lire tous les fichiers délimités.
- Placez le composant tFileinputdelimited. Recherchez le tLogRow et placez-le dans le Job Designer.
- Faites un clic droit sur le tFileinputdelimited et sélectionnez row-> main et tracez une ligne vers le tLogRow.
- Dans le composant, l'onglet sélectionne le chemin d'accès du fichier que vous souhaitez lire et donne le séparateur de lignes en \ n. Si le fichier a un délimiteur, vous pouvez mentionner le délimiteur.
- Cliquez sur le schéma et donnez les détails du type de colonne ou vous pouvez lire la ligne entière comme une chaîne avec une colonne et la valeur du délimiteur doit être vide.
- Vous pouvez également ignorer l'en-tête et le pied de page.
- Dans le composant tLogRow, sélectionnez la façon dont vous souhaitez voir les données. Format de tableau ou format monoligne.
- Le tLogRow affiche la sortie dans la console d'exécution.
- Après avoir connecté à la fois le tFileinputdelimited et le tLogRow, exécutez le travail à partir de l'onglet d'exécution.
- Vous pouvez voir le contenu du fichier dans la console imprimé.
3. Deuxième tâche à l'aide de Tmap
- Lisez un fichier et filtrez-le dans différents fichiers de sortie.
- Lisez un fichier dans le composant tFileinputdelimited avec un schéma de colonne en tant qu'enregistrement.
- Composant Tmap - Ce composant aide à transformer les données avec certaines fonctions intégrées comme la recherche, les jointures, etc.
- Dans tmap, créez deux sorties out1 et out2.
- Dans le filtre out1, ajoutez record.contains («talend») et tracez l'enregistrement sur out1.
- Tracez la ligne d'enregistrement vers une autre sortie2.
- À partir du tmap, prenez les lignes principales et connectez-vous à deux tFileoutputdelimited.
- lien out1 vers un tfileoutputdelimited1 en tant que fichier1.txt et out2 vers un autre tfileoutputdelimited2 en tant que fichier2.txt.
- txt aura des enregistrements contenant talend.
- txt aura des enregistrements qui ont d'autres noms.
4. Intégré et référentiel
- Intégré signifie que vous devez définir le schéma ou les détails pour vous connecter à une base de données à chaque fois.
- Le référentiel est pratique pour enregistrer les détails dans les métadonnées afin que vous puissiez réutiliser les mêmes détails à chaque fois sans entrer manuellement les détails à chaque fois. Dans les métadonnées, vous pouvez enregistrer le schéma de fichiers, les connexions à la base de données, la connexion Hadoop, la connexion ruche, la connexion s3 et bien d'autres.
Composants de l'intégration de données Talend
Ici, nous allons discuter des composants de Talend Data Integration.
1. tFileList: ce composant répertorie les fichiers dans un répertoire ou un dossier avec un modèle de masque de fichier donné.
2. tMysqlConnection: ce composant est utilisé pour se connecter à la base de données MySQL. Les composants Mysql peuvent utiliser cette connexion pour une configuration facile de la connexion à la base de données.
3. tMysqlInput: ce composant permet d'exécuter une requête de base de données mysql et d'obtenir la table ou les colonnes. Ce composant est utilisé pour sélectionner des requêtes et obtenir les détails.
4. tMysqlOutput: ce composant est utilisé pour insérer ou mettre à jour des données dans la base de données Mysql.
5. tPrejob: Ce composant est le premier à s'exécuter dans le travail et peut être connecté à d'autres composants avec sur Subjob ok.
6. tPostjob: Ce composant est le dernier à exécuter dans le travail. Vous pouvez le connecter avec des composants de fermeture de connexion.
7. tLogcatcher: ce composant intercepte l'avertissement et les erreurs dans le travail. Il s'agit du composant le plus important utilisé dans la technique de gestion des erreurs. Les journaux d'erreurs peuvent être écrits à l'aide de ce composant avec tfileoutputdelimited. Il y a plus de 800+ composants.
8. Variable de contexte: les variables de contexte sont des variables qui peuvent être utilisées partout dans le travail. Il contient des valeurs et peut être transmis à un autre travail en utilisant également des composants tRun. Les utilisations des variables de contexte permettent de modifier la valeur à des fins différentes. Par exemple, nous pouvons avoir un ensemble de valeurs pour le groupe de contexte de développement et un ensemble différent de valeurs de contexte pour la production. De cette façon, nous n'avons pas à changer le travail, il suffit de changer les paramètres de contexte.
9. Création d'un travail: Pour créer un travail, cliquez avec le bouton droit sur le travail et sélectionnez un travail de construction. Vous pouvez importer le travail de génération dans TAC. Dans Talend Administration Console, vous planifiez un job pour déclencher également la dépendance de l'ensemble de jobs. Vous pouvez également importer le travail à partir du référentiel Nexus à l'aide d'un travail d'artefact.
10. Créez une tâche dans TAC: ouvrez le gestionnaire de travaux dans TAC. Cliquez sur de nouvelles tâches et sélectionnez des tâches normales ou artefacts. Importez le travail de génération ou sélectionnez à partir de Nexus. Sélectionnez le serveur de travaux sur lequel s'exécutera le talend. Enregistrez la tâche. Vous pouvez maintenant déployer et exécuter le travail.
Conclusion
- «Simplifiez ETL et ELT avec le principal outil ETL open source gratuit pour les mégadonnées.» Est le slogan pour open studio.
- Talend Bigdata possède de nombreux composants pour gérer d'énormes données.
- Le travail standard, le travail Bigdata et les travaux de streaming Bigdata sont les différents types d'emplois disponibles dans Talend.
- Les travaux Bigdata peuvent être créés dans un cadre spark ou MapReduce.
Article recommandé
Ceci est un guide pour l'intégration de données Talend. Nous discutons ici de l'introduction à Talend Data Integration et des avantages ainsi que des applications et des composants. Vous pouvez également consulter nos autres articles suggérés pour en savoir plus
- Outil d'intégration de données | Les 12 meilleurs outils
- Questions et réponses de l'entretien de Talend
- Meilleurs outils de visualisation de données avec ses types
- Talend vs Mulesoft - Différences
- Qu'est-ce que Data Mart?