Talend Open Studio - Découvrez les avantages, les applications et les composants

Table des matières:

Anonim

Introduction à Talend Open Studio

Talend propose Open Studio qui est un open-source pour l'intégration de données. Il compte plus de 800+ composants à diverses fins d'intégration. Téléchargez Talend Open Studio depuis https://www.talend.com/download/

L'intégration des données signifie combiner des données provenant de différentes sources et les combiner à une seule vue pour obtenir des données significatives de celles qui peuvent aider l'entreprise ou l'organisation à améliorer leur entreprise en analysant ces données. L'intégration aide à obtenir des données, à nettoyer les données en effectuant certaines transformations requises, etc., puis à les charger dans un entrepôt de données.

Qu'est-ce que Talend?

Talend est un outil ETL utilisé pour l'intégration de données. Talend fournit une solution pour la préparation des données, la qualité des données, l'intégration des données et le big data. Ici, nous allons discuter de certains des composants. Pour faciliter la lecture de l'exemple ci-dessous, un opérateur de simulation possède d'énormes données sur les plans, les clients, les détails de la simulation, etc. Ces données sont énormes, donc de grandes données sont également utilisées dans l'intégration.

Client A achetant une carte SIM à l'aide d'un identifiant gouvernemental

Donner son nom comme AB C

adresse comme Chennai, Chennai

numéro de téléphone 1234567890

Après l'intégration des données

Prénom: AB

Nom: C

Adresse: Chennai, Inde

Numéro de téléphone: +911234567890

Ici, les données sont nettoyées et transformées en quelque chose de plus significatif.

Avantages

  • Analyse des tendances commerciales à l'aide de l'intégration de données
  • Combiner des données en un seul système
  • Gain de temps et plus efficace et moins de retouches
  • Génération facile de rapports - utilisée par les outils de BI
  • Maintenance et insertion de données dans l'entrepôt de données et les magasins de données

Application

Voici les applications suivantes mentionnées ci-dessous

1. Travailler avec Talend

  • Assurez-vous que java est installé et que les variables d'environnement sont définies.
  • Téléchargez l'open-source depuis le site Web de Talend et installez le logiciel.
  • Créez un nouveau projet et terminez la configuration
  • Talend s'ouvrira avec l'onglet designer.
  • Talend est un outil basé sur une éclipse et les composants peuvent être glissés depuis la palette ou vous pouvez cliquer et taper le nom des composants.

2. Le premier travail Lire un fichier

  • Recherchez le composant tFileinputdelimited. Ce composant est utilisé pour lire tous les fichiers délimités.
  • Placez le composant tfileinputdelimited. Recherchez tlogrow et placez-le dans le Job Designer.
  • Cliquez avec le bouton droit sur tfileinputdelimited et sélectionnez row-> main et tracez une ligne sur tlogrow.
  • Dans le composant, l'onglet sélectionne le chemin d'accès du fichier que vous souhaitez lire et donne le séparateur de lignes en \ n. Si le fichier a un délimiteur, vous pouvez mentionner le délimiteur.
  • Cliquez sur le schéma et donnez les détails du type de colonne ou vous pouvez lire la ligne entière comme une chaîne avec une colonne et la valeur du délimiteur doit être vide.
  • Vous pouvez également ignorer l'en-tête et le pied de page.
  • Dans le composant tlogrow, sélectionnez la façon dont vous souhaitez voir les données. Format de tableau ou format monoligne.
  • tlogrow affiche la sortie dans la console d'exécution.
  • Après avoir connecté à la fois tfileinputdelimited et tlogrow, exécutez le travail à partir de l'onglet d'exécution.
  • Vous pouvez voir le contenu du fichier dans la console imprimé.

3. Un deuxième travail avec Tmap

  • Lisez un fichier et filtrez-le dans différents fichiers de sortie.
  • Lisez un fichier dans le composant tfileinputdelimited avec un schéma de colonne comme enregistrement.
  • Composant Tmap - Ce composant aide à transformer les données avec certaines fonctions intégrées comme la recherche, les jointures, etc.
  • Dans tmap, créez deux sorties out1 et out2.
  • Dans le filtre out1, ajoutez row3.record.contains («talend») et tracez l'enregistrement sur out1.
  • Tracez la ligne d'enregistrement vers une autre sortie2.

  • À partir du tmap, prenez les lignes principales et connectez-vous à deux tfileoutputdelimited.
  • lien out1 vers un tfileoutputdelimited1 en tant que fichier1.txt et out2 vers un autre tfileoutputdelimited2 en tant que fichier2.txt.
  • txt aura des enregistrements contenant talend.
  • txt aura des enregistrements qui ont d'autres noms.

4. Intégré et référentiel

  • Intégré signifie que vous devez définir le schéma ou les détails pour vous connecter à une base de données à chaque fois.
  • Le référentiel est pratique pour enregistrer les détails dans les métadonnées afin que vous puissiez réutiliser les mêmes détails à chaque fois sans entrer manuellement les détails à chaque fois. Dans les métadonnées, vous pouvez enregistrer le schéma de fichiers, les connexions à la base de données, la connexion Hadoop, la connexion ruche, la connexion s3 et bien d'autres.

Composants de Talend Open Studio

Voici les composants suivants de Talend Open Studio mentionnés ci-dessous

1. tFileList

  • Ce composant répertorie les fichiers dans un répertoire ou un dossier avec un modèle de masque de fichier donné.

2. tMysqlConnection

  • Ce composant est utilisé pour se connecter à la base de données mysql.
  • Les composants Mysql peuvent utiliser cette connexion pour une configuration facile de la connexion à la base de données.

3. tMysqlinput

  • Ce composant permet d'exécuter une requête de base de données mysql et d'obtenir la table ou les colonnes. Ce composant est utilisé pour sélectionner des requêtes et obtenir les détails.

4. tMysqlOutput

  • Ce composant est utilisé pour insérer ou mettre à jour des données dans la base de données Mysql.

5. tprejob

  • Ce composant est le premier à s'exécuter dans le travail et peut être connecté à d'autres composants avec ok sur le sous-job.

6. tpostjob

  • Ce composant est le dernier à exécuter dans le travail. Vous pouvez le connecter avec des composants de fermeture de connexion.

7. tlogcatcher

  • Ce composant intercepte l'avertissement et les erreurs du travail.
  • Composant le plus important utilisé dans la technique de gestion des erreurs.
  • Les journaux d'erreurs peuvent être écrits à l'aide de ce composant avec tfileoutputdelimited.
  • Il y a plus de 800+ composants.

Variable de contexte

  • Les variables de contexte sont des variables qui peuvent être utilisées partout dans le travail.
  • Il contient des valeurs et peut être transmis à un autre travail en utilisant également le composant trun.
  • L'utilisation de variables de contexte permet de modifier la valeur à des fins différentes.
  • Par exemple, nous pouvons avoir un ensemble de valeurs pour le groupe de contexte de développement et un autre ensemble de valeurs de contexte pour la production.
  • De cette façon, nous n'avons pas à changer le travail, il suffit de changer les paramètres de contexte.

Construire un emploi

  • Pour créer un travail, cliquez avec le bouton droit sur le travail et sélectionnez créer un travail.
  • Vous pouvez importer le travail de génération dans TAC.
  • Dans Talend Administration Console, vous planifiez un job pour déclencher également la dépendance de l'ensemble de jobs.
  • Vous pouvez également importer le travail à partir du référentiel Nexus à l'aide d'un travail d'artefact.

Créer une tâche dans TAC

  • Conducteur de travail ouvert à TAC
  • Cliquez sur de nouvelles tâches et sélectionnez des tâches normales ou artefacts.
  • Importez le travail généré ou sélectionnez-le dans Nexus.
  • Sélectionnez le serveur de travaux sur lequel s'exécutera le talend.
  • Enregistrez la tâche.
  • Vous pouvez maintenant déployer et exécuter le travail.

Conclusion - Talend Open Studio

«Simplifiez ETL et ELT avec le principal outil ETL open source gratuit pour les mégadonnées.» Est le slogan pour open studio. Talend Bigdata possède de nombreux composants pour gérer d'énormes données. Le travail standard, le travail Bigdata et les travaux de streaming Bigdata sont les différents types d'emplois disponibles dans Talend. Les travaux Bigdata peuvent être créés dans un cadre spark ou mapreduce.

Articles recommandés

Ceci est un guide de Talend Open Studio. Nous discutons ici des avantages, des applications et des composants de Talend Open Studio. Vous pouvez également consulter les articles suivants pour en savoir plus -

  1. Guide to Talend Data Integration
  2. Questions importantes concernant les entretiens avec Talend
  3. Talend vs Mulesoft: Différences
  4. Talend vs Pentaho: 8 comparaisons utiles pour apprendre