DéveloppeurWeb.Com
    DéveloppeurWeb.Com
    • Agile Zone
    • AI Zone
    • Cloud Zone
    • Database Zone
    • DevOps Zone
    • Integration Zone
    • Web Dev Zone
    DéveloppeurWeb.Com
    Home»Uncategorized»Hommage au décès de Teradata Automation
    Uncategorized

    Hommage au décès de Teradata Automation

    mars 9, 2023
    Hommage au décès de Teradata Automation
    Share
    Facebook Twitter Pinterest Reddit WhatsApp Email

    Le 15 février 2023, Teradata s’est officiellement retiré de Chine après 26 ans. En tant qu’entreprise de données professionnelle comme Teradata, je regrette tellement cela. En tant qu’éditeur de WhaleOps, je suis également fan de Teradata et garde un œil sur le développement des différentes gammes de produits de Teradata. Lorsque tout le monde pense à l’avenir de l’entrepôt de données Teradata, ils ignorent que Teradata possède en fait une arme magique, à savoir la suite de planification d’entrepôt de données Teradata Automation fournie avec l’entrepôt de données Teradata.

    Le développement rapide de Teradata dans le monde, notamment en Grande Chine, est indissociable de l’assistance de Teradata Automation. Aujourd’hui, nous sommes ici pour rappeler l’histoire de Teradata Automation et la perspective de l’avenir. Nous espérons également que DolphinScheduler et WhaleScheduler, qui ont rendu hommage à l’automatisation depuis leur naissance, pourront prendre le relais et continuer à bénéficier à la prochaine génération de planificateurs.

    Évolution de l’architecture de Teradata Automation

    Teradata était différent des autres entrepôts de données (Oracle, DB2) au début de sa naissance. Il a abandonné l’architecture ETL couramment utilisée, mais le modèle ELT dont les gens se plaisent à parler dans le domaine du big data, c’est-à-dire que sa solution globale n’a pas besoin d’utiliser Informatica/DataStage/Talend extrait et transforme la source de données, mais convertissez le système source en un fichier d’interface, puis entrez dans la couche de préparation de l’entrepôt de données via FastLoad/Multiload/TPump/Parallel Transporter (TPT) (Ceux qui sont intéressés par les outils alternatifs peuvent se référer à la version open source d’Apache SeaTunnel ou à la publicité WhaleOps version WhaleTunnel), puis exécutez les scripts TeradataSQL via BTEQ, et exécutez efficacement tous les scripts en fonction des déclencheurs et des dépendances (DAG) entre les tâches.

    Cette architecture de Teradata Automation vous semble-t-elle familière ? Oui, Oozie, Azkaban et Airflow, qui sont populaires plus tard dans le domaine du Big Data, ont tous cette architecture logique. Oozie, Azkaban et Airflow pâlissent en comparaison avec Teradata Automation qui a été développé en 199x !

    Bien que l’automatisation existe depuis des lustres, en tant qu’initiateur des outils de planification ELT et outil de planification ELT le plus utilisé dans l’industrie des entreprises, il est très avantageux en termes de prise en compte complète des analyses de rentabilisation. Par conséquent, compte tenu des besoins de l’analyse de rentabilisation, la conception d’Apache DolphinScheduler, y compris la conception de nombreuses fonctions de la version commerciale de WhaleScheduler, peut encore voir l’ombre d’un hommage à Teradata Automation, mais Teradata Automation est un contrôle de la planification au niveau des tâches, tandis que DolphinScheduler et WhaleScheduler sont des flux de travail + une planification au niveau des tâches, cette conception doit rendre hommage à Informatica, un autre prédécesseur mondial de la planification ETL (je raconterai son histoire plus tard).

    La première version d’Automation a été écrite par Jet Wu, employé de Teradata Taiwan, à l’aide de Perl. Il est célèbre pour sa structure légère et simple et son système stable. Il utilise également des fichiers d’indicateurs pour éviter les faibles performances de l’OLTP de Teradata et est rapidement devenu populaire dans les projets mondiaux de Teradata. Plus tard, il a été modifié par de grands ingénieurs tels que Wang Yongfu (Teradata) en Chine pour améliorer encore la convivialité. Le catalogue de l’automatisation en Grande Chine ressemble à ceci :

    /ETL (Automation home directory)
     | - -/APP stores ETL task scripts. In this directory, first, create the subsystem directory, and then create the ETL task directory
     | - -/DATA
     | - - - /complete Store the data that has been successfully executed. Create a subdirectory with the system name and date
     | - - - /fail
     | - - - - -/bypass Store files that do not need to be executed. Create subdirectories with system names and dates
     | - - - - -/corrupt Store files that do not match the size. Create a subdirectory with the system name and date
     | - - - - -/duplicate Store duplicate received files. Create subdirectories with system name and date
     | - - - - -/error Store files that generate errors during operation. Create subdirectories with system names and dates
     | - - - - -/unknown Store files not defined in the ETL Automation mechanism. Create subdirectories with dates
     | - - - /message Store the control file to send message notification
     | - - - /process stores the data files and control files used by the jobs being executed
     | - - - /queue stores data files and control files used by jobs ready to be executed
     | - - - /receive is used to receive data files and control files from various source systems
     | - -/LOG Store the ETL Automation system program and the record files generated during the execution of each operation
     | - -/bin stores the execution files of the ETL Automation system program
     | - -/etc store some configuration files of the ETL Automation mechanism
     | - -/lock store ETL Automation system programs and lock files generated during the execution of each job
     | - -/tmp temporary buffer directory, store temporary files

    Au début, l’interface ressemble à ceci :

    Interface d'automatisation Teradata

    Cette version d’Automation dure depuis plus de 10 ans. Plus tard, en raison du nombre croissant de tâches, l’ancienne version d’Automation qui s’appuie sur le stockage de métadonnées fichier + Teradata est insuffisante en termes de performances, et la gestion de l’état des opérations est également assez compliquée, elle a donc été mise à jour et une nouvelle version a été générée dans La Chine, qui a ajouté des paramètres de tâche dans la mémoire et les a préchargés pour améliorer rapidement le parallélisme des tâches, réduire la latence des données et ajouté une gestion complexe de l’état d’exécution. Jusqu’à présent, Teradata Automation est encore utilisé par de nombreux systèmes financiers.

    Chapeau à Teradata Automation !

    Au départ, la communauté open-source d’Apache DolphinScheduler intégrait tous les concepts du système de planification de l’époque, avec de nombreuses fonctions rendant hommage à Teradata Automation. Par exemple, la tâche de dépendance de flux de travaux/tâches interprojets (Dépendant) est exactement la même que le paramètre de dépendance de Teradata Automation. A cette époque, Airflow, Azkaban et Oozie n’avaient pas une telle fonction. Apache DolphinScheduler s’appuie sur ses excellentes performances, son excellente interface utilisateur et sa conception fonctionnelle. C’est pourquoi Wang Yongfu, l’un des principaux développeurs de Teradata Automation en Chine, a migré la direction de la planification de son entreprise des tâches de Teradata Automation vers Apache DolphinScheduler et en a montré une grande appréciation. Avec le recul, je me souviens encore à quel point la communauté était excitée d’être reconnue par Yongfu, prouvant que DolphinScheduler a été un projet leader dans le monde et qu’il ne peut être digne de ce nom que s’il devient le meilleur projet Apache.

    Maintenant, WhaleOps rassemble des talents de sociétés Internet + Informatica + IBM + Teradata, et il y a de nombreux fans inconditionnels de Teradata, nous avons donc hardiment mis quelques concepts d’automatisation dans WhaleScheduler. Les utilisateurs de Teradata Automation sont familiers avec ces fonctions, et les utilisateurs externes se tapent les cuisses et disent que le design est tellement créatif ! Mais pour être honnête, WhaleScheduler se tient sur les épaules de géants :

    • Dépendance/Trigger Distributed Memory Engine Design
    • Mécanisme de déclenchement (en plus du déclencheur de fichier, ajoutez également Kafka, déclencheur de détection SQL)
    • Exécution pondérée par l’état (mode dictature d’argot TD, principalement pour les scénarios où les données arrivent en retard, mais les rapports de supervision sont garantis en premier)
    • Exécution de l’isolement de l’état (mode TD slang-anti-epidemic, un hommage à un certain grand gars, principalement face à des données sales dans les données, pour éviter de continuer à polluer la fonction des tâches en aval)
    • liste noire
    • liste blanche
    • Un mécanisme de préchauffage, etc.

    WhaleScheduler a absorbé la fonction d’importation et d’exportation de Teradata Automation Excel afin que les départements commerciaux puissent facilement gérer des DAG complexes via des tableaux Excel sans configurer de tâches complexes via l’interface. Ce sont tous des hommages à Teradata Automation. Sans l’innovation et l’exploration continues des prédécesseurs d’Automation dans les analyses de rentabilisation et sans les générations de prédécesseurs de Teradata qui ont continué à créer des spécifications d’entrepôt de données, comment pouvons-nous créer les communautés open source et les produits commerciaux exceptionnels du monde à partir de rien ?

    Bien que Teradata se soit retiré de Chine, son architecture technique innovante et l’esprit des professionnels de Teradata ont toujours inspiré nos jeunes générations à aller de l’avant. Bien que Teradata Automation ne puisse plus vous servir, les fans TD de WhaleOps espèrent également sincèrement que notre WhaleScheduler, qui intègre la planification native du cloud Internet + la planification traditionnelle, pourra prendre le relais de Teradata Automation et continuer à contribuer au monde.

    De plus, nous espérons qu’avec Apache DolphinScheduler, WhaleScheduler de WhaleOps ouvrira une voie plus innovante pour les futurs constructeurs de systèmes de planification !

    Enfin, je voudrais rendre hommage à Teradata Automation et aux utilisateurs et praticiens qui ont travaillé sans relâche sur le système de planification avec cet article !

    Share. Facebook Twitter Pinterest LinkedIn WhatsApp Reddit Email
    Add A Comment

    Leave A Reply Cancel Reply

    Catégories

    • Politique de cookies
    • Politique de confidentialité
    • CONTACT
    • Politique du DMCA
    • CONDITIONS D’UTILISATION
    • Avertissement
    © 2023 DéveloppeurWeb.Com.

    Type above and press Enter to search. Press Esc to cancel.