DéveloppeurWeb.Com
    DéveloppeurWeb.Com
    • Agile Zone
    • AI Zone
    • Cloud Zone
    • Database Zone
    • DevOps Zone
    • Integration Zone
    • Web Dev Zone
    DéveloppeurWeb.Com
    Home»Database Zone»Qu’est-ce que le lignage des données et comment peut-il garantir la qualité des données ?
    Database Zone

    Qu’est-ce que le lignage des données et comment peut-il garantir la qualité des données ?

    novembre 10, 2021
    Qu'est-ce que le lignage des données et comment peut-il garantir la qualité des données ?
    Share
    Facebook Twitter Pinterest Reddit WhatsApp Email

    introduction

    Passez-vous trop de temps à rechercher des bugs pour vos tableaux de bord de niveau C ? Différentes équipes ont-elles du mal à s’aligner sur les données nécessaires dans l’ensemble de l’organisation ? Ou avez-vous du mal à comprendre quel pourrait être l’impact d’une migration potentielle ?

    Lignage des données pourrait être la réponse dont vous avez besoin pour les problèmes de qualité des données. En améliorant la traçabilité et la visibilité des données, un système de lignage des données peut améliorer la qualité des données dans l’ensemble de votre pile de données et simplifier la tâche de communication sur les données dont dépend votre organisation.

    Attends, quoi exactement est lignage des données ?

    Qu’est-ce que le lignage de données ?

    Lignage des données est une représentation du flux de données à travers différents systèmes et transformations. Dans une pile de données moderne, les données ne sont pas stockées uniquement dans les bases de données d’application; ces données circulent d’une application à une autre et des bases de données d’applications aux entrepôts de données, où elles sont transformées et éventuellement consommées par un certain nombre d’outils de reporting et d’autres applications en aval.

    Ce flux de données permet à chaque système d’accéder aux données dans un format qui lui convient. Les applications source peuvent être optimisées pour améliorer les performances des transactions de lecture-écriture. Dans le même temps, les clients de génération de rapports peuvent accéder à des données dénormalisées, ce qui est pratique pour les requêtes.

    Malheureusement, cette commodité vient au prix de la traçabilité et de la visibilité. Une fois que les données quittent la base de données source et subissent un certain nombre de transformations, une couche supplémentaire a été ajoutée qui peut masquer les données sous-jacentes. Les équipes de reporting ont souvent du mal à comprendre d’où viennent leurs données ou à déterminer les bonnes données à utiliser pour un rapport donné. Lorsqu’ils demandent à l’équipe d’application, l’équipe peut leur dire que les données n’existent pas, car, après avoir suivi le processus de transformation, les termes utilisés pour désigner une donnée ont changé.

    De plus, la résolution de bogues ou de problèmes prend plus de temps et nécessite l’implication de trois équipes : l’équipe de reporting, l’équipe d’entrepôt de données et l’équipe d’application. En règle générale, la tâche de résoudre le problème incombe à l’équipe chargée des données, qui doit ensuite analyser le contrôle de version pour essayer de comprendre pourquoi le problème est survenu en premier lieu. Cela ralentit également le développement de nouveaux rapports.

    Lignage des données résout ces problèmes. Discutons comment.

    Pourquoi utiliser Data Lineage ?

    En fournissant une représentation claire du flux de données, un système de lignage des données vous permet essentiellement d’avoir votre gâteau et de le manger aussi. Vous pouvez avoir les deux la séparation des rôles et la performance d’un entrepôt de données tout en ayant compréhension et traçabilité claires des données dans tous vos systèmes et équipes.

    Une compréhension et une traçabilité claires des données vous permettent de suivre les données importantes dans l’ensemble du système. Par exemple, cela peut vous permettre de vérifier qu’aucune information personnellement identifiable (PII) ne quitte les systèmes d’application et n’est consommée là où elle ne devrait pas être. Il vous permet également de voir quelles données sont fréquemment consommées en aval, ce qui donne une visibilité sur l’impact de tout changement ou migration potentiel. De même, vous pouvez identifier toute information inutilisée, permettant un nettoyage simple des tables ou des colonnes inutilisées.

    En améliorant la compréhension des données, les systèmes de traçabilité des données réduisent les temps de réponse aux incidents et améliorent la communication entre les équipes. Au lieu de discussions confuses sur l’origine d’une donnée d’un rapport, le système de traçabilité des données indique clairement à toutes les parties d’où proviennent les données et comment elles sont consommées. Cela accélère à la fois la résolution des erreurs et les nouveaux développements.

    Maintenant que nous savons pourquoi le lignage des données est essentiel pour la pile de données moderne, examinons les différents types de systèmes de lignage des données.

    Types de lignage de données

    Il existe deux catégories principales de systèmes de lignage de données : actif et passif.

    Un actif Le système de lignage des données est « actif » car vous devez le créer vous-même. Cela se fait en programmant la source et les informations de transformation pertinentes dans le système ou en marquant vos données avec les métadonnées appropriées. Un exemple de système actif est Apache Atlas. Un système de lignage de données actif correctement configuré peut fournir une traçabilité de vos données à un degré de détail très fin. Cependant, pour bénéficier de ces avantages, une mise à jour et une maintenance constantes sont nécessaires. Cela ajoute de la complexité à votre infrastructure de données globale et peut prendre beaucoup de temps.

    En revanche, un passif Le système de lignage des données tente de comprendre vos données par lui-même. Certains systèmes passifs examinent les données provenant de l’entrepôt de données. Par la reconnaissance de formes, un système passif tente de reconnaître d’où proviennent ces données et comment elles sont transformées. Bien que cela puisse bien fonctionner pour des ensembles de données et des transformations plus simples, il est inexact et peut générer des résultats inexacts.

    UNE basé sur l’analyse system est un autre type de système de lignage de données passif qui génère des données de lignage par rétro-ingénierie de votre entrepôt de données. Plutôt que de saisir manuellement les données de lignage (systèmes actifs) ou de deviner en fonction de modèles de données (reconnaissance de modèle), un système de lignage de données basé sur l’analyse peut voir exactement d’où proviennent les données et comment elles sont consommées. Datafold est un exemple de ce type de système. Datafold analyse tout le code DQL de votre entrepôt de données et génère lignage au niveau de la colonne graphiques. Ceci est nettement plus détaillé que le lignage au niveau de la table et vous permet de voir exactement de quelle colonne provient une donnée donnée et où elle est consommée. Ce niveau de détail permet d’améliorer le temps de réponse aux pannes, permet un dépannage plus rapide et diminue la fréquence des changements de rupture qui passent en production.

    Avec de nombreuses intégrations d’entrepôts de données, Datafold est plug-and-play pour beaucoup, et les données de lignée générées sont également accessibles via l’API Datafold. Tant qu’il prend en charge votre entrepôt de données et les systèmes associés, un système de lignage de données basé sur l’analyse est le choix facile du point de vue de la mise en œuvre et de la maintenance.

    Tout cela est formidable, mais quelle différence le lignage des données fait-il dans mon quotidien ? Regardons ça.

    Comment Data Lineage peut-il garantir la qualité des données au quotidien ?

    La visibilité et la traçabilité améliorées d’un système de lignage des données ont (au moins !) trois effets clairs sur votre quotidien opérationnel.

    Premièrement, il améliore le temps de réponse de votre équipe. Enquêter sur la cause d’une erreur dans un rapport ne nécessite plus des heures et la coordination de plusieurs équipes distinctes. Avec une visibilité totale sur le flux de données sur l’ensemble de votre pile de données, les erreurs peuvent être examinées et résolues en un temps record.

    Deuxièmement, il permet la création et le maintien d’un vocabulaire commun des données. Lorsque l’équipe de rapport parle de vues, l’équipe d’application comprend clairement ce que cela signifie et d’où proviennent ces données. De même, l’équipe d’application peut désormais voir exactement quelles données sont agrégées pour ce tableau de bord qui éclaire toutes les décisions et perspectives de l’entreprise. Au fil du temps, les divergences terminologiques peuvent être atténuées ou supprimées, ce qui permet une communication plus fluide au sein de l’organisation.

    Enfin, le système de lignage des données permet aux équipes de facilement et efficacement anticiper les effets d’éventuels changements ou migrations. Les changements de schéma de données et les migrations peuvent être planifiés avec certitude. La traçabilité complète permet de comprendre facilement l’impact en aval de tout changement et de notifier les parties concernées.

    Conclure

    Dans cet article, nous avons couvert les bases de ce qu’est le lignage des données, pourquoi vous pourriez vouloir en utiliser un, les différents types de lignage des données et comment le lignage des données peut améliorer la qualité de vos données chaque jour. L’ajout d’un système de lignage des données à votre pile de données peut augmenter la transparence et éviter les maux de tête pour l’ensemble de votre organisation.

    Share. Facebook Twitter Pinterest LinkedIn WhatsApp Reddit Email
    Add A Comment

    Leave A Reply Cancel Reply

    Catégories

    • Politique de cookies
    • Politique de confidentialité
    • CONTACT
    • Politique du DMCA
    • CONDITIONS D’UTILISATION
    • Avertissement
    © 2023 DéveloppeurWeb.Com.

    Type above and press Enter to search. Press Esc to cancel.