Déduplication des données dans le MDM
Dans la gestion des données de référence, les mêmes données sont souvent dupliquées dans plusieurs départements, ce qui peut nuire à l’entreprise. C’est pourquoi la déduplication des données est nécessaire pour maintenir un enregistrement de données de base précis. Cela inclut la suppression des données en double de la base de données de l’entreprise. De plus, les données de référence doivent être une source unique de vérité pour l’ensemble de l’entreprise afin de maintenir leur cohérence et leur efficacité.
Stratégies de duplication des données
La déduplication des données présente de nombreux avantages, tels que des économies de coûts améliorées. Il contribue à améliorer les performances d’analyse en fournissant à l’équipe les données les plus fiables. Cela aide également l’entreprise à offrir une meilleure expérience client.
Certaines stratégies de déduplication de données conventionnelles incluent la normalisation des données basée sur des identifiants externes, la correspondance floue avec des règles, des identifiants persistants, des données d’enrichissement et l’apprentissage automatique.
- Les petits volumes de données peuvent être normalisés par dates, numéros de téléphone et adresses, tandis que les pipelines ETL peuvent normaliser de nouvelles sources de données.
- La correspondance approximative et les règles compliquées aident à identifier les doublons. Mais ce n’est pas pratique pour plusieurs systèmes de données.
- L’attribution d’ID externes est également utile pour la déduplication des données, comme la définition de numéros de sécurité sociale pour les particuliers et les numéros DUNS pour les entreprises.
- L’apprentissage automatique permet d’améliorer la gestion des données et d’éviter les doublons en augmentant l’automatisation.
- L’enrichissement des données permet d’intégrer les données internes et externes, de normaliser les données et d’identifier les données en double.
Comment identifier les données en double dans MDM
La fusion de correspondance est un processus qui peut aider à identifier les données en double dans les données de base. Il prend des données de différents systèmes et recherche les doublons ou les correspondances exactes (et les fusionne si nécessaire) pour créer une « copie dorée » de l’enregistrement. Le processus de correspondance-fusion peut être effectué de deux manières : en temps réel ou dans un lot approuvé par une autre méthode pour vérifier l’enregistrement d’or.
- Le processus de correspondance comprend des colonnes de correspondance et des règles de correspondance qui permettent de reconnaître des enregistrements similaires dans la base de données, de déterminer les enregistrements client pour la conformité automatique et de déterminer les documents qu’un gestionnaire de données doit examiner avant la consolidation.
- Le processus de correspondance consiste en deux techniques de base (correspondance floue et correspondance exacte) qui aident à identifier les doublons. Dans la correspondance approximative, les correspondances d’objets de base sont trouvées par la méthode la plus lente. Dans ce document, les enregistrements sont appariés en fonction des fautes d’orthographe, des transpositions, des combinaisons de mots, des divisions, des omissions et des écarts phonétiques. Les correspondances exactes accélèrent la comparaison des enregistrements dont les colonnes de correspondance sont identiques.
- La consolidation est la prochaine étape après la phase d’appariement. Il est riche en enregistrements de correspondance en file d’attente et envoyé pour le processus de fusion. Les données fusionnées après conformité sont connues sous le nom de « disque d’or ».
- La définition d’ensembles de règles de correspondance, la sélection de colonnes de correspondance pour la comparaison et la configuration de l’objet de base sont requises pour la procédure de correspondance. Les enregistrements en double ou identiques sont détectés et mis en file d’attente pour fusion par des règles de correspondance.
Nous pouvons configurer des techniques d’appariement précises à l’aide d’objets de base flous en utilisant la logique floue. La logique floue ne peut pas être définie avec des objets de base exacts. Avec des objets de base exacts, la procédure de correspondance peut définir des critères exacts pour trouver des correspondances, ce qui lui permet de détecter uniquement les enregistrements qui sont des doublons exacts ou identiques. La logique floue, quant à elle, utilise des critères imprécis pour trouver des correspondances, ce qui lui permet d’identifier des enregistrements similaires mais pas des doublons exacts.
Intendance des données dans le MDM
La gérance des données garantit que les données d’une entreprise sont accessibles, pratiques, utilisables et dignes de confiance. La gérance des données prend soin des données, en garantissant leur fiabilité, en protégeant leur lignée, en exécutant les normes d’utilisation des données et en commercialisant leur valeur.
Stratégies de gestion des données
Il existe différentes stratégies de gérance des données pour assurer le succès des données d’entreprise.
- L’intendance des données devrait devenir un élément essentiel de l’équipe. Les gestionnaires de données doivent prendre le contrôle à plein temps de la gouvernance des données de toute organisation et participer à la communication active, aux briefings et aux invitations.
- Les cadres supérieurs doivent soutenir les gestionnaires de données, qui peuvent les aider à atteindre leurs objectifs et à conserver leur crédibilité dans la surveillance des données de l’organisation.
- La création d’une culture axée sur les données au sein de l’organisation est également une stratégie essentielle pour l’utilisation pratique des données dans l’ensemble de l’organisation. Les gestionnaires de données contribuent à promouvoir cette culture dans la gestion des données de référence.
- Toutes les décisions, règles métier et éléments de données liés à la gérance des données doivent être écrits et facilement disponibles. L’utilisation d’outils permet d’enregistrer et de suivre de manière appropriée chaque détail.
- Les politiques de données doivent être pratiquées et acceptées par tous les membres de l’équipe de données.
- La communication entre les gestionnaires de données et la constitution d’un groupe aident à promouvoir le travail d’équipe. Il initie la communication sur les politiques de données, les normes, les terminologies et les meilleures pratiques.
De plus, de nombreux autres cadres rendent la gestion des données plus pratique et plus facile à mettre en œuvre. Il existe un cadre établi qui permet aux données d’obtenir un avantage concurrentiel et d’augmenter la valeur commerciale. Cette stratégie comprend les points suivants :
- Dans la première phase, le programme est construit sur la base des problèmes rencontrés par les parties prenantes, les collègues, le service d’audit interne et les bureaux de confidentialité et de conformité. Cela aidera à résoudre les problèmes de données.
- Dans la deuxième phase, un budget est établi, montrant la valeur commerciale et le point de valeur de l’organisation, impliquant les responsables commerciaux et les parties prenantes. Des groupes de travail doivent être formés pour créer des normes de données, y compris les rôles et les responsabilités.
- Dans la dernière étape, le programme est configuré pour fonctionner. La thérapie de données est fournie aux sponsors et aux détracteurs. De plus, la stratégie est maintenue par l’évaluation et la mise à jour.
Comment la déduplication des données et l’intendance des données aident à la création d’enregistrements d’or
L’intendance des données et la déduplication des données sont des éléments essentiels de la gestion des données de référence. La déduplication des données permet de supprimer les doublons créés dans les données de base. Les données des différents clients ou entreprises sont collectées individuellement dans chaque département. Lorsque ces données sont rassemblées pour créer une base de données principale, de nombreuses entrées en double existent. Cela réduit l’efficacité, la cohérence et la précision des données de base. La duplication des données est une stratégie efficace qui permet de supprimer les doublons et de maintenir une source unique de vérité. Cette source unique de vérité crée un ensemble de données discrètes qui établit un « record d’or » de données.
La principale préoccupation est d’établir et de maintenir le record d’or en faisant correspondre et en fusionnant les enregistrements générés à partir de plusieurs sources de données. Une gestion efficace des données de base repose sur la combinaison automatique d’enregistrements similaires. De plus, un système MDM efficace permet également aux data stewards de fonctionner et de créer les meilleurs enregistrements.
L’intendance des données permet la mise en œuvre pratique de la connaissance d’un ensemble de données spécifique pour l’exactitude d’un enregistrement. Les gestionnaires de données peuvent également reconnaître l’exactitude des enregistrements. Pour atteindre le record d’or, le système ou les gestionnaires de données doivent tenir compte de l’utilisateur, de la valeur d’un système de données avec la plus grande fiabilité et des principes de définition d’une grande importance pour chaque domaine.
L’intendance des données et la déduplication des données doivent fonctionner ensemble pour résoudre les conflits et les incohérences entre les ensembles de données.