Dans l’article précédent, nous avons discuté de l’importance et du rôle de la gouvernance des données dans une organisation. Dans cet article, voyons comment BigID joue un rôle essentiel dans la mise en œuvre de ces concepts concernant la confidentialité, la sécurité et la classification des données.
Qu’est-ce que Big ID ? Comment cet outil aide-t-il les organisations à protéger et à sécuriser les données personnelles ?
GrandID est une plateforme de découverte de données et d’intelligence qui aide les organisations à identifier, classer et protéger les données sensibles et personnelles à travers diverses sources de données. Il utilise des techniques avancées d’apprentissage automatique et d’intelligence artificielle pour numériser et analyser de grands ensembles de données et identifier automatiquement les données sensibles telles que les PII, PHI et les numéros de carte de crédit, permettant aux organisations de se conformer aux réglementations sur la confidentialité des données telles que GDPR, CCPA et HIPAA.
La définition des données sensibles évolue à bien des égards. Examinons certaines des catégories clés que BigID distingue entre PI et PII et comment ces données sont classées et définies.
HowBigID identifie et, classe, corrèle le PI par rapport au PII.
Que fait BigID avec les ensembles de données et comment fonctionne-t-il au niveau de l’entreprise ?
Vous trouverez ci-dessous les concepts de base des 4 C de BigID :
- Catalogue
- Classification
- L’analyse par grappes
- Corrélatif
Avant de cataloguer et de classer, il faut connaître vos données (pas seulement vos métadonnées). Les données critiques sont partout dans l’Organisation. Dans cette ère moderne, les données ne sont plus confinées à vos bases de données relationnelles.
Les données se développent sous tous les aspects et constituent un défi quotidien. Plus de données dans plus d’endroits. Difficile d’identifier où se trouvent les données critiques et où toutes les données sont présentes dans le système d’écho.
Au fur et à mesure que les données grandissent en parallèle, il y aura une augmentation des données redondantes et des données en double, ce qui entraînera un manque d’orchestration. Plus il grandit, plus nous voyons de données cloisonnées.
Catalogue
Pour toutes les données de votre écosystème, le catalogue BigID sert de magasin de métadonnées basé sur l’apprentissage automatique. À l’aide du catalogue, vous pouvez collecter et gérer les métadonnées techniques, opérationnelles et commerciales de tous les systèmes et applications d’entreprise analysés par BigID. De plus, avec l’incorporation de métadonnées actives et de classification, il vous aide à cataloguer et à cartographier automatiquement les données sensibles et privées avec une connaissance approfondie des données.
Le catalogue est construit sur des objets de données, qui sont les composants de table et de fichier distincts qui composent vos données d’entreprise. Ces éléments sont affichés dans cette liste de catalogue, et vous pouvez cliquer sur n’importe quel élément pour afficher plus d’informations.
Classification
Pour catégoriser automatiquement les composants de données, les informations et les documents dans n’importe quelle source de données ou pipeline de données, la classification BigID utilise à la fois des algorithmes de classification basés sur des modèles et sur ML. La plate-forme peut trouver des données sensibles, analyser des activités, satisfaire à la conformité et protéger les données personnelles en utilisant le ML avancé (apprentissage automatique), le NLP (traitement du langage naturel) et l’apprentissage en profondeur.
BigID est livré avec un ensemble complet de classificateurs de champs prêts à l’emploi, y compris des classificateurs basés sur des modèles tels que l’e-mail, le numéro d’identification national et le sexe, des classificateurs de documents tels que les formulaires de santé, les déclarations de revenus et les contrats de location ; et les classificateurs NLP comme les noms et les adresses. Grâce à une interface d’administration spécifique, tous ces classificateurs sont maintenus.
L’analyse par grappes
Pour un étiquetage, une gouvernance et une consolidation des données simples dans d’énormes référentiels de fichiers et bases de données, l’analyse de cluster de BigID utilise des approches propriétaires basées sur ML pour détecter les données en double et associées. Les algorithmes de clustering automatiques et non supervisés classent les fichiers de manière approximative en fonction de leur contenu, regroupent rapidement les fichiers ayant un contenu similaire et identifient les données en double, quel que soit leur emplacement : sur site, dans le cloud ou les deux.
L’analyse de cluster de BigID aide à la minimisation des données en indiquant quelles données peuvent être minimisées, où il y a des données en double ou redondantes et quelles données à haut risque doivent être priorisées. L’analyse de cluster permet également d’accélérer les migrations vers le cloud grâce à une rationalisation intelligente des données cloud, d’améliorer l’hygiène des données, d’identifier ce qui doit et ne doit pas être migré et de réduire les coûts.
Corrélation
La corrélation de BigID relie les données personnelles à une personne ou une entité pour l’automatisation des droits de confidentialité des données. En tirant parti de la corrélation et des capacités de découverte approfondies qui en découlent, vous pouvez identifier automatiquement les relations de données, les identités, les entités, les données sombres, les données déduites et les données sensibles associées, découvrir des variations de données hautement sensibles, hautement restreintes et identifiables de manière unique, et tirer parti d’un processus automatisé pour répondre aux demandes d’accès et autres droits aux données requis par la loi.
La corrélation donne un contexte supplémentaire à la classification. Pour créer des profils d’identification et d’entité, lier des données à leur propriétaire et montrer comment les données sont connectées entre les sources de données, la corrélation se concentre sur « dont les données », tandis que la classification se concentre sur « quelles données ». Afin d’améliorer les performances, la précision et l’évolutivité de toutes sortes de données partout, la corrélation s’appuie sur la technologie de pointe des graphes ML.
En résumé, nous avons vu comment les données sont cataloguées et classées et comment les données classifiées sont utilisées pour regrouper et corréler les données à un individu. Voyons comment et où la découverte de données entre en jeu dans le prochain article.