DéveloppeurWeb.Com
    DéveloppeurWeb.Com
    • Agile Zone
    • AI Zone
    • Cloud Zone
    • Database Zone
    • DevOps Zone
    • Integration Zone
    • Web Dev Zone
    DéveloppeurWeb.Com
    Home»Cloud Zone»Comment découvrir les données personnelles dans le stockage cloud
    Cloud Zone

    Comment découvrir les données personnelles dans le stockage cloud

    octobre 17, 2021
    Comment découvrir les données personnelles dans le stockage cloud
    Share
    Facebook Twitter Pinterest Reddit WhatsApp Email

    Les outils de prévention des pertes de données sont souvent utilisés pour découvrir et surveiller les données personnelles dans le cloud, mais sont-ils efficaces et coûteux ?

    Les lois sur les données personnelles ont été un peu une clé dans les travaux et ont amené tout le monde à repenser un peu la façon dont ils stockent les données des clients qui pourraient être classées comme « personnelles ». Le fait est que les données pouvant être classées comme personnelles peuvent changer selon qu’elles sont associées à d’autres données. Cela signifie que les données qui ont le potentiel d’être personnelles peuvent se trouver à peu près n’importe où.

    Étant donné que la majeure partie du monde opère maintenant ou cherche à déplacer toutes ses opérations de données vers le cloud, il devient un lieu de stockage majeur pour les données personnelles.

    Pourquoi devriez-vous rechercher des données personnelles dans le cloud

    Dans n’importe quel stockage, les choses s’empilent. Pensez simplement à toutes les données historiques sur votre disque dur et à la fréquence à laquelle vous les nettoyez ! Maintenant, si nous sommes chargés de savoir où se trouvent nos données personnelles pour des raisons de conformité, nous devons parcourir les données historiques pour voir si elles contiennent des données personnelles.

    Notez ici : les données peuvent être sous forme de texte, qu’il s’agisse de données structurées ou non structurées, tout comme elles peuvent être au format pdf ou jpg.

    Ainsi, la probabilité croissante d’une violation de données, telle qu’un accès involontaire de tiers aux données de votre entreprise ou autre, ou un audit des régulateurs a allumé un feu sous nous pour obtenir la classification et la mise en place de règles pour l’utilisation et le stockage des données personnelles. Heureusement pour vous, si vous utilisez un service cloud comme Google Cloud, Azure ou Amazon S3, il existe des outils pour rechercher et classer les données et vous pouvez les utiliser pour améliorer vos pratiques en matière de données personnelles.

    Cependant, ils ne sont pas aussi simples qu’il n’y paraît au premier abord.

    Données personnelles et bases du cloud

    La plupart des fournisseurs de cloud proposent des services de prévention des pertes de données (DLP) qui visent à détecter et à protéger contre les violations (pertes) de données en surveillant, en détectant et en bloquant l’accès aux données sensibles lors de leur utilisation, en mouvement et au repos. Étant donné que les DLP sont capables de détecter des données, ils peuvent être réglés pour détecter des données personnelles. Pour ce faire, vous devrez écrire quelques fonctions cloud, configurer la sortie et dessiner quelques schémas.

    Lorsque vous écrivez la fonction, vous devez prendre soin de saisir tous les formats de fichiers possibles à analyser et de mettre à jour la fonction cloud si vous ajoutez de nouveaux formats de fichiers. Si vous manquez certains types de fichiers (rappelez-vous : le cloud peut stocker tous les types de fichiers), alors la fonction les ignorera simplement. Le problème ici est que si vous créez la fonction pour analyser trop de formats de fichiers, la fonction deviendra trop grande. Vous allez fondamentalement ajouter plus de complexité avec la logique supplémentaire et étendre la fonction bien au-delà de l’intention initiale à quelque chose qui ressemble davantage à un service complet.

    Un moyen de contourner ce problème serait de n’accepter que les données personnelles des clients dans certains formats de fichiers. La bonne nouvelle est que la façon de configurer la surveillance des données personnelles dans le cloud est à peu près identique, que vous utilisiez les clouds Amazon, Azure ou Google.

    Tout d’abord, vous devrez pousser les fichiers dans votre stockage cloud via le DLP. Prenez le résultat de cela et placez-le dans un stockage spécifique pour les métriques, puis transformez-le en schéma via le studio de données du cloud (appelé Quicksight sur Amazon).

    Jetez un œil ci-dessous pour savoir comment procéder dans Google Cloud. (Le même schéma s’applique aux autres clouds.)

    Surveillance des données personnelles pour Google cloud

    Mise en place

    Puisque j’ai utilisé une image ci-dessus sur la façon de configurer la surveillance des données personnelles pour le cloud Google, examinons comment cela se fait là-bas. Vous devrez effectuer une analyse complète pour analyser les données que vous y détenez. C’est un exercice un peu long et compliqué : si vous disposez de plusieurs types de stockage avec de grandes quantités de données, le temps d’analyse sera de plusieurs centaines d’heures.

    De plus, le prix analysant les données qui passent le DLP se fait en volume, donc plus vous transmettez de données, plus le coût est élevé. Cela pourrait être aggravé par des problèmes de débit, car l’analyse du stockage et la recherche de PII ajoutent des demandes supplémentaires. En fonction de votre budget, vous devrez probablement plafonner le nombre de demandes.

    Google vous propose un ensemble de bonnes pratiques pour réduire les coûts, par exemple : configurer votre fonction cloud pour analyser uniquement les données qui ont été mises à jour ou modifiées. Cependant, cela peut venir avec ses propres problèmes : imaginez que vous apportez une petite modification à un gros fichier ; l’ensemble du fichier sera analysé, pas seulement la modification. L’entrée peut être pdf, word, images avec texte, etc., et les différents formats rendent difficile l’identification de la présence de données personnelles. Cela est particulièrement vrai pour les images, car la qualité de l’image doit être suffisamment bonne pour que les données soient reconnues.

    Vous pouvez trouver un exemple de code de fonction pour analyser le magasin de données sur Github de Google Cloud.

    Pour les nouveaux fichiers ou données, vous devrez les analyser à l’aide d’une fonction distincte. Les déclencheurs pour l’exécution de la fonction sont lorsque de nouveaux fichiers sont téléchargés vers le stockage ou lorsque les fichiers sont mis à jour.

    Lancez l’analyse des fichiers et définissez la sortie de publication pour BigQuery ou ailleurs.

    DLP Google Cloud


    1. Les fichiers sont téléchargés ou mis à jour
    2. La fonction cloud est déclenchée
    3. La fonction cloud vérifie les fichiers pour les données personnelles
    4. Les résultats sont publiés dans un autre stockage

    Ensuite, vous voudrez classer les données dont vous disposez. La classification se divise en fonction de la façon dont vous souhaitez que les données soient divisées. Différentes personnes analyseront différentes classifications de données personnelles. Lorsque toutes les ressources ont été créées dans le cloud, vous devez écrire les fonctions cloud.

    Vous pouvez trouver un exemple du code des fonctions cloud sur Github de Google Cloud.

    Déploiement

    Le déploiement peut être difficile selon le nombre d’environnements dont vous disposez. Si vous n’avez qu’un seul stockage et un seul environnement, ce sera relativement facile, mais si vous en avez plusieurs, vous aurez des problèmes. Par exemple, si vous utilisez les environnements de démonstration, bêta et de production : vous devrez écrire les fonctions sur l’environnement de démonstration, les vérifier, les tester puis faire de même en bêta et de même en prod, en allant jusqu’au bout à la fabrication. Cela prend du temps sur plusieurs systèmes et vous aurez probablement besoin de l’aide d’un ingénieur DevOps.

    S’il existe différents stockages entre différents fournisseurs de cloud, vous disposerez de différents stockages pour différents services de types de fichiers. Vous pouvez disposer d’un espace de stockage pour l’activité de l’utilisateur, le paiement de l’utilisateur, etc. sur différents espaces de stockage. La difficulté ici est que vous devez savoir comment lancer la production sur tous les systèmes.

    Ensuite, vous voudrez classer les données dont vous disposez.

    Comment classer les données

    Toutes les données personnelles ont leur propre type spécifique en tant que drapeau pour être détectées. Google fournit une liste complète des types de données. Vous pouvez trouver un exemple de code de fonction pour analyser le magasin de données sur Github de Google Cloud.

    Vous utiliserez généralement Google Data Studio, Power Bi ou autre chose pour visualiser les données. Mais le point principal de la classification des données est d’identifier ce que vous avez et de voir à quel point les différents types de données que vous détenez sont réellement sensibles.

    Vous pouvez découvrir à quel point les données sont sensibles en demandant à un analyste de la sécurité de les examiner. Cela augmentera le coût, car l’analyste devra vérifier attentivement la table BigQuery et ses métriques pour surveiller les types de classification et évaluer la probabilité qu’il s’agisse de données personnelles. L’analyste devra généralement écrire un script pour ce qui se passe lorsque les données sont marquées comme personnelles.

    Voyons donc un exemple :

    Saisir

    Par exemple, vous recevez un e-mail qui est ensuite placé dans votre stockage sous forme de document texte :

    Veuillez mettre à jour mes dossiers avec les informations suivantes :

    Adresse e-mail : exemple.nom@exemple.com

    Identifiant national du fournisseur : 1245319599

    Permis de conduire : AC333991

    Sortir

    Sortie DLP Cloud


    Dans le tableau ci-dessus, nous définissons les résultats de l’analyse comme le type d’informations trouvées, la probabilité qu’il s’agisse de données personnelles et l’emplacement des données personnelles suspectées dans le texte (caractères dans le texte). Il est important de noter ici que les types d’informations sont prédéfinis et ne peuvent pas être ajoutés. Deuxièmement, vous remarquerez que la classification de vraisemblance n’est pas un choix binaire : ce qui signifie qu’il y a place pour une mauvaise interprétation et que vous devrez en fait analyser s’il s’agit de données personnelles ou non.

    Une fois que vous disposez de ces métriques, elles sont publiées dans BigQuery ; alors vous pouvez visualiser les données dans le studio de données. Ici, vous pouvez ajouter un tableau pour les différents types de données personnelles qui sont contenues dans les documents que vous avez : par exemple, 50% des docs ont une adresse e-mail et un permis de conduire.

    Problèmes d’utilisation de DLP pour la détection de données

    Vous l’avez peut-être remarqué : l’utilisation d’un DLP dans le cloud pour surveiller les données personnelles a ses problèmes.

    C’est difficile

    En fait, construire un système efficace capable de capturer et de classer tout ce dont vous avez besoin est assez difficile, c’est le moins qu’on puisse dire. Vous devez impliquer quelques personnes, comme des programmeurs pour écrire les fonctions, des ingénieurs DevOps pour déployer les ressources et des analystes système pour tout construire. Des personnes supplémentaires qui s’impliquent signifient une complexité supplémentaire

    C’est fragile

    Si vous parvenez à tout mettre en place et que vous réalisez ensuite que vous voulez modifier quelque chose, vous aurez un travail à faire. L’ajout de composants au cloud affectera les dépendances strictes entre eux, augmentant la complexité et la fragilité du système dans son ensemble. De même si vous souhaitez ajouter de nouveaux datastores ou sources : cela augmentera la complexité du développement.

    C’est cher

    Le coût de cette solution sur la valeur nominale semble assez faible, mais lorsque vous tenez compte des heures de travail impliquées, le coût monte rapidement en flèche. De plus, les systèmes DLP facturent en fonction de la quantité de données qui les traversent, plus pour le travail des fonctions, indépendamment de la quantité de données personnelles découvertes.

    En bout de ligne

    Au final, le résultat que vous recherchez peut être impossible à atteindre car le magasin que vous identifiez n’est peut-être pas le seul endroit où se trouvent les données personnelles. Pour vraiment savoir où se trouvent toutes vos données, vous devrez effectuer des analyses approfondies qui, nous l’avons vu, sont coûteuses et chronophages. Cela les rend vraiment hors de portée pour toute entreprise qui n’est pas une grande entreprise avec une équipe distincte pour la confidentialité.

    L’autre chose est que la recherche et la classification des données ne sont pas un processus ponctuel, mais continu. Cela signifie qu’il doit être simple et convivial et que la méthode DLP décrite ci-dessus ne l’est tout simplement pas.

    Vous aimez cet article ? Découvrez d’autres explications et idées à l’intersection de la sécurité et de la confidentialité.

    Share. Facebook Twitter Pinterest LinkedIn WhatsApp Reddit Email
    Add A Comment

    Leave A Reply Cancel Reply

    Catégories

    • Politique de cookies
    • Politique de confidentialité
    • CONTACT
    • Politique du DMCA
    • CONDITIONS D’UTILISATION
    • Avertissement
    © 2023 DéveloppeurWeb.Com.

    Type above and press Enter to search. Press Esc to cancel.