DéveloppeurWeb.Com
    DéveloppeurWeb.Com
    • Agile Zone
    • AI Zone
    • Cloud Zone
    • Database Zone
    • DevOps Zone
    • Integration Zone
    • Web Dev Zone
    DéveloppeurWeb.Com
    Home»Database Zone»Comment rechercher des données personnelles sur vos systèmes
    Database Zone

    Comment rechercher des données personnelles sur vos systèmes

    novembre 10, 2021
    Comment rechercher des données personnelles sur vos systèmes
    Share
    Facebook Twitter Pinterest Reddit WhatsApp Email

    Avant de commencer

    Avant de rechercher des données personnelles dans vos systèmes, vous devez comprendre les aspects techniques des composants de votre système, les types de fichiers que vous devez analyser et les services sur lesquels vous avez un contrôle direct.

    En plus d’analyser et de détecter des données, vous devez également être prêt à interpréter ce que vous trouvez et à comprendre son importance.

    Types de services

    Le stockage des systèmes de données sera réparti entre les différents services que vous utilisez. Les types de services utilisés par votre entreprise sont de deux sortes : ceux que vous pouvez contrôler (contrôlés) et ceux que vous ne pouvez pas (non contrôlés).

    Examinons-les plus en détail.

    Contrôlé

    Il existe deux types de services que vous pouvez contrôler :

    • Apatride les services qui ne stockent pas de données, mais les traitent simplement, sont destinés à la fonctionnalité.
    • avec état les services qui stockent et traitent les données sont destinés au stockage.

    Apatride

    L’apatride est le type de service le plus populaire. C’est parce que vous souhaitez diviser le stockage et le traitement de vos données. Cela vous permettra d’évoluer car les services sans état ont juste besoin d’accéder aux données pour fonctionner, ce qui signifie que vous pouvez simplement les lier aux bases de données sans créer de stockage supplémentaire. Ces types de services traitent la plus grande quantité de données.

    Lorsque vous traitez des services sans état, vous devez être en mesure d’analyser les données entrantes et sortantes à la volée. Avec ces services, vous ne pouvez analyser que le trafic, mais ce faisant, il existe des limitations. Par exemple, si vous utilisez un service de prévention des pertes de données (DLP) comme celui fourni par Google (sans état car il ne stocke aucune donnée) et que vous souhaitez découvrir des données personnelles dans le cloud, vous devrez créer vos propres services supplémentaires (par exemple proxy) pour la gestion du trafic avec le DLP. Il convient également de noter que ces DLP sont également des services tiers. Si le DLP vous fournit des rapports sur des utilisateurs spécifiques (ce qui est très probablement le cas), vous devrez indiquer cette utilisation dans votre politique de confidentialité.

    avec état

    Les services avec état sont des bases de données et incluent Postgres, MySQL et parfois le stockage en nuage. Pour les services avec état, vous devez également être en mesure d’analyser les données stockées lors de leur entrée et de leur sortie.

    Nous pouvons utiliser l’analyse du trafic ici et cela fonctionnera comme pour les sans état, mais si vous souhaitez analyser des données historiques : vous devrez écrire un script ou utiliser une fonction spéciale pour analyser (en plus de votre analyse de trafic) et comment cela La fonction fonctionne et est écrite dépendra du type de stockage que vous utilisez. De plus, dans ce cas, vous effectuez simplement une analyse du trafic, et cela ne vous dit rien sur les données présentes ; à peu près quels changements y ont été apportés.

    Certains types de stockage facilitent l’analyse du trafic mais d’autres sont plus difficiles. Différents stockages ont différentes interfaces et certains sont conçus pour être faciles à utiliser, mais pas tous. Par exemple, dans MySQL, vous devez créer votre propre structure de données, ce qui signifie que chaque fois que vous ajoutez un nouveau stockage, vous devrez créer un script non générique pour l’analyser.

    Incontrôlé

    En plus des services contrôlables, il existe également des services incontrôlables, également appelés services tiers. Les services tiers sont les outils SaaS externes que vous achetez.

    Les exemples incluent Salesforce, Hubspot, Zendesk, etc. Vous ne pouvez pas contrôler ces services. Par exemple, si vous employez Zendesk et qu’un utilisateur souhaite poser une question, il écrit dans un formulaire spécial pour Zendesk, puis vous vérifierez ce problème de support à partir de l’interface de Zendesk. Vous ne pouvez pas contrôler la manière dont Zendesk stocke ou traite ces données.

    Lorsque vous partagez des données avec des services tiers (ce que vous faites lorsque vous les utilisez), vous ne pouvez généralement pas rechercher des données personnelles car l’interface ne fournira pas toujours la fonctionnalité de recherche de données personnelles. Cela signifie que vous devez être sûr des mesures de protection mises en place pour protéger les données.

    Alors maintenant que nous savons ce que nous devons numériser, voyons comment cela se fait.

    Comment rechercher des données personnelles

    Tout d’abord, nous devons garder à l’esprit qu’il existe des requêtes (requêtes get) qui ne contiennent pas de données personnelles (car les requêtes get n’ont personne). Ensuite, il existe des réponses qui pourraient contenir des données personnelles et des demandes de publication qui pourraient contenir des données personnelles en tant que demande et en tant que réponse.

    Le code ci-dessous est un exemple de la façon dont vous pouvez analyser les données personnelles dans vos services apatrides :

    #!/usr/bin/env python3
    from http.server import BaseHTTPRequestHandler, HTTPServer
    
    class handler(BaseHTTPRequestHandler):
    	def _set_response(self):
      	self.send_response(200)
      	self.end_headers()
        
    	def do_GET(self):
      	self._set_response()
      	response = get_response()
      	pii_analyzer(response)
      	self.wfile.write(response.encode('utf-8'))
      
      def do_POST(self):
      	content_length = int(self.headers['Content-Length'])
      	request = self.rfile.read(content_length)
      	pii_analyzer(request.decode('utf-8'))
      	self._set_response()
      	response = get_response()
      	pii_analyzer(response)
      	self.wfile.write(response.encode('utf-8'))
      
      def pii_analyzer(data):
      	pass
      	# post data to analyzer service and get result
      	# publish result to database
      
      def get_response():
      	return "response with pii data"
      
    server_address = ('', 8000)
    httpd = HTTPServer(server_address, handler)
    httpd.serve_forever()

    Dans cet exemple, nous analysons les données personnelles sans middleware. Le middleware est un modèle spécifique dans un serveur HTTP qui peut être utilisé pour analyser les réponses, que vous envoyiez des réponses ou receviez des demandes. Avec le middleware, vous pouvez analyser les réponses/demandes après tous les gestionnaires.

    Cependant, cette approche n’est pas excellente car si vous souhaitez créer de nouveaux services sans état, vous devrez écrire un nouveau code pour l’analyse des données et ce nouveau code pourrait affecter le débit de la latence du service et même l’utilisation du processeur car il s’agit d’une charge différente pour le serveur.

    Fondamentalement, il est préférable d’utiliser un analyseur de trafic pour la couche réseau ; pas analyser les données sur votre couche d’application.

    Analyse du trafic

    L’analyse du trafic est le meilleur moyen de comprendre ce qui se passe dans vos systèmes. L’analyse du trafic vous permet de voir quelles données entrent et sortent, au lieu de simplement voir ce qui est stocké.

    Cependant, l’analyse du trafic a aussi ses problèmes : vous devez pousser le trafic via un analyseur ou un outil de surveillance supplémentaire. Pour que votre analyse et vos systèmes fonctionnent correctement, vous devez sélectionner un instrument qui :

    • Ne transmet pas de données à des tiers.
    • Est facile à mettre en place sans impliquer les programmeurs.
    • N’a pas d’effet critique sur la latence du service.
    • Analyse toutes les données transitant par les systèmes à partir d’un seul endroit.
    • Maintient les frais d’utilisation gérables/prévisibles.

    L’un des points les plus importants ci-dessus est le facteur de latence. Votre entreprise aura un facteur de latence maximal et vous aurez probablement des fonctionnalités qui nécessitent une exécution aussi rapide que possible. Cela signifie que les choses doivent être exécutées en quelques millisecondes et que vous ne pourrez tout simplement pas placer un analyseur de trafic comme obstacle supplémentaire.

    Cela ne veut pas dire qu’il n’y a aucun moyen de contourner cela cependant. Vous pouvez simplement créer une infrastructure supplémentaire pour accueillir l’analyseur, mais c’est plus facile à dire qu’à faire et impliquera des ressources que vous n’avez peut-être pas.

    Sur cette note, il convient de mentionner que votre infrastructure change tout le temps de toute façon à mesure que vous évoluez ou ajoutez de nouvelles fonctionnalités à votre produit. Dans ce cas, vous devrez augmenter la taille des structures sans état afin qu’elles puissent faire face à un trafic accru. Sinon : si vous augmentez l’échelle et que vous avez besoin que votre trafic passe par un analyseur, vous constaterez que le trafic s’accumulera à ce goulot d’étranglement, ralentissant votre système.

    Votre trafic peut être assez imprévisible. Se retrouver dans l’actualité, une nouvelle campagne marketing dont on ne vous a pas parlé ou une explosion d’utilisateurs pour une raison quelconque entraînera une augmentation du trafic. Vous devez être capable de gérer ce trafic ; ne pas avoir quelque chose qui l’étouffe.

    L’autre chose est que le prix final que vous vendez votre produit aux utilisateurs dépend de vos coûts de base. S’ils augmentent parce que vous devez implémenter un proxy, c’est-à-dire que vous avez mis en place une architecture complexe ou autre : soit vous devrez augmenter vos prix, soit vous devrez tolérer une baisse des bénéfices. De plus, si vous utilisez des outils qui traitent les données à des coûts variables en fonction du volume de données (comme le DLP), les coûts peuvent devenir incontrôlables.

    Analyse du stockage

    Il existe 2 approches pour l’analyse du stockage :

    • Analyser de nouvelles données.
    • Analyser les données historiques.

    Pour les nouvelles données, nous pouvons utiliser un analyseur de trafic. Les données historiques font référence aux données qui se trouvent déjà dans votre base de données et pour les analyser, vous devrez créer des scripts pour l’analyse des données.

    Les services tels que les bases de données, les bases de données relationnelles et non relationnelles et autres stockages vous offrent généralement une interface via laquelle vous pouvez effectuer une analyse complète du stockage, analyser de nouveaux fichiers et mettre à jour des fichiers. Cependant, chaque base de données a sa propre approche pour l’analyse, l’analyse et la mise à jour, ce qui signifie que vous devez souvent créer une logique personnalisée pour effectuer des actions avec le stockage.

    Ce type d’analyse peut également avoir un effet négatif sur le coût et le débit de vos bases de données. De plus, l’analyse n’a vraiment de sens que lorsque vous avez une tâche spécifique à accomplir, par exemple rechercher et analyser des données personnelles.

    Conclusion

    L’analyse du trafic est le meilleur moyen d’analyser les données personnelles car vous pouvez créer un processus d’analyse des données personnelles sans avoir à le faire à la main. De plus, vous n’avez pas besoin d’impliquer les développeurs pour écrire des scripts afin que vous puissiez comprendre où se trouvent réellement les données. Cependant, comme tout : cela dépend de vos besoins. Si vous avez besoin de voir quelles données vous stockez (historiques) et pas seulement les données chaudes, vous devrez utiliser un outil d’analyse.

    Les deux techniques permettent l’automatisation, ce qui signifie que vous supprimez le facteur humain et n’avez pas besoin d’éduquer vos ingénieurs sur ce qui est ou ne sont pas des données personnelles afin qu’ils puissent écrire les programmes pour les rechercher.

    Vous aimez cet article ? Découvrez d’autres explications et idées à l’intersection de la sécurité et de la confidentialité.

    Share. Facebook Twitter Pinterest LinkedIn WhatsApp Reddit Email
    Add A Comment

    Leave A Reply Cancel Reply

    Catégories

    • Politique de cookies
    • Politique de confidentialité
    • CONTACT
    • Politique du DMCA
    • CONDITIONS D’UTILISATION
    • Avertissement
    © 2023 DéveloppeurWeb.Com.

    Type above and press Enter to search. Press Esc to cancel.