DéveloppeurWeb.Com
    DéveloppeurWeb.Com
    • Agile Zone
    • AI Zone
    • Cloud Zone
    • Database Zone
    • DevOps Zone
    • Integration Zone
    • Web Dev Zone
    DéveloppeurWeb.Com
    Home»Uncategorized»Le cauchemar des fuites de données dans l’IA
    Uncategorized

    Le cauchemar des fuites de données dans l’IA

    janvier 31, 2023
    Le cauchemar des fuites de données dans l'IA
    Share
    Facebook Twitter Pinterest Reddit WhatsApp Email

    De nos jours, nous considérons l’intelligence artificielle comme la solution à de nombreux problèmes et comme un outil qui peut aider l’humanité à réaliser des choses énormes plus rapidement et avec moins d’effort. Bien sûr, ces pensées ne sont pas loin d’être vraies, mais il est vraiment important d’être conscient des problèmes qui peuvent survenir jusque-là et de la manière dont ces problèmes peuvent nous affecter, nous les humains et notre environnement.

    Parmi les problématiques liées à l’intelligence artificielle (IA désormais), l’une des plus pertinentes s’appelle la « fuite de données ». Cela fait référence à un problème d’apprentissage automatique dans lequel les données utilisées pour former le modèle (la technique que nous utilisons pour prédire une sortie à partir d’un ensemble de données d’entrée) contiennent des informations inattendues qui pourraient conduire à une surestimation de l’utilité du modèle lorsqu’il est exécuté avec des données réelles. .

    Dans cet article, nous verrons comment les fuites de données peuvent se produire, leurs conséquences et comment les industries, les institutions gouvernementales et les particuliers peuvent gérer ces préoccupations.

    Fuite de données

    Comme cela a déjà été mentionné dans l’introduction, la fuite de données est un problème qui peut survenir lors de la mise en œuvre d’un modèle d’apprentissage automatique. Le problème se pose lorsque le modèle contient des informations qui ne seront pas disponibles au moment de la prédiction (en production). Lorsque cela se produit, le modèle fonctionnera bien dans des conditions de développement et de formation, mais il sera moins performant lorsqu’il sera utilisé avec des données de production.

    Types de fuite de données

    Les fuites peuvent se produire sous différentes formes, selon les informations qui fuient réellement. Par exemple, il y a des fuites de formation et des fuites de fonctionnalités ; parcourons-les pour en savoir plus.

    Fuite de fonctionnalités

    C’est le cas facile; cela est dû à l’introduction d’une colonne dans les données qui donne explicitement au modèle des informations sur ce qu’il essaie réellement de prédire. Et le problème est que cette information ne sera pas disponible au moment de la prédiction. Ainsi, par exemple, si nous développons un modèle pour prédire les clics des utilisateurs dans une annonce par an et que nous avons un champ dailyUserAdClicks, nous divulguons des informations car ces informations ne seront pas disponibles pour un nouvel utilisateur en production. Ainsi, le fait que ces informations se trouvaient dans les données d’entraînement mais pas dans la production entraînera une sous-performance du modèle dans le cas réel.

    Fuite de formation

    Dans l’apprentissage automatique, certaines techniques sont utilisées pour séparer les données disponibles au stade du développement entre les étapes dites de formation, de test et de validation croisée (ou CV).

    Les fuites de formation peuvent se produire de plusieurs manières, l’une d’entre elles étant lors d’une sorte d’opération (normalisation, mise à l’échelle, etc.) sur l’ensemble de données, y compris le test et la division CV. Cela conduirait à conditionner l’étape de validation à ces données modifiées, ce qui ne serait pas le cas en production.

    Un autre cas de fuite de formation se produit lorsque vous travaillez avec des informations basées sur le temps. Le problème survient lorsque l’ensemble de données est divisé au hasard pour la formation, les tests et le CV. Il peut arriver que le modèle soit formé sur la base de données sensibles au facteur temps et, du fait qu’il est divisé de manière aléatoire, les informations provenant d’événements futurs peuvent conditionner la capacité de prédiction du modèle. En d’autres termes, ces informations du futur ne seront pas disponibles dans un environnement de production.

    Conséquences de la fuite de données dans l’IA

    Comme nous l’avons vu, sur la base des pratiques de développement utilisées lors d’un processus d’apprentissage automatique, nous pouvons trouver différents résultats qui pourraient ne pas être idéaux. Si nous pensons à un avenir où la plupart de nos applications seront basées sur des services qui utilisent l’intelligence artificielle, qui fonctionne sur des modèles d’apprentissage automatique sous-jacents, il est vraiment inquiétant d’être conscient de la précision de ces modèles.

    Il existe de nombreux vecteurs où la fuite de données pourrait être un facteur dangereux dans cet avenir éventuel, en commençant par de mauvaises pratiques de développement et en terminant par de mauvais acteurs essayant de modifier le comportement des systèmes. Nous devons être conscients que bon nombre de ces systèmes seront basés sur les informations que nous recueillons aujourd’hui, qui sont utilisées dans un environnement non réglementé. Par exemple, l’IA est déjà utilisée dans des applications médicales sans aucune réglementation formelle sur les données sur lesquelles elles s’appuient pour donner des résultats.

    Heureusement, certaines institutions gouvernementales sont conscientes de cette question et prennent des mesures à ce sujet. Un exemple est la loi sur l’intelligence artificielle, un projet proposé par la loi européenne dans lequel ils visent à réglementer cette technologie. Nous devons reconnaître que c’est un bon point de départ, et il est bon de voir qu’il y a une prise de conscience, mais les implications de la technologie sont bien trop importantes pour s’appuyer sur une ou quelques institutions. Leur réglementation actuelle vise à catégoriser les applications en fonction de leur profil de risque, les applications à haut risque étant fortement réglementées et les moins risquées non réglementées du tout. Cette catégorisation peut être vraiment dangereuse car elle sera toujours subjective. Par exemple, certains pourraient dire que l’IA dans les réseaux sociaux n’est pas risquée, mais certains pourraient affirmer que son impact sur le développement social est énorme.

    Ensuite, nous avons le côté obscur de la question, où les mauvais acteurs entrent en jeu. L’Europe pourrait avoir sa propre politique en matière d’IA, mais certaines autres parties du monde pourraient ne jamais atteindre ce point, ce qui signifie qu’une personne mal intentionnée pourrait dépasser ce qui est considéré comme éthique ou légal ailleurs. Et même dans un environnement réglementé, il existe des moyens de corrompre les systèmes qui pourraient conduire à des catastrophes. Les piratages se produisent quotidiennement de nos jours. Compte tenu d’une infrastructure technologique basée sur les données, il est très probable que ces données seront une cible pour les mauvais acteurs à manipuler à leur guise.

    Conclusion

    Après avoir passé en revue quelques détails techniques sur la fuite de données, comment cela peut se produire et ses conséquences possibles pour notre avenir, je pense qu’il est vraiment important de réfléchir à la façon dont l’industrie du logiciel y fait face. Du point de vue d’un développeur, nous devons nous assurer des bonnes pratiques. Par exemple, un bogue de fuite dans un modèle pourrait conduire un pirate informatique à polluer des ensembles de données qui pourraient être le point de départ de nombreux autres services qui basent leurs applications sur la sortie de ce modèle. Du point de vue d’un régulateur, il est non seulement important de catégoriser les applications mais aussi les sources de données et l’accès à ces données.

    Il existe un grand nombre de dangers et de choses à prendre en compte pour réduire les possibilités des technologies liées aux catastrophes, et nous ne sommes probablement pas encore près de connaître la majorité d’entre eux. Mais il est essentiel d’avoir l’esprit ouvert et de traiter ces questions aussi délicates que puissent l’être leurs conséquences ; précipiter le développement et l’application de telles technologies pourrait être une énorme erreur.

    Share. Facebook Twitter Pinterest LinkedIn WhatsApp Reddit Email
    Add A Comment

    Leave A Reply Cancel Reply

    Catégories

    • Politique de cookies
    • Politique de confidentialité
    • CONTACT
    • Politique du DMCA
    • CONDITIONS D’UTILISATION
    • Avertissement
    © 2023 DéveloppeurWeb.Com.

    Type above and press Enter to search. Press Esc to cancel.