La détection des fraudes devient de plus en plus difficile dans un monde numérique dans tous les secteurs. Le traitement des données en temps réel avec Apache Kafka est devenu la norme de facto pour corréler et prévenir la fraude en continu avant qu’elle ne se produise. Cet article explore des études de cas pour la prévention de la fraude d’entreprises telles que Paypal, Capital One, ING Bank, Grab et Kakao Games qui exploitent des technologies de traitement de flux telles que Kafka Streams, KSQL et Apache Flink.
Détection des fraudes et besoin de données en temps réel
La détection et la prévention de la fraude sont la réponse adéquate aux activités frauduleuses dans les entreprises (comme la fraude, le détournement de fonds et la perte d’actifs en raison des actions des employés).
Un système de gestion anti-fraude (AFMS) comprend des tâches d’audit, de prévention et de détection de la fraude. Les grandes entreprises l’utilisent comme un système à l’échelle de l’entreprise pour prévenir, détecter et répondre de manière adéquate aux activités frauduleuses. Ces éléments distincts sont interconnectés ou existent indépendamment. Une solution intégrée est généralement plus efficace si l’architecture prend en compte les interdépendances lors de la planification.
Les données en temps réel battent les données lentes dans les domaines commerciaux et les industries dans presque tous les cas d’utilisation. Mais il existe peu de meilleurs exemples que la prévention et la détection des fraudes. Il n’est pas utile de détecter une fraude dans votre entrepôt de données ou votre lac de données après des heures ou même des minutes, car l’argent est déjà perdu. Cette « architecture trop tardive » augmente les risques, la perte de revenus et une mauvaise expérience client.
Il n’est pas surprenant que la plupart des plates-formes de paiement modernes et des systèmes de gestion anti-fraude mettent en œuvre des capacités en temps réel avec des technologies d’analyse en continu pour ces charges de travail transactionnelles et analytiques. L’architecture Kappa optimisée par Apache Kafka est devenue la norme de facto remplaçant l’architecture Lambda.
Un exemple de traitement de flux dans les paiements
Le traitement de flux est la base de la mise en œuvre de la détection et de la prévention des fraudes pendant que les données sont en mouvement (et pertinentes) au lieu de simplement stocker les données au repos pour les analyses (trop tard).
Quelle que soit la technologie moderne de traitement de flux que vous choisissez (par exemple, Kafka Streams, KSQL, Apache Flink), elle permet un traitement et une corrélation continus en temps réel de différents ensembles de données. Souvent, la combinaison de données en temps réel et historiques aide à trouver les bonnes informations et corrélations pour détecter la fraude avec une probabilité élevée.
Examinons quelques exemples de traitement de flux sans état et avec état pour la corrélation de données en temps réel avec les outils natifs Kafka Kafka Streams et ksqlDB. De même, Apache Flink ou d’autres moteurs de traitement de flux peuvent être combinés avec le flux de données Kafka. Il a toujours des avantages et des inconvénients. Bien que Flink puisse être le mieux adapté à certains projets, il s’agit d’un autre moteur et d’une autre infrastructure que vous devez combiner avec Kafka.
Assurez-vous de comprendre vos SLA de bout en bout et vos exigences concernant la latence, la sémantique exactement une fois, la perte de données potentielle, etc. Utilisez ensuite la bonne combinaison d’outils pour le travail.
Surveillance des transactions sans état avec Kafka Streams
Une application Kafka Streams, écrite en Java, traite chaque événement de paiement de manière apatride un par un :
Détection d’anomalies avec état avec Kafka et KSQL
Une application ksqlDB, écrite avec du code SQL, analyse en continu les transactions de la dernière heure par ID client pour identifier les comportements malveillants :
Kafka et Machine Learning avec TensorFlow pour un scoring en temps réel pour la détection des fraudes
Une UDF (fonction définie par l’utilisateur) KSQL intègre un modèle analytique entraîné avec TensorFlow pour la prévention de la fraude en temps réel :
Études de cas à travers les industries
Plusieurs études de cas existent pour la détection de fraude avec Kafka. Il est généralement associé à des technologies de traitement de flux, telles que Kafka Streams, KSQL et Apache Flink. Voici quelques déploiements réels dans différents secteurs, notamment les services financiers, les jeux et les services de mobilité :
- Pay Pal: traite des milliards de messages avec Kafka pour la détection des fraudes.
- Une capitale : considère les événements comme la gestion de l’ensemble de son activité (alimentée par Confluent), où le traitement de flux empêche 150 $ de fraude par client en moyenne par an en empêchant les violations d’informations personnelles identifiables (PII) des transactions en vol.
- Banque ING : a commencé il y a de nombreuses années en mettant en œuvre une détection des fraudes en temps réel avec Kafka, Flink et des modèles analytiques intégrés.
- Saisir: est un service de mobilité en Asie qui exploite Confluent Cloud entièrement géré, Kafka Streams et ML pour le traitement de flux avec état dans son service interne GrabDefence SaaS.
- Jeux Kakao : une société de jeux sud-coréenne utilise le streaming de données pour détecter et exploiter des anomalies avec plus de 300 modèles via KSQL.
Explorons cette dernière étude de cas plus en détail.
Plongez dans la prévention de la fraude
Avec Kafka et KSQL dans le jeu mobile
Kakao Games est un éditeur mondial de jeux vidéo basé en Corée du Sud, spécialisé dans les jeux de différents genres pour les plates-formes PC, mobiles et VR. La société a présenté au Current 2022—The Next Generation of Kafka Summit à Austin, au Texas.
Voici un résumé détaillé de leur cas d’utilisation convaincant et de leur architecture pour la détection des fraudes avec Kafka et KSQL.
Cas d’utilisation : Détecter les comportements malveillants des joueurs en temps réel
Le défi est évident lorsque vous comprenez l’histoire de l’entreprise : Kakao Games a de nombreux jeux externalisés achetés via des studios de jeux tiers. Chaque jeu a son journal unique avec sa structure standard et son format de message. Une intégration fiable des données en temps réel à grande échelle est requise comme base pour les processus commerciaux analytiques tels que la détection des fraudes.
L’objectif est d’analyser les journaux de jeu et les données de télémétrie en temps réel. Cette capacité est essentielle pour prévenir et corriger les menaces ou les actions suspectes des utilisateurs.
Architecture : Modifier la capture de données et l’analyse en continu pour la prévention de la fraude
La plate-forme de streaming d’événements alimentée par Confluent prend en charge la standardisation des journaux de jeu. ksqlDB analyse les données de télémétrie entrantes pour détecter les abus et les anomalies dans le jeu.
Source: Kakao Games (Courant 2022 à Austin, Texas)
Implémentation : recettes SQL pour le streaming de données avec KSQL
Kakao Games détecte les anomalies et prévient la fraude avec plus de 300 modèles via KSQL. Les cas d’utilisation incluent l’abus de bonus, l’utilisation de plusieurs comptes, la prise de contrôle de compte, la fraude par rétrofacturation et la fraude par affiliation.
Voici quelques exemples de code écrits avec du code SQL à l’aide de KSQL :
Source: Kakao Games (Courant 2022 à Austin, Texas)
Résultats : réduction des risques et amélioration de l’expérience client
Kakao Games peut effectuer un suivi et une analyse des données en temps réel à grande échelle. Les avantages commerciaux sont un délai de mise sur le marché plus rapide, une augmentation du nombre d’utilisateurs actifs et davantage de revenus grâce à une meilleure expérience de jeu.
Conclusion
L’ingestion de données avec Kafka dans un entrepôt de données ou un lac de données n’est qu’une partie d’une bonne architecture d’entreprise. Des outils comme Apache Spark, Databricks, Snowflake ou Google BigQuery permettent de trouver des informations dans les données historiques. Mais la prévention de la fraude en temps réel n’est possible que si vous agissez pendant que les données sont en mouvement. Sinon, la fraude s’est déjà produite avant que vous ne la détectiez.
Le traitement de flux fournit une infrastructure évolutive et fiable pour la prévention de la fraude en temps réel. Le choix de la bonne technologie est essentiel. Cependant, tous les principaux frameworks, comme Kafka Streams, KSQL ou Apache Flink, sont très bons. Par conséquent, les études de cas de Paypal, Capital One, ING Bank, Grab et Kakao Games sont différentes. Pourtant, ils ont la même base avec le streaming de données alimenté par le standard de facto Apache Kafka pour réduire les risques, augmenter les revenus et améliorer l’expérience client.
Si vous souhaitez en savoir plus sur l’analyse en continu avec l’écosystème Kafka, découvrez comment Apache Kafka contribue à la cybersécurité pour créer une connaissance de la situation et des renseignements sur les menaces et comment apprendre d’un exemple concret de détection de fraude avec Apache Kafka dans l’espace crypto et NFT.
Comment tirez-vous parti du streaming de données pour prévenir et détecter la fraude ? A quoi ressemble votre architecture ? Quelles technologies combinez-vous ? Connectons-nous sur LinkedIn et discutons-en !