DéveloppeurWeb.Com
    DéveloppeurWeb.Com
    • Agile Zone
    • AI Zone
    • Cloud Zone
    • Database Zone
    • DevOps Zone
    • Integration Zone
    • Web Dev Zone
    DéveloppeurWeb.Com
    Home»Uncategorized»Tendances de l’ingénierie des données pour 2023
    Uncategorized

    Tendances de l’ingénierie des données pour 2023

    février 6, 2023
    Tendances de l'ingénierie des données pour 2023
    Share
    Facebook Twitter Pinterest Reddit WhatsApp Email

    Nous avons distillé 160 conversations avec des leaders technologiques d’entreprises, de startups, de sociétés NASDAQ et d’organisations héritées, des chefs d’équipe aux directeurs techniques et vice-présidents R&D. Voici leur liste des cinq principales tendances en matière d’ingénierie des données qui prendront probablement vie en 2023.

    1. Contrats de données

    Les contrats de données sont des accords basés sur des API entre des ingénieurs logiciels qui possèdent des services et des consommateurs de données qui comprennent comment l’entreprise fonctionne pour générer des données bien modélisées, de haute qualité et fiables. Supposons que vous le regardiez bien. Dans ce cas, vous avez au moins dix producteurs de données différents et plusieurs consommateurs, écrits dans différentes langues, interagissant avec diverses bases de données, SQL, No-SQL et les modèles de données du Saint Graal. C’est le bordel. Les contrats de données sont encore un concept de gestion ou d’exploitation. Pourtant, nous commençons à voir de plus en plus de traction et de conversation autour de cela (Chad Sanderson couvre le sujet en profondeur dans sa newsletter).

    Les objectifs finaux des contrats de données sont les suivants :

    • Augmenter la qualité des données produites.
    • Entretien plus facile.
    • Appliquez la gouvernance et la standardisation sur une plateforme de données fédérée.

    Contrats de données

    2. Un nouveau rôle — Ingénieur en fiabilité des données (DRE)

    L’un des défis les plus courants soulevés par les dirigeants est de savoir comment réduire l’écart technologique entre les différentes parties prenantes des données ; Ingénieurs, analystes, BI et scientifiques.

    ERD

    Cet écart est non seulement la source d’architectures trop compliquées mais aussi l’un des générateurs de coûts importants. Les BI, les analystes et les scientifiques ont chacun une pile avec des langages dédiés comme SQL et R. Outre les différences techniques, il existe également des intérêts différents et une sorte d’environnement en forme de bulle qui est très différent de tout autre groupe d’équipes qui assemblent une unité. avec un objectif clair, comme le fameux triangle – IT, DevOps et Devs. En raison de la complexité croissante des données et de l’augmentation des investissements en interne pour rendre les données beaucoup plus rentables, accessibles et un véritable moteur de croissance, un nouveau poste doit être pourvu. Tout comme le SRE (Site Reliability Engineer) a réduit l’écart entre les développeurs et les ingénieurs DevOps, il en sera de même pour le DRE, en disposant d’un couteau suisse de capacités allant de la compréhension et des exigences métier, aux structures de données et SQL, aux concepts théoriques dans ML et IA, et enfin comment créer des pipelines directs qui rassembleront les données nécessaires pour remplir les autres couches.

    3. Streaming et temps réel

    Les données augmentent trop rapidement pour être traitées dans leur ensemble. C’est une simple vérité.
    De nos jours, nous pouvons trouver des algorithmes super intelligents et efficaces qui traiteront la sortie en quelques millisecondes, mais pour importer les données, chaque extraction prendra des minutes et des heures. Cet exemple montre que si l’ensemble du processus pouvait être refactorisé et générer des résultats pour un seul événement ou par petits lots, la sortie prendrait un temps raisonnable. Pas des heures.
    C’est un exemple parmi tant d’autres, mais tous les cas d’utilisation ne peuvent pas se produire en temps réel et la refactorisation est difficile. L’état d’esprit doit être en temps réel dès le départ.

    4. Suivi de la lignée de flux

    Les barrières de dépannage doivent être abaissées pour permettre la croissance du « streaming » et augmenter la convivialité. Par exemple, la plupart des personnes interrogées ont déclaré utiliser un courtier de messages pour activer les pipelines en temps réel ; pour eux, un courtier de messages est une boîte noire. Quelque chose entre, quelque chose sort, et à la fin du pipeline, certains événements sont supprimés et d’autres sont ingérés. De plus, l’absence d’un modèle de défaillance avec une expérience de débogage qui nécessite un assemblage de différentes équipes et ingénieurs empêche les architectes d’approfondir en temps réel. Pour surmonter ces obstacles, les ingénieurs ont besoin d’une meilleure observabilité, basée sur le contexte, qui peut afficher l’évolution complète d’un événement unique depuis le premier producteur (une étape d’un pipeline) jusqu’au tout dernier consommateur. Plusieurs produits et projets ont commencé à relever ce défi, notamment Memphis.dev avec le parcours de l’événement intégré, Confluent, OpenLineage, Monte Carlo, etc.

    5. Le sourcing événementiel revient

    Comment structurez-vous ou mettez-vous l’accent sur le parcours d’un utilisateur ?
    Prenons, par exemple, le parcours de certains utilisateurs dans une boutique eCommerce.

    1. Ils sont entrés dans le magasin.
    2. Ils ont cherché.
    3. Ils ont trouvé quelque chose / Ils n’ont pas trouvé.
    4. Ils achètent quelque chose dans les deux minutes suivant l’entrée / Ils arrivent à la caisse et sortent.

    Finalement, vous pouvez le décrire dans 10 tables SQL différentes ou dans un document No-SQL, effectuer des jointures/agrégations, et enfin effectuer certaines actions après que l’utilisateur se soit éloigné de votre boutique. Eh bien, il existe une meilleure approche pour le magasin et l’action, et cela s’appelle le sourcing événementiel. En termes simples, cela signifie qu’il y a une file d’attente, et dans cette file d’attente, vous poussez chaque événement qu’un certain utilisateur a créé à la place dans une base de données. Jusqu’à présent, c’était assez simple, mais nous voulons effectuer des actions en temps réel dérivées de leur modèle de comportement pendant que l’utilisateur est dans notre magasin.

    Pour conclure, même s’il semble que nous l’entendions tout le temps, les données ne cessent de croître, provenant de sources multiples de formes et de tailles différentes. Par conséquent, la maîtrise des cours d’eau et des lacs peut profiter à toute organisation en réduisant les coûts, en augmentant les ventes, en devenant plus efficace et, surtout, en comprenant le client de l’autre côté.

    Share. Facebook Twitter Pinterest LinkedIn WhatsApp Reddit Email
    Add A Comment

    Leave A Reply Cancel Reply

    Catégories

    • Politique de cookies
    • Politique de confidentialité
    • CONTACT
    • Politique du DMCA
    • CONDITIONS D’UTILISATION
    • Avertissement
    © 2023 DéveloppeurWeb.Com.

    Type above and press Enter to search. Press Esc to cancel.