Avec le nombre croissant d’organisations qui défendent les données en tant qu’atout stratégique et créent de la valeur financière à partir du partage des données, le partage des données reste un défi. Bien que les cas d’utilisation soient infinis, allant des stratégies de monétisation des données dans les entreprises aux données en tant que service, de la gestion de flotte à la découverte de médicaments, puis aux flux de données publiques en temps réel de données environnementales telles que le changement climatique ou les ressources en eau et bien d’autres.
Et pourtant, partager des données entre différentes plates-formes, entreprises et clouds n’est pas une tâche facile. Presque tous ne disposent pas des normes de format ouvert, multi-cloud et de performance d’aujourd’hui.
Databricks Delta Sharing surmonte la plupart des problèmes ci-dessus à sa manière. Il s’agit du tout premier protocole ouvert de l’industrie, une norme ouverte pour le partage de données de manière sécurisée. Les utilisateurs peuvent ensuite accéder à ces données en toute sécurité au sein et entre les organisations.
En outre, cela ouvre la porte du partage et de la consommation de données provenant de sources externes permettant la collaboration avec les clients, l’établissement de nouveaux partenariats et donc la génération de nouvelles sources de revenus.
Où nous laissent les solutions actuelles de partage de données ?
DB/DWH commerciaux
Les fournisseurs commerciaux de bases de données et de DWH peuvent partager des données sur leurs systèmes en installant (et sous licence) une nouvelle instance de leur produit. Avec cette approche, vous êtes enfermé dans la solution de ce fournisseur, ses restrictions d’échelle et sa disponibilité sur des plates-formes cloud spécifiques (et leur tarification).
sFTP
Mettre des données sur un (s)FTP Le serveur de partage de données est indépendant du fournisseur et open source et fonctionne sur les clouds mais manque clairement d’évolutivité.
URL de stockage d’objets
Tous les CSP vous permettent de partager des objets avec une URL. Vous bénéficiez des garanties de disponibilité et de pérennité du stockage d’objets. Pourtant, cela ressemble plus à un stockage de bas niveau où les fichiers ressemblent davantage à des objets, mais vos data scientists et ingénieurs de données veulent travailler avec des tables et des opérations CRUD sur des tables.
Qu’est-ce que Delta Sharing apporte aux clients ?
Partage de données en temps réel/par lots sans réplication
Avec des données physiquement hébergées sur le stockage en nuage, le partage Delta facilite le partage des données de votre Lakehouse/lac de données sans copier physiquement les données en dehors de votre environnement, ce qui permet d’économiser des coûts de sortie substantiels, contrairement à quelques solutions Cloud DWH.
Hautement sécurisé, suivi et régi
Il permet l’attribution, le suivi et l’audit des données partagées à partir d’un emplacement centralisé appelé Unity Catalog. Nous pouvons également définir combien de temps le destinataire peut accéder au en termes d’heures, de mois, de jours, etc., et éventuellement, après cela, l’accès est automatiquement révoqué.
Évolutivité
Vous pouvez partager des données à n’importe quelle échelle en tirant parti des systèmes de stockage cloud sous-jacents de manière plus économique et efficace.
Prise en charge d’un ensemble diversifié de destinataires
La plate-forme destinataire peut être neutre, c’est-à-dire qu’il n’y a aucune obligation d’être une plate-forme informatique spécifique/spécifique, c’est-à-dire que les destinataires peuvent être un autre compte Databricks dans une autre région, un autre fournisseur de cloud, ou il peut s’agir d’un simple client tirant parti des API de Pandas, Apache Spark, ou n’importe quel outil de BI, cahiers de science des données comme Google Colab, Amazon Sagemaker et de nombreux autres systèmes.

Comment ça marche?
Delta Sharing est essentiellement un protocole REST qui suit une approche lac d’abord, de sorte que vos données restent sur le magasin d’objets cloud avec le fournisseur et le destinataire comme les deux principales constructions de celui-ci.
Le fournisseur de données décide des données qu’il souhaite partager et exécute un serveur de partage qui implémente le protocole de partage delta et gère l’accès des destinataires de données. En revanche, les destinataires consomment le partage en utilisant comme clients de partage delta.
Une fois la demande effectuée par le destinataire, celle-ci est validée à l’aide du jeton du fournisseur pour exécuter la requête à partir de la table.
Une fois la validation terminée, le serveur de partage Delta crée des URL de courte durée pour que le client ou le destinataire des données puisse lire les données en direct auxquelles ce client a accès à partir de la table delta parallèlement à n’importe quelle échelle avec la vue tabulaire cohérente.
Résumé
Cet article donne un aperçu de Delta Sharing et comment il réduit la complexité de l’ELT, et où il se situe avec d’autres solutions de partage de données. Toutes ces capacités de partage de données sécurisées et en direct de Delta Sharing favorisent une interaction évolutive et étroitement couplée entre les fournisseurs de données et les consommateurs au sein du paradigme Lakehouse.