La technologie open source devient de plus en plus populaire dans l’industrie de l’intégration de données, et pour de bonnes raisons. L’open source crée les bonnes incitations, permettant aux utilisateurs de posséder entièrement leurs données, contrairement à la source fermée, où vous construisez des connaissances dans un outil propriétaire avec une étiquette de prix. L’open source crée également des communautés autour de problèmes communs, permettant l’échange de connaissances précieuses et la résolution collaborative de problèmes.
Dans cet article, nous commencerons à étudier les raisons du succès de l’adoption de l’open source avant d’approfondir l’industrie de l’intégration de données, en nous concentrant plus particulièrement sur les solutions ELT (Extract, Load, Transform) open-source vs close-source. Nous discuterons de la manière dont l’ELT open source permet un meilleur contrôle sur le processus d’intégration des données, un traitement plus efficace des données et des économies de coûts pour les organisations. De plus, nous explorerons la tendance croissante à l’adoption d’ELT open source dans l’industrie et examinerons l’avenir de l’intégration de données open source.
Si vous êtes prêt à envisager l’open source, Airbyte est un excellent point de départ. Sa plate-forme résout la longue traîne des connecteurs que les solutions à source fermée négligent souvent. Nous explorerons son kit de développement de connecteurs facile à utiliser et plus encore.
Pourquoi l’open source : de la visibilité aux normes ouvertes et aux options de déploiement flexibles
L’open source signifie que vous avez visibilité et la flexibilité. Étant donné qu’une seule organisation ne peut pas résoudre les problèmes de données avec le marché de l’écosystème de données en constante croissance, l’open source est l’approche pour relever le défi de manière collaborative et durable, car les outils/cadres de données sont créés une fois pour tout le monde, à la suite de DRY.
L’open source permet interactions rapides car différentes entreprises utilisent les mêmes outils, signalez en cas d’erreur, ou même corrigez-la pour tout le monde. Le meilleur exemple est celui des correctifs de sécurité qui doivent être résolus rapidement.
Avec l’open source, vous êtes pleinement contrôle. Que vous traitiez les données via le système entièrement ouvert et que le code soit enregistré et que la version soit contrôlée pour une transparence totale.
Tu sais le alternative: créer un outil sur mesure pour votre employeur là où celui initialement créé est parti il y a quelques années – ou avoir une solution à source proche mais manquant une fonctionnalité ou un connecteur critique que vous ne pouvez pas ajouter vous-même, même si vous en avez les compétences.
L’open source crée également communautés autour d’un problème commun. Vous pouvez échanger des connaissances précieuses et trouver des solutions en collaboration. Maintenant, vous n’êtes pas seul à lutter contre tous ces problèmes ; tout à coup, vous avez des pairs au même stade, juste dans une entreprise différente.
Outre la communauté, l’open source crée normes ouvertes qui sont cruciaux pour les efforts d’intégration à l’échelle de l’entreprise. Avec de nombreux fournisseurs proches, il est difficile de s’entendre sur les normes, le code est caché et tout le monde veut être la norme.
Enfin souple options de déploiement. Comme il est ouvert, vous pouvez le déployer sur site dans votre infrastructure si vous avez des données sensibles ou si vous travaillez dans des secteurs sensibles tels que la santé ou la banque, qui sont également très réglementés par la loi. Mais aussi en termes de la sécurité et RGPDl’open source aide énormément, l’ELT open source car vous pouvez utiliser des choses comme EtLT (nous y reviendrons dans une minute).
Pourquoi PAS Open Source ?
Bien que l’open source soit un mot à la mode apprécié, si votre public n’est pas composé d’ingénieurs, l’open source peut être accablant au début. La communauté est un argument clé pour l’open source ; si vous n’avez pas de chevauchement entre vos développeurs et cette communauté, les avantages sont plus mineurs. Si vous avez un petit besoin de personnalisation et que vous avez cas d’utilisation simples, il est préférable d’utiliser une solution standardisée et de payer pour cela. L’open source demande beaucoup d’éducation. Si ce logiciel n’est pas au cœur de votre proposition de valeur, il vaut peut-être mieux ne pas utiliser l’open source.
Mais avec la considération ci-dessus, gardez à l’esprit qu’avec la source fermée, vous construisez des connaissances dans un outil propriétaire plutôt que quelque chose de générique et facilement transférable (par exemple, coder en Python). C’est puissant pour un pipeline simple, mais ce n’est pas facile à étendre et maintenir quand il grandit. Il faut du travail pour suivre les meilleures pratiques d’ingénierie logicielle comme les tests ou la gestion des versions. L’octroi de licences est généralement plutôt cher.
Qu’en est-il de l’ELT open source ?
Récapitulons brièvement ce que signifie ELT (Extract Load and Transform). L’ELT contraste avec l’approche d’intégration de données ETL plus traditionnelle, dans laquelle les données sont transformées avant d’arriver à destination.
En savoir plus sur les différences entre ETL et ELT
ETL et ELT sont deux paradigmes pour déplacer des données d’un système à un autre. Nous avons détaillé des comparaisons, y compris des images dans notre glossaire de données sur ETL vs ELT.
L’approche ETL était autrefois nécessaire en raison des coûts élevés de calcul et de stockage sur site. Avec le rapide croissance du cloud des entrepôts de données tels que Snowflake et la chute du prix du calcul et du stockage basés sur le cloud, il y a moins de raisons de continuer à faire la transformation avant le chargement à la destination finale.
En effet, inverser les deux permet aux analystes de faire un meilleur travail de manière autonome et de soutenir agile la prise de décision. Vous les laissez développer des idées basées sur des données existantes au lieu de proposer des idées à l’avance, de définir des schémas et de transformer.
ETL a plusieurs désavantages par rapport à l’ELT. Généralement, seules les données transformées sont stockées dans le système de destination, les analystes doivent donc savoir à l’avance comment les utiliser et chaque rapport qu’ils produisent, ce qui ralentit les cycles de développement.
Les modifications des exigences peuvent être cher, ce qui entraîne souvent la réintégration de données à partir de systèmes sources. Chaque transformation effectuée sur les données peut masquer certaines informations sous-jacentes, et les analystes ne voient que ce qui a été conservé pendant la phase de transformation.
La création d’un pipeline de données basé sur ETL dépasse souvent les capacités techniques des analystes. Au contraire, les solutions ELT ont tendance à être plus simple comprendre.
L’ELT favorise la littératie des données dans une entreprise axée sur les données, comme avec les outils de business intelligence basés sur le cloud, tout le monde dans l’entreprise peut explorer et créer des analyses sur toutes les données. Les tableaux de bord deviennent accessibles même pour les utilisateurs non techniques.
Comparaison des outils ELT/ETL
Besoin de trouver le meilleur outil d’intégration de données pour votre entreprise ? Quelle plate-forme s’intègre aux sources et destinations de données horaires ? Lequel offre les fonctionnalités que vous recherchez ? Nous vous avons simplifié la tâche et les avons rassemblés dans une feuille de calcul avec une comparaison de tous ces acteurs. Ou une comparaison détaillée détaillée entre les outils sur les meilleurs outils ETL comparés en détail.
Pourquoi Airbyte ?
Airbyte est la plate-forme open source qui unifie l’intégration des données avec Plus de 300 connecteurs (et en croissance rapide) pour s’attaquer à la longue queue des connecteurs, ce qui en fait le plus grand nombre de connecteurs de l’industrie. Et plus de 35 000 entreprises ont utilisé Airbyte pour synchroniser des données à partir de sources telles que PostgreSQL, MySQL, Facebook Ads, Salesforce et Stripe et se connecter à des destinations telles que Redshift, Snowflake, Databricks et BigQuery au cours de la dernière année et demie.
La plupart des entreprises à source fermée stagnent à 150 connecteurs car la partie la plus difficile n’est pas de construire les connecteurs ; c’est les maintenir. Cela coûte cher et toute solution fermée est limitée par des considérations de retour sur investissement (ROI). En conséquence, les fournisseurs ETL se concentrent sur les intégrations les plus populaires, mais les entreprises utilisent de plus en plus d’outils chaque mois, et la longue traîne des connecteurs doit être abordée.
Quand il s’agit de la coût de propriété, Airbyte brille sur le long terme. Les solutions à source fermée deviennent de plus en plus chères au fil du temps à mesure que de plus en plus de cas marginaux émergent qui ne sont pas pris en charge. Outre le paiement des connecteurs, vous devez également maintenir une équipe interne pour créer des connecteurs non pris en charge mais essentiels. Airbyte et l’ELT open source rendent l’intégration des données évolutive, car vous obtenez les deux en un avec une grande variété de connecteurs prêts à l’emploi, ainsi qu’un moyen facile d’étendre ou de créer des connecteurs personnalisés.
De plus, dans le cas où vous ne trouveriez pas de connecteur ELT adapté à vos besoins, Airbyte facilite la construction d’un connecteur avec le Airbyte CDK (Connector Developer Kit), qui génère 75% du code requis. Voici la liste complète des connecteurs actuellement disponibles pour Airbyte. Des modèles sont inclus pour créer de nouveaux connecteurs en Java ou Python.
Airbyte offre une robustesse fonctionnalités prédéfinies qui autrement doivent être ajoutés par vos ingénieurs. Vous pouvez configurer des réplications pour répondre à vos besoins : Planifiez des réplications CDC complètes, incrémentielles et basées sur les journaux sur toutes vos destinations configurées.
Quelle est la prochaine étape pour l’ELT Open Source ?
Comme nous l’avons vu, l’ELT open source gagne rapidement en popularité dans l’écosystème des données et l’industrie de l’intégration de données précisément en raison de ses nombreux avantages. La transparence, l’ouverture et la personnalisation accrues permettent des interactions plus rapides et une résolution de problèmes plus efficace, faisant de l’open source une solution idéale pour les entreprises de toutes tailles.
Alors que l’industrie continue d’évoluer et que les données deviennent une partie encore plus intégrante des opérations commerciales, il n’est pas surprenant que l’ELT open source soit l’avenir de l’intégration des données. Les entreprises qui tirent parti de ces solutions seront mieux équipées pour gérer à long terme les exigences d’un monde axé sur les données. La collaboration et le partage des connaissances au sein des communautés permettent également une résolution de problèmes et une innovation plus efficaces.