DéveloppeurWeb.Com
    DéveloppeurWeb.Com
    • Agile Zone
    • AI Zone
    • Cloud Zone
    • Database Zone
    • DevOps Zone
    • Integration Zone
    • Web Dev Zone
    DéveloppeurWeb.Com
    Home»Uncategorized»Présentation d’Azure Data Lake Storage Gen2
    Uncategorized

    Présentation d’Azure Data Lake Storage Gen2

    février 1, 2023
    Présentation d'Azure Data Lake Storage Gen2
    Share
    Facebook Twitter Pinterest Reddit WhatsApp Email

    Basé sur Azure Blob Storage, Azure Data Lake Storage Gen2 est une suite de fonctionnalités pour l’analyse du Big Data.

    Les fonctionnalités d’Azure Data Lake Storage Gen1 et d’Azure Blob Storage sont combinées dans Data Lake Storage Gen2. Par exemple, Data Lake Storage Gen2 offre une échelle, une sécurité au niveau des fichiers et une sémantique de système de fichiers. Vous bénéficierez également d’un stockage hiérarchisé à faible coût avec des capacités de haute disponibilité et de reprise après sinistre, car ces capacités sont basées sur le stockage Blob.

    Développé pour l’analyse de données volumineuses d’entreprise

    Azure Storage est désormais le point de départ pour créer des lacs de données d’entreprise sur Azure, grâce à Data Lake Storage Gen2. Data Lake Storage Gen2, créé dès le départ pour prendre en charge de nombreux pétaoctets de données tout en prenant en charge des centaines de gigabits de débit, vous permet de gérer facilement d’énormes volumes de données.

    L’extension du stockage Blob pour inclure un espace de noms hiérarchique est un composant clé de Data Lake Storage Gen2. Pour un accès efficace aux données, l’espace de noms hiérarchique regroupe les objets et les fichiers dans une hiérarchie de dossiers. Les barres obliques sont fréquemment utilisées dans les noms de stockage d’objets pour simuler une structure de répertoire hiérarchique. L’avènement de Data Lake Storage Gen2 fait de cet arrangement une réalité. Les opérations sur un répertoire, y compris le renommer ou le supprimer, deviennent des opérations de métadonnées atomiques uniques. Il n’est pas nécessaire d’énumérer et de gérer chaque objet qui partage le préfixe de nom du répertoire.

    Le stockage Blob est une base pour Data Lake Storage Gen2, qui améliore l’administration, la sécurité et les performances des manières suivantes :

    Performance

    Comme il n’est pas nécessaire de répliquer ou de modifier les données avant l’analyse, les performances sont optimisées. De plus, l’espace de noms hiérarchique sur le stockage Blob exécute les activités de gestion d’annuaire bien mieux que l’espace de noms plat, ce qui améliore les performances des tâches.

    La gestion

    Comme vous pouvez organiser et gérer les fichiers à l’aide de répertoires et de sous-répertoires, la gestion est plus simple.

    Sécurité

    Étant donné que les autorisations POSIX peuvent être définies sur des dossiers ou des fichiers spécifiques, la sécurité est applicable.

    De plus, Data Lake Storage Gen2 est relativement abordable car il est basé sur le stockage Azure Blob peu coûteux. Les fonctionnalités supplémentaires réduisent le coût global de possession lié à l’utilisation d’Azure pour exécuter des analyses de données volumineuses.

    Caractéristiques importantes de Data Lake Storage Gen2

    • Data Lake Storage Gen2 vous permet d’organiser et d’accéder aux données d’une manière comparable à celle d’un système de fichiers distribués Hadoop (HDFS). Tous les paramètres Apache Hadoop prennent en charge le nouveau pilote ABFS, qui est utilisé pour accéder aux données. Azure HDInsight, Azure Databricks et Azure Synapse Analytics sont quelques exemples de ces environnements.
    • Les ACL et les autorisations POSIX sont prises en charge par le modèle de sécurité pour Data Lake Gen2, ainsi qu’une granularité supplémentaire unique à Data Lake Storage Gen2. De plus, des frameworks comme Hive et Spark, ainsi que Storage Explorer, permettent la configuration des paramètres.
    • Rentable : un espace de stockage et des transactions à faible coût sont disponibles avec Data Lake Storage Gen2. Grâce à des fonctionnalités telles que le cycle de vie Azure Blob Storage, les coûts sont réduits à mesure que les données se déplacent tout au long de leur cycle de vie.
    • Optimisation du pilote : le pilote ABFS a été conçu pour l’analyse de données volumineuses. Le point de terminaison dfs.core.windows.net expose les API REST correspondantes.

    Évolutivité

    Que vous accédiez via les interfaces de stockage Data Lake Storage Gen2 ou Blob, Azure Storage est évolutif de par sa conception. De nombreux exaoctets de données peuvent être stockés et servis par celui-ci. Le débit pour cette quantité de stockage est mesuré en gigabits par seconde (Gbps) à des taux d’opération d’entrée/sortie élevés par seconde (IOPS). Les latences de traitement sont surveillées au niveau du service, du compte et du fichier et sont presque constantes par demande. Que vous accédiez via les interfaces de stockage Data Lake Storage Gen2 ou Blob, Azure Storage est évolutif de par sa conception. De nombreux exaoctets de données peuvent être stockés et servis par celui-ci. Le débit pour cette quantité de stockage est mesuré en gigabits par seconde (Gbps) à des taux d’opération d’entrée/sortie élevés par seconde (IOPS). Les latences de traitement sont surveillées au niveau du service, du compte et du fichier et sont presque constantes par demande.

    Rentabilité

    La capacité de stockage et les coûts de transaction sont inférieurs puisque Data Lake Storage Gen2 est basé sur Azure Blob Storage. Vous n’avez pas besoin de déplacer ou de modifier vos données avant de pouvoir les étudier, contrairement aux autres fournisseurs de stockage en nuage. Consultez la tarification du stockage Azure pour plus de détails sur la tarification.

    Les performances globales de nombreuses activités d’analyse sont également grandement améliorées par des fonctionnalités telles que l’espace de noms hiérarchique. En raison de l’augmentation des performances, le traitement de la même quantité de données nécessite désormais moins de puissance de calcul, ce qui réduit le coût total de possession (TCO) pour l’ensemble du projet d’analyse.

    Un seul service, de nombreuses idées

    Étant donné que Data Lake Storage Gen2 est basé sur Azure Blob Storage, les mêmes objets partagés peuvent être décrits par plusieurs concepts.

    Les objets suivants sont identiques et décrits par différents concepts. Sauf mention contraire, les termes suivants sont directement synonymes :

    Concept

    Organisation de haut niveau

    Organisation de niveau inférieur

    Conteneur de données

    Blobs – Stockage d’objets à usage général

    Récipient

    Répertoire virtuel (SDK uniquement – ne fournit pas de manipulation atomique)

    Goutte

    Azure Data Lake Storage Gen2 – Stockage analytique

    Récipient

    Annuaire

    Dossier

    Fonctionnalités prenant en charge le stockage Blob

    Votre compte a accès aux fonctionnalités de stockage Blob telles que la journalisation des diagnostics, les niveaux d’accès et les politiques de gestion du cycle de vie du stockage Blob. La plupart des fonctionnalités de stockage Blob sont entièrement prises en charge, bien que certaines ne soient prises en charge qu’en mode aperçu ou pas du tout.

    Consultez Prise en charge de la fonctionnalité de stockage Blob dans les comptes de stockage Azure pour plus d’informations sur la prise en charge de chaque fonctionnalité de stockage Blob avec Data Lake Storage Gen2.

    Intégrations prises en charge des services Azure

    Plusieurs services Azure sont pris en charge par Data Lake Storage gen2. Ils peuvent être utilisés pour effectuer des analyses, produire des représentations visuelles et absorber des données. Consultez les services Azure qui prennent en charge Azure Data Lake Storage Gen2 pour obtenir la liste des services Azure pris en charge.

    Plates-formes open source prises en charge

    Data Lake Storage Gen2 est pris en charge par plusieurs plates-formes open source. Consultez Plateformes open source qui prennent en charge Azure Data Lake Storage Gen2 pour obtenir une liste complète.

    Utilisation des meilleures pratiques Azure Data Lake Storage Gen2

    La version Gen2 d’Azure Data Lake Storage n’est pas un service ou un type de compte spécifique. Il s’agit d’un ensemble d’outils pour les tâches analytiques à haut débit. Les meilleures pratiques et instructions pour exploiter ces fonctionnalités sont fournies dans la référence Data Lake Storage Gen2. Consultez le contenu de la documentation du stockage Blob pour plus d’informations sur toutes les autres facettes de l’administration des comptes, y compris la configuration de la sécurité du réseau, la conception pour la haute disponibilité et la reprise après sinistre.

    Vérifier la compatibilité des fonctionnalités et les problèmes connus

    Lors de la configuration de votre compte pour tirer parti des services de stockage Blob, appliquez l’approche ci-dessous.

    • Pour savoir si une fonctionnalité est entièrement prise en charge dans votre compte, lisez la page sur la prise en charge de la fonctionnalité de stockage Blob des comptes de stockage Azure. Dans les comptes avec Data Lake Storage Gen2 activé, plusieurs fonctionnalités ne sont pas du tout prises en charge ou ne sont que partiellement prises en charge. À mesure que la prise en charge des fonctionnalités continue de croître, assurez-vous de consulter fréquemment cette page pour connaître les modifications.
    • Consultez l’article Problèmes connus avec l’article Azure Data Lake Storage Gen2 pour vérifier si la fonctionnalité que vous souhaitez utiliser comporte des restrictions ou nécessite des instructions spécifiques.
    • Consultez les articles de fond pour obtenir des conseils qui s’appliquent spécifiquement aux comptes sur lesquels Data Lake Storage Gen2 est activé.

    Reconnaître la terminologie utilisée dans la documentation

    Vous remarquerez quelques variations de vocabulaire mineures lorsque vous basculez entre les ensembles de contenu. Par exemple, le terme « blob » sera utilisé à la place de « fichier » dans le contenu présenté en vedette dans la description du stockage Blob. Techniquement, les données que vous téléchargez sur votre compte de stockage se transforment en blobs là-bas. Par conséquent, la phrase est exacte. Cependant, si vous êtes habitué au terme « fichier », le terme « blob » peut prêter à confusion. Un système de fichiers sera également appelé « conteneur ». Considérez ces phrases comme interchangeables.

    Pensez à la prime

    Envisagez d’adopter un compte de stockage Premium Block Blob si vos charges de travail exigent une faible latence constante et/ou un volume élevé d’opérations d’entrée-sortie par seconde (IOP). Un matériel haute performance est utilisé dans ce type de compte pour rendre les données accessibles. Les disques SSD, conçus pour une latence minimale, sont utilisés pour stocker les données. Par rapport aux disques durs classiques, les SSD offrent un débit supérieur. Les performances Premium ont des coûts de stockage plus élevés mais des coûts de transaction réduits. Par conséquent, un compte blob de bloc de performances premium peut être rentable si vos applications effectuent un grand nombre de transactions.

    Nous vous conseillons vivement d’utiliser Azure Data Lake Storage Gen2 avec un compte de stockage d’objets blob en bloc premium si votre compte de stockage sera utilisé pour l’analyse. Le niveau premium pour Azure Data Lake Storage est l’utilisation de comptes de stockage d’objets blob en bloc premium conjointement avec un compte activé pour Data Lake Storage.

    Améliorez l’ingestion de données

    Le matériel source, le matériel réseau source ou la connectivité réseau à votre compte de stockage peut constituer un goulot d’étranglement lors de l’ingestion de données à partir d’un système source.

    Améliorez l'ingestion de données

    Matériel source

    Assurez-vous de choisir avec soin le bon matériel, que vous utilisiez des machines virtuelles (VM) sur Azure ou un équipement sur site. Choisissez du matériel de disque avec des broches plus rapides et pensez à utiliser des disques SSD. Utilisez les contrôleurs d’interface réseau (NIC) les plus rapides que vous puissiez trouver pour le matériel réseau. Nous vous conseillons d’utiliser des machines virtuelles Azure D14 car elles disposent d’une alimentation réseau et matérielle de disque adéquate.

    Connexion au réseau du compte de stockage

    Il peut parfois y avoir…

    Share. Facebook Twitter Pinterest LinkedIn WhatsApp Reddit Email
    Add A Comment

    Leave A Reply Cancel Reply

    Catégories

    • Politique de cookies
    • Politique de confidentialité
    • CONTACT
    • Politique du DMCA
    • CONDITIONS D’UTILISATION
    • Avertissement
    © 2023 DéveloppeurWeb.Com.

    Type above and press Enter to search. Press Esc to cancel.