DéveloppeurWeb.Com
    DéveloppeurWeb.Com
    • Agile Zone
    • AI Zone
    • Cloud Zone
    • Database Zone
    • DevOps Zone
    • Integration Zone
    • Web Dev Zone
    DéveloppeurWeb.Com
    Home»Big Data Zone»15 endroits où trouver des ensembles de données gratuits pour vos projets de science des données
    Big Data Zone

    15 endroits où trouver des ensembles de données gratuits pour vos projets de science des données

    novembre 17, 2021
    15 endroits où trouver des ensembles de données gratuits pour vos projets de science des données
    Share
    Facebook Twitter Pinterest Reddit WhatsApp Email

    15 endroits où trouver des ensembles de données gratuits pour vos projets de science des données

    Si vous avez déjà travaillé sur un projet de science des données personnelles, vous avez probablement passé beaucoup de temps à parcourir Internet à la recherche d’ensembles de données intéressants à analyser.

    Il peut être amusant de passer au crible des dizaines d’ensembles de données pour trouver le meilleur ajustement, mais il peut également être frustrant de télécharger et d’importer plusieurs fichiers CSV, pour découvrir que les données sont simplement manquantes, pas si intéressantes. Heureusement, il existe des référentiels en ligne qui conservent des ensembles de données et suppriment (principalement) celles qui ne sont pas intéressantes.

    Dans cet article, nous examinerons différents types de projets de science des données, y compris les projets de visualisation de données, les projets de nettoyage de données et les projets d’apprentissage automatique, et identifierons les bons endroits pour trouver des ensembles de données pour chacun.

    Que vous souhaitiez renforcer votre portefeuille de science des données en montrant que vous pouvez bien visualiser les données, ou si vous avez quelques heures à perdre et que vous souhaitez mettre en pratique vos compétences en apprentissage automatique, nous avons ce qu’il vous faut.

    Ensembles de données pour vos projets de visualisation de données

    Un projet de visualisation de données typique pourrait être quelque chose comme « Je souhaite créer une infographie sur la façon dont les revenus varient dans différents États des États-Unis ».

    Il y a quelques considérations à garder à l’esprit lors de la recherche d’un bon ensemble de données pour un projet de visualisation de données :

    • Cela ne devrait pas être compliqué car vous ne voulez pas passer beaucoup de temps à nettoyer vos données.
    • Il doit être suffisamment nuancé et intéressant pour en faire un graphisme.
    • Idéalement, chaque colonne doit être bien expliquée pour que l’affichage soit précis.
    • L’ensemble de données ne doit pas avoir trop de lignes ou de colonnes, il est donc facile à utiliser.
    • Les sites d’actualités qui publient leurs propres données sont un bon endroit pour trouver de bons ensembles de données pour les projets de visualisation de données.

    Ils nettoient généralement les données pour vous et ont déjà créé des graphiques que vous pouvez reproduire ou améliorer.

    1. Newsdata.io (pour les ensembles de données d’actualités)

    Newsdata.io est une excellente plate-forme si vous êtes intéressé par les ensembles de données d’actualités historiques, car ils fournissent également une API d’actualités pour les dernières nouvelles et les actualités historiques. Par conséquent, ils collectent des données d’actualité chaque jour, quotidiennement. Ils fournissent également des échantillons de données gratuits avant que vous ne demandiez votre ensemble de données d’actualités historiques.

    2. CinqTrenteHuit

    CinqTrenteHuit est un site interactif d’actualités et de sports incroyablement populaire lancé par Nate Silver.

    Ils écrivent des articles intéressants basés sur des données, tels que « Ne blâmez pas le manque de compétences pour le manque d’embauches en production » et « Les prévisions de la NFL 2016 ».

    FiveThirtyEight rend les ensembles de données utilisés dans leurs articles disponibles en ligne sur Github.

    3. BuzzFeed

    BuzzFeed a commencé comme fournisseur d’articles de mauvaise qualité, mais a depuis évolué et écrit maintenant des articles d’investigation, tels que « The Court That Rulers the World » et « The Short Life of Deonte Hoard ».

    BuzzFeed rend les ensembles de données utilisés dans ses articles disponibles sur Github.

    4. Socrata OpenData

    Socrata OpenData est un portail qui contient plusieurs ensembles de données propres qui peuvent être consultés dans le navigateur ou téléchargés pour consultation. Une partie importante des données provient de sources gouvernementales américaines et nombre d’entre elles sont obsolètes.

    Vous pouvez parcourir et télécharger des données depuis OpenData sans vous inscrire. Vous pouvez également utiliser des outils d’affichage et de navigation pour explorer les données dans le navigateur.

    Ensembles de données pour vos projets de traitement de données

    Parfois, vous voulez juste travailler avec un grand nombre de données. Le résultat final n’est pas aussi important que le processus de lecture et d’analyse des données.

    Vous pouvez utiliser des outils tels que Spark ou Hadoop pour répartir le traitement sur plusieurs nœuds. Gardez à l’esprit lorsque vous recherchez un bon ensemble de données pour le traitement des données :

    • Plus les données sont propres, mieux c’est — le nettoyage d’un jeu de données volumineux peut prendre beaucoup de temps.
    • L’ensemble de données devrait être intéressant.
    • Il devrait y avoir une question intéressante à laquelle les données peuvent répondre.

    Les fournisseurs d’hébergement cloud comme Amazon et Google sont de bons endroits pour trouver de grands ensembles de données publics. Ils sont incités à héberger des ensembles de données car ils les font analyser à l’aide de leur infrastructure (et ils paient pour cela).

    5. Ensembles de données publiques AWS

    Amazone rend de grands ensembles de données disponibles sur son Services Web Amazon Plate-forme. Vous pouvez télécharger les données et les utiliser sur votre ordinateur, ou analyser les données dans le cloud à l’aide d’EC2 et d’Hadoop via EMR. Vous pouvez en savoir plus sur le fonctionnement du programme ici.

    Amazon a une page qui répertorie tous les ensembles de données à parcourir. Vous aurez besoin d’un compte AWS, bien qu’Amazon vous offre un niveau d’accès gratuit pour les nouveaux comptes qui vous permettra d’explorer les données sans frais.

    6. Ensembles de données publiques Google

    Tout comme Amazon, Google propose également un service d’hébergement cloud, appelé le Plateforme Google Cloud. Avec GCP, vous pouvez utiliser un outil appelé BigQuery pour explorer de grands ensembles de données.

    Google répertorie tous les ensembles de données sur une page. Vous devrez créer un compte GCP, mais la première demande de 1 To que vous faites est gratuite.

    7. Wikipédia

    Wikipédia est une encyclopédie en ligne gratuite et éditée par la communauté. Wikipédia contient une étonnante étendue de connaissances, avec des pages sur tout, des guerres ottomanes des Habsbourg à Leonard Nimoy.

    Dans le cadre de l’engagement de Wikipédia pour l’avancement des connaissances, ils proposent gratuitement l’intégralité de leur contenu et génèrent régulièrement des dumps de tous les articles du site. De plus, Wikipedia propose un historique des changements et des activités, ce qui vous permet de suivre la progression d’une page sur un sujet au fil du temps et de savoir qui y contribue.

    Vous pouvez trouver différentes façons de télécharger les données sur le site Wikipédia. Vous trouverez également des scripts pour reformater les données de différentes manières.

    Ensembles de données pour vos projets d’apprentissage automatique

    Lorsque vous travaillez sur un projet d’apprentissage automatique, vous souhaitez pouvoir prédire une colonne à partir des autres colonnes d’un ensemble de données. Pour ce faire, nous devons nous assurer que :

    • L’ensemble de données n’est pas trop compliqué — s’il l’est, nous passerons tout notre temps à nettoyer les données.
    • Il existe une colonne cible intéressante pour faire des prédictions.
    • Les autres variables ont un certain pouvoir explicatif pour la colonne cible.

    Il existe des référentiels en ligne d’ensembles de données spécifiques pour l’apprentissage automatique. Ces ensembles de données sont généralement nettoyés tôt et permettent de tester les algorithmes très rapidement.

    8. Kaggle

    Kaggle est une communauté de science des données qui organise des concours d’apprentissage automatique. Il existe une variété d’ensembles de données intéressants sur le site fournis en externe. Kaggle propose des concours en direct et historiques.

    Vous pouvez télécharger des données pour les deux, mais vous devez vous inscrire auprès de Kaggle et accepter les conditions d’utilisation du concours.

    Vous pouvez télécharger les données Kaggle en participant à un concours. Chaque compétition a son propre jeu de données associé. Il existe également des jeux de données fournis par les utilisateurs dans la nouvelle offre de jeux de données Kaggle.

    9. Référentiel d’apprentissage automatique de l’UCI

    Les Référentiel d’apprentissage automatique de l’UCI est l’une des plus anciennes sources d’ensembles de données sur le Web. Alors que les ensembles de données sont fournis par l’utilisateur et ont donc différents niveaux de documentation et de nettoyage, la grande majorité sont propres et prêts à être appliqués.

    UCI est un excellent premier arrêt lors de la recherche d’ensembles de données intéressants.

    Vous pouvez télécharger les données directement depuis le référentiel UCI Machine Learning, sans inscription. Ces ensembles de données ont tendance à être assez petits et n’ont pas beaucoup de nuances, mais ils sont utiles pour l’apprentissage automatique.

    10. Quandl

    Quandl est un référentiel de données économiques et financières. Certaines de ces informations sont gratuites, mais de nombreux ensembles de données doivent être achetés. Quandl est utile pour créer des modèles pour prédire des indicateurs économiques ou des cours boursiers. En raison du grand nombre d’ensembles de données disponibles, il est possible de créer un modèle complexe qui utilise de nombreux ensembles de données pour prédire les valeurs dans un autre.

    Ensembles de données pour vos projets de nettoyage de données

    Parfois, il peut être très satisfaisant de prendre un ensemble de données réparti sur plusieurs fichiers, de le nettoyer, de le condenser en un seul, puis d’effectuer une analyse. Dans les projets de nettoyage des données, il faut parfois des heures de recherche pour comprendre ce que chaque colonne contient l’ensemble de données signifie.

    Parfois, il peut s’avérer que l’ensemble de données que vous analysez ne convient pas à ce que vous essayez de faire et vous devrez recommencer.

    Lorsque vous recherchez un bon ensemble de données pour un projet de nettoyage des données, vous souhaitez :

    • Répartis sur plusieurs fichiers.
    • Ils ont de nombreuses nuances et de nombreux angles possibles à prendre.
    • Nécessite une bonne quantité de recherche pour comprendre.
    • Soyez aussi « réel » que possible.

    Ces types d’ensembles de données se trouvent généralement sur les agrégateurs d’ensembles de données. Ces agrégateurs ont tendance à avoir des ensembles de données provenant de plusieurs sources, sans trop de soin. Trop de soin nous donne des ensembles de données trop précis qui sont difficiles à nettoyer en profondeur.

    11. data.world

    data.world se décrit comme « le réseau social des data people », mais il pourrait être plus correctement décrit comme « GitHub for data ». C’est un endroit où vous pouvez rechercher, copier, analyser et télécharger des ensembles de données.

    De plus, vous pouvez télécharger vos données sur data.world et les utiliser pour collaborer avec d’autres. En relativement peu de temps, il est devenu l’une des références en matière d’acquisition de données, avec de nombreux ensembles de données fournis par les utilisateurs et des ensembles de données fantastiques grâce aux partenariats de data.world avec diverses organisations qui incluent une grande quantité de données du gouvernement fédéral américain.

    Un différenciateur clé de data.world sont les outils qu’ils ont créés pour faciliter le travail avec les données : vous pouvez écrire des requêtes SQL dans leur interface pour explorer les données et fusionner plusieurs ensembles de données. Ils ont également des SDK pour R et python pour faciliter la capture et l’utilisation des données dans votre outil préféré.

    12. Data.gov

    Data.gov est un site relativement nouveau qui fait partie d’un effort américain pour un gouvernement ouvert. Data.gov vous permet de télécharger des données de plusieurs agences gouvernementales américaines.

    Les données peuvent aller des budgets gouvernementaux aux scores de performance des écoles. La plupart des données nécessitent des recherches supplémentaires et il peut parfois être difficile de comprendre quel ensemble de données est la version « correcte ».

    Tout le monde peut télécharger les données, bien que certains ensembles de données nécessitent des étapes supplémentaires, telles que l’acceptation des accords de licence.

    Vous pouvez parcourir les ensembles de données sur Data.gov directement, sans vous inscrire. Vous pouvez parcourir par domaine ou rechercher un ensemble de données spécifique.

    13. La Banque mondiale

    La Banque mondiale est une organisation mondiale de développement qui fournit des prêts et des conseils aux pays en développement. La Banque mondiale finance régulièrement des programmes dans les pays en développement et collecte ensuite des données pour suivre le succès de ces programmes.

    Vous pouvez parcourir les ensembles de données de la Banque mondiale directement sans vous inscrire. Les ensembles de données ont de nombreuses valeurs manquantes et nécessitent parfois plusieurs clics pour accéder réellement aux données.

    14. /r/ensembles de données

    Reddit, un site de discussion communautaire populaire, a une section dédiée au partage d’ensembles de données intéressants. C’est ce qu’on appelle le subreddit ou / r / dataset. La portée de ces ensembles de données varie beaucoup, car ils sont tous soumis par les utilisateurs, mais ils ont tendance à être très intéressants et nuancés.

    15. Torrents académiques

    Torrents académiques est un nouveau site axé sur le partage d’ensembles de données provenant d’articles scientifiques. Il s’agit d’un site plus récent, il est donc difficile de dire à quoi ressembleront les types d’ensembles de données les plus courants. Pour l’instant, il contient des tonnes d’ensembles de données intéressants qui manquent de contexte.

    Vous pouvez parcourir les jeux de données directement sur le site. Comme il s’agit d’un site torrent, tous les ensembles de données peuvent être téléchargés immédiatement, mais vous aurez besoin d’un client BitTorrent. Deluge est une bonne option gratuite.

    Share. Facebook Twitter Pinterest LinkedIn WhatsApp Reddit Email
    Add A Comment

    Leave A Reply Cancel Reply

    Catégories

    • Politique de cookies
    • Politique de confidentialité
    • CONTACT
    • Politique du DMCA
    • CONDITIONS D’UTILISATION
    • Avertissement
    © 2023 DéveloppeurWeb.Com.

    Type above and press Enter to search. Press Esc to cancel.