DéveloppeurWeb.Com
    DéveloppeurWeb.Com
    • Agile Zone
    • AI Zone
    • Cloud Zone
    • Database Zone
    • DevOps Zone
    • Integration Zone
    • Web Dev Zone
    DéveloppeurWeb.Com
    Home»Uncategorized»Corrélations simplifiées – DZone
    Uncategorized

    Corrélations simplifiées – DZone

    février 28, 2023
    Corrélations simplifiées - DZone
    Share
    Facebook Twitter Pinterest Reddit WhatsApp Email

    Prélude

    Dans le monde connecté, Internet et les réseaux sociaux donnent une impulsion supplémentaire pour générer des données colossales. Il n’y a pas un si grand défi pour stocker toutes les données qui ont été générées, et on peut tirer parti des dernières avancées en termes de stockage des données. Le véritable défi est de comprendre et d’identifier la possibilité de corréler ces données et d’en tirer des informations significatives. Dans cet article, nous verrons plus en détail les corrélations et comment identifier le coefficient de corrélation entre des variables données.

    Analyse des données

    L’analyse des données joue un rôle clé dans l’exploration approfondie des données, l’identification des tendances, la découverte des modèles de données et l’extraction de la valeur des données. Ici, je voudrais donner un exemple en temps réel au lieu d’exemples de corrélation réguliers (ventes de parapluies pendant les orages et ventes de glaces pendant l’été). Les deux variables que nous considérons ici comme corrélées sont :

    1. Espérance de vie
    2. Dépenses publiques de santé % du PIB

    Nous analysons des ensembles de données de « Notre monde en données », l' »espérance de vie » des individus dans un pays est corrélée ou non aux « dépenses de santé publique en % du PIB ».

    Il existe quatre types d’analyse différents, et nous essayons simplement de les comprendre avec le même exemple dans des déclarations simples.

    1. Analyse descriptive: « Ce qui s’est passé? »

    Quelle est l’espérance de vie dans un continent ou un pays spécifique ?

    Quel est le montant des dépenses publiques de santé en pourcentage du produit intérieur brut (PIB) ?

    2. Analyse diagnostique: « Quelle pourrait être la cause première? »

    Pourquoi l’espérance de vie dans certains pays est très faible ?

    Existe-t-il une corrélation entre l’espérance de vie et les dépenses publiques de santé publique ?

    L’identification des modèles de données et des corrélations est essentielle dans le cadre de Diagnostic Analytics.

    3. Analyses prédictives: « Que pourrait-il se passer dans le futur ? »

    Quelle sera l’espérance de vie d’un pays donné au cours des deux prochaines années ?

    Quel pourcentage du montant sera dépensé au cours des cinq prochaines années?

    4. Analytique prescriptive: « Quelles sont les actions possibles ? »

    S’il faut démarrer un programme mondial qui peut aider les pays à se concentrer sur les soins de santé en priorité ou un programme de collaboration avec des ONG pour développer des structures sanitaires locales.

    Diagnostic Analytics – Analyse de corrélation

    Parlons de l’analyse de corrélation un peu plus en détail sur la façon dont elle est utilisée pour identifier la force de la corrélation entre deux variables différentes.

    Les deux variables différentes que nous considérons ici :

    1. Dépenses publiques de santé % du PIB (2019 — « Notre monde en données ») — Variable indépendante
    2. Espérance de vie (2019 – « Notre monde en données ») – Variable dépendante

    Nous déterminerons si la variable dépendante change à mesure que la valeur change dans les variables indépendantes.

    Le coefficient de corrélation (r) est calculé pour identifier la force des deux variables données.

    La corrélation est identifiée sur la base de la valeur r :

    r vers 1 : Corrélation positive

    r vers -1 : Corrélation négative

    r vers 0 : pas de corrélation

    Accédez à l’ensemble de données ici.

    Exemples de données pour quelques pays et valeurs d’agrégation pour 52 pays :

    Pays 2019

    Nombre de personnes sans accès à l’eau potable – X

    Espérance de vie 2019 – Y

    X * X

    A*A

    X * Y

    Argentine

    5.954

    77,3

    35.45012

    5975.29

    460.2442

    Australie

    7.361

    83.1

    54.18432

    6905.61

    611.6991

    L’Autriche

    7.865

    81,9

    61.85823

    6707.61

    644.1435

    Belgique

    8.107

    81,8

    65.72345

    6691.24

    663.1526

    Brésil

    3,93

    75,3

    15.4449

    5670.09

    295.929

    Bulgarie

    4.295

    75.1

    18.44703

    5640.01

    322.5545

    Canada

    7.641

    82,4

    58.38488

    6789.76

    629.6184

    Chili

    5.656

    80.3

    31.99034

    6448.09

    454.1768

    Chine

    3.002

    78

    9.012004

    6084

    234.156

    Colombie

    6.284

    76,8

    39.48866

    5898.24

    482.6112

    Costa Rica

    5.339

    79,4

    28.50492

    6304.36

    423.9166

    Croatie

    5.579

    78,7

    31.12524

    6193.69

    439.0673

    Chypre

    3.857

    81.4

    14.87645

    6625.96

    313.9598

    Tchéquie

    6.463

    79.2

    41.77037

    6272.64

    511.8696

    Danemark

    8.473

    81.4

    71.79173

    6625.96

    689.7022

    Estonie

    5.081

    78,7

    25.81656

    6193.69

    399.8747

    Finlande

    7.136

    81,9

    50.9225

    6707.61

    584.4384

    France

    9.273

    82,7

    85.98853

    6839.29

    766.8771

    Allemagne

    9.827

    81,6

    96.56993

    6658.56

    801.8832

    Total pour les 52 pays

    312.279

    4141.4

    2125.139

    330504.1

    25103.71

    Nous avons toutes les valeurs X et Y requises disponibles pour quantifier la valeur de corrélation r entre les deux variables données.

    Il existe plusieurs types différents pour calculer le coefficient de corrélation (ex : Pearson, Rank, Intra-classe, etc.).

    Dans cet article, nous utiliserons le coefficient de corrélation de Pearson.

    Formules du coefficient de corrélation de Pearson

    Formules du coefficient de corrélation de Pearson Formules du coefficient de corrélation de Pearson

    r = 0,61564

    Résultat de r, qui est vers 1 et dit que les 2 variables données ont une corrélation positive. De la même manière, nous pouvons quantifier la corrélation entre deux variables données. Il ne s’agit pas seulement d’identifier les corrélations, mais de les visualiser avec une narration appropriée joue un rôle clé dans la prise de décision.

    Voyons un autre exemple où nous pouvons visualiser deux variables différentes.

    1. Espérance de vie
    2. Nombre de personnes ayant accès à l’eau potable

    Ici, non seulement nous quantifions la corrélation entre l’accès à l’eau potable et l’espérance de vie de la population dans n’importe quel pays, mais nous visualisons également ces corrélations. Les visualisations ont été créées à l’aide de Tableau.

    Visualiser

    Espérance de vie:

    Espérance de vie

    Eau salubre

    Le tableau de bord interactif complet est accessible ici.

    L’analyse de corrélation joue un rôle vital dans le cadre de l’analyse diagnostique. La corrélation de Pearson est largement utilisée pour identifier et quantifier la corrélation entre deux variables données.

    Share. Facebook Twitter Pinterest LinkedIn WhatsApp Reddit Email
    Add A Comment

    Leave A Reply Cancel Reply

    Catégories

    • Politique de cookies
    • Politique de confidentialité
    • CONTACT
    • Politique du DMCA
    • CONDITIONS D’UTILISATION
    • Avertissement
    © 2023 DéveloppeurWeb.Com.

    Type above and press Enter to search. Press Esc to cancel.