Prélude
Dans le monde connecté, Internet et les réseaux sociaux donnent une impulsion supplémentaire pour générer des données colossales. Il n’y a pas un si grand défi pour stocker toutes les données qui ont été générées, et on peut tirer parti des dernières avancées en termes de stockage des données. Le véritable défi est de comprendre et d’identifier la possibilité de corréler ces données et d’en tirer des informations significatives. Dans cet article, nous verrons plus en détail les corrélations et comment identifier le coefficient de corrélation entre des variables données.
Analyse des données
L’analyse des données joue un rôle clé dans l’exploration approfondie des données, l’identification des tendances, la découverte des modèles de données et l’extraction de la valeur des données. Ici, je voudrais donner un exemple en temps réel au lieu d’exemples de corrélation réguliers (ventes de parapluies pendant les orages et ventes de glaces pendant l’été). Les deux variables que nous considérons ici comme corrélées sont :
- Espérance de vie
- Dépenses publiques de santé % du PIB
Nous analysons des ensembles de données de « Notre monde en données », l' »espérance de vie » des individus dans un pays est corrélée ou non aux « dépenses de santé publique en % du PIB ».
Il existe quatre types d’analyse différents, et nous essayons simplement de les comprendre avec le même exemple dans des déclarations simples.
1. Analyse descriptive: « Ce qui s’est passé? »
Quelle est l’espérance de vie dans un continent ou un pays spécifique ?
Quel est le montant des dépenses publiques de santé en pourcentage du produit intérieur brut (PIB) ?
2. Analyse diagnostique: « Quelle pourrait être la cause première? »
Pourquoi l’espérance de vie dans certains pays est très faible ?
Existe-t-il une corrélation entre l’espérance de vie et les dépenses publiques de santé publique ?
L’identification des modèles de données et des corrélations est essentielle dans le cadre de Diagnostic Analytics.
3. Analyses prédictives: « Que pourrait-il se passer dans le futur ? »
Quelle sera l’espérance de vie d’un pays donné au cours des deux prochaines années ?
Quel pourcentage du montant sera dépensé au cours des cinq prochaines années?
4. Analytique prescriptive: « Quelles sont les actions possibles ? »
S’il faut démarrer un programme mondial qui peut aider les pays à se concentrer sur les soins de santé en priorité ou un programme de collaboration avec des ONG pour développer des structures sanitaires locales.
Diagnostic Analytics – Analyse de corrélation
Parlons de l’analyse de corrélation un peu plus en détail sur la façon dont elle est utilisée pour identifier la force de la corrélation entre deux variables différentes.
Les deux variables différentes que nous considérons ici :
- Dépenses publiques de santé % du PIB (2019 — « Notre monde en données ») — Variable indépendante
- Espérance de vie (2019 – « Notre monde en données ») – Variable dépendante
Nous déterminerons si la variable dépendante change à mesure que la valeur change dans les variables indépendantes.
Le coefficient de corrélation (r) est calculé pour identifier la force des deux variables données.
La corrélation est identifiée sur la base de la valeur r :
r vers 1 : Corrélation positive
r vers -1 : Corrélation négative
r vers 0 : pas de corrélation
Accédez à l’ensemble de données ici.
Exemples de données pour quelques pays et valeurs d’agrégation pour 52 pays :
Pays 2019 |
Nombre de personnes sans accès à l’eau potable – X |
Espérance de vie 2019 – Y |
X * X |
A*A |
X * Y |
Argentine |
5.954 |
77,3 |
35.45012 |
5975.29 |
460.2442 |
Australie |
7.361 |
83.1 |
54.18432 |
6905.61 |
611.6991 |
L’Autriche |
7.865 |
81,9 |
61.85823 |
6707.61 |
644.1435 |
Belgique |
8.107 |
81,8 |
65.72345 |
6691.24 |
663.1526 |
Brésil |
3,93 |
75,3 |
15.4449 |
5670.09 |
295.929 |
Bulgarie |
4.295 |
75.1 |
18.44703 |
5640.01 |
322.5545 |
Canada |
7.641 |
82,4 |
58.38488 |
6789.76 |
629.6184 |
Chili |
5.656 |
80.3 |
31.99034 |
6448.09 |
454.1768 |
Chine |
3.002 |
78 |
9.012004 |
6084 |
234.156 |
Colombie |
6.284 |
76,8 |
39.48866 |
5898.24 |
482.6112 |
Costa Rica |
5.339 |
79,4 |
28.50492 |
6304.36 |
423.9166 |
Croatie |
5.579 |
78,7 |
31.12524 |
6193.69 |
439.0673 |
Chypre |
3.857 |
81.4 |
14.87645 |
6625.96 |
313.9598 |
Tchéquie |
6.463 |
79.2 |
41.77037 |
6272.64 |
511.8696 |
Danemark |
8.473 |
81.4 |
71.79173 |
6625.96 |
689.7022 |
Estonie |
5.081 |
78,7 |
25.81656 |
6193.69 |
399.8747 |
Finlande |
7.136 |
81,9 |
50.9225 |
6707.61 |
584.4384 |
France |
9.273 |
82,7 |
85.98853 |
6839.29 |
766.8771 |
Allemagne |
9.827 |
81,6 |
96.56993 |
6658.56 |
801.8832 |
Total pour les 52 pays |
312.279 |
4141.4 |
2125.139 |
330504.1 |
25103.71 |
Nous avons toutes les valeurs X et Y requises disponibles pour quantifier la valeur de corrélation r entre les deux variables données.
Il existe plusieurs types différents pour calculer le coefficient de corrélation (ex : Pearson, Rank, Intra-classe, etc.).
Dans cet article, nous utiliserons le coefficient de corrélation de Pearson.
Formules du coefficient de corrélation de Pearson
r = 0,61564
Résultat de r, qui est vers 1 et dit que les 2 variables données ont une corrélation positive. De la même manière, nous pouvons quantifier la corrélation entre deux variables données. Il ne s’agit pas seulement d’identifier les corrélations, mais de les visualiser avec une narration appropriée joue un rôle clé dans la prise de décision.
Voyons un autre exemple où nous pouvons visualiser deux variables différentes.
- Espérance de vie
- Nombre de personnes ayant accès à l’eau potable
Ici, non seulement nous quantifions la corrélation entre l’accès à l’eau potable et l’espérance de vie de la population dans n’importe quel pays, mais nous visualisons également ces corrélations. Les visualisations ont été créées à l’aide de Tableau.
Visualiser
Espérance de vie:
Le tableau de bord interactif complet est accessible ici.
L’analyse de corrélation joue un rôle vital dans le cadre de l’analyse diagnostique. La corrélation de Pearson est largement utilisée pour identifier et quantifier la corrélation entre deux variables données.