Beaucoup de choses se sont passées ces dernières années depuis que l’Organisation mondiale de la santé a déclaré le COVID-19 comme une pandémie mondiale, obligeant chaque entreprise à changer sa façon de travailler pour survivre dans ce monde en mutation. Cependant, même si le verrouillage a tout ralenti, une énorme quantité de données a continué à grimper avec la vitesse, et le big data a grandi et est devenu encore plus gros.
Alors que le monde changeait et que les entreprises luttaient pour trouver de nouveaux moyens et méthodes innovants pour continuer à faire des affaires, les données et l’analyse des données ont ouvert la voie. Dans cet article, un aperçu a été fourni sur Tableau, un outil extrêmement puissant qui peut traiter d’énormes quantités de données et peut fournir des informations et des tendances cachées grâce à des solutions visuelles qui peuvent être utilisées par les organisations pour prendre des décisions commerciales rapides. J’ai utilisé Tableau pour générer des visualisations interactives afin de fournir une solution aux industries biotechnologiques/pharmaceutiques/de la santé concernant une méthode améliorée d’engagement entre pairs.
Alors que le taux d’infection de Covid diminue et que les entreprises ouvrent, l’industrie de la santé doit comprendre le risque dû au COVID avant de s’engager avec les HCP (professionnels de la santé) dans un cadre réel et de faire des programmes pair à pair. Les données open source COVID-19 ont été utilisées pour fournir avec précision l’impact COVID en temps réel dans un emplacement géographique, qui pourrait être surveillé par les entreprises pour se préparer à d’éventuels engagements en face à face et trouver des solutions rapides et innovantes pour continuer à prendre des décisions de santé efficaces.
Introduction
En tant que processus intégral très nécessaire pour l’industrie pharmaceutique / biotechnologique, les entreprises gèrent de nombreux programmes peer-to-peer liés aux HCP, qui sont des réunions en face à face, des conventions et des conférences pour éduquer les HCP (professionnels de la santé) sur le médicament de la société et sur les différentes options de traitement scientifiquement prouvées et approuvées [1].
Pendant COVID, toutes les interactions et conférences à l’échelle de l’entreprise sont devenues virtuelles, même les représentants commerciaux sur le terrain/KOL (Key Opinion Leader)/MSL (Medical Science Liaison) et les réunions HCP sont devenus virtuels, ce qui a eu un impact sur l’entreprise. Aujourd’hui, alors que la vie revient lentement à la normale et que le taux d’infection au COVID diminue et que les entreprises ouvrent, il est important que le secteur de la santé comprenne le score de risque dû au COVID avant de s’engager avec les professionnels de la santé dans un cadre réel et pour faire programmes entre pairs.
Ce document utilise des données d’infection COVID accessibles au public et des données démographiques du bureau de recensement [6,7] ensemble pour présenter un modèle pour calculer si un endroit particulier aux États-Unis est sûr ou dangereux pour avoir une réunion en face à face. Il s’agit d’une visualisation interactive créée à l’aide de Tableau en tant qu’outil d’informatique décisionnelle.
Visualisation interactive des données
La visualisation de données est la présentation de données ou d’informations dans un format visuel tel qu’un graphique, un diagramme, un diagramme, etc. Aujourd’hui, les volumes de données sans cesse croissants rendent le Big Data déjà multiforme encore plus grand et plus complexe. En conséquence, trier, nettoyer, comprendre et expliquer une énorme quantité de données devient de plus en plus lent et difficile.
C’est là que, pour prendre des décisions basées sur les données rapidement et en toute confiance et en temps réel, la visualisation des données est entrée en jeu. Il fournit le moyen le plus rapide et le plus efficace d’interpréter de grands lots de données et de communiquer des détails et des informations pertinents en créant des tableaux de bord convaincants, informatifs, beaux et accrocheurs. La visualisation utilise les compétences naturelles d’un humain pour percevoir et traiter les informations visuelles avec une plus grande efficacité par rapport au format de données tabulaire [8]. Il aide à surveiller et à traiter des informations complexes en un coup d’œil et améliore la mémoire [8]ce qui aide considérablement à communiquer les messages plus efficacement.
Cependant, les visualisations sont statiques par nature et sont utilisées pour publier des documents tels que la publication sur papier ou en ligne ou à des fins de présentation plutôt que d’exploration. Ainsi, cela fait une différence lorsqu’une visualisation est créée à l’aide de tableaux de bord interactifs, la visualisation de données interactive étant un outil puissant à l’ère actuelle qui dépasse les limites des tableaux de bord statiques. Il convertit les présentations statiques en sessions interactives et rend les tableaux de bord dynamiques et permet aux utilisateurs d’interagir avec les données et de découvrir des modèles et des tendances en filtrant les données à la demande ou en cliquant simplement pour explorer les données sous-jacentes pour obtenir des informations de qualité en temps réel. -temps.
Préparation des données
Les données de cet article sont collectées dans le domaine public. Deux ensembles de données distincts ont été utilisés, le premier concerne les données d’infection COVID accessibles au public. Les données sont publiées et mises à jour en temps réel par le New York Times et fournies dans trois fichiers CSV distincts pour trois zones géographiques : États-Unis, États et comtés. [6]. Le fichier des comtés est le fichier le plus détaillé comprenant également les colonnes de l’état et du pays. Contrairement aux deux autres fichiers, qui sont des ensembles de données agrégées. Deuxièmement, les données démographiques du US Census Bureau du site Web du US Census Bureau [7].
Pour les données CSV d’infection COVID, seul le fichier des comtés est téléchargé à partir du site Web. Une table est créée dans AWS Redshift et le fichier est chargé dans la table dans Redshift. Un script est créé pour charger ces données quotidiennement dans la table Redshift, qui est ensuite automatiquement actualisée dans le tableau de bord Tableau. La figure 1 montre le tableau dans Redshift avec les données COVID téléchargées depuis le Web.
Figure 1: Données d’infection COVID dans un format de tableau long dans Redshift.
La table COVID dans Redshift est connectée à Tableau via le connecteur du serveur Tableau. La figure 2 montre la page du connecteur Tableau, avec une liste de divers types de fichiers et de serveurs courants à partir desquels Tableau peut être connecté pour extraire des données.
Figure 2: Page Tableau Desktop Connector affichant une variété de types de fichiers et de serveurs de base.
Pour cet ensemble de données, « Amazon Redshift » sous « Vers un serveur » est sélectionné et cliqué. Cela ouvre une fenêtre illustrée à la figure 3 pour entrer les informations d’identification et d’autres détails sur le serveur. Une connexion en direct est établie après avoir saisi le serveur et les informations de connexion. Et tous les schémas et tables de l’entrepôt de données pouvaient être vus dans le volet de source de données de Tableau Desktop. D’où la table COVID est glissée et déposée dans la section de connexion de données.
Figure 3: Boîte de fenêtre pour entrer les détails de connexion pour se connecter à l’entrepôt de données AWS Redshift.
Les données démographiques sont également téléchargées sous forme de fichier CVS à partir du site Web du US Census Bureau. Les données démographiques sont mises à jour chaque semaine sur ce site Web du gouvernement. Ce fichier Excel est connecté directement à Tableau. La figure 2 ci-dessus montre la liste. Dans ce cas, « Microsoft Excel » sous « Vers un fichier » est sélectionné, ce qui ouvre une boîte de dialogue qui affiche les fichiers pris en charge par Excel dans le système local. La boîte de dialogue permet de naviguer vers le fichier Excel et après la sélection, Tableau établit une connexion en direct avec le fichier.
Jointure de données Tableau
Tableau est maintenant connecté à deux ensembles de données différents provenant de deux sources de données différentes, il offre la possibilité de combiner/joindre les deux ensembles de données en utilisant le champ commun présent dans les deux. Comme le montre la figure 4, les deux tables sont jointes à l’aide d’une jointure interne à l’aide de la colonne ‘COUNTY’ qui est l’identifiant du comté présent dans les deux ensembles de données. Join étant une fonction robuste, une fois créée, elle existera dans l’ensemble du classeur et n’importe quel nombre de feuilles de calcul ou de tableaux de bord pourra être créé à l’aide de l’ensemble de données combiné.
Illustration 4 : Volet Source de données Tableau où les deux ensembles de données ont été joints à l’aide de la colonne unique.
Une fois que l’ensemble de données combiné est prêt, une feuille de calcul est ouverte qui est la zone de développement dans le tableau pour créer des visualisations. Dans la feuille de calcul que nous pouvons voir, Tableau a automatiquement différencié les colonnes en tant que dimensions et mesures illustrées à la figure 5. Il donne également la possibilité aux utilisateurs de valider les types de données déjà sélectionnés par Tableau pour chaque colonne. Les utilisateurs peuvent modifier les types de données de champ ainsi que déplacer les colonnes du volet Dimension vers Mesure ou vice versa en fonction des besoins.
Illustration 5 : Zone de feuille de calcul Tableau Development, où les colonnes des ensembles de données sont automatiquement ajoutées dans le volet des dimensions et des mesures.
Géocodage Tableau
Le géocodage Tableau est une autre excellente fonctionnalité fournie par Tableau. Tableau peut géocoder à partir de huit types d’informations géographiques différents, tels que des champs tels que le pays, l’état, la province, la ville, les codes postaux, etc., ainsi que les coordonnées de latitude et de longitude. Le champ géographique est indiqué par une petite icône représentant un globe. Tableau génère automatiquement les valeurs de longitude et de latitude pour les points centraux de chaque entité géographique affichée dans la visualisation [2,4]. Parallèlement, les utilisateurs peuvent également personnaliser les géocodes en attribuant des coordonnées de latitude et de longitude à leurs emplacements afin que Tableau puisse les tracer avec précision sur une carte. Dans cet article, une carte remplie est utilisée pour créer le tableau de bord visuel.
Modélisation du score de risque
Le premier ensemble de données utilisé est les données d’infection COVID open source, les données des sept derniers jours ont été téléchargées dans la table Redshift et connectées à Tableau via le connecteur AWS Tableau. Le deuxième ensemble de données correspond aux données du bureau de recensement américain pour les détails de la population, qui sont connectés à Tableau via le fichier Excel. Les deux ensembles de données sont joints à l’aide de la colonne de comté unique présente dans les deux ensembles de données.
Enfin, une colonne calculée nommée « score de risque COVID » est créée en calculant les sept derniers jours de cas de COVID pour 100 000 habitants dans un comté (Figure 6). Les scores de risque sont divisés en trois catégories – risque élevé, moyen et faible en fonction du nombre de cas de COVID au cours des sept derniers jours pour 100 000 habitants. Les trois catégories sont utilisées pour créer une autre colonne calculée pour diviser les catégories en trois segments de couleur basés sur les définitions ci-dessous et le champ est nommé « Catégorie de risque ».
Définitions du score de risque COVID pour les catégories de risque colorées :
- Couleur rouge à haut risque Score de risque COVID> 100 Cas de COVID au cours des derniers…