In english
 Accueil       Ce virus est-il sensible à la météo ?      


Nous avons effectué 2 études complètes d'analyse exploratoire et d'étude de corrélation.

Etude 1: l'étude des données par pays

Les pays ne sont pas tous touchés de la même façon par le Coronavirus.
Certains pays sont (officiellement) pratiquement épargnés; d'autres pays ont déjà des dizaines de milliers de morts.
Pourquoi de telles différences entre les pays ?

Pour chacun des pays, nous avons récupéré les données suivantes:
- nombre d'habitants
- densité de population
- richesse par habitant
- espérance de vie (cela va de 52 ans pour l'Angola à 84 ans pour le Japon)
- âge moyen de la population (cela va de 16 ans pour le Tchad à 43 ans pour l'Italie et le Japon)
- qualité du système de santé
- liberté d'expression (cela va de 0 pour la Corée du Nord à 77 pour la Suède)
- Température moyenne sur le mois d'avril dans la capitale du pays (cela va de 8°C à 42°C)
- nombre de décès (déclarés !), par million d'habitants, liés au COVID-19 sur les mois d'avril et mai.

Etudions la matrice de corrélation, représentée sous forme d'une carte thermique.
(rappel: les coefficients de corrélation vont de -1 à 1.
1 signifie que les 2 variables sont parfaitement corrélées positivement entre elles: quand l'une augmente, l'autre augmente aussi.
0: il n'y a aucune corrélation linéaire.
-1: les 2 variables sont parfaitement corrélées négativement. Quand une variable augmente, l'autre diminue).



matrice.png

4 variables sont très corrélées entre elles: richesse par habitant, espérance de vie, âge moyen et qualité du système de santé.
En effet, dans un pays riche, les habitants vivent plus longtemps, l'âge moyen de la population est plus élevé et la qualité du système de santé est meilleure

Le nombre de décès par habitant est fortement corrélé à ces 4 variables.
Cela peut paraître contradictoire mais plus la qualité du système de santé est bon, plus il y a des gens qui meurent du COVID-19. C'est une conséquence indirecte.
Un bon système de santé a pour conséquence une espérance de vie élevée et un âge moyen de la population élevé, qui ont eux-mêmes comme conséquence un nombre de décès COVID-19 important.
De plus, dans les pays où le systéme de santé est défaillant, tous les décès liés au COVID-19 ne sont pas déclarés comme étant liés au COVID-19

La liberté d'expression et le nombre de décès sont corrélés positivement: moins il y a de liberté d'expression, moins il y a de décès.
On pourrait donc facilement en déduire que le nombre de décès est volontairement minoré dans certains pays.

Les températures sont inversement corrélées à la richesse du pays: plus un pays est pauvre, plus il fait chaud
Les températures sont également inversement corrélées au nombre de décès.
Mais attention, une conséquence est corrélée à sa cause mais deux conséquences seront aussi corrélées entre elles.
Est-ce qu'une augmentation des températures a pour conséquence de faire baisser le nombre de décès ou est-ce qu'il y a moins de décès dans les pays où il fait chaud car ce sont des pays pauvres avec une population jeune et une espérance de vie peu élevée ?
Imposible de le savoir avec la simple analyse de cette matrice des corrélations.

Nous allons aller plus loin dans l'analyse en entraînant un algorithme de maching learning.
L'algorithme gradient boosting est considéré comme étant l'algorithme de maching learning le plus fiable et donnant les meilleurs résultats: il est notamment capable de repérer n'importe quelle corrélation (même si celle-ci n'est pas linéaire).
Nous avons entraîné l'algorithme avec notre jeu de données.

L'algorithme nous a fourni les variables qu'il considérait comme importantes pour expliquer les différences du nombre de décès COVID-19 entre les pays.
gradientboosting.png
La plus importante de nos variables est l'âge moyen de la population.
La température a un impact pratiquement nul, et n'est pas retenue par l'algorithme.

Conclusion: la température (étudiée entre 10°C et 42°C) n'a pas d'impact significatif sur l'évolution de la pandémie.

Nos sources de données:

données sur le COVID-19: https://www.jhu.edu
données sur la liberté d'expression: https://rsf.org/fr/classement
système de santé: https://fr.april-international.com/fr/sante-des-expatries/quels-sont-les-pays-avec-les-meilleurs-systemes-de-sante
espérance de vie par pays: https://fr.wikipedia.org/wiki/Liste_des_pays_par_esp%C3%A9rance_de_vie
âge médian par pays: https://fr.wikipedia.org/wiki/Liste_des_pays_par_%C3%A2ge_m%C3%A9dian
richesse par habitant, par pays: https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_(PPA)_par_habitant
densité de population: https://fr.wikipedia.org/wiki/Liste_des_pays_par_densit%C3%A9_de_population
nombre d'habitants: https://fr.wikipedia.org/wiki/Liste_des_pays_par_population
Température en avril 2020: https://fr.tutiempo.net/


Etude 2: l'étude des données par comté américain


Nous avons récupéré pour chacun des 3 242 comtés des Etats-Unis les données suivantes:
- le nombre d'habitants
- la surface du comté
- la densité de population
- la répartition en classe d'âge
- le taux de personnes diplômées
- l'indice degré de confinement grâce à google mobilité
- la température moyenne sur le mois de mars
- l'humidité moyenne sur le mois de mars
- la pression atmosphérique moyenne sur le mois de mars
- l'évolution de la pandémie (nombre de cas détectés et nombre de décès) en mars et avril 2020

Nous avons entraîné des algorithmes de Machine Learning sur nos jeux de données. L'objectif est de déterminer quelles sont les variables qui ont un impact sur la pandémie.

Pourquoi avoir choisi d'étudier les données américaines ?
Les Etats-Unis est un pays très divers; avec des comtés à la météo très différentes (dans le Montana ou le Dakota du Nord, il fait 25°C de moins qu'en Floride ou que dans le sud de la Californie, avec des taux d'humidité très différents).

De plus, aux USA, la granularité des données est plus fine qu'en France: aux USA les données sur l'évolution de la pandémie sont accessibles par comté (et il y a 3242 comtés!), alors qu'en France, les données sont uniquement accessibles par département.
En analyse de données, plus la granularité est fine, plus la donnée est détaillée et son analyse précise.

Nos différentes sources de données:
https://www.census.gov/library/publications/2011/compendia/usa-counties-2011.html?fbclid=IwAR298kYur4jeYdw4qmWgU0vfqq1AiOUCeh1t5f06kh2Gh-XJY36WsMV3nM0

https://docs.google.com/spreadsheets/d/1pxuTu10uO7MsBaKA554XSuCpnF--FTqwdnl_sUHfWro/edit?fbclid=IwAR0gfCEBDjKAQbi5ejlTU-tHsfpxdGIbnFZlFF9gTfDNvFYgUkGRmTmFUPU#gid=289496465

https://www.timeanddate.com/weather/@5075315/historic?month=3&year=2020&fbclid=IwAR2kI5HJbghOtpvafcpl9FCE430_nLc_aWQYVjNyWrIPESaFSucU8yA3UXo

https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv?fbclid=IwAR3PUqAOnSRnKOrgBgwY3cNH8yQYWP64v7SoPVWvlL_FKFVbwe10rTiEhxw



county.png

Il n'y a pas eu de corrélation linéaire significative entre la température et la vitesse de progression de l'épidémie, aux Etats-Unis.
Les Etats-Unis sont immenses et en mars 2020 nous y avions toutes les températures comprises entre -5°C et +30°C: la température n'a pas d'impact direct important.
Idem pour le taux d'humidité.

Nous avons construit la matrice de corrélation sous forme d'une carte thermique
correlation.png
les coefficients de corrélation entre les paramètres météo et la vitesse d'évolution de l'épidémie y sont non significatifs.

Vous pourriez nous répondre que l'absence de corrélation linéairere ne signifie pas absence de corrélation. Exact, mais il n'y a pas non plus de corrélation tout court.
Ici nous avons représenté les comtés américains selon leur température moyenne sur le mois de mars (axe des abscisses) et le taux multiplicateur de nombre de cas détectés entre le 27 mars et le 4 avril (axe des ordonnées): il n'y a aucune corrélation significative. correlation2.png





Conclusion: la température n’a pas d'impact direct majeur sur le Covid.
La 1ère vague au Mexique, au Texas et en Floride a eu lieu cet été, alors qu’il faisait 35 degrés à l’ombre.
La température a beaucoup moins d'impact que les autres variables étudiées (densité de population, comportement des gens, richesse par habitant,...).