Le Covid, illustration de la modélisation en temps de crise

28 septembre 2022  | Par Romain GAUCHON
L'actuariel // Métier // Technique // Le Covid, illustration de la modélisation en temps de crise

Le 12 mars 2020, l’inimaginable se produit. Emmanuel Macron s’adresse aux Français et annonce le premier grand confinement. Cette décision, qui affectera l’ensemble de la société française, secteur assurantiel compris (1), marque véritablement le début d’une crise sanitaire et économique qui durera plus de deux ans.

Pour le monde de l’assurance, c’est un réveil brutal. Que ce soit par sous-estimation du risque, par manque de compétence en interne concernant l’épidémiologie, par souci de simplifier les modèles, ou simplement par manque de budget ou de temps, peu d’organismes ont des modèles capables de modéliser correctement la catastrophe en cours. Difficile de les blâmer, quand on sait que les épidémiologistes ont eu les plus grandes difficultés à étudier le phénomène.

Dans les milieux médicaux et assurantiels, une même problématique est apparue : comment traiter un risque soudain, nouveau, majeur, qui vient d’apparaître ? Le cas du Covid est un cas d’usage intéressant, car il a mis en lumière un certain nombre d’obstacles qui pourront être rencontrés dans d’autres situations de crises, qu’elles soient sanitaires ou non.

Via le prisme de la modélisation épidémiologique, cet article a pour objectif de faire ressortir les difficultés pratiques de la modélisation en urgence, que le modélisateur vienne du milieu médical, actuariel ou de la recherche, et de proposer des pistes pour y faire face plus facilement dans le futur.

La qualité des données

Remontons début 2020. Le virus, désormais bien identifié à Wuhan, se répand extrêmement vite. En catastrophe, la Chine se confine, mais il est trop tard, le virus a déjà atteint l’Iran. Les circonstances ont fait que les deux premiers épicentres de la pandémie ont été des pays peu réputés pour leur transparence. Les autorités de Wuhan ont-elles essayé de masquer leurs erreurs de jugement ? Les autorités iraniennes ont-elles minimisé la gravité de l’épidémie en période de campagne électorale ? Le virus a ensuite été identifié en Italie le 21 février – mais il est soupçonné d’avoir circulé en Europe depuis janvier 2020, voire avant. Si la bonne foi des autorités italiennes semble indiscutable, un autre phénomène est à l’œuvre : le nombre de tests disponibles est trop faible.

Que ce soit lié à un manque de confiance du collecteur des données, ou à une défaillance de l’outil de mesure, les deux exemples pointent le même obstacle : le manque de données fiables.

Sur ce point particulier, l’État français a été quasi exemplaire, et met en lumière un jeu de règles de bonne pratique.

a) Hors période de crise, prévoir des indicateurs souples et adaptables

En 2004, à la suite de la canicule, la France avait mis en place une base de données afin d’assurer le suivi en période de crise de divers indicateurs, le système SurSaUD. Grâce à cela, un système de remontée rapide de l’information était en place dans près de 85 % des hôpitaux. Ce système a ainsi pu être adapté le 24 février (soit trois jours seulement après la détection des cas en Italie !) pour remonter les informations relatives au Covid-19. L’existence de ce système a permis d’avoir des données avant la mise en place d’un système de remontée d’informations dédié au Covid-19 à partir du 18 mars, la base de données Santé publique France (SPF).

b) La transparence des données

La France a toujours laissé en libre accès un très grand nombre de données épidémiologiques sur le Covid, laissant chacun y accéder sans aucune barrière administrative pouvant ralentir énormément les process. Ces données sont groupées sur une même plateforme, data.gouv.fr, mises à jour quotidiennement et fournies avec des notes en facilitant l’utilisation.

c) Une uniformité des données

La France a très peu changé les modes de collecte et de restitution des données. Plutôt que de faire évoluer SurSaUD, elle a mis en place une seconde base de données, permettant au modélisateur de travailler à isopérimètres sur les données SurSaUD, ou d’essayer de les corriger pour enrichir la base SPF. A contrario, la France a changé plusieurs fois de méthode de calcul du R effectif (indicateur de vitesse de propagation de l’épidémie), empêchant de suivre véritablement son évolution dans le temps. Il vaut parfois mieux conserver un format non optimal de données, quitte à mettre un format alternatif en place, que de supprimer complètement le format initial, empêchant finalement l’utilisation des données précoces.

Il existe cependant un quatrième point sur lequel la France a péché :

d) La mise en place de nouveaux indicateurs adaptés à la crise

Si, au début de la crise, il est nécessaire de se baser sur des indicateurs existants (et peut-être non optimaux) afin d’avoir rapidement des données sur lesquelles se baser, il est aussi très important de créer des indicateurs sur mesure dans un second temps. Dans cette crise, il aurait été souhaitable de s’inspirer des méthodes de sondage pour créer une cohorte d’un millier d’individus représentatifs, qui auraient été testés toutes les deux semaines, par exemple, dans le but de suivre le nombre de personnes ayant été infectées en France. Cette information aurait été cruciale lors de l’examen de scénarios impliquant « l’immunité collective », et aurait servi au modélisateur à valider ses modèles.

Pour la crise du Covid, l’ensemble de la collecte des données a été assuré par l’État français, du fait de son implication historique dans le système de santé. Ceci ne sera pas nécessairement toujours le cas. Il faut que des organismes transverses (ACPR, IA, FFA, etc.) réfléchissent à quelles crises pourraient affecter les secteurs de l’assurance et pour lesquelles l’État français n’aurait pas d’indicateur de suivi préconstruit. Il faudrait ensuite mettre en place des conventions interacteurs qui seraient activables en cas de crise, en assurant a minima les points a, b et c.

Le risque de modèle

Une fois les données à disposition, le modélisateur se lance ensuite sur la modélisation du phénomène. Cela suppose de déterminer un modèle à utiliser. Ce choix de modèle se fait en accord avec la littérature, grâce à l’application d’un modèle qui a prouvé être efficace dans des situations similaires. En effet, le modélisateur n’a ni le temps ni les données nécessaires pour mettre en place un modèle à partir de rien. De plus, en début de crise, il existe de nombreuses incertitudes sur le phénomène que l’on cherche à modéliser. Par exemple, pour la souche originale du Covid, la proportion d’asymptomatiques estimée par les chercheurs variait de 20 % à 80 % (en particulier, car la perte de goût n’était pas forcément bien identifiée comme symptôme). Ces incertitudes peuvent guider le modélisateur vers le choix d’un modèle moins approprié, ce qui met en lumière un risque de modèle important (2). Afin de limiter le risque de modèle en période de crise, il est nécessaire de produire un travail de documentation en amont.

a) La création d’un dictionnaire de modèles existants (et leur application)

Dans un premier temps, il est nécessaire de maintenir à jour une ressource regroupant les modèles existants, et des informations les concernant : dans quelles situations se révèlent-ils efficaces ? Quels sont les points majeurs d’attention et les hypothèses fondamentales ?

Il est aussi nécessaire de documenter les parties du modèle que l’on peut faire évoluer. Généralement, les modèles initiaux sont améliorés par la suite pour en résoudre les limites (améliorations qui ne sont pas toujours compatibles entre elles). Lister les évolutions possibles est un gain de temps.

Ce travail est souvent produit par des chercheurs qui écrivent des revues de littérature. Cela permet d’augmenter fortement la réactivité du modélisateur en lui épargnant un temps de recherche important. Cependant, dans certains domaines très spécialisés de l’assurance, il n’est pas certain que ces dictionnaires de modèles soient accessibles.

b) Une réflexion sur la sensibilité des résultats aux modèles, et des modèles aux hypothèses

Ce point vient compléter le point a, mais il est si important qu’il méritait un aparté.

Un dictionnaire de modèles est un bon point de départ pour le modélisateur. Cela lui permet de sélectionner un petit nombre de modèles. Il va alors entrer dans une démarche essayer – échouer – apprendre. Cette démarche est très coûteuse en temps. Le modélisateur va tomber dans les pièges des modèles, car si ceux-ci sont généralement documentés, ils sont rarement mis en avant.

Ce conseil peut sembler évident pour les actuaires, mais il est malheureusement rarement suivi : il est essentiel de documenter la sensibilité des modèles aux hypothèses. En période de crise, les hypothèses seront rarement vérifiées, un modèle trop sensible aux hypothèses sera donc peu utile.

De même, la sensibilité des résultats aux modèles (i.e. le risque de modèle) doit être documentée. En épidémiologie, il s’est avéré que les résultats étaient très sensibles aux modèles. Par exemple, la proportion de population d’Île-de-France ayant attrapé le Covid à la sortie du premier confinement était estimée entre 2 % et 13 % (3). De même, les R0 estimés par les modèles variaient en début de pandémie de 1,4 à 6,68 (4). De nombreux modèles ont été utilisés par les chercheurs, mais ce manque de réflexion sur le risque des modèles rendait les résultats peu exploitables.

c) Un esprit critique à toute épreuve

Ces deux points peuvent permettre aux modélisateurs de gagner énormément de temps en début de période de crise. Mais cela n’évite pas le risque de modèle : les spécificités du phénomène nouveau font qu’il est parfois nécessaire de faire évoluer les modèles dans l’urgence, et si l’existence d’un dictionnaire peut aider, les conclusions ne peuvent souvent pas être copiées telles quelles. Par exemple, les premiers modèles utilisés pour étudier le Covid étaient les modèles compartimentaux, qui ont fait leurs preuves dans la modélisation d’épidémies de grippe. Il a cependant été nécessaire d’introduire une classe de personnes asymptomatiques pour modéliser le Covid, nous éloignant du cadre traditionnel d’utilisation de ces modèles. De même, les modèles compartimentaux ont souvent été adaptés afin d’intégrer un compartiment d’hospitalisation. Cela a permis d’utiliser les données d’hospitalisation – plus fiables que celles d’infection – afin de calibrer les modèles. Mais cela a aussi augmenté le risque d’erreur sur les modèles.

Afin de limiter le risque de modèle, le modélisateur ne doit jamais faire entièrement confiance aux résultats d’un seul modèle. S’il en a la capacité, il faut qu’il teste plusieurs modèles afin de voir si leurs résultats se recoupent. Malgré l’urgence, cette étape est indispensable. Si cette étape de confrontation des modèles entre eux ne peut pas être réalisée, une solution consiste à confronter les résultats avec ceux de la littérature. En période d’urgence, nombreux sont ceux à étudier la crise qui se déroule. Mettre en commun les résultats permet à ceux qui utilisent un modèle inadéquat de s’en rendre compte, et aux autres de crédibiliser leurs résultats. Afin de faciliter cette démarche, il est essentiel qu’un acteur transverse se charge d’assurer la bonne mise en commun des résultats.

Tester les résultats

Le test des résultats a toujours fait partie de la culture de l’actuaire. Cependant, la réalisation de ces tests peut être plus compliquée en période de crise. En effet, le phénomène étant récent, le nombre de données est à peine suffisant pour estimer le modèle, et il n’y a souvent pas assez d’historiques pour la création d’un échantillon de validation réaliste. Une manière de contourner un manque de données est de les simuler, mais le manque de recul sur le phénomène étudié empêchera souvent de simuler des données fiables.

Cependant, il existe une alternative pour le modélisateur : l’enrichissement des données. Il est nécessaire au modélisateur d’élargir son champ d’études à d’autres données qui lui permettront de valider le modèle. Cela peut être les données d’un concurrent, des données d’un autre pays (cela a beaucoup été le cas pour le Covid), des données d’un autre type de service, etc. Attention toutefois, il faut toujours garder en tête que les méthodes de collecte de ces données sont différentes, entraînant des biais potentiels. Par exemple, les services de réanimation français et italiens ont tous deux été obligés de refuser des admissions. Cependant, la capacité des services de réanimation et les périodes où ils ont été surchargés diffèrent.

La correction de ces biais potentiels peut être délicate, rendant parfois inexploitables les nouvelles données. Une manière de corriger les biais peut être de comparer les données collectées avant la crise, si les indicateurs étaient déjà présents (point a).

Une autre manière est d’utiliser des données similaires portant sur un périmètre différent, périmètre sur lequel il y a plus de recul. Ainsi, pour la crise du Covid, les données liées aux entrées en hospitalisation étaient plus fiables que les données liées aux infections. En prenant des précautions, il était possible d’utiliser les données liées aux hospitalisations afin de corriger les données liées aux infections (puisque toutes choses égales par ailleurs, deux fois plus de décès implique deux fois plus d’infections). Enfin, il est possible de calibrer un modèle sur un jeu de données (comme des données françaises), puis de le tester sur un autre jeu de données (données italiennes), en conservant les paramètres épidémiologiques calibrés.

Les modèles ont été énormément utilisés pendant la crise du Covid afin de projeter les résultats et anticiper d’éventuelles vagues à venir. Par nature, il n’est pas possible de valider correctement ces résultats. Cependant, une fois l’horizon de prédiction atteint, il est essentiel de reprendre les prédictions des modèles et d’analyser les différences avec la réalité. Cela peut aider à corriger les modèles. Très peu de modélisateurs ont communiqué sur ce travail d’analyse rétrospectif pendant la crise.

Faire valoir les résultats

La dernière difficulté à laquelle se confronte le modélisateur est la communication de ses résultats. La transparence en matière de communication a une vertu essentielle : elle permet la validation par les pairs. C’est par la critique de son travail que le modélisateur pourra s’améliorer et atteindre son objectif. Cela est d’autant plus vrai sur un risque nouveau, où chacun manque de recul et n’a pas une expertise complète sur le sujet. Or, cette communication est elle aussi rendue compliquée par la crise. Les canaux de communication traditionnels ont été débordés, tiraillés entre deux nécessités : d’une part, ne pas ralentir la recherche, et d’autre part, faire le tri entre les travaux fiables et ceux inaccomplis. Cela a résulté dans un certain nombre d’erreurs, notamment cet article publié puis retiré par le Lancetsur la chloroquine, ou ceux, mal relus, publiés par le professeur Raoult.

Nombreux aussi ont été ceux qui ont communiqué sans relecture par des pairs. Là aussi, l’individu souhaitant s’informer a dû naviguer entre nombre de sources plus ou moins fiables, sans avoir les compétences ou le temps d’en vérifier la crédibilité.

En période de crise, avoir un organe compétent capable de certifier la qualité des travaux est essentiel. La mise en place d’un comité de vérification composé d’experts de multiples horizons, mélangeant professionnels et universitaires, actuaires et spécialistes du domaine, pourra faciliter à la fois la confrontation des travaux par les pairs pour les modélisateurs, et l’accès à une information fiable pour tous.

Pour conclure, la modélisation en période de crise est un exercice délicat, semé d’embûches, mais extrêmement intéressant. Afin de faciliter le travail du modélisateur, le secteur de l’assurance doit dès aujourd’hui commencer à réfléchir à une méthode de réponse en période de crise, qui passera par quatre éléments principaux :

  • la détermination d’une structure transverse et centrale, qui assurera la construction, le suivi et la mise à disposition d’indicateurs, fera une certification des travaux réalisés, et facilitera les interactions des différents acteurs entre eux ;
  • une connaissance des modèles, de leurs hypothèses et de leurs limites, afin de permettre le déploiement rapide, mais rigoureux, d’un modèle approprié face à l’urgence d’une situation ;
  • une transparence de tous les acteurs, afin de favoriser, pour les uns un accès nécessaire à la donnée, et pour les autres une validation externe et une prise de recul ;
  • un esprit critique du modélisateur, qui doit systématiquement challenger ses méthodes et ses résultats, pour éviter les risques de modèles.

La crise du Covid a été une crise d’une ampleur qui ne se reproduira probablement pas avant longtemps. Cependant, tôt ou tard (réchauffement climatique, guerres, domaine médical, etc.), il est certain que le monde vivra d’autres crises violentes et soudaines. Espérons que nous serons prêts à les accueillir et les modéliser.

Références :

1 – Voir aussi E. Callac, Covid-19, un an après : synthèse des principaux impacts dans le secteur de l’assurance https://www.pericles-actuarial-blog.com/ post/covid-19-un-an-apr%C3%A8s-synth%C3%A8se-des-principaux-impacts-dans-le-secteur-de-l-assurance

2 – Voir aussi Gauchon, R., Ponthus, N., Pothier, C., Rigotti, C., Volpert, V., Derrode, S., … & Roy, P. (2021) : « Lessons learnt from the use of compartmental models over the COVID-19 induced lockdown in France ». medRxiv. 

3 – Di Domenico, L., Pullano, G., Sabbatini, C.E., Boelle, P.-Y., Colizza, V. : « Expected impact of lockdown in Île-de- France and possible exit strategies ». medRxiv (2020) 

4 – Viceconte, G., & Petrosillo, N. (2020). COVID-19 R0 : « Magic number or conundrum ? Infectious disease reports », 12(1), 1-2.

Se connecter