Avec son Prix du mémoire d’actuariat, l’Ensae Paris promeut l’excellence des travaux réalisés en science actuarielle. Le 15 octobre dernier, deux étudiants de la promotion 2020 ont été récompensés pour leurs contributions alliant rigueur scientifique et potentiel d’applications futures. Damien Loureiro a obtenu une mention spéciale pour son mémoire « Utilisation de la DSN et de l’open data pour élaborer et expliquer un zonier Incapacité », et Laurène Martin a remporté le Prix du meilleur mémoire d’actuariat Ensae – Promotion 2020 pour son mémoire « Mortality risk modeling with machine Learning ». Présentation, par la lauréate.
L’avènement de l’intelligence artificielle en assurance ne se limite pas à l’automatisation de la souscription ou au développement de chatbot. L’intelligence artificielle peut aussi être utilisée pour le cœur même du métier de l’assureur : l’amélioration de sa connaissance du risque. La consolidation des systèmes d’information permet aux assureurs et réassureurs d’accroître leur efficacité opérationnelle et d’analyser des bases de données plus riches. Dans ce contexte, mon mémoire d’actuariat portait sur l’étude et l’évaluation des avantages de la modélisation de la mortalité à l’aide du machine learning.
Dans le secteur de l’assurance de personnes, les contrats commercialisés couvrent les accidents corporels, l’invalidité, la maladie ou encore le décès. Une bonne compréhension des risques biométriques, l’ensemble des risques liés à la condition de vie humaine, est donc essentielle pour maximiser la prospérité d’une compagnie d’assurance au travers de son provisionnement et de son ratio de solvabilité. Une meilleure connaissance du risque sous-jacent permet également de rester compétitif en proposant le tarif adéquat à chaque assuré. Pendant des décennies, les actuaires vie ont donc développé des méthodes statistiques pour estimer les risques biométriques et plus précisément la durée de vie. Entre-temps, les méthodes de machine learning se sont popularisées principalement car ces modèles reposent sur des hypothèses moins strictes et davantage sur les données.
Comment modéliser une durée avec du machine learning ?
Comme les algorithmes de machine learning n’ont pas été initialement conçus pour la modélisation de la durée de vie, une étude approfondie sur les techniques de modélisation a été réalisée. Cette étude consistait à étudier les modifications à apporter aux algorithmes traditionnels afin qu’ils parviennent à traiter correctement les données de survie. À partir de l’étude théorique des adaptations possibles, différentes méthodes ont été implémentées au sein d’une bibliothèque interne Python. Cette dernière, inspirée de librairies open source telles que Scikit-survival ou Lifelines, intègre des spécificités actuarielles afin de répondre directement aux attentes opérationnelles. Cette bibliothèque a, en effet, pour objectif de standardiser les modèles pour faciliter et automatiser l’étude de la mortalité des portefeuilles d’assurés.
La première étape du processus de commercialisation d’une police d’assurance vie est l’estimation du risque sous-jacent. La tarification de la majorité des produits d’assurance vie repose en effet sur la modélisation de la mortalité. Concrètement, les assureurs doivent estimer la durée de vie pour faire ressortir les facteurs de risque accélérant le décès. Prédire des durées nécessite une technique de modélisation spécifique appelée « Analyse de survie ». Lors de l’étude de la durée, les données sont sujettes à la censure : la plupart du temps, une durée n’est que partiellement observée. De ce fait, les modèles de machine learning ne peuvent être transposés tels quels à des données de survie. Deux stratégies sont envisagées pour pallier ce problème : l’approche discrète ou l’approche continue. La première est un travail sur le modèle quand la seconde porte sur la donnée :
- La modélisation continue consiste à intégrer les spécificités de méthodes statistiques capables de traiter la censure, comme Cox ou Kaplan-Meier, dans des algorithmes existants de machine learning. Cette méthode permet de déduire des modèles spécifiques pour l’étude de la survie tels que : Cox-ElasticNet, Cox-Gradient Boosting ou les Arbres et Forêts aléatoires de survie. Chaque modèle étudié présente différents avantages et inconvénients.
- Les modèles discrets sont caractérisés par une modification de la structure des données via une discrétisation. Le phénomène de censure est alors modélisé par le calcul d’une exposition au risque pour chaque intervalle de temps. L’enjeu est de s’assurer de la bonne prise en compte de l’exposition par différents modèles tels que : GLM, Forêts aléatoires ou Gradient Boosting.
Le choix du modèle à des fins actuarielles
Disposant d’une librairie Python opérationnelle, la comparaison de différentes stratégies de modélisation a été effectuée en plusieurs étapes :
- La première étape a été de constituer une base de données pour représenter la demande de polices d’assurance vie. Les observations de la base de données NHANES, un programme d’études conçu à l’origine pour évaluer la santé et le statut nutritionnel des adultes et des enfants aux États-Unis, ont été utilisées. Il s’agit de la base de données open source qui contient le plus d’informations disponibles sur les facteurs de risque et la mortalité. Cette base de données est composée de 65 018 individus et de 106 variables, qui peuvent être classées en cinq catégories : démographie, alimentation, analyse médicale, visite médicale et questionnaire. La base NHANES est pondérée de sorte à être représentative de la population américaine. Comme la méthodologie était le point d’attention, seuls les individus échantillonnés ont été utilisés sans considération pour leur poids dans la population globale. Une réflexion sur la pondération afin de reproduire une population assurée permettrait cependant d’avoir des résultats plus consistants.
- La seconde étape a été de prédire la mortalité pour chacun des assurés potentiels à l’aide des douze modèles étudiés (sept modèles discrets et cinq continus). Pour ce faire, un prétraitement des données a tout d’abord été effectué. La qualité des données est en effet essentielle pour obtenir de bonnes performances avec les différents algorithmes. Ainsi, certaines variables ont été retirées de l’étude en raison du nombre de valeurs manquantes ou de la corrélation et donc la redondance d’information avec d’autres variables. Un prétraitement a également été réalisé sur les individus. Ce dernier permet de reproduire le processus d’une équipe de souscripteurs qui accepte et refuse les dossiers sur la base des informations médicales et donc d’extraire une base représentative d’une population assurée. Après ces considérations, les données ont enfin été divisées en deux groupes, avec d’un côté la « base d’entrainement » pour le calibrage des modèles et de l’autre « la base de test » pour l’évaluation de la performance.
- La troisième étape a été de vérifier de la validité des différents modèles en s’assurant de l’absence de biais à l’aide de tests et métriques spécifiques :
- Le modèle continu Cox-XGBoost, ainsi que le modèle discret XGBoost, n’ont pas été retenus. Ces derniers étaient biaisés sur la base NHANES. La présence de biais est liée à leur sensibilité aux hyperparamètres. Ces deux modèles nécessitent une capacité computationnelle élevée. Ainsi, il est opérationnellement compliqué de tester une grille très fine d’hyperparamètres et donc de trouver le modèle optimal.
- Le modèle discret GAM logistique a également était éliminé lors de l’étape de validation. Ce dernier mettait en évidence la présence d’over-fitting au travers de performances très différentes entre la « base d’entrainement » et la « base de test ».
Ce modèle ne semblait de plus pas le plus adapté pour retranscrire l’ensemble des informations contenues dans les données. En effet pour les modèles de type GAM, chaque interaction entre des variables ainsi que leur degré doit être spécifiée manuellement lors de la calibration. L’étude reposait sur un nombre important de variables, une comparaison exhaustive de l’ensemble des combinaisons de variables n’étaient pas envisageables opérationnellement. Le recours à un modèle capable de trouver et d’optimiser les différentes interactions via leur fonction de perte semblait plus judicieux.
- La quatrième étape a été de s’intéresser à l’interprétabilité et la compréhension des prédictions des différents modèles ayant été validés. L’utilisation de modèles de machine learning est en effet encore controversée dans le secteur de l’assurance vie. L’industrie est fortement réglementée, ce qui signifie que la commercialisation des produits doit respecter plusieurs contraintes. Les assureurs doivent pouvoir justifier précisément le prix d’une police d’assurance et donc la mortalité estimée par un modèle. Certains modèles, tels que les Forêts Aléatoires ouGradient Boosting, sont des modèles « boîte noire », qui ne peuvent pas être interprétés directement. Pour cette raison, en plus des modèles, trois méthodes d’interprétation complémentaires sont présentées dans mon mémoire et ont été implémentées au sein de la bibliothèque Python : Importance des Variables, Dépendance partielle et SHAP (SHapley Additive exPlanations). Ces trois différentes méthodes permettent de mettre en évidence le rôle des différentes variables pour la prédiction. L’analyse des différents résultats a permis d’écarter certains modèles :
- La structure non linéaire de nombreuses variables a été mise en évidence. Ainsi même si les modèles discrets de régression de Poisson et Binomial ainsi que le modèle continu de Cox-Net produisaient une bonne estimation moyenne, au niveau individuel, la non prise en compte de ces phénomènes non linéaires induisaient des anomalies de prédiction et d’interprétation.
- L’étude de l’importance des variables a conduit à mettre en évidence que les modèles discrets Forêt aléatoire et continus d’Arbre de survie, Arbre de Cox et de Forêt aléatoire de survie accordaient trop d’importance à certaines variables et parvenaient uniquement à estimer localement le phénomène de durée mais non la tendance générale. Cela a pour conséquence de produire des anomalies pour les individus avec des caractéristiques extrêmes ou à la marge.
- La cinquième étape a été de comparer les performances des modèles à l’aide de différentes métriques afin de s’assurer de la qualité entre la prédiction et la valeur observé sur la base de test. Sur la base de données NHANES, le modèle discret CatBoost, un modèle de Gradient Boosting capable de prendre en compte les variables catégorielles, a finalement été le meilleur compromis en termes de performance prédictive, de temps de calcul et de facilité de calibration.
Le choix de modélisation : un facteur de concurrence
Disposant d’une bonne compréhension de la mortalité et des atouts et limites des différents modèles, la comparaison de différentes stratégies de tarification, ainsi que l’étude de leur impact sur un marché concurrentiel d’assurance vie a été menée.
Deux assureurs utilisant des stratégies de tarification différentes pour le même produit de type assurance décès sont en concurrence. Ces derniers sont soumis aux mêmes hypothèses économiques, la variation de la prime pure entre les deux assureurs dépend donc uniquement du choix de modélisation de la mortalité. La valeur de la prime pure de ce type de produits est en effet exprimée comme une fonction décroissante de la probabilité de survie à chaque période de temps.
Cette simulation permet de mieux comprendre l’importance de la modélisation de la mortalité et de procéder à une comparaison concrète des modèles à des fins actuarielles. Le marché se divise entre les assureurs en prenant uniquement en compte le facteur économique : chaque individu de la « base de test » décide de s’assurer chez l’acteur proposant le tarif le plus attractif. Suite à la segmentation des assurés entre les deux acteurs, les ratios de sinistralité sont calculés pour mettre en évidence le résultat de chaque assureur en fonction de sa stratégie de tarification. Cette expérience a mis en évidence que, toutes choses égales par ailleurs, utiliser un modèle de machine learning semble permettre de gagner des parts de marché et donc de battre un concurrent avec des méthodes de régression. L’assureur utilisant le machine learning, parvient à obtenir un ratio de sinistralité proche de 100 % tandis que l’assureur traditionnel réalise des pertes. La division du marché entre les deux assureurs est en effet bénéfique à celui qui dispose de la technologie la plus avancée car cet assureur semble pouvoir proposer des prix plus attractifs aux personnes moins risquées.
Conclusion
Les résultats obtenus dans le cadre de mon mémoire pourraient être étendus afin de mieux présenter l’environnement réel auquel sont confrontés les assureurs. Afin de confirmer le réel avantage du recours au machine learning pour la tarification, une modélisation sur un marché ouvert à partir d’une population représentative d’une population assurée, dans lequel de nouveaux assurés pourraient demander des produits d’assurance. Une étude approfondie sur le comportement des clients améliorerait également la modélisation. L’étude portait uniquement sur les aspects économiques en négligeant les considérations sur les préférences implicites tels que le processus de souscription, les actions marketing ou encore les valeurs de l’assureur.