PRIX SCOR MENTION SPECIALE 2023 - Construction d’un modèle de machine learning interprétable pour la tarification en assurance non-vie

Marketa Krupova a présenté son mémoire en 2022 à l’Institut des actuaires pour obtenir son titre d’actuaire à l’issue de sa formation à l’Université Paris Dauphine et à l’Insa Toulouse. Ce mémoire a été réalisé chez Addactis France.

Dans un contexte d’accroissement perpétuel de la concurrence et d’une pression réglementaire forte, la justesse et la précision actuarielle du tarif sont des enjeux clefs pour le secteur de l’assurance non-vie. Les modèles linéaires généralisés (GLM) traditionnellement utilisés donnent lieu à un tarif multiplicatif favorisant l’interprétabilité et l’applicabilité opérationnelle. D’autre part, les méthodes et algorithmes de machine learning se focalisent sur un objectif prédictif et permettent de construire des modèles ayant une précision accrue et une forte capacité à capturer des non-linéarités inhérentes à la donnée. La performance de ces modèles se heurte cependant à leur complexité et leur faible interprétabilité. L’objectif de ces travaux consiste alors à construire une méthode exploitant conjointement les avantages de ces deux approches, un modèle atteignant un fort pouvoir prédictif tout en conservant une interprétabilité intrinsèque.

Le modèle GAM Machine Learning

Les modèles additifs généralisés (GAM) sont une extension des modèles GLM classiques. L’espérance de la variable réponse y est modélisée en fonction d’une combinaison linéaire des variables explicatives, mais la contribution individuelle de chaque prédicteur se trouve complexifiée. En effet, au lieu des coefficients constants, les variables explicatives participent à la prédiction au moyen de fonctions composantes non-paramétriques. Le maintien de la structure additive intrinsèquement interprétable permet un ajout parcimonieux de la non-linéarité dans le modèle, et ce traditionnellement au travers des fonctions de lissage, notamment des fonctions splines. Pour remplacer le processus de lissage par un processus d’apprentissage, des composantes univariées des modèles de machine learning sont introduites comme fonctions composantes dans le modèle GAM. S’appuyant sur le modèle Explainable Boosting Machine (EBM), les arbres de décision CART sont utilisés comme briques de base, puis une complexification de l’architecture s’opère par les procédures de bagging et de boosting. Afin de garantir l’interprétabilité intrinsèque du modèle de machine learning ainsi développé, une procédure d’apprentissage spécifique est mise en œuvre. L’aspect essentiel de la modélisation réside alors dans l’apprentissage cyclique des fonctions composantes. Plus précisément :

dans une approche boosting, chaque fonction composante est apprise sur les résidus de la précédente sous la forme d’un arbre de décision avec une logique d’amélioration récursive (lecture horizontale du modèle) ;
dans une approche bagging locale, les arbres appris au cours des différentes itérations sont agrégés indépendamment pour chaque variable explicative avec une logique d’amélioration itérative (lecture verticale du modèle) ;
dans une approche bagging globale, ce processus d’apprentissage est réitéré plusieurs fois pour plus de robustesse (lecture générale du modèle).

Une finesse pilotable

Le modèle GAM avec une structure arborescente se positionne entre le modèle GLM classique et les modèles de machine learning, tant en termes de paradigme de modélisation qu’en termes de performance de prédiction. Les fonctions composantes obtenues à partir de la structure arborescente permettent d’identifier avec précision, dont la finesse peut être pilotée, le comportement de chaque profil de risque. Par la suite, la quantification et la qualification des différences de comportement entre les modèles peuvent être utilisées pour définir des profils cibles pour l’assureur en vue d’une optimisation tarifaire.

PRIX SCOR MENTION SPECIALE 2023 – Construction d’un modèle de machine learning interprétable pour la tarification en assurance non-vie

Se connecter