Prix actuariat Scor jeunes docteurs 2025 : Valeurs rares et données déséquilibrées – Contribution du machine learning

7 janvier 2026 
L'actuariel // Métier // Recherche // Prix actuariat Scor jeunes docteurs 2025 : Valeurs rares et données déséquilibrées – Contribution du machine learning

Enseignant-chercheur associé et actuaire passionné, Samuel Stocksieker a présenté sa thèse « Contribution de l’apprentissage automatique à la modélisation des valeurs rares et des données déséquilibrées : applications en assurance », à l’Isfa en juin 2024.

Les données jouent un rôle essentiel en apprentissage automatique, en modélisation statistique et, plus généralement, en intelligence artificielle. En effet, ces disciplines reposent sur la capacité à extraire, à partir de données, des informations pertinentes permettant d’expliquer et/ou prédire un phénomène, de résoudre des problèmes complexes ou encore d’automatiser certaines décisions. Les données constituent ainsi la matière première des modèles d’apprentissage, qu’il s’agisse de réseaux neuronaux profonds, de techniques supervisées ou non supervisées, ou de méthodes statistiques plus traditionnelles. Plus les données sont riches, variées et représentatives de la réalité, plus les modèles peuvent être précis, robustes et utiles dans divers contextes. La qualité des résultats dépend donc de la qualité des données d’entraînement.

Cependant, apprendre à partir de valeurs rares, extrêmes ou simplement minoritaires et, plus généralement, de données déséquilibrées, reste un défi majeur. Les approches standards ont naturellement tendance à négliger ces observations, ce qui peut dégrader la qualité de leur modélisation et donc de leur prédiction. Paradoxalement, les valeurs rares représentent souvent des événements importants que les actuaires cherchent à comprendre ou prédire.

Les méthodes dédiées aux données déséquilibrées se concentrent principalement sur l’apprentissage supervisé. Toutefois, la majorité des solutions proposées concernent le déséquilibre en classification, en particulier binaire, un cadre dans lequel une abondance de méthodes existe. À l’inverse, le cas de la régression a été relativement peu exploré. La nature quantitative de la variable cible introduit en effet plusieurs difficultés complexifiant davantage le problème. Par ailleurs, le déséquilibre peut également concerner une ou plusieurs variables explicatives. Ce déséquilibre peut aussi être rencontré dans le cadre multisupervisé, où l’influence des modalités dans l’apprentissage peut être elle-même déséquilibrée, conduisant les modèles à négliger les valeurs rares.

Les données racontent, les modèles tentent de traduire

Les travaux de cette thèse sont articulés autour de deux axes complémentaires : l’imbalanced features et l’imbalanced regression. Le premier axe porte sur le déséquilibre de caractéristiques, c’est-à-dire lorsqu’il concerne les attributs des observations plutôt que la variable à expliquer. Nos premiers travaux ont consisté à redresser la distribution d’une covariable par rapport à une distribution cible donnée. Elle combine un rééchantillonnage pondéré et des générateurs de données synthétiques et permet notamment de faire face au biais de sélection. Dans le même esprit, nous avons proposé une solution dans le cadre de l’apprentissage multisupervisé, en particulier pour les autoencodeurs. Elle repose sur une nouvelle métrique conçue pour équilibrer l’influence des modalités lors de l’apprentissage. Cette approche est applicable aux contextes supervisés et non supervisés, ainsi qu’aux modèles génératifs tels que les variational autoencoders (VAE).

La seconde partie aborde la problématique de l’imbalanced regression, i.e. lorsque le déséquilibre concerne la variable d’intérêt. Des solutions de prétraitement, notamment basées sur la génération de données synthétiques, sont proposées. Tout d’abord, nous explorons l’espace initial des données en introduisant de nouveaux générateurs et une méthodologie spécifiquement adaptée au cas de la régression. Nous proposons ensuite de projeter les données dans un espace latent (embeddings) afin de disposer d’un cadre plus propice à la génération de données synthétiques. Et notamment le deep smoothed bootstrap, qui repose sur une adaptation du générateur naturel des VAE. Enfin, pour construire un espace latent indépendant, nous introduisons une nouvelle métrique destinée à identifier et mesurer les corrélations non linéaires.

Se connecter