Projet de thèse – Données incomplètes et Apprentissage statistique

La Chaire DAMI est une chaire de recherche financée par BNP Paribas Cardif qui s’intéresse aux problématiques liées aux Données et Modèles en Assurance (http://chaire-dami.fr/). Elle propose, pour une durée de trois ans, un financement de thèse dans le cadre de son axe de recherche “Analyse des données pour l’assurance”.

Les données d’assurance sont souvent incomplètes. Dans le cas des assurances de personnes, il est fréquent d’avoir des données de survie censurées, voire tronquées. Dans le cas des assurances de type Responsabilité Civile où les montants des sinistres ne sont évalués que très tardivement après leur réalisation, il est nécessaire de calculer des montants de réserve avec une information partielle. Pour proposer de nouveaux produits d’assurance à des clients, il faut réussir à définir leur besoin et leur niveau de risque en ayant observé leur comportement sur d’autres produits. La détection de fraudes en assurance est souvent construite à partir d’algorithmes n’observant qu’un nombre limité d’exemples de fraude avérée.

L’objectif de la thèse est d’identifier dans un premier temps les schémas de perte d’information les plus fréquents en assurance et d’y associer des techniques d’apprentissage permettant de tenir compte de l’information partielle. Dans un second temps, le doctorant proposera des nouvelles techniques d’apprentissage ou des évolutions de techniques existantes en fonction des schémas clés qui auront été identifiés.

Parmi les schémas possibles de perte d’information, on pourra citer:

  • la censure (à droite, à gauche, par intervalle,…) et la technique d’arbre de régression (Lopez et al. (2015));
  • la troncature (observation que d’une partie des modalités de la variable à expliquer) et les techniques du type One-class/Multi-class classification, Positive and Unlabeled learning,…;
  • l’étiquetage échantillonné (une petite partie seulement des données ont été étiquetées de manière plus ou moins aléatoire) et les techniques d’apprentissage semi-supervisé.

Nous recherchons un(e) étudiant(e) de Master 2 en Data science, ou en Intelligence artificielle et Décision ou en Actuariat avec une forte appétence pour le Machine Learning.

LES CANDIDATURES POUR CE PROJET DE THESE SONT CLOSES !

Références:
– Shehroz Khan, Michael Madden (2013). One-Class classification: taxonomy of study and review of techniques, arXiv:1312.0049.
– Olivier Lopez, Xavier Milhaud, Pierre-Emmanuel Thérond  (2015). Tree-based censored regression with applications to insurance, hal-01141228v1.
– Xiaojin Zhu, Andrew Goldberg (2009). Introduction to semi-supervised learning. Morgan & Claypool.

Projet thèse SAF-130408

Filed under: Recrutement

No comment yet, add your voice below!


Add a Comment

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Comment *
Name *
Email *
Website

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.