Added description

Retour sur le Workshop ” Data Science in Finance and Insurance ” à Louvain la Neuve (Belgique)

La conférence a eu lieu le 15 septembre 2017 à Louvain la Neuve. Une centaine de personnes ont assisté à la conférence dont 28 académiques (organisateurs et speakers compris), 55 professionnels dont la majorité sont actuaires et travaillent dans des entreprises qui comptent sur le marché belge (Ageas, P&V, Axa, Ethias, DKV) et luxembourgeois (La Luxembourgeoise). Il y avait également de nombreux consultants (EY, Kpmg, reacfin, addactis), quelques personnes en réassurance (Sécura-re) et une délégation de la Banque nationale de Belgique.

Abstracts & slides

A hybrid deep network approach for predictive analysis of massive and incomplete data of insurance
In this work we focus on machine learning methods in a context of massive and incomplete data of insurance. We adopt hybrid deep learning method for segmentation, classification and mapping of customer profiles to better understand their behavior in relation to existing insurance products and an optimized management of the of disasters cover.
We show in particular that the deep learning method gives more accurate results than classical neural networks. We illustrate the results on real data from an insurance company.

Sparse modeling of risk factors in insurance analytics
Insurance companies use predictive models for a variety of analytic tasks, including pricing, marketing campaigns, claims handling, fraud detection and reserving. Typically, these predictive models use a selection of continuous, ordinal, nominal and spatial risk factors to differentiate risks. Such models should not only be competitive, but also interpretable by stakeholders (including the policyholder and the regulator) and easy to implement and maintain in a production environment. That is why current actuarial literature puts focus on generalized linear models where risk cells are constructed by binning risk factors up front, using ad hoc techniques or professional expertise. In statistical literature penalized regression is often used to encourage the selection and fusion of predictors in predictive modeling. Most penalization strategies work for data where predictors are of the same type, such as LASSO for continuous variables and Fused LASSO for ordered variables. We design an estimation strategy for generalized linear models which includes variable selection and the binning of risk factors through L1-type penalties. We consider the joint presence of different types of covariates and a specific penalty for each type of predictor. Using the theory of proximal operators, our estimation procedure is computationally efficient since it splits the overall optimization problem into easier to solve sub-problems per predictor and its associated penalty. As such, we are able to simultaneously select, estimate and group, in a statistically sound way, any combination of continuous, ordinal, nominal and spatial risk factors.
We illustrate the approach with simulation studies, an analysis of Munich rent data, and a case-study on motor insurance pricing.
This presentation will cover ongoing work by Sander Devriendt, Katrien Antonio, Edward (Jed) Frees and Roel Verbelen.
Slides K.Antonio

Credit Risk Analytics: Basel versus IFRS 9
Credit risk modeling is undoubtedly among the most crucial and actual issues in the field of financial risk management. In this presentation, we elaborate on some key issues and challenges that arise when building credit risk models in a Basel versus IFRS 9 context. We start by outlining a three level credit risk model architecture: level 0 (data), level 1 (model) and level 2 (ratings and calibration).   From there onwards, the following topics will be addressed:
•    PD/LGD/EAD performance benchmarks
•    Basel versus IFRS 9 perspective
•    Model discrimination versus calibration
•    Model validation
The speaker will extensively comment on both his industry and research experience and clarify the various concepts with real-life examples.
Slides B.Baesens

Satellite Data and Machine Learning for Weather Risk Management and Food Security
The increase in frequency and severity of extreme weather events poses challenges for the agricultural sector in developing economies and for food security globally. In this paper, we demonstrate how machine learning can be used to mine satellite data and identify pixel-level optimal weather indices that can be used to inform the design of risk transfers and the quantification of the benefits of resilient production technology adoption. We implement the model to study maize production in Mozambique, and show how the approach can be used to produce country-wide risk profiles resulting from the aggregation of local, heterogeneous exposures to rainfall precipitation and excess temperature. We then develop a framework to quantify the economic gains from technology adoption by using insurance costs as the relevant metric, where insurance is broadly understood as the transfer of weather driven crop losses to a dedicated facility. We consider the case of irrigation in detail, estimating a reduction in insurance costs of at least 30%, which is robust to different configurations of the model. The approach offers a robust framework to understand the costs vs. benefits of investment in irrigation infrastructure, but could clearly be used to explore in detail the benefits of more advanced input packages, allowing for example for different crop varieties, sowing dates, or fertilizers.
Slides E.Biffis

Sébastien CONORT
Discovery of Deep Learning – Illustration on a Natural Language Processing use case at BNP Paribas Cardif
First, we will remind shortly what is Deep Learning, why it is so popular right now in the machine learning community, and why it is accessible to passionate data scientists in insurance companies such as BNP Paribas Cardif. Second, we will present results we got at BNP Cardif’s Datalab on a Natural Language Processing use case . The use case consisted in identifying missing pieces of information in beneficiary clauses of some old savings contracts, for which beneficiary clauses are stored as unstructured free text in our databases. This use case helped at solving a regulatory issue for BNP Paribas Cardif.

Credit data science risk models for SMEs
This paper describes novel approaches to predict default for SMEs. Ensemble approaches and novel data science risk models are tested on a real data set provided by a financial institution. Out of sample mesaures obtained outperform standard approaches proposed in the literature.
In our paper we introduce a novel methodological idea for model selection based on distances among predictive distributions, thus supporting financial institutions in decision making.
This is joint work of Silvia Figini and Pierpaolo Uberti.
Slides S.Figini

Guojun GAN
Valuation of Large Variable Annuity Portfolios: Challenges and Potential Solutions
In the past decade, the rapid growth of variable annuities  has posed great challenges to insurance companies especially when it comes to valuing the complex guarantees embedded in these products. The financial risks associated with guarantees embedded in variable annuities cannot be adequately addressed by traditional actuarial approaches. In practice, dynamic hedging is usually adopted by insurers and the hedging is done on the whole portfolio of VA contracts. Since the guarantees embedded in VA contracts sold by insurance companies are complex, insurers resort to Monte Carlo simulation to calculate the Greeks required by dynamic hedging but this method is extremely time-consuming when applied to a large portfolio of VA contracts. In this talk, I will talk about two major computational problems associated with dynamic hedging and present some potential solutions based on statistical learning to address these computational problems.
Slides G.Gan

Montserrat GUILLEN
Telematics and the natural evolution of pricing in motor insurance
Telematics is a revolution in data analytics when applied to motor insurance, but the transition to a fully data-driven dynamic pricing is challenging. We present methods to quantify risk with applications to usage-based motor insurance. We show illustrations by modelling the time to the first crash and show that it is shorter for those drivers with less experience. The risk of accident increases with excessive speed, but the effect is higher for men than for women among the more experienced drivers. Additionally, nighttime driving reduces the time to first accident for women but not for men. Gender differences in the risk of accident are mainly attributable to the fact that men drive more often than women. We explore alternative methods to include mileage in the quantification of risk, as well as the way exposure to risk is contemplated in generalized linear models.  We also investigate changes in driving patterns after having an accident, and conclude that those who speed more and have accidents with bodily injuries reduce their proportion of speed violations after the accident. We show how to adapt existing models for pricing by kilometer driven, with a correction based on telematics information. We also introduce ideas about other aspects of optimal pricing in motor insurance by looking at the possibility of customer lapse.
Slides M.Guillen

Feature Extraction Methods and Stochastic Mortality Modelling
In this presentation I will review recent work my co-authors and I have developed in the paper:
” Stochastic Period and Cohort Effect State-Space Mortality Models Incorporating Demographic Factors via Probabilistic Robust Principal Components”.
This work considers a multi-factor extension of the family of Lee-Carter stochastic mortality models. We build upon the time, period and cohort stochastic model structure to extend it to include exogenous observable demographic features that can be used as additional factors to improve model fit and forecasting accuracy. We develop a dimension reduction feature extraction framework which (a) employs projection based techniques of dimensionality reduction; in doing this we also develop (b) a robust feature extraction framework that is amenable to different structures of demographic data; (c) we analyse demographic data sets from the patterns of missingness and the impact of such missingness on the feature extraction, and (d) introduce a class of multi-factor stochastic mortality models incorporating time, period, cohort and demographic features, which we develop within a Bayesian state-space estimation framework; finally (e) we develop an efficient combined Markov chain and filtering framework for sampling the posterior and forecasting.
We undertake a detailed case study on the Human Mortality Database demographic data from European countries and we use the extracted features to better explain the term structure of mortality in the UK over time for male and female populations when compared to a pure Lee-Carter stochastic mortality model, demonstrating our feature extraction framework and consequent multi-factor mortality model improves both in sample fit and importantly out-off sample mortality forecasts by a non-trivial gain in performance.
Slides G.Peeters

Christian ROBERT
Non parametric individual claim reserving
Accurate loss reserves are an important item in the financial statement of an insurance company and are mostly evaluated by macro-level models with aggregate data in a run-off  triangle. In recent years, a small set of literature that proposed parametric reserving models using underlying individual claims data has emerged. In this paper, we introduce non parametric tools (machine learning mostly) to estimate outstanding and IBNR liabilities using covariables available for each policy and policyholder and which may be informative about claim frequency and severity as well as payments behaviors. This exercise is quite intricate and new since the target variable (claim severity) is right-censored most of the time. The performance of our approach is evaluated by comparing the predictive values of the reserve estimates with their true values on a large number of simulated data. We also compare our individual approach with aggregated classical methods such as Mack’s Chain Ladder with respect to the bias and the volatlity of the estimates.
Slides C.Robert

Sébastien de VALERIOLA
Decision trees & random forest algorithms in credit risk assessment
An increasing number of bankers and insurers now embed machine learning techniques in their operational processes. In this talk, we review the deployment of such a technique in a real-life company. More specifically, we present the implementation of a tree-based loss given default model. We highlight the advantages and disadvantages of these methods when considering their practical use in the industry, and show some of the issues we faced in the course of this implementation.
Slides S.deValeriola


Filed under: Non classé

Retour sur la conférence “Probabilités et Applications en Assurance et en Finance” au Vietnam

Le workshop “Stochastic processes- Actuarial science and Finance” a réuni des chercheurs spécialistes de la théorie des probabilités, travaillant sur des applications en assurance et en finance.

Il s’est tenu au VIASM, à Hanoi, du 31 juillet au 3 aout 2017. Le workshop a donné lieu à des échanges scientifiques entre des participants d’horizon variés : Allemagne, Chine, France, Royaume-Uni, Singapour, Turquie et Vietnam.

La participation de professionnels de BNP Paribas Cardif, qui ont donné deux exposés, a permis d’avoir un retour précis sur les besoins de modélisation actuarielle et sur les applications concrètes des probabilités.

Le workshop a été conjointement financé par le VIASM, la chaire DAMI et la chaire Actinfo.​

Voir les abstracts



Filed under: Non classé

Compétition Kaggle Quora : La solution gagnante !

Kaggle et Quora ont récemment lancé une compétition de prédiction qui a rassemblé plus de 3300 équipes. 5 membres du Data Lab’ de BNP Paribas Cardif ont entrepris de participer  à la compétition en équipe (les DL guys) sur leur temps personnel.  Constituée de Maximilien Baudry, doctorant Labo SAF / BNP Paribas Cardif, Sébastien Conort, Chief Data Scientist de BNP Paribas Cardif, tous deux membres de la chaire DAMI, ainsi que de Tung Lam Dang, Guillaume Huard et Paul Todorov, l’équipe a remporté la compétition!

Quora est un site internet de partage de connaissances qui permet à ses utilisateurs de créer/éditer/organiser des discussions sous forme de questions/réponses. Les questions que les utilisateurs posent portent sur tous les sujets, des dernières actualités aux problèmes d’ado en passant par du soutien en maths.

Lorsqu’un utilisateur ne sait pas que sa question a déjà été posée, soit parce qu’il n’a pas cherché au préalable, soit parce qu’il ne l’a pas trouvée, il arrive qu’une question soit posée une deuxième fois; Cela crée des doublons de discussions, indésirables à la fois pour Quora et pour ses utilisateurs.

Le but du challenge était donc de détecter des questions doublonées. Les données se présentaient sous forme de couples de questions (question 1, question 2), pour lesquels nous devions prédire si oui ou non, l’intention des deux questions était la même.

Exemple de non-doublon :
1/ What is the best book to learn english?
2/ What is the best book to learn french?

Exemple de doublon :
1/ Do you believe there is a life after death?
2/ Is it true that there is a life after death?

Nous avons donc utilisé naturellement des techniques classiques de text-mining, comme des mesures de similarité entre chaîne de caractère, afin de quantifier la différence des deux questions, au sens syntaxique.

Nous avons ensuite utilisé des techniques de deep learning avec des architectures appropriées à l’état de l’art, auxquelles nous avons donné en entrée des word embeddings.
Les word embeddings consistent à transformer chaque mot en un vecteur de grande dimension, dont les coordonnées sont déterminées de façon à respecter au plus l’aspect sémantique de chaque mot. Ainsi, si les deux questions sont proches sémantiquement, alors leurs vecteurs des mots les composant auront des coordonnées proches.

Enfin, nous avons exploité la façon dont les questions nous étaient présentées à l’aide d’un graphe, dont les nœuds représentent les questions et les arêtes représentent l’existence, dans la base de données, du couple de question.
L’idée est d’exploiter le fait qu’une question dupliquée sera très souvent comparée à d’autres questions, ce qui se traduit par un signal fort sur la connectivité des nœuds.
D’autre part, cela permet aussi, grâce aux composantes connexes du graphe, de détecter les thèmes abordés dans les questions.


Filed under: Concours / Compétitions

Workshop 31 juillet – 3 août 2017 – Stochastic processes- Actuarial science and Finance – Vietnam

The main objective of this workshop is to gather recognized researchers working on probability theory, with applications in insurance and finance. We wish to encourage scientific exchanges between the participants and create new collaborative projects. Practitioners from BNP Paribas Cardif Asia will participate to the workshop, it will also offer the opportunity of ideas sharing between academics and practitioners in Asia. This workshop is funded by the VIASM, the research chair Data Analytics & Models for Insurance, BNP Paribas Cardif, and the DIAF association.

Organisers Nguyễn Hữu Dư (VIASM); Nabil Kazi-Tani (Lyon 1 University, France), Long Ngo Hoang (Hanoi National University of Education), Dylan Possamaï (Université Paris Dauphine, France), Didier Rullière (Lyon 1 University, France)

Venue/Location: VIASM

Registration here

Filed under: Conférences de la chaire

Workshop 15 septembre 2017 “Data Sciences applied to insurance and Finance”

Organisé dans le cadre de la chaire DAMI, en collaboration avec l’ISBA (Institute of Statistics, Biostatistics and Actuarial) de l’UCL Université Catholique de Louvain

The aim of this conference is to promote financial and insurance applications of data science. For banks and insurance companies, profits will materialise through accelerated and more accurate decision processes, as well as an increased clients’ satisfaction thanks to more personalised offers and services. The systematic use of data science is becoming a strategic growth lever that will be discussed in this conference.

Conférence ouverte au public
Inscription: 100€
Membres IA: 40 points PPC
Informations et inscriptions

Filed under: Conférences de la chaire

Séminaire petit déjeuner du 27 juin 2017 : Marking to Market vs Taking to Market

Par Guillaume Plantin, Sciences Po Paris

Le papier développe une théorie des mesures comptables optimales car ces dernières sont primordiales pour la gouvernance d’entreprise. Nous étudions l’interaction à l’équilibre entre les règles de mesure que les entreprises jugent optimales sur le plan privé, leur gouvernance et la liquidité sur le marché secondaire de leurs actifs. Cette approche révèle une utilisation excessive de la comptabilité en valeur de marché. Les mesures de la performance de l’entreprise sont trop dépendantes de l’information générée par les ventes d’actifs d’autres entreprises et pas assez de la réalisation des gains en capital possibles d’une entreprise. Cela réduit la liquidité du marché et réduit l’information des signaux de prix.

Paris, mardi 27 juin 2017, 9h

Détails et inscription gratuite ici

Membres IA : 12 points PPC

Filed under: Séminaires trimestriels

Machine learning et Online learning dans le digital

Plus de 70 personnes ont assisté à la présentation, par Sébastien Loustau, de son exposé sur les Approches prédictives et personnalisées dans le digital, basées sur la conception d’algorithmes innovants pour le numérique.

Machine learning et online learning au service du ciblage prédictif, de la détection de leaders d’opinion, … à travers deux cas d’étude : Segmentation client temps réel / Détection de communauté dans un réseau.

Voir les slides de Sébastion Loustau

Filed under: Séminaires trimestriels

Retour sur le séminaire technique de la chaire DAMI

Le 21 mars dernier, les membres de la chaire DAMI ont tenu leur séminaire technique 2017.
Ce rendez-vous annuel permet aux membres et au comité de pilotage de se réunir afin de faire le point sur l’avancement des travaux et leur confrontation à la réalité de l’entreprise. Académiques et professionnels mêlent leurs visions, perceptions, projections, …

Parmi les thèmes abordés :

Filed under: Non classé

La chaire DAMI recrute un post-doctorant en Modélisation Quantitative


See the english version

La Chaire DAMI est une chaire de recherche financée par BNP Paribas Cardif qui s’intéresse aux problématiques liées aux Données et Modèles en Assurance ( Elle propose un financement post doctoral dans le cadre de son axe de recherche “Modèles pour l’assurance”.

Caractéristiques du poste
Nous recherchons un(e) docteur(e) en actuariat ou en finance quantitative avec une forte appétence pour le contexte spécifique à l’assurance et la modélisation quantitative. Les travaux comportent un volet théorique ainsi que la mise en place d’applications avec des outils comme R ou Python.
Le financement est prévu pour une durée d’un an avec possibilité de prolongation de 6 mois ou un an.
Le poste est basé à Lyon, au sein du laboratoire SAF.
La rémunération est à discuter en fonction du profil du candidat.

Thème de recherche
La logique générale de calcul de la valeur économique d’un contrat d’assurance-vie est présentée dans les chapitres 4 et 5 de Laurent et al. (Ed.) [2016].
De manière schématique, la valeur d’un tel contrat est assimilée au « prix » du contrat vu comme un actif dérivé des différents facteurs de risque financiers auxquels est soumis l’assureur (taux, actions, crédit, etc.). Dès lors, les méthodes construites sur la base de l’absence d’opportunité d’arbitrage en finance de marché sont utilisées. Leur utilisation est toutefois rendue délicate du fait de :

  • l’absence de prix observable (cf. Félix et Planchet [2015],
  • l’impossibilité de décrire analytiquement la fonction de détermination des flux en fonction des facteurs de risque, les flux étant obtenus via un algorithme complexe (cf. le chapitre 4 de Laurent et al. (Ed.) [2016]).

La pratique de place qui s’est progressivement imposée consiste à modéliser les facteurs de risque sous une probabilité risque neutre (dont le choix parmi l’ensemble des probabilités possibles n’est que rarement discuté), ce qui évite d’expliciter la forme du prix de marché du risque implicitement associé.
Outre les difficultés induites par l’utilisation de cette modélisation « risque neutre » dans le modèle ALM de production des flux (cf. Félix et Planchet [2016]), la cohérence entre la modélisation « historique » utilisée par exemple dans l’ORSA (cf. le chapitre 4 de Laurent et al. (Ed.) [2016]) et la modélisation des facteurs pour la valorisation n’est pas assurée.
Dans ce contexte, une alternative consiste à utiliser des déflateurs stochastiques, comme dans Dastarac et Sauveplane [2010] ce qui permet d’utiliser des scénarios en probabilité historique, la valorisation des options étant alors intégrée dans le noyau d’actualisation.
Avec ce type d’approche, les fonctions de réaction utilisées dans la construction des flux n’ont dès lors plus à être étendues à des plages de valeurs « extrêmes », courante sous la probabilité Q mais rares sous P.
La difficulté est déplacée au niveau de la construction du processus d’actualisation (déflateur), qui implique de modéliser explicitement le « prix de marché du risque ».
Une synthèse de cette approche est décrite dans Caja et Planchet [2010] et un exemple de mise en œuvre pour des contrats d’épargne en € avec un environnement économique simplifié est proposé dans Dastarac et Sauveplane [2010]. Les auteurs construisent explicitement le déflateur dans un marché à deux actifs (actions et taux) en introduisant un aléa sur le prix de marché du risque.
On peut également mentionner sur ce registre, pour ce qui concerne le risque de taux, le travail de Dubaut [2015], qui s’appuie sur le cadre proposé dans Turc et al. [2009]. Ce cadre est un cas particulier de l’approche plus générale présentée dans Christensen et al. [2010], qui exploite les propriétés du modèle de Nelson-Siegel vu en tant que modèle de taux à structure affine.
Le travail de recherche consistera donc à construire un déflateur intégrant les sources de risque financiers majeurs auxquelles l’assureur se trouve exposé (taux, action, crédit, inflation) et à décrire un cadre opérationnel pour le calcul de valeurs économiques de contrats d’assurance-vie dans un cadre réaliste, utilisable par un assureur pour les calculs qu’il réalise dans le cadre du pilier 1 de Solvabilité 2. Ce cadre opérationnel sera décliné à la fois d’un point de vue théorique, avec une description formelle du modèle et d’un point de vue pratique, avec une implémentation en R ou Python.

Professeur à l’Université Claude Bernard, Lyon 1
Laboratoire SAF

Télécharger au format pdf
Download pdf

Caja A., Planchet F. [2010] « La mesure du prix de marché du risque : quels outils pour une utilisation dans les modèles en assurance ? », Assurances et gestion des risques, Vol.78 (3/4).
Christensen J.H.E.; Diebold F.X.; Rudbush G.D. [2010] « The Affine Arbitrage-Free Class of Nelson-Siegel Term Structure Models », Federal Reserve Bank of San Francisco, WP n°2007-20.
Bonnin F., Combes F., Planchet F., Tammar M. [2015] « Un modèle de projection pour des contrats de retraite dans le cadre de l’ORSA », Bulletin Français d’Actuariat, vol. 14, n°28.
Dastarac H., Sauveplane P. [2010] « Les déflateurs stochastiques : quelle utilisation en assurance ? », Mémoire d’actuaire, ENSAE.
Dubaut E. [2015] « Risque à la hausse des taux : le modèle MENIR », Mémoire de M2, ISFA.
Félix J.P., Planchet F. [2016] « Groupe de travail Risque-Neutre : synthèse des travaux », Chaire DAMI, Réf. 1227-20 v1.2 du 16/12/2016.
Félix J.P., Planchet F. [2015] « Calcul des engagements en assurance-vie : quel calibrage ‘cohérent avec des valeurs de marché’ ? », L’Actuariel, n°16 du 01/03/2015.
Laurent J.P., Norberg R., Planchet F. (editors) [2016] Modelling in life insurance – a management perspective,  EAA Series, Springer.
Planchet F., Leroy G. [2013] « Risque de taux, spread et garanties de long terme », la Tribune de l’Assurance (rubrique « le mot de l’actuaire »), n°178 du 01/03/2013.
Turc J., Ungarl S., Kurpel A., Huang C. [2009] « Filtering the interest rate curve : the MENIR framework », Société Générale, Fixed Income du 27/11/2009.

Filed under: Recrutement

Séminaire petit déjeuner du 28 mars 2017 : Approches prédictives et personnalisées dans le digital

Par Sébastien Loustau, CEO & Chercheur chez Artfact, start-up spécialisée dans le data science

Artfact est une start-up du numérique spécialisée dans l’aide à la décision. Fondée à l’université dans un laboratoire de mathématiques, elle se distingue par la conception d’algorithmes innovants pour le numérique.
Dans cet exposé, nous aborderons en détail les dernières techniques de ciblages prédictifs et de détection de leader d’opinions, d’un point de vue algorithmique et business. Le ciblage prédictif est monnaie courante dans le digital, et notamment sur le web où chaque comportement va déclencher sur un site marchant un traitement spécifique. Depuis l’apparition des systèmes de recommandations, de nombreuses évolutions ont eu lieu. Nous discuterons de la matière première de ces évolutions technologiques, à savoir la théorie statistique et l’apprentissage (machine learning) et l’apprentissage temps réel (online learning) et nous illustrerons ces propos à travers deux cas spécifiques : la segmentation client temps réel et la détection de communautés dans un réseau.

Paris, mardi 28 mars 2017, 9h 

Détails et inscription gratuite ici

Filed under: Séminaires trimestriels