Méthodes analytics modernes

Les aspects dits modernes de l’Analytics correspondent aux outils pour les méga-données et aux challenges, de type Kaggle. Dans le cadre du Data lab de BNP Paribas Cardif, il est question de challenger certaines régressions logistiques existantes avec des modèles plus modernes. Dans ce cadre, un concours Kaggle pourrait être organisé avec la Chaire. Les équipes de BNP Paribas Cardif pourraient également être impliquées au côté de l’équipe Kaggle de l’ISFA qui a été créée lors du FORUM ISFA 2014 (cette équipe compte aujourd’hui une trentaine d’étudiants et est dirigée par Denis Clot, maître de conférences rattaché à l’ISFA).

Dans les systèmes d’enchères automatiques pour la publicité sur internet ou dans les stratégies suivies par les modèles auto-apprenants, apprendre a un coût. Quelles stratégies sont optimales pour apprendre suffisamment vite tout en contenant les coûts ? Comment adapter sa stratégie dans un monde qui change ? De plus, apprendre est parfois insuffisant pour prévoir des comportements de nouveaux utilisateurs pour lesquels peu d’information est disponible. Une des tâches essentielles dans les systèmes de recommandation d’articles pour de nouveaux clients est de prévoir les évaluations futures des utilisateurs sur des articles qu’ils n’ont pas encore acquis. Bien que de nombreux modèles et algorithmes ont été proposés, la façon de faire des prédictions précises pour les nouveaux utilisateurs avec très peu d’enregistrements d’évaluation reste un vrai défi statistique, qui est appelé le problème de ‘démarrage à froid’ ou ‘cold start’.

Cela pose également la question de la péremption des données dans l’univers des méga-données, mais aussi la nature des variables à considérer. Parfois, l’absence de changement pendant une longue période est en soi une information plus importante que la valeur actuelle de la variable considérée. Les effets de sélection ont tendance à s’estomper après plusieurs années en assurance, et certaines variables peuvent présenter des changements de régime. En lien avec les questions de détection de perte de validité des hypothèses actuarielles étudiées dans la chaire, il conviendra de réfléchir à la détection de changements de régime de variables clés dans des bases de données massives.