Séminaire – Petit déjeuner – “Une nouvelle méthodologie d’encodage de variable catégorielle en présence de bruit” par Gaël Varoquaux

Date / Heure
Date(s) - 20/11/2018
9 h 00 - 10 h 30

Emplacement
Auditorium Gilles Glicenstein


UNE NOUVELLE MÉTHODOLOGIE D’ENCODAGE DE VARIABLE CATÉGORIELLE EN PRÉSENCE DE BRUIT

Par Gaël VAROQUAUX, Chercheur en Machine learning et Imagerie cérébrale, INRIA & INSERM

En apprentissage statistique, les variables catégorielles d’un tableau de données sont généralement considérées comme des objets qu’il faut encoder séparément pour les représenter en variables continues, par exemple, avec un codage de type 0/1. Les données “sales” non retraitées donnent lieu à des variables catégorielles avec une cardinalité très élevée et avec redondance:
plusieurs sous-catégories reflètent en réalité la même catégorie. En pratique, ce problème est généralement résolu avec une étape de déduplication. Nous montrons qu’une approche simple peut traiter la redondance et apporter des gains significatifs. Nous étudions une généralisation de l’encodage 0/1, que nous appelons encodage par similarité, qui construit des vecteurs de caractéristiques à partir de similitudes entre les catégories. Nous effectuons une validation empirique approfondie sur des tableaux non retraités, un problème rarement étudié en apprentissage automatique. Les résultats sur sept jeux de données réels montrent que l’encodage par similarité apporte des gains significatifs en matière de prédiction par rapport aux méthodes de codage connues pour les variables catégorielles comme les chaînes, notamment l’encodage 0/1 et l’encodage à l’aide de n-grammes de caractères. Nous proposons des recommandations pratiques pour l’encodage de variables catégorielles “sales”: la similarité basées sur des tri-grammes semble être un bon choix pour capturer la ressemblance morphologique. Pour des variables avec une cardinalité très élevée, la réduction de dimension réduit de manière significative le coût de calcul avec une perte de performance minime: des projections aléatoires ou le choix d’un sous-ensemble de catégories de prototypes surpasse aussi les approches de codage classiques.

Bookings