Vicente, Sergio
- Chargé de cours
-
Faculté des arts et des sciences - Département de mathématiques et de statistique
André-Aisenstadt
Courriels
Expertise
Encadrement Tout déplier Tout replier
Apprentissage statistique avec le processus ponctuel déterminantal
Thèses et mémoires dirigés / 2021-02
Vicente, Sergio
Abstract
Abstract
Cette thèse aborde le processus ponctuel déterminantal, un modèle probabiliste qui capture
la répulsion entre les points d’un certain espace. Celle-ci est déterminée par une matrice
de similarité, la matrice noyau du processus, qui spécifie quels points sont les plus similaires
et donc moins susceptibles de figurer dans un même sous-ensemble. Contrairement à la sélection
aléatoire uniforme, ce processus ponctuel privilégie les sous-ensembles qui contiennent
des points diversifiés et hétérogènes. La notion de diversité acquiert une importante grandissante
au sein de sciences comme la médecine, la sociologie, les sciences forensiques et les
sciences comportementales. Le processus ponctuel déterminantal offre donc une alternative
aux traditionnelles méthodes d’échantillonnage en tenant compte de la diversité des éléments
choisis. Actuellement, il est déjà très utilisé en apprentissage automatique comme modèle de
sélection de sous-ensembles. Son application en statistique est illustrée par trois articles. Le
premier article aborde le partitionnement de données effectué par un algorithme répété un
grand nombre de fois sur les mêmes données, le partitionnement par consensus. On montre
qu’en utilisant le processus ponctuel déterminantal pour sélectionner les points initiaux de
l’algorithme, la partition de données finale a une qualité supérieure à celle que l’on obtient
en sélectionnant les points de façon uniforme. Le deuxième article étend la méthodologie
du premier article aux données ayant un grand nombre d’observations. Ce cas impose un
effort computationnel additionnel, étant donné que la sélection de points par le processus
ponctuel déterminantal passe par la décomposition spectrale de la matrice de similarité qui,
dans ce cas-ci, est de grande taille. On présente deux approches différentes pour résoudre ce
problème. On montre que les résultats obtenus par ces deux approches sont meilleurs que
ceux obtenus avec un partitionnement de données basé sur une sélection uniforme de points.
Le troisième article présente le problème de sélection de variables en régression linéaire et
logistique face à un nombre élevé de covariables par une approche bayésienne. La sélection
de variables est faite en recourant aux méthodes de Monte Carlo par chaînes de Markov,
en utilisant l’algorithme de Metropolis-Hastings. On montre qu’en choisissant le processus
ponctuel déterminantal comme loi a priori de l’espace des modèles, le sous-ensemble final de
variables est meilleur que celui que l’on obtient avec une loi a priori uniforme.