Lajoie, Guillaume
- Professeur agrégé
-
Faculté des arts et des sciences - Département de mathématiques et de statistique
André-Aisenstadt Local 4161
Courriels
Affiliations
- Membre Centre de recherches mathématiques
- Membre Centre interdisciplinaire de recherche sur le cerveau et l'apprentissage
- Titulaire Chaire de recherche du Canada en calcul et interfaçage neuronaux
- Membre CIRCA Centre interdisciplinaire de recherche sur le cerveau et l'apprentissage
- Membre Institut des algorithmes d'apprentissage de Montréal
- Membre MILA Institut des algorithmes d'apprentissage de Montréal
Expertise
Encadrement Tout déplier Tout replier
Intrinsic latent structures in machine learning : diffusion distances, representation alignment, and graph inference
Thèses et mémoires dirigés / 2026-02
Natik, Amine
Abstract
Abstract
Au cours des deux dernières décennies, l’apprentissage automatique (ML), et plus particulièrement l’apprentissage profond (DL), ont révolutionné de nombreux domaines en découvrant des structures prédictives à partir de jeux de données de grande dimension. Cependant, l’exploitation efficace de ces méthodes dépend crucialement de la reconnaissance des structures géométriques et latentes inhérentes aux données et aux architectures des modèles. Le thème central de cette thèse est que les données réelles résident souvent sur ou à proximité de structures géométriques de faible dimension intégrées dans des espaces de grande dimension. En identifiant ces structures latentes (géométriques, probabilistes ou combinatoires), nous pouvons améliorer l’interprétabilité, la robustesse et l’évolutivité des méthodes d’apprentissage automatique. De nombreux modèles exploitant ces idées, tels que les réseaux neuronaux sur graphes (GNN), les plongements basés sur la diffusion et les méthodes spectrales, sont désormais courants en bioinformatique, en vision par ordinateur et en traitement du langage naturel. Cette thèse vise à approfondir la compréhension et l’application des structures géométriques et latentes intrinsèques à travers quatre contributions complémentaires : (1) Nous proposons la Diffusion Earth Mover’s Distance (Diffusion EMD) comme mesure géométrique entre distributions ; (2) Nous étudions l’efficacité du Centered Kernel Alignment (CKA) pour comparer des représentations neuronales ; (3) Nous présentons GraphPPD, un cadre bayésien prédictif pour l’inférence incertaine sur graphes ; et (4) Nous analysons théoriquement l’algorithme spectral de sériation et sa robustesse pour récupérer des ordres latents à partir de données bruitées. Tout d’abord, nous proposons la Diffusion EMD, une méthode rapide et évolutive pour comparer des jeux de données de grande dimension modélisés comme des distributions sur un graphe partagé. En diffusant la masse de probabilité à travers la structure du graphe plutôt qu’en utilisant l’espace euclidien, la Diffusion EMD s’aligne plus étroitement avec la géométrie variétale des données. Elle est équivalente topologiquement à l’EMD classique avec v une distance géodésique sous des hypothèses variétales, tout en étant plus efficace et différentiable. Cela permet des comparaisons précises à grande échelle, comme celles nécessaires en biologie unicellulaire, révélant des structures au niveau des patients. Ensuite, nous étudions l’efficacité du CKA, une métrique de similarité utilisée pour comparer des représentations neuronales. Nous montrons que le CKA peut être très sensible à des transformations simples, telles que des translations affines, en particulier dans les contextes à haute dimension ou avec peu d’échantillons. Cela soulève des préoccupations sur sa fiabilité et souligne la nécessité d’alternatives plus robustes. Troisièmement, nous introduisons GraphPPD, un cadre bayésien variationnel conçu pour modéliser l’incertitude dans les tâches de prédiction au niveau des graphes. Alors que la plupart des méthodes existantes se concentrent sur l’incertitude au niveau des noeuds ou des liens, GraphPPD capture les distributions prédictives postérieures complètes au niveau du graphe. Basé sur des plongements obtenus à partir de GNN standard, il permet une quantification adaptative de l’incertitude et améliore la calibration en présence de changements de distribution, facilitant une prise de décision plus fiable. Enfin, nous étudions la sériation spectrale, une méthode classique pour récupérer un ordre séquentiel latent à partir de données de similarité par paires. Nous analysons ses performances dans une classe générale de modèles de graphes aléatoires, montrant qu’elle récupère systématiquement l’ordre latent même en présence de bruit important. Sous des hypothèses modérées sur la structure du graphe, la sériation spectrale fournit des estimations d’ordre avec des taux de convergence démontrables. Ces résultats confirment la robustesse des méthodes spectrales dans des contextes tels que la génomique et les systèmes de recommandation. Ensemble, ces contributions démontrent l’importance des structures intrinsèques géométriques et latentes dans l’apprentissage automatique moderne. Cette thèse est organisée en format portefeuille, présentant quatre projets de recherche adaptés et intégrés. Bien que chaque chapitre aborde un problème distinct, ils éclairent ensemble des facettes complémentaires de la capture et de l’exploitation des structures latentes pour faire progresser la théorie et la pratique de l’apprentissage automatique.