Passer au contenu

/ Département de mathématiques et de statistique

Je donne

Rechercher

 

Gagnon, Philippe

Vcard

Professeur agrégé

Faculté des arts et des sciences - Département de mathématiques et de statistique

André-Aisenstadt Local 4241

514 343-6695

Courriels

Expertise

Mes intérêts de recherche sont l'inférence bayésienne, en particulier l'inférence robuste face aux valeurs aberrantes, et la statistique computationnelle, en particulier les méthodes de Monte Carlo par chaînes de Markov. J'ai aussi un intérêt pour l'application de la méthodologie que je développe en actuariat. Vous trouverez plus d'informations ainsi qu'une liste de mes publications sur ma page web personnelle (en anglais).

Publicité : je suis toujours à la recherche d'étudiantes et d'étudiants ayant de bonnes compétences dans l'un des domaines suivants : en statistique théorique, en statistique appliquée et actuariat, ou en informatique (je suis aussi intéressé à développer des packages R ou Python pour une implémentation automatique et efficace des méthodes développées). Plusieurs opportunités de financement existent. En particulier, j'ai obtenu des subventions qui sont dédiées au financement d'excellent(e)s étudiant(e)s à la maîtrise ou doctorat, ou stagiaires postdoctoraux (voir ma page web personnelle pour plus de détails). Les étudiant(e)s et stagiaires peuvent aussi appliquer pour des bourses comme celles du CRSNG et FRQNT. N'hésitez pas à me contacter si vous êtes intéressé(e)s par mes travaux de recherche. Mon objectif est d'offrir à mes étudiantes et étudiants un environnement qui soit équitable, inclusif et diversifié. En particulier, le recrutement des étudiantes et étudiants se fera selon les règles institutionnelles en matière d'équité, diversité et inclusion.

Encadrement Tout déplier Tout replier

Robust logistic regression via a slowly varying sigmoid Thèses et mémoires dirigés / 2026-01
Wen, Zehai
Abstract
Les modèles linéaires généralisés (GLMs) sont parmi les classes de modèles statistiques les plus populaires parce qu’elles incluent une grande classe des modèles de régression fréquemment utilisés, comme la régression linéaire et la régression logistique. Une limitation importante des GLMs est qu’ils ne sont pas robustes contre les valeurs aberrantes. Nous démontrons que, pour la régression logistique, des inférences et des prédictions biasées en cas où il y a un conflit entre les tendences dans l’ensemble des données et celles des valeurs aberrantes, sont causées par les ailes exponentiellement décroîssantes de la fonction Sigmoid. Nous fixons le problème en remplaçant la fonction Sigmoid par sa version robuste, qui change les ailes exponentielles aux ailes à la variation lente. Selon notre connaissance, il n’existe pas de méthode bayésienne robuste pour les GLMs en général. La méthode la plus populaire est celle de Cantoni and Ronchetti (2001), qui est fréquentiste et se base sur des M-estimateurs. La seule approche bayésienne robuste pour la régression logistique que nous avons trouvée est le modèle de mauvaises classifications proposé par Russo and Greco (2022). Comparé à la méthode de Cantoni et Ronchetti, qui ne fournit pas un modèle statistique et souvent néglige complètement les informations données par des valeurs aberrantes, nous donnons un modèle qui est utile pour les analyses bayésiennes et fréquentistes sans perdre la sensibilité à des positions des valeurs aberrantes. Comparé au modèle de Russo et Greco, notre modèle est plus simple, sans aucune variable latente et est justifié plus théoriquement. Nous adaptons l’approche de robustifier des modèles en utilisant des distributions avec des ailes plus relevées dans la statistique bayésienne (O’Hagan and Pericchi, 2012; Desgagné, 2015; Gagnon et al., 2020; Gagnon and Wang, 2024). Dans notre contexte, notre version robuste de la fonction Sigmoid est la somme d’un terme central et un terme des ailes à la variation lente qui ont les comportements comme la fonction 1/ log |x|. C’est la première fois que cette approche est appliquée dans le contexte de la régression pour une variable de réponse binaire. La performance est mesurée à la fois théoriquement et empiriquement, avec une analyse des données de leukémie.

Robust gamma generalized linear models with applications in actuarial science Thèses et mémoires dirigés / 2022-09
Wang, Yuxi
Abstract
Les modèles linéaires généralisés (GLMs) constituent l’une des classes de modèles les plus populaires en statistique. Cette classe contient une grande variété de modèles de régression fréquemment utilisés, tels que la régression linéaire normale, la régression logistique et les gamma GLMs. Dans les GLMs, la distribution de la variable de réponse définit une famille exponentielle. Un désavantage de ces modèles est qu’ils ne sont pas robustes par rapport aux valeurs aberrantes. Pour les modèles comme la régression linéaire normale et les gamma GLMs, la non-robustesse est une conséquence des ailes exponentielles des densités. La différence entre les tendances de l’ensemble des données et celles des valeurs aberrantes donne lieu à des inférences et des prédictions biaisées. A notre connaissance, il n’existe pas d’approche bayésienne robuste spécifique pour les GLMs. La méthode la plus populaire est fréquentiste ; c’est celle de Cantoni and Ronchetti (2001). Leur approche consiste à adapter les M-estimateurs robustes pour la régression linéaire au contexte des GLMs. Cependant, leur estimateur est dérivé d’une modification de la dérivée de la log-vraisemblance, au lieu d’une modification de la vraisemblance (comme avec les M-estimateurs robustes pour la régression linéaire). Par conséquent, il n’est pas possible d’établir une correspondance claire entre la fonction modifiée à optimiser et un modèle. Le fait de proposer un modèle robuste présente deux avantages. Premièrement, il permet de comprendre et d’interpréter la modélisation. Deuxièmement, il permet l’analyse fréquentiste et bayésienne. La méthode que nous proposons s’inspire des idées de la régression linéaire robuste bayésienne. Nous adaptons l’approche proposée par Gagnon et al. (2020), qui consiste à utiliser une distribution normale modifiée avec des ailes plus relevées pour le terme d’erreur. Dans notre contexte, la distribution de la variable de réponse est une version modifiée où la partie centrale de la densité est conservée telle quelle, tandis que les extrémités sont remplacées par des ailes log-Pareto, se comportant comme (1/|x|)(1/ log |x|)λ. Ce mémoire se concentre sur les gamma GLMs. La performance est mesurée à la fois théoriquement et empiriquement, avec une analyse des données sur les coûts hospitaliers.

Sélection de modèles robuste : régression linéaire et algorithme à sauts réversibles Thèses et mémoires dirigés / 2017-10
Gagnon, Philippe
Abstract
Dans cette thèse, deux aspects incontournables de l’analyse statistique sont traités, soient la sélection de modèles et l’estimation des paramètres. Ceci est effectué dans un contexte bayésien par l’intermédiaire de trois articles. Dans le premier, ces aspects sont traités d’un point de vue computationnel. L’algorithme à sauts réversibles, une méthode Monte Carlo par chaînes de Markov permettant simultanément la sélection de modèles et l’estimation des paramètres, est analysé dans l’objectif d’indiquer à l’utilisateur la façon optimale de l’implémenter. Un algorithme implémenté optimalement correspond à un algorithme engendrant des chaînes de Markov qui explorent leur espace d’états de façon optimale. L’objectif est atteint par l’intermédiaire de l’optimisation d’un processus stochastique correspondant à la limite (en distribution) de la suite des processus stochastiques engendrés par cet algorithme. Dans le deuxième article, une stratégie menant à l’estimation robuste des paramètres d’un modèle de régression linéaire en présence de valeurs aberrantes est présentée. La stratégie consiste à poser des hypothèses plus adaptées à cette éventualité de présence de valeurs aberrantes, comparativement au modèle traditionnel basé sur l’hypothèse de normalité des erreurs. Il s’agit de remplacer cette hypothèse de normalité par une hypothèse de distribution à ailes extrêmement relevées. La robustesse, se traduisant par la convergence de la distribution a posteriori des paramètres (basée sur l’échantillon entier) vers celle excluant les valeurs aberrantes, est garantie lorsque le nombre de valeurs aberrantes ne dépasse pas un certain seuil. Finalement, les résultats présentés dans les deux premiers articles sont combinés afin d’introduire une approche bayésienne de régression robuste sur composantes principales faisant intervenir la sélection de modèles dans le processus de prédiction. Ces caractéristiques de robustesse et d’incorporation de la sélection de modèles dans l’analyse contribuent à l’amélioration de la précision des prédictions produites.