Adjogou, Adjobo Folly Dzigbodi
- Chargé de cours
-
Faculté des arts et des sciences - Département de mathématiques et de statistique
André-Aisenstadt
Courriels
Cours donnés
- STT1682 A - Progiciels statistiq/actuariat
Expertise
Encadrement Tout déplier Tout replier
Analyse statistique de données fonctionnelles à structures complexes
Thèses et mémoires dirigés / 2017-05
Adjogou, Adjobo Folly Dzigbodi
Abstract
Abstract
Les études longitudinales jouent un rôle prépondérant dans des domaines de recherche variés
et leur importance ne cesse de prendre de l’ampleur. Les méthodes d’analyse qui leur
sont associées sont devenues des outils privilégiés pour l’analyse de l’étude temporelle d’un
phénomène donné. On parle de données longitudinales lorsqu’une ou plusieurs variables
sont mesurées de manière répétée à plusieurs moments dans le temps sur un ensemble d’individus.
Un élément central de ce type de données est que les observations prises sur un
même individu ont tendance à être corrélées. Cette caractéristique fondamentale distingue
les données longitudinales d’autres types de données en statistique et suscite des méthodologies
d’analyse spécifiques. Ce domaine d’analyse a connu une expansion considérable dans
les quarante dernières années. L’analyse classique des données longitudinales est basée sur
les modèles paramétriques, non-paramétriques et semi-paramétriques. Mais une importante
question abondamment traitée dans l’étude des données longitudinales est associée à l’analyse
typologique (regroupement en classes) et concerne la détection de groupes (ou classes ou
encore trajectoires) homogènes, suggérés par les données, non définis a priori de sorte que les
individus dans une même classe tendent à être similaires les uns aux autres dans un certain
sens et, ceux dans différentes classes tendent à être non similaires (dissemblables). Dans cette
thèse, nous élaborons des modèles de clustering de données longitudinales et contribuons
à la littérature de ce domaine statistique en plein essor. En effet, une méthodologie émergente
non-paramétrique de traitement des données longitudinales est basée sur l’approche
de l’analyse des données fonctionnelles selon laquelle les trajectoires longitudinales sont perçues
comme étant un échantillon de fonctions (ou courbes) partiellement observées sur un
intervalle de temps sur lequel elles sont souvent supposées lisses. Ainsi, nous proposons dans
cette thèse, une revue de la littérature statistique sur l’analyse des données longitudinales
et développons deux nouvelles méthodes de partitionnement fonctionnel basées sur des modèles
spécifiques. En effet, nous exposons dans le premier volet de la présente thèse une
revue succinte de la plupart des modèles typiques d’analyse des données longitudinales, des
modèles paramétriques aux modèles non-paramétriques et semi-paramétriques. Nous présentons
également les développements récents dans le domaine de l’analyse typologique de ces données selon les deux plus importantes approches : l’approche non paramétrique et l’approche
fondée sur un modèle. Le but ultime de cette revue est de fournir un aperçu concis,
varié et très accessible de toutes les méthodes d’analyse des données longitudinales. Dans
la première méthodologie proposée dans le cadre de cette thèse, nous utilisons l’approche
de l’analyse des données fonctionnelles (ADF) pour développer un modèle très flexible pour
l’analyse et le regroupement de tout type de données longitudinales (balancées ou non) qui
combine adéquatement et simultanément l’analyse fonctionnelle en composantes principales
et le regroupement en classes. La modélisation fonctionnelle repose sur l’espace des coefficients
dans la base des splines et le modèle, conçu dans un cadre bayésien, est basé sur un
mélange de distributions de Student. Nous proposons également un nouveau critère pour
la sélection de modèle en développant une approximation de la log-vraisemblance marginale
(MLL). Ce critère se compare favorablement aux critères usuels tels que AIC et BIC.
La seconde méthode de regroupement développée dans la présente thèse est une nouvelle
procédure d’analyse de données longitudinales qui combine l’approche du partitionnement
fonctionnel basé sur un modèle et une double pénalisation de type Lasso pour identifier les
classes homogènes ou les individus avec des tendances semblables. Les courbes individuelles
sont approximées dans un espace dérivé par une base finie de splines et le nombre optimal de
classes est déterminé en pénalisant un mélange de distributions de Student. Les paramètres
de contrôle de la pénalité sont définis par la méthode d’échantillonnage par hypercube latin
qui assure une exploration plus efficace de l’espace de ces paramètres. Pour l’estimation des
paramètres dans les deux méthodes proposées, nous utilisons l’algorithme itératif espérancemaximisation.