La précision des modèles de prédiction et la sélection de variables sont deux problèmes très complexes qui se chevauchent dans l’analyse des données de grande dimension. De tels problèmes se posent souvent en finance, en actuariat et en génétique humaine, où le nombre de variables observées est beaucoup plus grand que le nombre d’individus dans l’échantillon. En misant sur la « sparsité » en supposant que peu de variables sont pertinentes, nous nous retrouvons avec un modèle précis et interprétable.
Dans ce cadre, nous avons développé deux méthodes axées sur : 1) les modèles mixtes à haute dimension (ggmix), et 2) la sélection d’interactions non linéaires (sail). La méthode ggmix cherche à trouver des groupes de variables qui sont associés à la variable réponse tout en tenant compte des corrélations entre les observations, par exemple pour des données longitudinales ou groupées. Nous avons développé un algorithme de type MM par groupe, qui est hautement modulable et efficace sur le plan informatique et possède des garanties de convergence. La méthode sail, quant à elle, est basée sur un modèle de régression pénalisée ayant la propriété d’hérédité forte pour les interactions non linéaires.
Notre choix de modèle est motivé par le fait que les maladies sont souvent le résultat de changements dans des réseaux biologiques entiers dont l’état est affecté par une interaction complexe entre facteurs génétiques et environnementaux. Nous allons présenter une application de nos méthodes aux données génétiques du projet UK Biobank qui contient 500 000 individus avec plusieurs millions de variables.
Date : lundi 18 décembre 2017
Heure : 10h30 à 11h30
Lieu : Pavillon André-Aisenstadt
Salle : 6214