Passer au contenu

/ Département de mathématiques et de statistique

Rechercher

 

Haziza, David

Vcard

Professeur titulaire

Faculté des arts et des sciences - Département de mathématiques et de statistique

André-Aisenstadt local 4253

514 343-6705

Courriels

Expertises

Mes intérêts de recherche portent sur la théorie de l'échantillonnage et plus particulièrement sur l'inférence en présence de données manquantes et sur l'inférence robuste qui sont des domaines de recherche d'actualité.

Encadrement Tout déplier Tout replier

Inférence doublement robuste en présence de données imputées dans les enquêtes Thèses et mémoires dirigés / 2010-02
Picard, Frédéric
Abstract
L'imputation est souvent utilisée dans les enquêtes pour traiter la non-réponse partielle. Il est bien connu que traiter les valeurs imputées comme des valeurs observées entraîne une sous-estimation importante de la variance des estimateurs ponctuels. Pour remédier à ce problème, plusieurs méthodes d'estimation de la variance ont été proposées dans la littérature, dont des méthodes adaptées de rééchantillonnage telles que le Bootstrap et le Jackknife. Nous définissons le concept de double-robustesse pour l'estimation ponctuelle et de variance sous l'approche par modèle de non-réponse et l'approche par modèle d'imputation. Nous mettons l'emphase sur l'estimation de la variance à l'aide du Jackknife qui est souvent utilisé dans la pratique. Nous étudions les propriétés de différents estimateurs de la variance à l'aide du Jackknife pour l'imputation par la régression déterministe ainsi qu'aléatoire. Nous nous penchons d'abord sur le cas de l'échantillon aléatoire simple. Les cas de l'échantillonnage stratifié et à probabilités inégales seront aussi étudiés. Une étude de simulation compare plusieurs méthodes d'estimation de variance à l'aide du Jackknife en terme de biais et de stabilité relative quand la fraction de sondage n'est pas négligeable. Finalement, nous établissons la normalité asymptotique des estimateurs imputés pour l'imputation par régression déterministe et aléatoire.

Imputation en présence de données contenant des zéros Thèses et mémoires dirigés / 2010-12
Nambeu, Christian O.
Abstract
L?imputation simple est très souvent utilisée dans les enquêtes pour compenser pour la non-réponse partielle. Dans certaines situations, la variable nécessitant l?imputation prend des valeurs nulles un très grand nombre de fois. Ceci est très fréquent dans les enquêtes entreprises qui collectent les variables économiques. Dans ce mémoire, nous étudions les propriétés de deux méthodes d?imputation souvent utilisées en pratique et nous montrons qu?elles produisent des estimateurs imputés biaisés en général. Motivé par un modèle de mélange, nous proposons trois méthodes d?imputation et étudions leurs propriétés en termes de biais. Pour ces méthodes d?imputation, nous considérons un estimateur jackknife de la variance convergent vers la vraie variance, sous l?hypothèse que la fraction de sondage est négligeable. Finalement, nous effectuons une étude par simulation pour étudier la performance des estimateurs ponctuels et de variance en termes de biais et d?erreur quadratique moyenne.

Estimation simplifiée de la variance dans le cas de l'échantillonnage à deux phases Thèses et mémoires dirigés / 2011-08
Béliveau, Audrey
Abstract
Dans ce mémoire, nous étudions le problème de l'estimation de la variance pour les estimateurs par double dilatation et de calage pour l'échantillonnage à deux phases. Nous proposons d'utiliser une décomposition de la variance différente de celle habituellement utilisée dans l'échantillonnage à deux phases, ce qui mène à un estimateur de la variance simplifié. Nous étudions les conditions sous lesquelles les estimateurs simplifiés de la variance sont valides. Pour ce faire, nous considérons les cas particuliers suivants : (1) plan de Poisson à la deuxième phase, (2) plan à deux degrés, (3) plan aléatoire simple sans remise aux deux phases, (4) plan aléatoire simple sans remise à la deuxième phase. Nous montrons qu'une condition cruciale pour la validité des estimateurs simplifiés sous les plans (1) et (2) consiste à ce que la fraction de sondage utilisée pour la première phase soit négligeable (ou petite). Nous montrons sous les plans (3) et (4) que, pour certains estimateurs de calage, l'estimateur simplifié de la variance est valide lorsque la fraction de sondage à la première phase est petite en autant que la taille échantillonnale soit suffisamment grande. De plus, nous montrons que les estimateurs simplifiés de la variance peuvent être obtenus de manière alternative en utilisant l'approche renversée (Fay, 1991 et Shao et Steel, 1999). Finalement, nous effectuons des études par simulation dans le but d'appuyer les résultats théoriques.

Estimation de la variance en présence de données imputées pour des plans de sondage à grande entropie Thèses et mémoires dirigés / 2014-07
Vallée, Audrey-Anne
Abstract
Les travaux portent sur l?estimation de la variance dans le cas d?une non- re?ponse partielle traite?e par une proce?dure d?imputation. Traiter les valeurs impute?es comme si elles avaient e?te? observe?es peut mener a? une sous-estimation substantielle de la variance des estimateurs ponctuels. Les estimateurs de variance usuels reposent sur la disponibilite? des probabilite?s d?inclusion d?ordre deux, qui sont parfois difficiles (voire impossibles) a? calculer. Nous proposons d?examiner les proprie?te?s d?estimateurs de variance obtenus au moyen d?approximations des probabilite?s d?inclusion d?ordre deux. Ces approximations s?expriment comme une fonction des probabilite?s d?inclusion d?ordre un et sont ge?ne?ralement valides pour des plans a? grande entropie. Les re?sultats d?une e?tude de simulation, e?valuant les proprie?te?s des estimateurs de variance propose?s en termes de biais et d?erreur quadratique moyenne, seront pre?sente?s.

Méthodes de rééchantillonnage en méthodologie d'enquête Thèses et mémoires dirigés / 2014-10
Mashreghi, Zeinab
Abstract
Le sujet principal de cette thèse porte sur l'étude de l'estimation de la variance d'une statistique basée sur des données d'enquête imputées via le bootstrap (ou la méthode de Cyrano). L'application d'une méthode bootstrap conçue pour des données d'enquête complètes (en absence de non-réponse) en présence de valeurs imputées et faire comme si celles-ci étaient de vraies observations peut conduire à une sous-estimation de la variance. Dans ce contexte, Shao et Sitter (1996) ont introduit une procédure bootstrap dans laquelle la variable étudiée et l'indicateur de réponse sont rééchantillonnés ensemble et les non-répondants bootstrap sont imputés de la même manière qu'est traité l'échantillon original. L'estimation bootstrap de la variance obtenue est valide lorsque la fraction de sondage est faible. Dans le chapitre 1, nous commençons par faire une revue des méthodes bootstrap existantes pour les données d'enquête (complètes et imputées) et les présentons dans un cadre unifié pour la première fois dans la littérature. Dans le chapitre 2, nous introduisons une nouvelle procédure bootstrap pour estimer la variance sous l'approche du modèle de non-réponse lorsque le mécanisme de non-réponse uniforme est présumé. En utilisant seulement les informations sur le taux de réponse, contrairement à Shao et Sitter (1996) qui nécessite l'indicateur de réponse individuelle, l'indicateur de réponse bootstrap est généré pour chaque échantillon bootstrap menant à un estimateur bootstrap de la variance valide même pour les fractions de sondage non-négligeables. Dans le chapitre 3, nous étudions les approches bootstrap par pseudo-population et nous considérons une classe plus générale de mécanismes de non-réponse. Nous développons deux procédures bootstrap par pseudo-population pour estimer la variance d'un estimateur imputé par rapport à l'approche du modèle de non-réponse et à celle du modèle d'imputation. Ces procédures sont également valides même pour des fractions de sondage non-négligeables.

Inférence robuste à la présence des valeurs aberrantes dans les enquêtes Thèses et mémoires dirigés / 2015-12
Dongmo Jiongo, Valéry
Abstract
Cette thèse comporte trois articles dont un est publié et deux en préparation. Le sujet central de la thèse porte sur le traitement des valeurs aberrantes représentatives dans deux aspects importants des enquêtes que sont : l?estimation des petits domaines et l?imputation en présence de non-réponse partielle. En ce qui concerne les petits domaines, les estimateurs robustes dans le cadre des modèles au niveau des unités ont été étudiés. Sinha & Rao (2009) proposent une version robuste du meilleur prédicteur linéaire sans biais empirique pour la moyenne des petits domaines. Leur estimateur robuste est de type «plugin», et à la lumière des travaux de Chambers (1986), cet estimateur peut être biaisé dans certaines situations. Chambers et al. (2014) proposent un estimateur corrigé du biais. En outre, un estimateur de l?erreur quadratique moyenne a été associé à ces estimateurs ponctuels. Sinha & Rao (2009) proposent une procédure bootstrap paramétrique pour estimer l?erreur quadratique moyenne. Des méthodes analytiques sont proposées dans Chambers et al. (2014). Cependant, leur validité théorique n?a pas été établie et leurs performances empiriques ne sont pas pleinement satisfaisantes. Ici, nous examinons deux nouvelles approches pour obtenir une version robuste du meilleur prédicteur linéaire sans biais empirique : la première est fondée sur les travaux de Chambers (1986), et la deuxième est basée sur le concept de biais conditionnel comme mesure de l?influence d?une unité de la population. Ces deux classes d?estimateurs robustes des petits domaines incluent également un terme de correction pour le biais. Cependant, ils utilisent tous les deux l?information disponible dans tous les domaines contrairement à celui de Chambers et al. (2014) qui utilise uniquement l?information disponible dans le domaine d?intérêt. Dans certaines situations, un biais non négligeable est possible pour l?estimateur de Sinha & Rao (2009), alors que les estimateurs proposés exhibent un faible biais pour un choix approprié de la fonction d?influence et de la constante de robustesse. Les simulations Monte Carlo sont effectuées, et les comparaisons sont faites entre les estimateurs proposés et ceux de Sinha & Rao (2009) et de Chambers et al. (2014). Les résultats montrent que les estimateurs de Sinha & Rao (2009) et de Chambers et al. (2014) peuvent avoir un biais important, alors que les estimateurs proposés ont une meilleure performance en termes de biais et d?erreur quadratique moyenne. En outre, nous proposons une nouvelle procédure bootstrap pour l?estimation de l?erreur quadratique moyenne des estimateurs robustes des petits domaines. Contrairement aux procédures existantes, nous montrons formellement la validité asymptotique de la méthode bootstrap proposée. Par ailleurs, la méthode proposée est semi-paramétrique, c?est-à-dire, elle n?est pas assujettie à une hypothèse sur les distributions des erreurs ou des effets aléatoires. Ainsi, elle est particulièrement attrayante et plus largement applicable. Nous examinons les performances de notre procédure bootstrap avec les simulations Monte Carlo. Les résultats montrent que notre procédure performe bien et surtout performe mieux que tous les compétiteurs étudiés. Une application de la méthode proposée est illustrée en analysant les données réelles contenant des valeurs aberrantes de Battese, Harter & Fuller (1988). S?agissant de l?imputation en présence de non-réponse partielle, certaines formes d?imputation simple ont été étudiées. L?imputation par la régression déterministe entre les classes, qui inclut l?imputation par le ratio et l?imputation par la moyenne sont souvent utilisées dans les enquêtes. Ces méthodes d?imputation peuvent conduire à des estimateurs imputés biaisés si le modèle d?imputation ou le modèle de non-réponse n?est pas correctement spécifié. Des estimateurs doublement robustes ont été développés dans les années récentes. Ces estimateurs sont sans biais si l?un au moins des modèles d?imputation ou de non-réponse est bien spécifié. Cependant, en présence des valeurs aberrantes, les estimateurs imputés doublement robustes peuvent être très instables. En utilisant le concept de biais conditionnel, nous proposons une version robuste aux valeurs aberrantes de l?estimateur doublement robuste. Les résultats des études par simulations montrent que l?estimateur proposé performe bien pour un choix approprié de la constante de robustesse.

Publications choisis Tout déplier Tout replier

Bootstrap methods for imputed data from regression, ratio and hot-deck imputation

Mashreghi, Zeinab, Léger, Christian et Haziza, David, Bootstrap methods for imputed data from regression, ratio and hot-deck imputation 42, 142--167 (2014), , Canad. J. Statist.

Doubly robust inference with missing data in survey sampling

Kim, Jae Kwang et Haziza, David, Doubly robust inference with missing data in survey sampling 24, 375--394 (2014), , Statist. Sinica

Controlling the bias of robust small-area estimators

Dongmo Jiongo, V., Haziza, D. et Duchesne, P., Controlling the bias of robust small-area estimators 100, 843--858 (2013), , Biometrika

A unified approach to robust estimation in finite population sampling

Beaumont, J.-F., Haziza, D. et Ruiz-Gazen, A., A unified approach to robust estimation in finite population sampling 100, 555--569 (2013), , Biometrika

Doubly robust point and variance estimation in the presence of imputed survey data

Haziza, David et Picard, Frédéric, Doubly robust point and variance estimation in the presence of imputed survey data 40, 259--281 (2012), , Canad. J. Statist.

Comments on the paper ``Bias-adjustment and calibration of jackknife variance estimator in the presence of non-response''

Yung, Wesley et Haziza, David, Comments on the paper ``Bias-adjustment and calibration of jackknife variance estimator in the presence of non-response'' 142, 2232--2240 (2012), , J. Statist. Plann. Inference

Fully efficient estimation of coefficients of correlation in the presence of imputed survey data

Chauvet, Guillaume et Haziza, David, Fully efficient estimation of coefficients of correlation in the presence of imputed survey data 40, 124--149 (2012), , Canad. J. Statist.

Comparison of variance estimators in two-phase sampling: an empirical investigation

Haziza, D., Hidiroglou, M. A. et Rao, J. N. K., Comparison of variance estimators in two-phase sampling: an empirical investigation 27, 477--492 (2011), , Pakistan J. Statist.

On balanced random imputation in surveys

Chauvet, G., Deville, J.-C. et Haziza, D., On balanced random imputation in surveys 98, 459--471 (2011), , Biometrika

On variance estimation under auxiliary value imputation in sample surveys

Beaumont, Jean-François, Haziza, David et Bocci, Cynthia, On variance estimation under auxiliary value imputation in sample surveys 21, 515--537 (2011), , Statist. Sinica

Variance estimation in two-stage cluster sampling under imputation for missing data

Haziza, David et Rao, J. N. K., Variance estimation in two-stage cluster sampling under imputation for missing data 4, 827--844 (2010), , J. Stat. Theory Pract.

Sampling and estimation in the presence of cut-off sampling

Haziza, David, Chauvet, Guillaume et Deville, Jean-Claude, Sampling and estimation in the presence of cut-off sampling 52, 303--319 (2010), , Aust. N. Z. J. Stat.

Variance estimation in two-phase sampling

Hidiroglou, M. A., Rao, J. N. K. et Haziza, David, Variance estimation in two-phase sampling 51, 127--141 (2009), , Aust. N. Z. J. Stat.

Inference for domains under imputation for missing survey data

Haziza, David et Rao, J. N. K., Inference for domains under imputation for missing survey data 33, 149--161 (2005), , Canad. J. Statist.