In the multiple regression model we prove that the coefficient t-test for a variable of interest is uniformly most powerful unbiased, with the other parameters considered nuisance. The proof is based on the theory of tests with Neyman-structure and does not assume unbiasedness or linearity of the test statistic. We further show that the Gram-Schmidt decomposition of the design matrix leads to a family of regression model with potentially more powerful tests for the corresponding transformed regressors. Finally, we discuss interpretation and performance criteria for the Gram-Schmidt regression compared to standard multiple regression, and show how the power differential has major implications for study design.
academic
Tests uniformément les plus puissants dans les modèles linéaires
Cet article démontre que le test-t sur les coefficients des variables d'intérêt dans les modèles de régression multivariée est uniformément le plus puissant sans biais (UMPU), les autres paramètres étant traités comme des paramètres de nuisance. La preuve repose sur la théorie des tests possédant une structure de Neyman, sans supposer l'absence de biais du test statistique ou la linéarité. L'article montre en outre que la décomposition de Gram-Schmidt de la matrice de conception conduit à une série de modèles de régression offrant potentiellement une puissance de test plus forte pour les régresseurs transformés correspondants. Enfin, il discute des critères d'interprétation et de performance entre la régression de Gram-Schmidt et la régression multivariée standard, et démontre l'impact important des différences de puissance sur la conception de la recherche.
Problème de multicolinéarité: Les variables prédictives corrélées dans la régression multivariée entraînent une perte de puissance et d'autres problèmes. Dans les cas extrêmes, les variables prédictives parfaitement corrélées conduisent à des modèles suridentifiés qui ne peuvent pas être ajustés.
Limitations de la théorie existante: La discussion théorique de la régression multivariée se concentre principalement sur les propriétés des estimateurs MCO (BLUE et BUE), mais reste limitée à l'espace des régresseurs originaux, sans résoudre les problèmes pratiques de multicolinéarité.
Lacune dans la théorie des tests: Bien qu'il soit connu que les estimateurs sans biais basés sur des statistiques suffisantes sont les seuls UMVUE, il n'est pas évident que les tests basés sur ces estimateurs soient UMP.
Preuve théorique: Première démonstration formelle que le test-t de coefficient dans la régression multivariée est un test UMPU
Innovation méthodologique: Proposition d'une méthode de transformation de régression basée sur la décomposition de Gram-Schmidt, éliminant complètement la corrélation entre les variables prédictives
Analyse de puissance: Établissement d'une nouvelle mesure de multicolinéarité Δ, quantifiant l'avantage de puissance de la régression GS par rapport à la régression standard
Orientation pour l'application: Fourniture d'une base théorique pour le calcul de la taille d'échantillon dans la conception de la recherche, démontrant l'importance pratique des différences de puissance
Considérons le modèle de régression multivariée:
Y=β1x1+β2x2+…+βpxp+ϵ
où ϵ∼N(0,σ2I), l'objectif étant de tester l'hypothèse sur le paramètre d'intérêt βi:
H0:βi≤0vsH1:βi>0
Théorème 1: Lorsque les variables prédictives x1,x2,…,xp sont orthonormalisées, le test
ϕ={0,1,si V<tn−p,1−αsi V≥tn−p,1−α
où V=YTY−∑i=1p(xiTY)2n−pxpTY∼tn−p, est un test UMPU pour H0:βp≤0.
Théorème 2: Le test unilatéral de coefficient basé sur l'estimation MCO est UMPU dans la régression multivariée.
La preuve s'effectue en construisant la décomposition GS de la matrice de conception M, en reparamétrant le modèle original sous forme orthogonale, puis en appliquant le résultat du théorème 1.
Approche théorique: Utilisation de la théorie des tests de structure de Neyman, indépendante de l'hypothèse d'absence de biais du test statistique
Stratégie de transformation: Préservation de l'interprétabilité partielle des variables par décomposition GS, supérieure à l'analyse en composantes principales
Mesure de puissance: Introduction de Δ=q1Tββ1∥q1∥ comme mesure complète de l'impact de la multicolinéarité
Contribution théorique: Démonstration de la propriété UMPU du test-t standard, comblant une lacune dans la théorie des tests de régression
Contribution méthodologique: La transformation GS fournit une voie efficace pour traiter la multicolinéarité, améliorant significativement la puissance dans les conditions appropriées
Valeur pratique: La nouvelle mesure Δ fournit une base théorique pour la conception de la recherche et le calcul de la taille d'échantillon
Dépendance à l'ordre: L'interprétation de la méthode GS dépend de l'ordre d'orthogonalisation, nécessitant des connaissances préalables ou une enquête indépendante
Conditions d'application: L'amélioration de puissance est principalement significative dans le cas de variables prédictives positivement corrélées
Hypothèses causales: L'interprétation de l'ampleur de l'effet nécessite un modèle de facteurs potentiels raisonnable
Rigueur théorique: Basée sur la théorie mature des tests de structure de Neyman, avec un processus de preuve complet et rigoureux
Valeur pratique: Fourniture d'exemples numériques concrets et de preuves de simulation, démontrant l'efficacité pratique de la méthode
Innovativité: Combinaison de la décomposition classique de Gram-Schmidt avec la théorie moderne des tests statistiques, produisant de nouvelles perspectives
Clarté de rédaction: Structure d'article complète, hiérarchie claire de la théorie à l'application
Bhattacharya, P. and Burman, P. (2016). Theory and Methods of Statistics. Elsevier.
Hoerl, A. E. and Kennard, R. W. (1970). Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics, 12(1):55–67.
King, M. L. and Smith, M. D. (1986). Joint one-sided tests of linear regression coefficients. Journal of Econometrics, 32(3):367–383.
Lehmann, E. and Romano, J. P. (2022). Testing Statistical Hypotheses. Springer International Publishing.
Cet article apporte des contributions importantes tant sur le plan théorique que méthodologique, fournissant une nouvelle base théorique et des outils pratiques pour l'analyse de régression multivariée. Malgré certaines limitations, son innovativité et sa valeur pratique en font un travail important pour la statistique et les domaines d'application.