The study of associations and their causal explanations is a central research activity whose methodology varies tremendously across fields. Even within specialized subfields, comparisons across textbooks and journals reveals that the basics are subject to considerable variation and controversy. This variation is often obscured by the singular viewpoints presented within textbooks and journal guidelines, which may be deceptively written as if the norms they adopt are unchallenged. Furthermore, human limitations and the vastness within fields imply that no one can have expertise across all subfields and that interpretations will be severely constrained by the limitations of studies of human populations.
The present chapter outlines an approach to statistical methods that attempts to recognize these problems from the start, rather than assume they are absent as in the claims of 'statistical significance' and 'confidence' ordinarily attached to statistical tests and interval estimates. It does so by grounding models and statistics in data description, and treating inferences from them as speculations based on assumptions that cannot be fully validated or checked using the analysis data.
- ID de l'article : 2508.10168
- Titre : Statistical methods: Basic concepts, interpretations, and cautions
- Auteur : Sander Greenland (Professeur émérite, Département d'épidémiologie et de statistique, UCLA)
- Classification : stat.ME math.ST stat.TH
- Date de publication : 25 août 2025
- Nature de l'article : Chapitre du Manuel d'épidémiologie, troisième édition
- Lien de l'article : https://arxiv.org/abs/2508.10168
Cet article aborde les problèmes d'application des méthodes statistiques dans les études d'association et les interprétations causales, en soulignant l'existence de divergences méthodologiques considérables entre les disciplines, voire au sein des sous-domaines spécialisés. Les méthodes statistiques traditionnelles supposent des conditions idéales (telles que l'échantillonnage purement aléatoire et les expériences complètement randomisées), mais ces hypothèses sont rarement satisfaites dans les études épidémiologiques réelles. L'auteur propose un nouveau cadre d'interprétation des méthodes statistiques, considérant l'inférence statistique comme une conjecture basée sur des hypothèses qui ne peuvent être complètement vérifiées, plutôt que comme une conclusion certaine, évitant ainsi les abus des concepts de « significativité statistique » et de « confiance ».
- Divergences méthodologiques graves : Différences et controverses significatives entre disciplines, manuels et revues concernant les concepts statistiques fondamentaux
- Idéalisation des conditions d'hypothèse : Les méthodes statistiques traditionnelles supposent des conditions d'échantillonnage aléatoire ou d'allocation aléatoire idéales, rarement satisfaites dans la recherche réelle
- Malentendus généralisés : Les enquêtes montrent que la plupart des utilisateurs ne peuvent pas définir ou interpréter correctement les valeurs p, les tests de significativité et les intervalles de confiance
- Problème de confiance excessive : Les résultats statistiques sont souvent mal interprétés comme des réponses certaines plutôt que comme des conjectures basées sur des hypothèses
- Fournir un cadre d'interprétation des méthodes statistiques plus réaliste et prudent
- Réduire la confiance excessive et les malentendus dans l'inférence statistique
- Repositionner les méthodes statistiques comme des outils de description de données plutôt que comme arbitres autoritaires de l'inférence scientifique
- Souligner l'importance de la vérification des hypothèses et de l'évaluation de l'incertitude
- Redéfinition de l'inférence statistique : Réinterprétation de la valeur p comme mesure de compatibilité entre les données et le modèle d'hypothèse, plutôt que comme probabilité de l'hypothèse
- Introduction du concept d'intervalle de compatibilité : Remplacement de l'« intervalle de confiance » par l'« intervalle de compatibilité » pour éviter le concept trompeur de « confiance »
- Introduction de la valeur S (surprisal) : Utilisation de la valeur de surprise binaire (-log₂(p)) comme mesure d'information, fournissant une interprétation plus intuitive de la valeur p
- Accent sur la dépendance aux hypothèses : Exposition systématique de la sensibilité des résultats statistiques aux hypothèses auxiliaires et de l'incertitude
- Intégration de multiples approches méthodologiques : Promotion des méthodes fréquentiste et bayésienne comme perspectives différentes pour la synthèse des preuves
- Définition traditionnelle : Un modèle désigne généralement une équation exprimant la relation fonctionnelle entre une variable mesurée et d'autres variables
- Définition dans cet article : Un modèle M est l'ensemble complet des hypothèses concernant le comportement du processus de génération des données, incluant l'hypothèse cible H et les hypothèses auxiliaires A
Définition traditionnelle de la valeur p :
où T est la statistique de différence, t est la valeur observée, H est l'hypothèse cible, et A est l'hypothèse auxiliaire.
Réinterprétation : La valeur p représente le degré de compatibilité entre les données et le modèle, variant de 0 (complètement incompatible) à 1 (complètement compatible).
La valeur S est exprimée en bits d'information, fournissant une interprétation plus intuitive :
- S = 4,6 représente un degré de surprise équivalent à obtenir cinq faces identiques en cinq lancers de pièce
- S = 0 représente l'absence d'information ; une valeur S plus grande indique une plus grande incompatibilité
Pour un niveau de significativité α, l'intervalle de compatibilité contient toutes les valeurs de paramètres satisfaisant p > α, évitant la tromperie du concept de « confiance ».
- Conversion sémantique : Passage du langage décisionnel au langage descriptif
- Perspective théorique de l'information : Introduction de concepts de théorie de l'information pour quantifier les preuves statistiques
- Transparence des hypothèses : Distinction explicite entre hypothèses cibles et hypothèses auxiliaires
- Intégration multi-méthodes : Considération des différentes écoles statistiques comme des perspectives complémentaires
L'auteur utilise un ensemble de données hypothétique sur la relation entre l'usage du cannabis et la santé mentale pour démontrer la méthodologie :
Structure des données :
- Taille d'échantillon : 600 personnes (480 non-utilisateurs, 120 utilisateurs de cannabis)
- Variable de résultat : Diagnostic de maladie mentale (binaire)
- Association observée : Taux de diagnostic chez les utilisateurs 8,3 %, chez les non-utilisateurs 3,3 %
Résultats calculés :
- Différence de risque (RD) = 0,050 (5 %)
- Rapport de risque (RR) = 2,5
- Rapport de cotes (OR) = 2,6
- Chi-carré de Pearson = 5,79
- Valeur p approximée = 0,016, valeur p exacte = 0,041
- Mesure de compatibilité : Valeur p comme indicateur de compatibilité entre données et hypothèses
- Contenu informatif : Valeur S quantifiant le contenu informatif des preuves statistiques
- Estimation par intervalle : Intervalle de compatibilité fournissant une estimation de plage de paramètres
- Comparaison d'hypothèses : Comparaison de la fonction de valeur p pour différentes valeurs d'hypothèses
- Valeur p exacte pour H₀: OR = 1 = 0,041 (S = 4,6 bits)
- Valeur p exacte pour H₁: OR = 2 = 0,644 (S = 0,6 bits)
- Intervalle de compatibilité à 95 % : 1,04, 6,36
Interprétation traditionnelle : OR = 1 est « rejeté » au niveau α = 0,05, le résultat est « statistiquement significatif »
Interprétation du nouveau cadre :
- OR = 1 présente une compatibilité faible avec les données (p = 0,041)
- OR = 2 présente une compatibilité élevée avec les données (p = 0,644)
- OR = 6 est plus compatible avec les données que OR = 1 (p = 0,070 > 0,041)
| Méthode | Valeur p | Valeur S | Interprétation |
|---|
| Chi-carré de Pearson | 0,016 | 5,97 | Méthode approximée |
| Exact de Fisher | 0,041 | 4,61 | Méthode exacte |
| Approximation de Wald | Écart important | - | Imprécise avec données rares |
À travers l'exemple du cannabis, l'auteur démontre :
- Dépendance aux hypothèses : Les résultats dépendent fortement des hypothèses auxiliaires (telles que l'échantillonnage aléatoire, l'absence d'interférence, etc.)
- Facteurs de confusion : L'âge, les antécédents médicaux, l'utilisation d'autres médicaments, etc., peuvent confondre l'association réelle
- Erreur de mesure : Impact de l'auto-déclaration d'utilisation et de la précision diagnostique
- Biais de sélection : La sélectivité de la participation à l'enquête peut affecter la généralisation des résultats
- Origines de la valeur p : Remontent au début du XVIIIe siècle, avec les fondations théoriques établies par Pearson (1900) et Fisher (1934)
- Concept de significativité : Apparition du concept de « significativité statistique » dans les années 1880
- Historique des controverses : Critiques précoces de Boring (1919), Pearson (1906) signalant les problèmes de malentendus
L'auteur cite une abondante littérature récente soutenant la réforme statistique :
- Amrhein et al. (2019) : Appel à la « retraite » de la significativité statistique
- McShane et al. (2019, 2024) : Plaidoyer pour aller au-delà des décisions binaires
- Wasserstein et al. (2019) : Déclaration de position de l'ASA sur les valeurs p
- Méthodes bayésiennes : Fournissent des énoncés de probabilité de paramètres, mais dépendent de la distribution a priori
- Inférence causale : Cadre moderne d'inférence causale de Pearl, Hernán & Robins et autres
- Comparaisons multiples : Ajustement de Bonferroni et méthodes alternatives
- Statistiques robustes : Méthodes intensives en calcul telles que le Bootstrap
- Limitations des méthodes statistiques : Les méthodes traditionnelles reposent sur des hypothèses strictes souvent violées dans les applications réelles
- Importance du langage : Les termes tels que « significativité » et « confiance » causent des malentendus systématiques
- Prudence de l'inférence : Les résultats statistiques doivent être considérés comme des conjectures basées sur des hypothèses, non comme des conclusions certaines
- Intégration méthodologique : Les différentes méthodes statistiques doivent être utilisées comme outils complémentaires
- Amélioration de la présentation :
- Fournir la fonction de valeur p plutôt qu'une seule valeur p
- Utiliser des intervalles de compatibilité à la place des intervalles de confiance
- Énumérer explicitement les hypothèses clés
- Cadre d'interprétation :
- Éviter le langage binaire « accepter/rejeter »
- Souligner la dépendance des résultats aux hypothèses
- Considérer la significativité pratique plutôt que seulement la significativité statistique
- Sélection méthodologique :
- Utiliser des méthodes exactes plutôt que des approximations pour grands échantillons
- Effectuer des analyses de sensibilité
- Intégrer plusieurs sources de preuves
- Courbe d'apprentissage : Le nouveau cadre nécessite une réforme fondamentale de l'enseignement statistique
- Complexité computationnelle : Certaines méthodes recommandées sont plus complexes à calculer
- Résistance des revues : Les pratiques éditoriales existantes peuvent entraver l'adoption
- Défis de communication : L'explication aux non-statisticiens devient plus difficile
- Réforme éducative : L'enseignement statistique nécessite une réforme à partir des concepts fondamentaux
- Développement logiciel : Besoin de logiciels statistiques supportant le nouveau cadre d'interprétation
- Établissement de normes : Mise à jour des normes des revues académiques et des organismes de régulation
- Collaboration interdisciplinaire : Promotion de la collaboration entre statisticiens et experts du domaine
- Profondeur théorique : Réflexion philosophique profonde sur l'inférence statistique
- Force pratique : Recommandations concrètes de méthodes et d'interprétations
- Preuves suffisantes : Citations abondantes de littérature soutenant les points de vue
- Clarté d'écriture : Explication claire de concepts complexes avec exemples vivants
- Introduction de la valeur S : Innovation dans l'interprétation de la valeur p sous perspective théorique de l'information
- Cadre de compatibilité : Réforme systématique de la terminologie et des concepts
- Intégration multi-méthodes : Unification des perspectives de différentes écoles statistiques
- Stratification des hypothèses : Distinction explicite entre hypothèses cibles et hypothèses auxiliaires
- Défis d'implémentation : La réforme des pratiques statistiques existantes fait face à une résistance considérable
- Charge computationnelle : Certaines méthodes recommandées augmentent la complexité computationnelle
- Difficultés de transition : La coexistence de cadres anciens et nouveaux peut créer de la confusion
- Difficulté de diffusion : Nécessite un investissement massif en éducation et formation
- Transformation de paradigme : Peut catalyser un changement majeur dans les concepts fondamentaux des statistiques
- Impact interdisciplinaire : Affecte toutes les disciplines utilisant les méthodes statistiques
- Innovation éducative : Stimule la réforme fondamentale de l'enseignement statistique
- Réduction des malentendus : Aide à réduire les malinterprétations des résultats statistiques
- Amélioration de la qualité : Promeut une inférence scientifique plus prudente et précise
- Élaboration de politiques : Améliore la qualité des décisions basées sur les preuves statistiques
- Recherche scientifique : Tous les domaines de recherche basés sur l'inférence statistique
- Recherche médicale : Essais cliniques et études épidémiologiques
- Sciences sociales : Psychologie, économie et autres recherches empiriques
- Décisions réglementaires : Approbation de médicaments, évaluation de politiques, etc.
Cet article cite une abondante littérature importante, incluant :
Littérature classique :
- Pearson, K. (1900). Fondations théoriques précoces des tests statistiques
- Fisher, R.A. (1934). Fondation de la théorie moderne de l'inférence statistique
- Neyman, J. (1977). Théorie statistique fréquentiste
Critiques modernes :
- Amrhein, V., et al. (2019). Mouvement de retraite de la significativité statistique
- Wasserstein, R.L., et al. (2019). Déclaration de l'ASA sur les valeurs p
- McShane, B.B., et al. (2019, 2024). Au-delà des décisions statistiques binaires
Développements méthodologiques :
- Pearl, J. (2009). Théorie de l'inférence causale
- Hernán, M.A., Robins, J.M. (2025). Méthodes épidémiologiques modernes
- Gelman, A., et al. (2013). Analyse de données bayésienne
Résumé : Cet article constitue une contribution théorique et pratique importante à la méthodologie statistique. L'auteur, fort de son expertise statistique approfondie et de son expérience d'application considérable, critique systématiquement les problèmes du cadre traditionnel d'inférence statistique et propose une alternative plus prudente et réaliste. Bien que sa mise en œuvre soit confrontée à des défis, ses principes possèdent une valeur importante pour améliorer la qualité de la recherche scientifique.