Robert Cousins has posted a comment on my manuscript on ``Confidence intervals for the Poisson distribution''. His key point is that one should not include in the likelihood non-physical parameter values, even for frequency statistics. This is my response, in which I contend that it can be useful to do so when discussing such descriptive statistics.
- ID de l'article : 2510.25162
- Titre : Response to Comment from Robert Cousins on Confidence intervals for the Poisson distribution
- Auteur : Frank C. Porter (California Institute of Technology)
- Classification : physics.data-an (Analyse de données en physique)
- Date de publication : 3 novembre 2025 (version v2)
- Lien de l'article : https://arxiv.org/abs/2510.25162
Cet article constitue une réponse au commentaire de Robert Cousins. La controverse centrale porte sur la question suivante : dans le cadre de la statistique fréquentiste, la fonction de vraisemblance doit-elle inclure des valeurs de paramètres non physiques (comme une intensité de signal négative) ? Cousins soutient que non, tandis que Porter affirme que cela est utile lors de la discussion de statistiques descriptives.
Dans la construction d'intervalles de confiance pour la distribution de Poisson, lorsque la valeur observée n est inférieure au bruit de fond connu b, le paramètre d'intensité du signal θ = n - b prend des valeurs négatives. Cela soulève une question fondamentale : dans le cadre de la statistique fréquentiste, la fonction de vraisemblance doit-elle être définie dans les régions de paramètres physiquement impossibles (θ < 0) ?
- Au niveau théorique : Implique la distinction essentielle entre la statistique fréquentiste et la statistique bayésienne, concernant les fondements de l'inférence statistique
- Au niveau pratique : Dans les expériences de physique des hautes énergies, les estimations négatives de signal dues aux fluctuations du bruit de fond se produisent fréquemment ; la question de la manière correcte de rapporter ces résultats de mesure est un problème réel
- Au niveau méthodologique : Affecte la définition des statistiques suffisantes et l'application de l'estimation du maximum de vraisemblance
- Point de vue de Cousins : La fonction de vraisemblance doit être considérée comme indéfinie dans les régions non physiques, car le modèle physique n'existe pas dans cette région
- Point de vue de Porter : Lors de la description des résultats de mesure, il est utile de permettre à la fonction de vraisemblance de s'étendre aux régions non physiques, ce qui ne viole pas les contraintes physiques
Les manuels de statistique traditionnels gardent généralement le silence sur cette question, manquant de principes directeurs explicites. Cela conduit à des confusions dans la pratique, certains en venant même à conclure à tort que les méthodes statistiques fréquentistes sont « erronées ».
- Clarification de la nature descriptive de la statistique fréquentiste : Souligne que la statistique fréquentiste fournit une description de la mesure, et non une affirmation de croyance concernant les paramètres
- Argumentation en faveur de la définition de la fonction de vraisemblance dans les régions non physiques : Démontre par le concept de statistique suffisante que θ̂ = n - b contient plus d'information que max(n - b, 0)
- Clarification de la relation entre statistique descriptive et statistique inférentielle : La statistique descriptive peut fournir des informations pour l'inférence, mais ne constitue pas en elle-même une affirmation de degré de croyance
- Fourniture de directives méthodologiques pratiques : Soutient le rapport des estimations négatives de signal dans les expériences (par exemple θ̂ = -2 ± 1)
Considérons un échantillon aléatoire N = 0, 1, 2, ... provenant d'une distribution de Poisson, dont la moyenne μ est égale à la somme de l'intensité du signal θ ≥ 0 et du bruit de fond connu b (≥ 0) :
f(n;θ,b)=n!μne−μ=n!(θ+b)ne−θ−b
où n est une valeur possible de N.
La fonction de vraisemblance définie par Porter est :
L(θ;n)=n!μne−μ=n!(θ+b)ne−θ−b
Point clé : Cette fonction est mathématiquement définie pour tout μ ≥ 0, même lorsque θ = μ - b < 0.
L'argumentation centrale de Porter repose sur le concept de statistique suffisante :
- N - b est une statistique suffisante pour θ : Elle contient toute l'information des données concernant θ
- max(N - b, 0) n'est pas une statistique suffisante : Lorsque l'on force l'estimateur à être non négatif, on perd de l'information
- Par conséquent : θ̂ = n - b en tant que statistique descriptive est plus informative que la version tronquée
La position défendue par Porter est :
- Les résultats de la statistique fréquentiste sont descriptifs : Ils décrivent la mesure elle-même, et non la valeur réelle du paramètre
- Ne doivent pas être interprétés comme des affirmations de degré de croyance : Les affirmations de probabilité se réfèrent uniquement aux propriétés de fréquence à long terme
- Peuvent fournir des informations pour l'inférence : Lorsqu'on observe θ̂ = -2, on peut en déduire (au sens du degré de croyance) que θ est « probablement » très petit
Dans le cadre bayésien, il n'y a pas de controverse :
- La distribution a priori limite naturellement les paramètres à la région physique
- La croyance dans la région non physique est nulle
- Les contraintes physiques sont réalisées par l'a priori et non par la fonction de vraisemblance
Distinction entre « distribution d'échantillonnage » et « domaine de définition de la fonction de vraisemblance » :
- La distribution d'échantillonnage suppose toujours θ ≥ 0 (contrainte physique)
- La fonction de vraisemblance en tant qu'objet mathématique peut être définie sur un domaine plus large
- Cette distinction permet d'utiliser tous les outils mathématiques sans violer le modèle physique
Porter propose que, si les autorités statistiques interdisent de définir la « vraisemblance » dans les régions non physiques, on pourrait parler de « descriptibilité » et de « descriptibilité maximale », soulignant sa nature d'outil descriptif.
Cette approche reste cohérente dans différentes distributions :
- Distribution de Poisson : θ̂ = n - b peut être négatif
- Distribution normale : des considérations similaires sont discutées dans la référence 4
- Préserve l'universalité et la cohérence des méthodes statistiques
Porter cite les ouvrages classiques de Kendall et al. (Volume 2A, sections 26.58-26.78), en particulier l'énoncé de la section 26.69 :
« Le fait que la méthode fréquentiste ne fournisse pas d'affirmations sur la crédibilité des hypothèses est presque axiomatique, car les fréquentistes refusent d'accepter tout concept de probabilité qui n'a pas d'interprétation fréquentiste. »
Ici, « probabilité₁ » désigne la probabilité au sens du degré de croyance.
Porter souligne que la mauvaise interprétation de la statistique fréquentiste comme une affirmation inférentielle a causé une grande confusion :
Cas typique : En 2015, l'éditeur de la revue de psychologie Basic and Applied Social Psychology a affirmé que les valeurs p étaient « invalides » et en a interdit l'utilisation, ce qui est une conséquence directe de la confusion concernant la nature de la statistique fréquentiste.
Bien que Porter souligne que la statistique fréquentiste est descriptive, il reconnaît :
- Lorsqu'une mesure donne θ̂ = n - b, il est raisonnable de déduire que θ est « plus probablement » proche de θ̂
- Cette inférence entre dans le domaine du degré de croyance
- Lorsqu'on observe un θ̂ négatif, on peut déduire que θ est « probablement » très petit (mais non négatif)
Bien que l'article ne présente pas de résultats expérimentaux spécifiques, le contexte provient de la physique des hautes énergies :
- Recherche de signaux rares (par exemple, nouvelles particules)
- Nombre d'événements de bruit de fond connu b
- Nombre total d'événements observés n
- Nécessité d'estimer l'intensité du signal θ
Lorsque les fluctuations du bruit de fond conduisent à n < b :
- Pratique traditionnelle possible : Rapporter θ̂ = 0 ou ne pas rapporter
- Position de Porter : Rapporter θ̂ = n - b (valeur négative), accompagné d'un intervalle de confiance
- Avantage : Préserve toute l'information de la statistique suffisante
Porter considère qu'il est tout à fait possible de rapporter :
« Le résultat de mesure est θ̂ = -2 ± 1, bien que l'on sache que θ > 0 »
Un tel rapport :
- Décrit complètement la mesure
- Permet au lecteur de déduire que θ est probablement proche de zéro
- Ne prétend pas que θ est réellement négatif
- Shao (2003) : Le manuel Mathematical Statistics contient des exemples soutenant le point de vue de Cousins, mais ils apparaissent dans des chapitres avec davantage de contenu bayésien, sans explication détaillée du contexte
- Kendall et al. (1999) : Kendall's Advanced Theory of Statistics reconnaît les problèmes et controverses de diverses méthodes d'estimation, et son point de vue est cohérent avec la position de Porter
- Narsky & Porter (2014) : Discute de problèmes similaires dans le cas de la distribution normale
- La controverse philosophique entre statistique fréquentiste et statistique bayésienne a une longue histoire
- Les questions concernant le domaine de définition de la fonction de vraisemblance sont souvent évitées dans les manuels de statistique
- La confusion dans la pratique a conduit à des malentendus et à des usages incorrects des méthodes statistiques
- Dans le cadre de la statistique fréquentiste, il est utile et raisonnable de permettre à la fonction de vraisemblance d'être définie dans les régions de paramètres non physiques
- Cela ne viole pas le modèle physique : La distribution d'échantillonnage suppose toujours les contraintes physiques
- La considération des statistiques suffisantes soutient cette approche : N - b contient plus d'information que max(N - b, 0)
- La statistique fréquentiste doit être considérée comme descriptive : Elle fournit une description de la mesure plutôt qu'une croyance concernant les paramètres
- Reconnaît que sa position peut être plus extrême que les précédents historiques
- Croit néanmoins que cette position aide à maintenir la clarté conceptuelle
- Dans le cadre bayésien, il n'y a pas de désaccord ; la controverse se limite à l'interprétation de la statistique fréquentiste
Cette approche méthodologique :
- Permet de rapporter les résultats expérimentaux de manière plus complète
- Évite la perte d'information
- Préserve la cohérence des méthodes statistiques
- Facilite les analyses bayésiennes ultérieures ou les méta-analyses
L'article ne les énonce pas explicitement, mais les directions implicites incluent :
- Clarification supplémentaire de la relation entre statistique fréquentiste et statistique bayésienne
- Généralisation des pratiques de rapport statistique raisonnables en physique expérimentale
- Éducation des utilisateurs de statistique pour éviter les malentendus courants
- Clarté conceptuelle :
- Distinction claire entre statistique descriptive et statistique inférentielle
- Définition précise de la nature et des limites de la statistique fréquentiste
- L'argumentation basée sur les statistiques suffisantes est convaincante
- Orientation pratique :
- Aborde les vrais problèmes rencontrés dans les expériences pratiques
- Fournit des directives méthodologiques opérationnelles
- Évite la perte d'information
- Fondations théoriques solides :
- Cite la littérature statistique classique pour soutenir les arguments
- L'argumentation mathématique basée sur les statistiques suffisantes est rigoureuse
- La comparaison avec la méthode bayésienne est appropriée
- Écriture claire :
- Structure logique claire
- Reconnaît la rationalité des différents points de vue
- Ton professionnel et mesuré
- Controverse philosophique possible :
- La question de la manière dont la fonction de vraisemblance « devrait » être définie a une composante philosophique inhérente
- Différentes écoles statistiques peuvent avoir des désaccords irréconciliables
- Porter reconnaît qu'un consensus peut ne pas être atteint
- Confusion potentielle dans la pratique :
- Permettre des estimateurs négatifs peut être mal compris par des non-spécialistes
- Nécessite des explications et une éducation supplémentaires
- Peut causer de la confusion dans certains domaines d'application
- Preuves empiriques limitées :
- Principalement des arguments conceptuels et théoriques
- Manque d'études de cas avec analyse de données réelles
- N'illustre pas les effets pratiques dans des expériences concrètes
- Discussion insuffisante du point de vue de Cousins :
- Énonce principalement sa propre position
- Répond moins aux arguments spécifiques des objections
- Peut ne pas avoir pleinement compris les préoccupations sous-jacentes de l'autre partie
Aspects positifs :
- Fournit un soutien théorique aux pratiques statistiques en physique des hautes énergies et domaines connexes
- Aide à clarifier la nature de la statistique fréquentiste
- Peut influencer les normes de rapport des résultats expérimentaux
Limitations :
- Peut avoir un impact direct uniquement dans des domaines spécifiques (comme la physique des particules)
- La communauté statistique peut continuer à avoir des désaccords
- Nécessite une éducation et une promotion pour modifier les pratiques
- Cet article est de nature théorique/méthodologique et ne concerne pas la reproductibilité expérimentale
- Les concepts et arguments sont clairs et faciles à comprendre et à appliquer
- Les dérivations mathématiques sont simples et directes
Scénarios les plus appropriés :
- Expériences de physique des hautes énergies : Recherche de signaux, estimation du bruit de fond
- Expériences à faible taux de comptage : La statistique de Poisson est dominante
- Situations où le rapport de statistiques suffisantes est important : La transmission complète d'information est cruciale
Scénarios moins appropriés :
- Communication scientifique destinée au public : Une intensité de signal négative peut causer des malentendus
- Environnements de prise de décision réglementaire : Peut nécessiter des approches de rapport plus conservatrices
- Audiences non familières avec les statistiques : Nécessite des explications supplémentaires
La contribution centrale de Porter réside dans :
- Clarification de la limite entre « description » et « inférence » en statistique fréquentiste
- Fourniture d'un soutien théorique basé sur les statistiques suffisantes pour la définition de la fonction de vraisemblance dans les régions non physiques
- Fourniture de directives de rapport pratiques : Permettre le rapport d'estimateurs de paramètres négatifs
- Clarification de la relation avec la méthode bayésienne : Aucun désaccord dans ce cadre
Cet article est une contribution méthodologique importante qui, bien qu'elle ne mette pas fin à la controverse, fournit une perspective précieuse pour la pratique statistique.
1 Robert D. Cousins. Comment on Frank Porter, "Confidence intervals for the Poisson distribution", 2025. arXiv:2509.17339
2 Frank C. Porter. Confidence intervals for the Poisson distribution, 2025. arXiv:2509.02852
3 Jun Shao. Mathematical Statistics, 2nd edition. Springer-Verlag, 2003
4 I. Narsky and F. C. Porter. Statistical analysis techniques in particle physics, 2014
5 Alan Stuart et al. Kendall's Advanced Theory of Statistics, Volume 2A, 1999
6 David Trafimow and Michael Marks. Editorial. Basic and Applied Social Psychology, 37(1):1–2, 2015
Évaluation globale : Cet article est une contribution méthodologique conceptuellement claire et solidement argumentée qui fournit une perspective précieuse sur les problèmes pratiques rencontrés en statistique. Bien qu'il puisse ne pas convaincre tout le monde, son argumentation basée sur les statistiques suffisantes et sa clarification de la nature de la statistique fréquentiste fournissent des directives importantes pour les physiciens expérimentaux. La valeur principale de l'article réside dans la clarification des concepts et la fourniture de directives méthodologiques pratiques, plutôt que dans la résolution d'un problème technique ayant une réponse définitive.