2025-11-11T17:58:09.979705

Response to Comment from Robert Cousins on Confidence intervals for the Poisson distribution

Porter

Robert Cousins has posted a comment on my manuscript on ``Confidence intervals for the Poisson distribution''. His key point is that one should not include in the likelihood non-physical parameter values, even for frequency statistics. This is my response, in which I contend that it can be useful to do so when discussing such descriptive statistics.

academic

Réponse au commentaire de Robert Cousins sur les intervalles de confiance pour la distribution de Poisson

Informations de base

ID de l'article : 2510.25162
Titre : Response to Comment from Robert Cousins on Confidence intervals for the Poisson distribution
Auteur : Frank C. Porter (California Institute of Technology)
Classification : physics.data-an (Analyse de données en physique)
Date de publication : 3 novembre 2025 (version v2)
Lien de l'article : https://arxiv.org/abs/2510.25162

Résumé

Cet article constitue une réponse au commentaire de Robert Cousins. La controverse centrale porte sur la question suivante : dans le cadre de la statistique fréquentiste, la fonction de vraisemblance doit-elle inclure des valeurs de paramètres non physiques (comme une intensité de signal négative) ? Cousins soutient que non, tandis que Porter affirme que cela est utile lors de la discussion de statistiques descriptives.

Contexte et motivation de la recherche

Problème central

Dans la construction d'intervalles de confiance pour la distribution de Poisson, lorsque la valeur observée n est inférieure au bruit de fond connu b, le paramètre d'intensité du signal θ = n - b prend des valeurs négatives. Cela soulève une question fondamentale : dans le cadre de la statistique fréquentiste, la fonction de vraisemblance doit-elle être définie dans les régions de paramètres physiquement impossibles (θ < 0) ?

Importance du problème

Au niveau théorique : Implique la distinction essentielle entre la statistique fréquentiste et la statistique bayésienne, concernant les fondements de l'inférence statistique
Au niveau pratique : Dans les expériences de physique des hautes énergies, les estimations négatives de signal dues aux fluctuations du bruit de fond se produisent fréquemment ; la question de la manière correcte de rapporter ces résultats de mesure est un problème réel
Au niveau méthodologique : Affecte la définition des statistiques suffisantes et l'application de l'estimation du maximum de vraisemblance

Cœur de la controverse

Point de vue de Cousins : La fonction de vraisemblance doit être considérée comme indéfinie dans les régions non physiques, car le modèle physique n'existe pas dans cette région
Point de vue de Porter : Lors de la description des résultats de mesure, il est utile de permettre à la fonction de vraisemblance de s'étendre aux régions non physiques, ce qui ne viole pas les contraintes physiques

Limitations des méthodes existantes

Les manuels de statistique traditionnels gardent généralement le silence sur cette question, manquant de principes directeurs explicites. Cela conduit à des confusions dans la pratique, certains en venant même à conclure à tort que les méthodes statistiques fréquentistes sont « erronées ».

Contributions principales

Clarification de la nature descriptive de la statistique fréquentiste : Souligne que la statistique fréquentiste fournit une description de la mesure, et non une affirmation de croyance concernant les paramètres
Argumentation en faveur de la définition de la fonction de vraisemblance dans les régions non physiques : Démontre par le concept de statistique suffisante que θ̂ = n - b contient plus d'information que max(n - b, 0)
Clarification de la relation entre statistique descriptive et statistique inférentielle : La statistique descriptive peut fournir des informations pour l'inférence, mais ne constitue pas en elle-même une affirmation de degré de croyance
Fourniture de directives méthodologiques pratiques : Soutient le rapport des estimations négatives de signal dans les expériences (par exemple θ̂ = -2 ± 1)

Détails méthodologiques

Formulation mathématique du problème

Considérons un échantillon aléatoire N = 0, 1, 2, ... provenant d'une distribution de Poisson, dont la moyenne μ est égale à la somme de l'intensité du signal θ ≥ 0 et du bruit de fond connu b (≥ 0) :

$f(n; θ, b) = \frac{μ^n}{n!}e^{-μ} = \frac{(θ + b)^n}{n!}e^{-θ-b}$

où n est une valeur possible de N.

Définition de la fonction de vraisemblance

La fonction de vraisemblance définie par Porter est :

$L(θ; n) = \frac{μ^n}{n!}e^{-μ} = \frac{(θ + b)^n}{n!}e^{-θ-b}$

Point clé : Cette fonction est mathématiquement définie pour tout μ ≥ 0, même lorsque θ = μ - b < 0.

Argumentation basée sur les statistiques suffisantes

L'argumentation centrale de Porter repose sur le concept de statistique suffisante :

N - b est une statistique suffisante pour θ : Elle contient toute l'information des données concernant θ
max(N - b, 0) n'est pas une statistique suffisante : Lorsque l'on force l'estimateur à être non négatif, on perd de l'information
Par conséquent : θ̂ = n - b en tant que statistique descriptive est plus informative que la version tronquée

Interprétation descriptive de la statistique fréquentiste

La position défendue par Porter est :

Les résultats de la statistique fréquentiste sont descriptifs : Ils décrivent la mesure elle-même, et non la valeur réelle du paramètre
Ne doivent pas être interprétés comme des affirmations de degré de croyance : Les affirmations de probabilité se réfèrent uniquement aux propriétés de fréquence à long terme
Peuvent fournir des informations pour l'inférence : Lorsqu'on observe θ̂ = -2, on peut en déduire (au sens du degré de croyance) que θ est « probablement » très petit

Contraste avec l'approche bayésienne

Dans le cadre bayésien, il n'y a pas de controverse :

La distribution a priori limite naturellement les paramètres à la région physique
La croyance dans la région non physique est nulle
Les contraintes physiques sont réalisées par l'a priori et non par la fonction de vraisemblance

Points d'innovation technique

1. Innovation au niveau conceptuel

Distinction entre « distribution d'échantillonnage » et « domaine de définition de la fonction de vraisemblance » :

La distribution d'échantillonnage suppose toujours θ ≥ 0 (contrainte physique)
La fonction de vraisemblance en tant qu'objet mathématique peut être définie sur un domaine plus large
Cette distinction permet d'utiliser tous les outils mathématiques sans violer le modèle physique

2. Flexibilité terminologique

Porter propose que, si les autorités statistiques interdisent de définir la « vraisemblance » dans les régions non physiques, on pourrait parler de « descriptibilité » et de « descriptibilité maximale », soulignant sa nature d'outil descriptif.

3. Cohérence méthodologique

Cette approche reste cohérente dans différentes distributions :

Distribution de Poisson : θ̂ = n - b peut être négatif
Distribution normale : des considérations similaires sont discutées dans la référence 4
Préserve l'universalité et la cohérence des méthodes statistiques

Analyse théorique

Nature de la statistique fréquentiste

Porter cite les ouvrages classiques de Kendall et al. (Volume 2A, sections 26.58-26.78), en particulier l'énoncé de la section 26.69 :

« Le fait que la méthode fréquentiste ne fournisse pas d'affirmations sur la crédibilité des hypothèses est presque axiomatique, car les fréquentistes refusent d'accepter tout concept de probabilité qui n'a pas d'interprétation fréquentiste. »

Ici, « probabilité₁ » désigne la probabilité au sens du degré de croyance.

Dangers de la confusion

Porter souligne que la mauvaise interprétation de la statistique fréquentiste comme une affirmation inférentielle a causé une grande confusion :

Cas typique : En 2015, l'éditeur de la revue de psychologie Basic and Applied Social Psychology a affirmé que les valeurs p étaient « invalides » et en a interdit l'utilisation, ce qui est une conséquence directe de la confusion concernant la nature de la statistique fréquentiste.

Statut de l'inférence

Bien que Porter souligne que la statistique fréquentiste est descriptive, il reconnaît :

Lorsqu'une mesure donne θ̂ = n - b, il est raisonnable de déduire que θ est « plus probablement » proche de θ̂
Cette inférence entre dans le domaine du degré de croyance
Lorsqu'on observe un θ̂ négatif, on peut déduire que θ est « probablement » très petit (mais non négatif)

Scénarios expérimentaux/d'application

Expériences de physique des hautes énergies

Bien que l'article ne présente pas de résultats expérimentaux spécifiques, le contexte provient de la physique des hautes énergies :

Recherche de signaux rares (par exemple, nouvelles particules)
Nombre d'événements de bruit de fond connu b
Nombre total d'événements observés n
Nécessité d'estimer l'intensité du signal θ

Situation réelle

Lorsque les fluctuations du bruit de fond conduisent à n < b :

Pratique traditionnelle possible : Rapporter θ̂ = 0 ou ne pas rapporter
Position de Porter : Rapporter θ̂ = n - b (valeur négative), accompagné d'un intervalle de confiance
Avantage : Préserve toute l'information de la statistique suffisante

Exemple de rapport

Porter considère qu'il est tout à fait possible de rapporter :

« Le résultat de mesure est θ̂ = -2 ± 1, bien que l'on sache que θ > 0 »

Un tel rapport :

Décrit complètement la mesure
Permet au lecteur de déduire que θ est probablement proche de zéro
Ne prétend pas que θ est réellement négatif

Travaux connexes

Littérature statistique

Shao (2003) : Le manuel Mathematical Statistics contient des exemples soutenant le point de vue de Cousins, mais ils apparaissent dans des chapitres avec davantage de contenu bayésien, sans explication détaillée du contexte
Kendall et al. (1999) : Kendall's Advanced Theory of Statistics reconnaît les problèmes et controverses de diverses méthodes d'estimation, et son point de vue est cohérent avec la position de Porter
Narsky & Porter (2014) : Discute de problèmes similaires dans le cas de la distribution normale

Contexte historique de la controverse

La controverse philosophique entre statistique fréquentiste et statistique bayésienne a une longue histoire
Les questions concernant le domaine de définition de la fonction de vraisemblance sont souvent évitées dans les manuels de statistique
La confusion dans la pratique a conduit à des malentendus et à des usages incorrects des méthodes statistiques

Conclusions et discussion

Conclusions principales

Dans le cadre de la statistique fréquentiste, il est utile et raisonnable de permettre à la fonction de vraisemblance d'être définie dans les régions de paramètres non physiques
Cela ne viole pas le modèle physique : La distribution d'échantillonnage suppose toujours les contraintes physiques
La considération des statistiques suffisantes soutient cette approche : N - b contient plus d'information que max(N - b, 0)
La statistique fréquentiste doit être considérée comme descriptive : Elle fournit une description de la mesure plutôt qu'une croyance concernant les paramètres

Position de Porter

Reconnaît que sa position peut être plus extrême que les précédents historiques
Croit néanmoins que cette position aide à maintenir la clarté conceptuelle
Dans le cadre bayésien, il n'y a pas de désaccord ; la controverse se limite à l'interprétation de la statistique fréquentiste

Valeur pratique

Cette approche méthodologique :

Permet de rapporter les résultats expérimentaux de manière plus complète
Évite la perte d'information
Préserve la cohérence des méthodes statistiques
Facilite les analyses bayésiennes ultérieures ou les méta-analyses

Directions futures

L'article ne les énonce pas explicitement, mais les directions implicites incluent :

Clarification supplémentaire de la relation entre statistique fréquentiste et statistique bayésienne
Généralisation des pratiques de rapport statistique raisonnables en physique expérimentale
Éducation des utilisateurs de statistique pour éviter les malentendus courants

Évaluation approfondie

Points forts

Clarté conceptuelle :
- Distinction claire entre statistique descriptive et statistique inférentielle
- Définition précise de la nature et des limites de la statistique fréquentiste
- L'argumentation basée sur les statistiques suffisantes est convaincante
Orientation pratique :
- Aborde les vrais problèmes rencontrés dans les expériences pratiques
- Fournit des directives méthodologiques opérationnelles
- Évite la perte d'information
Fondations théoriques solides :
- Cite la littérature statistique classique pour soutenir les arguments
- L'argumentation mathématique basée sur les statistiques suffisantes est rigoureuse
- La comparaison avec la méthode bayésienne est appropriée
Écriture claire :
- Structure logique claire
- Reconnaît la rationalité des différents points de vue
- Ton professionnel et mesuré

Insuffisances

Controverse philosophique possible :
- La question de la manière dont la fonction de vraisemblance « devrait » être définie a une composante philosophique inhérente
- Différentes écoles statistiques peuvent avoir des désaccords irréconciliables
- Porter reconnaît qu'un consensus peut ne pas être atteint
Confusion potentielle dans la pratique :
- Permettre des estimateurs négatifs peut être mal compris par des non-spécialistes
- Nécessite des explications et une éducation supplémentaires
- Peut causer de la confusion dans certains domaines d'application
Preuves empiriques limitées :
- Principalement des arguments conceptuels et théoriques
- Manque d'études de cas avec analyse de données réelles
- N'illustre pas les effets pratiques dans des expériences concrètes
Discussion insuffisante du point de vue de Cousins :
- Énonce principalement sa propre position
- Répond moins aux arguments spécifiques des objections
- Peut ne pas avoir pleinement compris les préoccupations sous-jacentes de l'autre partie

Impact

Aspects positifs :

Fournit un soutien théorique aux pratiques statistiques en physique des hautes énergies et domaines connexes
Aide à clarifier la nature de la statistique fréquentiste
Peut influencer les normes de rapport des résultats expérimentaux

Limitations :

Peut avoir un impact direct uniquement dans des domaines spécifiques (comme la physique des particules)
La communauté statistique peut continuer à avoir des désaccords
Nécessite une éducation et une promotion pour modifier les pratiques

Reproductibilité

Cet article est de nature théorique/méthodologique et ne concerne pas la reproductibilité expérimentale
Les concepts et arguments sont clairs et faciles à comprendre et à appliquer
Les dérivations mathématiques sont simples et directes

Scénarios d'application

Scénarios les plus appropriés :

Expériences de physique des hautes énergies : Recherche de signaux, estimation du bruit de fond
Expériences à faible taux de comptage : La statistique de Poisson est dominante
Situations où le rapport de statistiques suffisantes est important : La transmission complète d'information est cruciale

Scénarios moins appropriés :

Communication scientifique destinée au public : Une intensité de signal négative peut causer des malentendus
Environnements de prise de décision réglementaire : Peut nécessiter des approches de rapport plus conservatrices
Audiences non familières avec les statistiques : Nécessite des explications supplémentaires

Résumé des contributions méthodologiques

La contribution centrale de Porter réside dans :

Clarification de la limite entre « description » et « inférence » en statistique fréquentiste
Fourniture d'un soutien théorique basé sur les statistiques suffisantes pour la définition de la fonction de vraisemblance dans les régions non physiques
Fourniture de directives de rapport pratiques : Permettre le rapport d'estimateurs de paramètres négatifs
Clarification de la relation avec la méthode bayésienne : Aucun désaccord dans ce cadre

Cet article est une contribution méthodologique importante qui, bien qu'elle ne mette pas fin à la controverse, fournit une perspective précieuse pour la pratique statistique.

Références

1 Robert D. Cousins. Comment on Frank Porter, "Confidence intervals for the Poisson distribution", 2025. arXiv:2509.17339

2 Frank C. Porter. Confidence intervals for the Poisson distribution, 2025. arXiv:2509.02852

3 Jun Shao. Mathematical Statistics, 2nd edition. Springer-Verlag, 2003

4 I. Narsky and F. C. Porter. Statistical analysis techniques in particle physics, 2014

5 Alan Stuart et al. Kendall's Advanced Theory of Statistics, Volume 2A, 1999

6 David Trafimow and Michael Marks. Editorial. Basic and Applied Social Psychology, 37(1):1–2, 2015

Évaluation globale : Cet article est une contribution méthodologique conceptuellement claire et solidement argumentée qui fournit une perspective précieuse sur les problèmes pratiques rencontrés en statistique. Bien qu'il puisse ne pas convaincre tout le monde, son argumentation basée sur les statistiques suffisantes et sa clarification de la nature de la statistique fréquentiste fournissent des directives importantes pour les physiciens expérimentaux. La valeur principale de l'article réside dans la clarification des concepts et la fourniture de directives méthodologiques pratiques, plutôt que dans la résolution d'un problème technique ayant une réponse définitive.