2025-11-11T17:58:09.979705

Response to Comment from Robert Cousins on Confidence intervals for the Poisson distribution

Porter
Robert Cousins has posted a comment on my manuscript on ``Confidence intervals for the Poisson distribution''. His key point is that one should not include in the likelihood non-physical parameter values, even for frequency statistics. This is my response, in which I contend that it can be useful to do so when discussing such descriptive statistics.
academic

Réponse au commentaire de Robert Cousins sur les intervalles de confiance pour la distribution de Poisson

Informations de base

  • ID de l'article : 2510.25162
  • Titre : Response to Comment from Robert Cousins on Confidence intervals for the Poisson distribution
  • Auteur : Frank C. Porter (California Institute of Technology)
  • Classification : physics.data-an (Analyse de données en physique)
  • Date de publication : 3 novembre 2025 (version v2)
  • Lien de l'article : https://arxiv.org/abs/2510.25162

Résumé

Cet article constitue une réponse au commentaire de Robert Cousins. La controverse centrale porte sur la question suivante : dans le cadre de la statistique fréquentiste, la fonction de vraisemblance doit-elle inclure des valeurs de paramètres non physiques (comme une intensité de signal négative) ? Cousins soutient que non, tandis que Porter affirme que cela est utile lors de la discussion de statistiques descriptives.

Contexte et motivation de la recherche

Problème central

Dans la construction d'intervalles de confiance pour la distribution de Poisson, lorsque la valeur observée n est inférieure au bruit de fond connu b, le paramètre d'intensité du signal θ = n - b prend des valeurs négatives. Cela soulève une question fondamentale : dans le cadre de la statistique fréquentiste, la fonction de vraisemblance doit-elle être définie dans les régions de paramètres physiquement impossibles (θ < 0) ?

Importance du problème

  1. Au niveau théorique : Implique la distinction essentielle entre la statistique fréquentiste et la statistique bayésienne, concernant les fondements de l'inférence statistique
  2. Au niveau pratique : Dans les expériences de physique des hautes énergies, les estimations négatives de signal dues aux fluctuations du bruit de fond se produisent fréquemment ; la question de la manière correcte de rapporter ces résultats de mesure est un problème réel
  3. Au niveau méthodologique : Affecte la définition des statistiques suffisantes et l'application de l'estimation du maximum de vraisemblance

Cœur de la controverse

  • Point de vue de Cousins : La fonction de vraisemblance doit être considérée comme indéfinie dans les régions non physiques, car le modèle physique n'existe pas dans cette région
  • Point de vue de Porter : Lors de la description des résultats de mesure, il est utile de permettre à la fonction de vraisemblance de s'étendre aux régions non physiques, ce qui ne viole pas les contraintes physiques

Limitations des méthodes existantes

Les manuels de statistique traditionnels gardent généralement le silence sur cette question, manquant de principes directeurs explicites. Cela conduit à des confusions dans la pratique, certains en venant même à conclure à tort que les méthodes statistiques fréquentistes sont « erronées ».

Contributions principales

  1. Clarification de la nature descriptive de la statistique fréquentiste : Souligne que la statistique fréquentiste fournit une description de la mesure, et non une affirmation de croyance concernant les paramètres
  2. Argumentation en faveur de la définition de la fonction de vraisemblance dans les régions non physiques : Démontre par le concept de statistique suffisante que θ̂ = n - b contient plus d'information que max(n - b, 0)
  3. Clarification de la relation entre statistique descriptive et statistique inférentielle : La statistique descriptive peut fournir des informations pour l'inférence, mais ne constitue pas en elle-même une affirmation de degré de croyance
  4. Fourniture de directives méthodologiques pratiques : Soutient le rapport des estimations négatives de signal dans les expériences (par exemple θ̂ = -2 ± 1)

Détails méthodologiques

Formulation mathématique du problème

Considérons un échantillon aléatoire N = 0, 1, 2, ... provenant d'une distribution de Poisson, dont la moyenne μ est égale à la somme de l'intensité du signal θ ≥ 0 et du bruit de fond connu b (≥ 0) :

f(n;θ,b)=μnn!eμ=(θ+b)nn!eθbf(n; θ, b) = \frac{μ^n}{n!}e^{-μ} = \frac{(θ + b)^n}{n!}e^{-θ-b}

où n est une valeur possible de N.

Définition de la fonction de vraisemblance

La fonction de vraisemblance définie par Porter est :

L(θ;n)=μnn!eμ=(θ+b)nn!eθbL(θ; n) = \frac{μ^n}{n!}e^{-μ} = \frac{(θ + b)^n}{n!}e^{-θ-b}

Point clé : Cette fonction est mathématiquement définie pour tout μ ≥ 0, même lorsque θ = μ - b < 0.

Argumentation basée sur les statistiques suffisantes

L'argumentation centrale de Porter repose sur le concept de statistique suffisante :

  1. N - b est une statistique suffisante pour θ : Elle contient toute l'information des données concernant θ
  2. max(N - b, 0) n'est pas une statistique suffisante : Lorsque l'on force l'estimateur à être non négatif, on perd de l'information
  3. Par conséquent : θ̂ = n - b en tant que statistique descriptive est plus informative que la version tronquée

Interprétation descriptive de la statistique fréquentiste

La position défendue par Porter est :

  • Les résultats de la statistique fréquentiste sont descriptifs : Ils décrivent la mesure elle-même, et non la valeur réelle du paramètre
  • Ne doivent pas être interprétés comme des affirmations de degré de croyance : Les affirmations de probabilité se réfèrent uniquement aux propriétés de fréquence à long terme
  • Peuvent fournir des informations pour l'inférence : Lorsqu'on observe θ̂ = -2, on peut en déduire (au sens du degré de croyance) que θ est « probablement » très petit

Contraste avec l'approche bayésienne

Dans le cadre bayésien, il n'y a pas de controverse :

  • La distribution a priori limite naturellement les paramètres à la région physique
  • La croyance dans la région non physique est nulle
  • Les contraintes physiques sont réalisées par l'a priori et non par la fonction de vraisemblance

Points d'innovation technique

1. Innovation au niveau conceptuel

Distinction entre « distribution d'échantillonnage » et « domaine de définition de la fonction de vraisemblance » :

  • La distribution d'échantillonnage suppose toujours θ ≥ 0 (contrainte physique)
  • La fonction de vraisemblance en tant qu'objet mathématique peut être définie sur un domaine plus large
  • Cette distinction permet d'utiliser tous les outils mathématiques sans violer le modèle physique

2. Flexibilité terminologique

Porter propose que, si les autorités statistiques interdisent de définir la « vraisemblance » dans les régions non physiques, on pourrait parler de « descriptibilité » et de « descriptibilité maximale », soulignant sa nature d'outil descriptif.

3. Cohérence méthodologique

Cette approche reste cohérente dans différentes distributions :

  • Distribution de Poisson : θ̂ = n - b peut être négatif
  • Distribution normale : des considérations similaires sont discutées dans la référence 4
  • Préserve l'universalité et la cohérence des méthodes statistiques

Analyse théorique

Nature de la statistique fréquentiste

Porter cite les ouvrages classiques de Kendall et al. (Volume 2A, sections 26.58-26.78), en particulier l'énoncé de la section 26.69 :

« Le fait que la méthode fréquentiste ne fournisse pas d'affirmations sur la crédibilité des hypothèses est presque axiomatique, car les fréquentistes refusent d'accepter tout concept de probabilité qui n'a pas d'interprétation fréquentiste. »

Ici, « probabilité₁ » désigne la probabilité au sens du degré de croyance.

Dangers de la confusion

Porter souligne que la mauvaise interprétation de la statistique fréquentiste comme une affirmation inférentielle a causé une grande confusion :

Cas typique : En 2015, l'éditeur de la revue de psychologie Basic and Applied Social Psychology a affirmé que les valeurs p étaient « invalides » et en a interdit l'utilisation, ce qui est une conséquence directe de la confusion concernant la nature de la statistique fréquentiste.

Statut de l'inférence

Bien que Porter souligne que la statistique fréquentiste est descriptive, il reconnaît :

  • Lorsqu'une mesure donne θ̂ = n - b, il est raisonnable de déduire que θ est « plus probablement » proche de θ̂
  • Cette inférence entre dans le domaine du degré de croyance
  • Lorsqu'on observe un θ̂ négatif, on peut déduire que θ est « probablement » très petit (mais non négatif)

Scénarios expérimentaux/d'application

Expériences de physique des hautes énergies

Bien que l'article ne présente pas de résultats expérimentaux spécifiques, le contexte provient de la physique des hautes énergies :

  • Recherche de signaux rares (par exemple, nouvelles particules)
  • Nombre d'événements de bruit de fond connu b
  • Nombre total d'événements observés n
  • Nécessité d'estimer l'intensité du signal θ

Situation réelle

Lorsque les fluctuations du bruit de fond conduisent à n < b :

  • Pratique traditionnelle possible : Rapporter θ̂ = 0 ou ne pas rapporter
  • Position de Porter : Rapporter θ̂ = n - b (valeur négative), accompagné d'un intervalle de confiance
  • Avantage : Préserve toute l'information de la statistique suffisante

Exemple de rapport

Porter considère qu'il est tout à fait possible de rapporter :

« Le résultat de mesure est θ̂ = -2 ± 1, bien que l'on sache que θ > 0 »

Un tel rapport :

  • Décrit complètement la mesure
  • Permet au lecteur de déduire que θ est probablement proche de zéro
  • Ne prétend pas que θ est réellement négatif

Travaux connexes

Littérature statistique

  1. Shao (2003) : Le manuel Mathematical Statistics contient des exemples soutenant le point de vue de Cousins, mais ils apparaissent dans des chapitres avec davantage de contenu bayésien, sans explication détaillée du contexte
  2. Kendall et al. (1999) : Kendall's Advanced Theory of Statistics reconnaît les problèmes et controverses de diverses méthodes d'estimation, et son point de vue est cohérent avec la position de Porter
  3. Narsky & Porter (2014) : Discute de problèmes similaires dans le cas de la distribution normale

Contexte historique de la controverse

  • La controverse philosophique entre statistique fréquentiste et statistique bayésienne a une longue histoire
  • Les questions concernant le domaine de définition de la fonction de vraisemblance sont souvent évitées dans les manuels de statistique
  • La confusion dans la pratique a conduit à des malentendus et à des usages incorrects des méthodes statistiques

Conclusions et discussion

Conclusions principales

  1. Dans le cadre de la statistique fréquentiste, il est utile et raisonnable de permettre à la fonction de vraisemblance d'être définie dans les régions de paramètres non physiques
  2. Cela ne viole pas le modèle physique : La distribution d'échantillonnage suppose toujours les contraintes physiques
  3. La considération des statistiques suffisantes soutient cette approche : N - b contient plus d'information que max(N - b, 0)
  4. La statistique fréquentiste doit être considérée comme descriptive : Elle fournit une description de la mesure plutôt qu'une croyance concernant les paramètres

Position de Porter

  • Reconnaît que sa position peut être plus extrême que les précédents historiques
  • Croit néanmoins que cette position aide à maintenir la clarté conceptuelle
  • Dans le cadre bayésien, il n'y a pas de désaccord ; la controverse se limite à l'interprétation de la statistique fréquentiste

Valeur pratique

Cette approche méthodologique :

  • Permet de rapporter les résultats expérimentaux de manière plus complète
  • Évite la perte d'information
  • Préserve la cohérence des méthodes statistiques
  • Facilite les analyses bayésiennes ultérieures ou les méta-analyses

Directions futures

L'article ne les énonce pas explicitement, mais les directions implicites incluent :

  • Clarification supplémentaire de la relation entre statistique fréquentiste et statistique bayésienne
  • Généralisation des pratiques de rapport statistique raisonnables en physique expérimentale
  • Éducation des utilisateurs de statistique pour éviter les malentendus courants

Évaluation approfondie

Points forts

  1. Clarté conceptuelle :
    • Distinction claire entre statistique descriptive et statistique inférentielle
    • Définition précise de la nature et des limites de la statistique fréquentiste
    • L'argumentation basée sur les statistiques suffisantes est convaincante
  2. Orientation pratique :
    • Aborde les vrais problèmes rencontrés dans les expériences pratiques
    • Fournit des directives méthodologiques opérationnelles
    • Évite la perte d'information
  3. Fondations théoriques solides :
    • Cite la littérature statistique classique pour soutenir les arguments
    • L'argumentation mathématique basée sur les statistiques suffisantes est rigoureuse
    • La comparaison avec la méthode bayésienne est appropriée
  4. Écriture claire :
    • Structure logique claire
    • Reconnaît la rationalité des différents points de vue
    • Ton professionnel et mesuré

Insuffisances

  1. Controverse philosophique possible :
    • La question de la manière dont la fonction de vraisemblance « devrait » être définie a une composante philosophique inhérente
    • Différentes écoles statistiques peuvent avoir des désaccords irréconciliables
    • Porter reconnaît qu'un consensus peut ne pas être atteint
  2. Confusion potentielle dans la pratique :
    • Permettre des estimateurs négatifs peut être mal compris par des non-spécialistes
    • Nécessite des explications et une éducation supplémentaires
    • Peut causer de la confusion dans certains domaines d'application
  3. Preuves empiriques limitées :
    • Principalement des arguments conceptuels et théoriques
    • Manque d'études de cas avec analyse de données réelles
    • N'illustre pas les effets pratiques dans des expériences concrètes
  4. Discussion insuffisante du point de vue de Cousins :
    • Énonce principalement sa propre position
    • Répond moins aux arguments spécifiques des objections
    • Peut ne pas avoir pleinement compris les préoccupations sous-jacentes de l'autre partie

Impact

Aspects positifs :

  • Fournit un soutien théorique aux pratiques statistiques en physique des hautes énergies et domaines connexes
  • Aide à clarifier la nature de la statistique fréquentiste
  • Peut influencer les normes de rapport des résultats expérimentaux

Limitations :

  • Peut avoir un impact direct uniquement dans des domaines spécifiques (comme la physique des particules)
  • La communauté statistique peut continuer à avoir des désaccords
  • Nécessite une éducation et une promotion pour modifier les pratiques

Reproductibilité

  • Cet article est de nature théorique/méthodologique et ne concerne pas la reproductibilité expérimentale
  • Les concepts et arguments sont clairs et faciles à comprendre et à appliquer
  • Les dérivations mathématiques sont simples et directes

Scénarios d'application

Scénarios les plus appropriés :

  1. Expériences de physique des hautes énergies : Recherche de signaux, estimation du bruit de fond
  2. Expériences à faible taux de comptage : La statistique de Poisson est dominante
  3. Situations où le rapport de statistiques suffisantes est important : La transmission complète d'information est cruciale

Scénarios moins appropriés :

  1. Communication scientifique destinée au public : Une intensité de signal négative peut causer des malentendus
  2. Environnements de prise de décision réglementaire : Peut nécessiter des approches de rapport plus conservatrices
  3. Audiences non familières avec les statistiques : Nécessite des explications supplémentaires

Résumé des contributions méthodologiques

La contribution centrale de Porter réside dans :

  1. Clarification de la limite entre « description » et « inférence » en statistique fréquentiste
  2. Fourniture d'un soutien théorique basé sur les statistiques suffisantes pour la définition de la fonction de vraisemblance dans les régions non physiques
  3. Fourniture de directives de rapport pratiques : Permettre le rapport d'estimateurs de paramètres négatifs
  4. Clarification de la relation avec la méthode bayésienne : Aucun désaccord dans ce cadre

Cet article est une contribution méthodologique importante qui, bien qu'elle ne mette pas fin à la controverse, fournit une perspective précieuse pour la pratique statistique.

Références

1 Robert D. Cousins. Comment on Frank Porter, "Confidence intervals for the Poisson distribution", 2025. arXiv:2509.17339

2 Frank C. Porter. Confidence intervals for the Poisson distribution, 2025. arXiv:2509.02852

3 Jun Shao. Mathematical Statistics, 2nd edition. Springer-Verlag, 2003

4 I. Narsky and F. C. Porter. Statistical analysis techniques in particle physics, 2014

5 Alan Stuart et al. Kendall's Advanced Theory of Statistics, Volume 2A, 1999

6 David Trafimow and Michael Marks. Editorial. Basic and Applied Social Psychology, 37(1):1–2, 2015


Évaluation globale : Cet article est une contribution méthodologique conceptuellement claire et solidement argumentée qui fournit une perspective précieuse sur les problèmes pratiques rencontrés en statistique. Bien qu'il puisse ne pas convaincre tout le monde, son argumentation basée sur les statistiques suffisantes et sa clarification de la nature de la statistique fréquentiste fournissent des directives importantes pour les physiciens expérimentaux. La valeur principale de l'article réside dans la clarification des concepts et la fourniture de directives méthodologiques pratiques, plutôt que dans la résolution d'un problème technique ayant une réponse définitive.