2025-11-12T06:37:10.076735

A Generalized Notion of Completeness and Its Application

Singh, Sahoo, Hazra
From the perspective of data reduction, the notions of minimal sufficient and complete statistics together play an important role in determining optimal statistics (estimators). The classical notion of sufficiency and completeness are not adequate in many robust estimations that are based on different divergences. Recently, the notion of generalized sufficiency based on a generalized likelihood function was introduced in the literature. It is important to note that the concept of sufficiency alone does not necessarily produce optimal statistics (estimators). Thus, in line with the generalized sufficiency, we introduce a generalized notion of completeness with respect to a generalized likelihood function. We then characterize the family of probability distributions that possesses completeness with respect to the generalized likelihood function associated with the density power divergence (DPD). Moreover, we show that the family of distributions associated with the logarithmic density power divergence (LDPD) is not complete. Further, we extend the Lehmann-Scheffé theorem and the Basu's theorem for the generalized likelihood estimation. Subsequently, we obtain the generalized uniformly minimum variance unbiased estimator (UMVUE) for the $\mathcal{B^{(α)}}$-family. Further, we derive an formula of the asymptotic expected deficiency (AED) that is used to compare the performance between the minimum density power divergence estimator (MDPDE) and the generalized UMVUE for $\mathcal{B^{(α)}}$-family. Finally, we provide an application of the developed results in stress-strength reliability model.
academic

Une Notion Généralisée de Complétude et Son Application

Informations Fondamentales

  • Identifiant de l'article: 2510.13174
  • Titre: Une Notion Généralisée de Complétude et Son Application
  • Auteurs: Himanshi Singh (IIT Jodhpur), Tanmay Sahoo (IIT Palakkad), Nil Kamal Hazra (IIT Jodhpur)
  • Classification: math.ST stat.TH (Théorie Statistique)
  • Date de soumission: 15 octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2510.13174

Résumé

Du point de vue de la réduction des données, les concepts de statistiques minimales suffisantes et de statistiques complètes jouent un rôle important dans la détermination des statistiques optimales (estimateurs). Les concepts classiques de suffisance et de complétude ne s'appliquent pas à l'estimation robuste basée sur différentes divergences. Récemment, la littérature a introduit un concept généralisé de suffisance basé sur les fonctions de vraisemblance généralisées. Il est important de noter que le seul concept de suffisance ne produit pas nécessairement des statistiques optimales. Par conséquent, en cohérence avec la suffisance généralisée, cet article introduit un concept généralisé de complétude concernant les fonctions de vraisemblance généralisées et caractérise les familles de distributions de probabilité possédant la complétude sous les fonctions de vraisemblance généralisées associées à la divergence de puissance de densité (DPD). De plus, il est démontré que les familles de distributions associées à la divergence de puissance de densité logarithmique (LDPD) ne possèdent pas la complétude. Le théorème de Lehmann-Scheffé et le théorème de Basu sont étendus à l'estimation par vraisemblance généralisée, et des estimateurs sans biais de variance minimale généralisée (UMVUE) pour la famille B(α) sont obtenus.

Contexte et Motivation de la Recherche

Contexte du Problème

  1. Importance de la réduction des données: En inférence statistique, lorsque la taille de l'échantillon est très grande, l'interprétation directe des données d'échantillon devient difficile et nécessite une réduction des données par des statistiques. La réduction idéale des données doit satisfaire deux propriétés clés: (i) ne pas perdre d'informations importantes sur le paramètre; (ii) éliminer les informations redondantes sans rapport avec le paramètre.
  2. Limitations de la théorie classique: Le concept de statistique suffisante introduit par Fisher est basé sur la fonction de vraisemblance classique et fonctionne bien dans le cadre de l'estimation du maximum de vraisemblance. Cependant, dans les applications pratiques telles que l'inférence robuste, il est nécessaire d'aller au-delà des méthodes basées sur la vraisemblance, auquel cas les concepts classiques de suffisance et de complétude ne s'appliquent plus.
  3. Besoin d'un cadre généralisé: Les méthodes d'estimation basées sur les divergences développées récemment (telles que MDPDE, MLDPDE, etc.) utilisent des fonctions de vraisemblance généralisées, nécessitant une théorie correspondante de suffisance et de complétude généralisées.

Motivation de la Recherche

  • Le concept de suffisance seul ne peut pas produire des statistiques optimales; il doit être combiné avec le concept de complétude pour obtenir l'UMVUE
  • Les définitions existantes de complétude ne s'appliquent plus dans le cadre de l'estimation par vraisemblance généralisée
  • Il est nécessaire d'établir une théorie généralisée de complétude correspondant à la suffisance généralisée

Contributions Principales

  1. Introduction des concepts de complétude généralisée et d'auxiliarité: Définition des concepts de statistiques complètes généralisées et de statistiques auxiliaires généralisées basés sur les fonctions de vraisemblance généralisées
  2. Caractérisation de la complétude de la famille B(α): Démonstration que la famille B(α) possède la complétude généralisée sous les fonctions de vraisemblance généralisées associées à la DPD
  3. Preuve de l'incomplétude de la famille M(α): Démonstration par contre-exemple que la famille M(α) ne possède pas la complétude sous les fonctions de vraisemblance généralisées associées à la LDPD
  4. Extension des théorèmes classiques: Extension du théorème de Lehmann-Scheffé et du théorème de Basu au cadre de l'estimation par vraisemblance généralisée
  5. Obtention de l'UMVUE généralisée: Dérivation des estimateurs sans biais de variance minimale généralisée pour la famille B(α)
  6. Analyse de la perte d'espérance asymptotique: Dérivation de la formule de perte d'espérance asymptotique (AED) du MDPDE par rapport à l'UMVUE généralisée
  7. Exemples d'application: Démonstration de l'application des résultats théoriques dans un modèle de fiabilité contrainte-résistance

Détails des Méthodes

Définition de la Tâche

La tâche centrale de cet article est d'établir une théorie de complétude dans le cadre de l'estimation par vraisemblance généralisée, incluant spécifiquement:

  • Entrée: Famille de distributions de probabilité P = {fλ : λ ∈ Λ} et fonction de vraisemblance généralisée LG
  • Sortie: Critères de jugement et méthodes de construction pour les statistiques complètes généralisées
  • Contraintes: La fonction de vraisemblance généralisée doit satisfaire des conditions de régularité spécifiques

Concepts et Définitions Fondamentaux

1. Statistique Complète Généralisée

Définition 3.2: Soit P = {fλ : λ ∈ Λ} une famille de distributions de probabilité et LG une fonction de vraisemblance généralisée. Une statistique T est appelée statistique complète généralisée de P si, pour toute fonction h,

E~λ[h(T)]=h(T(y1n))exp[LG(y1n;λ)]exp[LG(r1n;λ)]dr1ndy1n=0,λΛ\tilde{E}_λ[h(T)] = \int h(T(y_1^n)) \frac{\exp[L_G(y_1^n;λ)]}{\int \exp[L_G(r_1^n;λ)]dr_1^n} dy_1^n = 0, \forall λ ∈ Λ

implique

P~λ{h(T)=0}=1,λΛ\tilde{P}_λ\{h(T) = 0\} = 1, \forall λ ∈ Λ

2. Distribution de Probabilité Déformée

Définition 2.3: La distribution de probabilité déformée associée à la fonction de vraisemblance généralisée LG est:

f~λ(y1n)=exp[LG(y1n;λ)]exp[LG(r1n;λ)]dr1n\tilde{f}_λ(y_1^n) = \frac{\exp[L_G(y_1^n;λ)]}{\int \exp[L_G(r_1^n;λ)]dr_1^n}

3. Familles B(α) et M(α)

Famille B(α) (Définition 2.8): fλ(y)=[h(y)+Z(λ)+w(λ)Tf(y)]1α1f_λ(y) = [h(y) + Z(λ) + w(λ)^T f(y)]^{\frac{1}{α-1}}

Famille M(α) (Définition 2.9): fλ(y)=N(λ)[h(y)+w(λ)Tf(y)]1α1f_λ(y) = N(λ)[h(y) + w(λ)^T f(y)]^{\frac{1}{α-1}}

Théorèmes Principaux

Théorème Généralisé de Lehmann-Scheffé

Théorème 3.1: Si T est une statistique complète suffisante généralisée de P, alors chaque fonction généralisée estimable τ̃(λ) possède un et un seul estimateur sans biais généralisé de la forme h(T), et h(T) est l'unique UMVUE généralisée de τ̃(λ).

Théorème Généralisé de Basu

Théorème 3.3: Si T est une statistique complète suffisante généralisée de P, alors toute statistique auxiliaire généralisée A est indépendante de T.

Complétude de la Famille B(α)

Théorème 4.2: Pour la famille B(α), si l'image de w(λ) contient un rectangle d-dimensionnel, alors fˉd=[fˉ1,...,fˉd]T\bar{f}_d = [\bar{f}_1, ..., \bar{f}_d]^T est une statistique complète suffisante généralisée, où fˉi=1nj=1nfi(yj)\bar{f}_i = \frac{1}{n}\sum_{j=1}^n f_i(y_j).

Configuration Expérimentale

Vérification Théorique

L'article vérifie principalement les résultats par analyse théorique et preuves mathématiques, incluant:

  1. Preuve de complétude de la famille B(α): Construction de distributions de probabilité déformées et application des résultats classiques de Lehmann
  2. Preuve d'incomplétude de la famille M(α): Contre-exemple utilisant la distribution de Bernoulli
  3. Dérivation de la formule AED: Basée sur l'expansion de Taylor et l'analyse asymptotique

Cas d'Application

Modèle de fiabilité contrainte-résistance:

  • La résistance Y et la contrainte X suivent toutes deux une distribution de Student
  • Paramètre de fiabilité: R=P(Y>X)=Φ(μ2σ)R = P(Y > X) = Φ(\frac{μ}{\sqrt{2}σ^*})
  • Comparaison des performances du MDPDE et de l'UMVUE généralisée

Résultats Expérimentaux

Résultats Théoriques Principaux

  1. Complétude de la famille B(α): Démonstration que, sous des conditions appropriées, fˉd\bar{f}_d est une statistique complète suffisante généralisée de la famille B(α)
  2. Incomplétude de la famille M(α): Démonstration par exemple concret utilisant la distribution de Bernoulli que la famille M(α) ne possède pas la complétude généralisée
  3. Formule AED: Pour la famille B(α), la perte d'espérance asymptotique du MDPDE par rapport à l'UMVUE généralisée est:

AED[τ~(T),U~(T)]=1ddλw(λ)[d3dλ3τ~(λ)ddλτ~(λ)+14(d2dλ2τ~(λ)ddλτ~(λ))2d2dλ2w(λ)(ddλw(λ))2d2dλ2τ~(λ)ddλτ~(λ)]AED[\tilde{τ}(T), \tilde{U}(T)] = \frac{1}{\frac{d}{dλ}w^*(λ)}\left[\frac{\frac{d^3}{dλ^3}\tilde{τ}(λ)}{\frac{d}{dλ}\tilde{τ}(λ)} + \frac{1}{4}\left(\frac{\frac{d^2}{dλ^2}\tilde{τ}(λ)}{\frac{d}{dλ}\tilde{τ}(λ)}\right)^2 - \frac{\frac{d^2}{dλ^2}w^*(λ)}{(\frac{d}{dλ}w^*(λ))^2}\frac{\frac{d^2}{dλ^2}\tilde{τ}(λ)}{\frac{d}{dλ}\tilde{τ}(λ)}\right]

Résultats d'Application

Dans le modèle de fiabilité contrainte-résistance:

  • Lorsque μ<8σ4+σ|μ| < \sqrt{\frac{8σ^*}{4+σ^*}}, le MDPDE surpasse l'UMVUE généralisée
  • Lorsque μ>8σ4+σ|μ| > \sqrt{\frac{8σ^*}{4+σ^*}}, l'UMVUE généralisée surpasse le MDPDE
  • Pour les applications pratiques de fiabilité (fiabilité proche de 1), l'UMVUE généralisée fonctionne généralement mieux

Découvertes Importantes

  1. La statistique minimale suffisante généralisée n'est pas nécessairement complète: Démonstration par l'exemple de la famille M(α), ce qui diffère du cas classique
  2. Relation entre complétude et structure de la famille de distributions: La famille B(α) possède la complétude tandis que la famille M(α) ne la possède pas, révélant les différences essentielles entre différentes familles de distributions généralisées
  3. Dépendance paramétrique de la performance des estimateurs: L'analyse AED montre que la performance relative des estimateurs dépend fortement de la valeur du paramètre

Travaux Connexes

Fondements de la Théorie Classique

  • Fisher (1922): Concept de statistique suffisante
  • Lehmann & Scheffé (1950): Théorie de complétude et UMVUE
  • Basu (1955): Indépendance des statistiques auxiliaires et des statistiques complètes suffisantes

Développement de la Théorie Généralisée

  • Gayen & Kumar (2016, 2023): Concept de suffisance généralisée et théorème généralisé de Fisher-Darmois-Koopman-Pitman
  • Basu et al. (1998, 2011): Divergence de puissance de densité et méthodes d'estimation robuste associées

Théorie des Divergences

  • Kullback & Leibler (1951): Divergence KL
  • Tsallis (1988): Divergence de Tsallis
  • Rényi (1961): Divergence de Rényi

Conclusions et Discussion

Conclusions Principales

  1. Établissement réussi d'une théorie généralisée de complétude: Fourniture d'un cadre théorique complet pour l'estimation par vraisemblance généralisée, comblant un vide théorique dans ce domaine
  2. Caractérisation de la complétude de familles de distributions importantes: Démonstration que la famille B(α) possède la complétude généralisée tandis que la famille M(α) ne la possède pas, fournissant des orientations théoriques pour les applications pratiques
  3. Extension des théorèmes classiques: Extension réussie du théorème de Lehmann-Scheffé et du théorème de Basu au cadre généralisé
  4. Fourniture d'outils de comparaison d'estimateurs: La formule AED fournit un outil quantitatif pour comparer différents estimateurs

Limitations

  1. Conditions de régularité: Les résultats théoriques nécessitent de satisfaire une série de conditions de régularité qui doivent être vérifiées dans les applications pratiques
  2. Complexité de calcul: Le calcul des distributions de probabilité déformées peut être relativement complexe dans certains cas
  3. Propriétés en échantillon fini: Les résultats principaux sont basés sur la théorie asymptotique; les propriétés en échantillon fini méritent une étude plus approfondie
  4. Portée d'application: Actuellement principalement axée sur des familles de distributions spécifiques; l'extension à des cas plus généraux nécessite une recherche supplémentaire

Directions Futures

  1. Inférence bayésienne: Extension de la théorie généralisée de complétude au cadre bayésien
  2. Théorie en échantillon fini: Étude des propriétés de la complétude généralisée en échantillon fini
  3. Familles de distributions plus générales: Exploration de la complétude d'autres familles de distributions généralisées
  4. Méthodes de calcul: Développement de méthodes de calcul numérique efficaces

Évaluation Approfondie

Avantages

  1. Innovation théorique: Premier établissement systématique d'une théorie généralisée de complétude, fournissant une base théorique solide pour l'estimation par vraisemblance généralisée
  2. Rigueur mathématique: Processus de preuve rigoureux, définitions claires, structure logique complète
  3. Valeur pratique: Les résultats théoriques s'appliquent directement à l'obtention de l'UMVUE généralisée, possédant une valeur pratique importante
  4. Complétude: Non seulement établissement de résultats positifs (complétude de la famille B(α)), mais aussi démonstration par contre-exemple de résultats négatifs (incomplétude de la famille M(α))
  5. Orientation vers l'application: Démonstration de l'application pratique de la théorie par le modèle de fiabilité contrainte-résistance

Insuffisances

  1. Seuil technique élevé: Nécessite une base théorique statistique mathématique profonde pour une compréhension complète
  2. Vérification expérimentale insuffisante: Principalement une analyse théorique, manquant de vérification expérimentale à grande échelle
  3. Cas d'application limités: Bien que le modèle contrainte-résistance soit fourni, les cas sont relativement peu nombreux
  4. Analyse insuffisante de la complexité de calcul: Discussion limitée des problèmes de complexité dans le calcul pratique

Impact

  1. Contribution théorique: Fourniture d'outils théoriques importants pour la théorie statistique, en particulier la statistique robuste
  2. Valeur méthodologique: Fourniture de support théorique pour les méthodes d'estimation basées sur les divergences
  3. Perspectives d'application: Valeur d'application potentielle dans l'ingénierie de fiabilité, la gestion des risques et autres domaines
  4. Recherche ultérieure: Établissement d'une base pour la recherche ultérieure dans les domaines connexes

Scénarios d'Application

  1. Inférence statistique robuste: Lorsque les données contiennent des valeurs aberrantes, les méthodes basées sur les divergences sont plus robustes que les méthodes ML traditionnelles
  2. Analyse de fiabilité: Particulièrement adaptée aux problèmes de fiabilité de type contrainte-résistance
  3. Gestion des risques: Valeur d'application dans les scénarios tels que le risque financier nécessitant une estimation robuste
  4. Apprentissage automatique: Fourniture de base théorique pour les algorithmes d'apprentissage automatique robustes

Références Bibliographiques

L'article cite 42 références importantes, couvrant les travaux classiques de la théorie statistique et le développement récent de la théorie des divergences, incluant principalement:

  • Fisher (1922): Théorie fondamentale de la statistique
  • Lehmann & Scheffé (1950): Théorie de complétude
  • Basu (1955, 1998): Indépendance statistique et estimation robuste
  • Gayen & Kumar (2016, 2023): Théorie généralisée de suffisance
  • Kullback & Leibler (1951): Fondements de la théorie de l'information

Évaluation Globale: Cet article est un travail théorique statistique de haute qualité qui établit un système théorique complet dans le cadre de l'estimation par vraisemblance généralisée. Bien que le seuil technique soit élevé, la contribution théorique est significative et représente un progrès important dans le développement de la théorie statistique et des méthodes statistiques robustes. La rigueur mathématique et la complétude théorique de l'article méritent d'être louées, constituant un progrès important dans ce domaine.