2025-11-12T17:04:10.344292

Bootstrap tests for almost goodness-of-fit

Baíllo, Cárcamo
We introduce the \textit{almost goodness-of-fit} test, a procedure to assess whether a (parametric) model provides a good representation of the probability distribution generating the observed sample. Specifically, given a distribution function $F$ and a parametric family $\mathcal{G}=\{ G(\boldsymbolθ) : \boldsymbolθ \in Θ\}$, we consider the testing problem \[ H_0: \| F - G(\boldsymbolθ_F) \|_p \geq ε\quad \text{vs} \quad H_1: \| F - G(\boldsymbolθ_F) \|_p < ε, \] where $ε>0$ is a margin of error and $G(\boldsymbolθ_F)$ denotes a representative of $F$ within the parametric class. The approximate model is determined via an M-estimator of the parameters. %The objective is the approximate validation of a distribution or an entire parametric family up to a pre-specified threshold value. The methodology also quantifies the percentage improvement of the proposed model relative to a non-informative (constant) benchmark. The test statistic is the $\mathrm{L}^p$-distance between the empirical distribution function and that of the estimated model. We present two consistent, easy-to-implement, and flexible bootstrap schemes to carry out the test. The performance of the proposal is illustrated through simulation studies and analysis and real-data applications.
academic

Bootstrap-Tests für nahezu perfekte Anpassungsgüte

Grundinformationen

  • Papier-ID: 2410.20918
  • Titel: Bootstrap-Tests für nahezu perfekte Anpassungsgüte
  • Autoren: Amparo Báıllo (Universidad Autónoma de Madrid), Javier Cárcamo (Universidad del Páıs Vasco)
  • Klassifizierung: stat.ME (Statistische Methoden), math.ST (Mathematische Statistik), stat.AP (Angewandte Statistik), stat.TH (Statistische Theorie)
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
  • Papier-Link: https://arxiv.org/abs/2410.20918

Zusammenfassung

Dieses Papier führt den Test für "nahezu perfekte Anpassungsgüte" (Almost Goodness-of-Fit, AGoF) ein, um zu bewerten, ob parametrische Modelle die Wahrscheinlichkeitsverteilung einer beobachteten Stichprobe angemessen darstellen. Konkret wird für eine Verteilungsfunktion FF und eine Parameterfamilie G={G(θ):θΘ}\mathcal{G}=\{G(\theta) : \theta \in \Theta\} das Hypothesentestproblem betrachtet: H0:FG(θF)pϵvsH1:FG(θF)p<ϵH_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon wobei ϵ>0\epsilon > 0 die Fehlertoleranz ist und G(θF)G(\theta_F) die beste Approximation von FF in der Parameterklasse darstellt. Das approximative Modell wird durch M-Schätzung bestimmt, und zwei konsistente und leicht zu implementierende Bootstrap-Schemata werden zur Durchführung des Tests bereitgestellt.

Forschungshintergrund und Motivation

Problemhintergrund

Traditionelle Anpassungsgüte-Tests haben ein grundlegendes Problem: Sie stellen die Aussage "das Modell ist eine angemessene Approximation der Daten" in die Nullhypothese H0H_0, können daher nur statistische Evidenz für die "Nichtanpassung" des Modells liefern, nicht aber für die tatsächliche "Anpassungsgüte".

Forschungsmotivation

  1. Einschränkungen traditioneller GoF-Tests: Klassische Methoden können Modelle nur ablehnen, nicht ihre Anwendbarkeit verifizieren
  2. Praktische Anforderungen: In der Praxis interessiert uns mehr, ob ein Modell "ausreichend gut" ist, nicht ob es vollkommen exakt ist
  3. Bedeutung approximativer Modellierung: In der Realität können nur wenige Modelle Daten perfekt beschreiben; eine gewisse Abweichungstoleranz ist erforderlich

Unzulänglichkeiten bestehender Methoden

  • Die Grenzverteilung von Kolmogorov-Smirnov-ähnlichen Statistiken unter Parameterestimation ist komplex und nicht-Gaußsch
  • Bootstrap-Methoden sind bei der Schätzung der Supremum-Norm typischerweise nicht konsistent
  • Es fehlt ein einheitlicher Rahmen zur Behandlung der approximativen Verifikation von Parameterfamilien

Kernbeiträge

  1. Einführung des AGoF-Test-Rahmens: Platziert "approximative Anpassung" in der Alternativhypothese und kann statistische Evidenz für die Modelleignung liefern
  2. Verwendung von LpL^p-Distanzen: Im Vergleich zur traditionellen Supremum-Norm hat die LpL^p-Norm bessere theoretische Eigenschaften und Rechenvorteil
  3. Entwicklung zweier Bootstrap-Schemata: Beweist ihre Konsistenz und stellt praktische Implementierungsalgorithmen bereit
  4. Einführung der AGoF-Statistik: Quantifiziert den prozentualen Verbesserungsgrad des Modells relativ zu einem nicht-informativen Referenzmodell
  5. Bereitstellung vollständiger theoretischer Analyse: Einschließlich asymptotischer Verteilungen, Bootstrap-Konsistenz und anderen theoretischen Garantien

Methodische Details

Aufgabendefinition

Gegeben sei eine Stichprobe X1,,XnX_1, \ldots, X_n aus einer unbekannten Verteilung FF und eine parametrische Modellfamilie G={G(θ):θΘRk}\mathcal{G} = \{G(\theta) : \theta \in \Theta \subset \mathbb{R}^k\}. Es wird getestet: H0:FG(θF)pϵvsH1:FG(θF)p<ϵH_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon

wobei θF\theta_F durch M-Schätzung bestimmt wird: EF[ψθF(X)]=0E_F[\psi_{\theta_F}(X)] = 0.

Architektur der Kernmethode

1. Parameterschätzung

Verwendung eines M-Schätzers zur Lösung von: Ψn(θ)=1ni=1nψθ(Xi)=0\Psi_n(\theta) = \frac{1}{n}\sum_{i=1}^n \psi_\theta(X_i) = 0

2. Test-Statistik

Die standardisierte Statistik ist: Tn(F,G(θF),p)=n(FnG(θ^n)pFG(θF)p)T_n(F,G(\theta_F),p) = \sqrt{n}(\|F_n - G(\hat{\theta}_n)\|_p - \|F - G(\theta_F)\|_p)

3. Konstruktion des Ablehnungsbereichs

Vorgeschlagener Ablehnungsbereich: Rn={FnG(θ^n)p<ϵcn(α)}R_n = \{\|F_n - G(\hat{\theta}_n)\|_p < \epsilon - c_n(\alpha)\} wobei cn(α)=QT(α)/nc_n(\alpha) = -Q_T(\alpha)/\sqrt{n} und QT(α)Q_T(\alpha) das α\alpha-Quantil der Grenzverteilung ist.

Technische Innovationen

1. Vorteile der LpL^p-Distanz-Wahl

  • Hadamard-Differenzierbarkeit: Für 1<p<1 < p < \infty ist die LpL^p-Norm Hadamard-differenzierbar, was die Anwendung der funktionalen Delta-Methode erleichtert
  • Gaußsche Grenzverteilung: Unter allgemeinen Annahmen ist die asymptotische Verteilung Gaußsch
  • Bootstrap-Konsistenz: Unter angemessenen Bedingungen ist die Standard-Bootstrap-Schätzung konsistent
  • Flexibilität: Durch Anpassung des pp-Wertes kann die Empfindlichkeit gegenüber Verteilungsschwänzen kontrolliert werden

2. Theoretischer Rahmen

Etabliert eine vollständige asymptotische Theorie, einschließlich:

  • Schwache Konvergenz empirischer Prozesse im LpL^p-Raum
  • Grenzverteilungen von Prozessen mit geschätzten Parametern
  • Konsistenz von Bootstrap-Prozessen

Theoretische Ergebnisse

Hauptsätze

Satz 1: Schwache Konvergenz von Prozessen

Unter den Annahmen 1-2 gilt XL2/p,1X \in L^{2/p,1} genau dann, wenn: Gn(θF)GθF in LpG_n(\theta_F) \rightsquigarrow G_{\theta_F} \text{ in } L^p wobei GθFG_{\theta_F} ein zentrierter Gaußscher Prozess ist.

Satz 2: Asymptotische Verteilung der Test-Statistik

  • Für p=1p = 1: T(F,G(θF),1)=CθFGθF+RCθFGθFsgn(FG(θF))T(F,G(\theta_F),1) = \int_{C_{\theta_F}} |G_{\theta_F}| + \int_{\mathbb{R}\setminus C_{\theta_F}} G_{\theta_F}\text{sgn}(F-G(\theta_F))
  • Für 1<p<1 < p < \infty: T(F,G(θF),p)=1FG(θF)pp1GθFFG(θF)p1sgn(FG(θF))T(F,G(\theta_F),p) = \frac{1}{\|F-G(\theta_F)\|_p^{p-1}} \int G_{\theta_F} |F-G(\theta_F)|^{p-1}\text{sgn}(F-G(\theta_F))

Folgerung 1: Normalitätsbedingungen

Notwendige und hinreichende Bedingungen für Normalverteilung der Grenzverteilung:

  • p=1p = 1: Das Lebesgue-Maß der Kontaktmenge CθF={F=G(θF)}C_{\theta_F} = \{F = G(\theta_F)\} ist Null
  • 1<p<1 < p < \infty: FG(θF)F \neq G(\theta_F)

Bootstrap-Konsistenz

Satz 3 und Folgerung 2 beweisen, dass unter angemessenen Annahmen die Bootstrap-Statistik schwach gegen dieselbe Grenzverteilung konvergiert.

Experimentelle Einrichtung

Design der Simulationsstudie

  • Stichprobengröße: n=30,50,100,500n = 30, 50, 100, 500
  • Bootstrap-Wiederholungen: B=2000B = 2000
  • Signifikanzniveau: α=0,05\alpha = 0,05
  • Monte-Carlo-Wiederholungen: 1000

Test-Szenarien

  1. Weibull vs. Exponentialmodell: p=1p = 1, echte Verteilung Weibull(2,1)
  2. Gaußsche Mischung vs. Normalmodell: p=2p = 2, echte Verteilung Zwei-Komponenten-Gaußsche Mischung
  3. Negativ-Binomial vs. Poisson-Modell: p=1p = 1, diskrete Verteilungsfälle
  4. Kumaraswamy vs. Beta-Modell: p=1p = 1, beschränkter Träger
  5. Student-t vs. Normalmodell: p=4p = 4, schwere Schwänze
  6. Lognormal vs. Gamma-Modell: p=1p = 1, schiefe Verteilung

Zwei Bootstrap-Methoden

  • Bootstrap 1: Quantil-basierte Methode, Ablehnungsbedingung: 2FnG(θ^n)pϵ^(α)<ϵ2\|F_n - G(\hat{\theta}_n)\|_p - \hat{\epsilon}^*(\alpha) < \epsilon
  • Bootstrap 2: Normalapproximations-basierte Methode, Ablehnungsbedingung: FnG(θ^n)pσ^bootzα<ϵ\|F_n - G(\hat{\theta}_n)\|_p - \hat{\sigma}_{\text{boot}}z_\alpha < \epsilon

Experimentelle Ergebnisse

Hauptfeststellungen

1. Vergleich der Methodenleistung

  • Mittlere Stichprobengröße (n=500n = 500): Beide Methoden zeigen ähnliche Leistung und kontrollieren das Testniveau gut
  • Kleine Stichprobengröße (n100n \leq 100): Bootstrap 2 kontrolliert typischerweise das nominale Signifikanzniveau besser
  • Hohe AGoF-Statistik (> 0,9): Bootstrap 1 zeigt bessere Leistung

2. Beispiele konkreter Ergebnisse

Am Beispiel des Weibull vs. Exponentialmodells:

  • FG(θF)1=0,3002\|F - G(\theta_F)\|_1 = 0,3002
  • AGoF-Statistik: G(F,G)=0,194G(F,G) = 0,194 (nur 19,4% Verbesserung gegenüber dem konstanten Modell)
  • Die Gütefunktion zeigt, dass beide Methoden bei n=500n = 500 kaum zu unterscheiden sind

3. Praktische Empfehlungen

  • AGoF-Statistik zwischen 0-0,9: Bootstrap 2 empfohlen
  • AGoF-Statistik über 0,9: Bootstrap 1 empfohlen
  • Bei kleineren Stichprobengrößen ist Vorsicht bei der Interpretation erforderlich

Praktische Anwendungen

Anwendung 1: Haitianische Serologische Erhebung

Daten: 4308 IgG-Antikörper-Proben aus der nationalen serologischen Erhebung Haitis (Bm33-Antigen)

Analyse: Test der AGoF für 1-5-Komponenten-Normalverteilungsmischungsmodelle

  • 2-Komponenten-Modell zeigt beste Leistung: ϵ2(0,05)0,022\epsilon^*_2(0,05) \approx 0,022 (L1L^1), G(F,G2)>0,97G^*(F,G_2) > 0,97
  • Einfaches Normalmodell unzureichend: Verbesserung < 78%
  • 3 oder mehr Komponenten zeigen begrenzte Verbesserung (< 1%)

Anwendung 2: Kohlefaser-Bruchspannung

Daten: Etwa 1200 Kohlefasern unter verschiedenen Messlängen bei Zugbelastung

Modellvergleich: Weibull, drei-Parameter-Weibull, schiefe Normalverteilung, bimodale Weibull

Hauptfeststellungen:

  • Bimodale Weibull zeigt bei den meisten Messlängen beste Leistung
  • Modellleistung sinkt signifikant mit zunehmender Messlänge (außer bimodale Weibull)
  • Lineare Regressionsanalyse bestätigt die statistische Signifikanz dieses Trends

Verwandte Arbeiten

Traditionelle Anpassungsgüte-Tests

  • Kolmogorov-Smirnov-Test und seine Einschränkungen
  • Cramér-von-Mises-Test und Verteilungsabhängigkeitsprobleme

Äquivalenztests

  • Wellek (2021) Lehmann-Alternative-Ansatz
  • Liu und Lindsay (2009) Toleranzbereich für multinomiale Modelle
  • Romano (2005) optimale Äquivalenztests

Verwandte Hypothesentests

  • Berger und Delampady (1987) exakte Hypothesentests
  • Dette und Sen (2013) konsistente Nachbarschafts-Hypothesentestverfahren
  • Baringhaus und Henze (2024) Nachbarschaftsverifikationstests

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Methodeneffektivität: Der AGoF-Test löst erfolgreich das Problem, dass traditionelle GoF-Tests nur "Nichtanpassungs"-Evidenz liefern können
  2. Theoretische Vollständigkeit: Bietet vollständige asymptotische Theorie und Bootstrap-Konsistenzbeweise
  3. Praktikabilität: Beide Bootstrap-Schemata sind leicht zu implementieren und auf eine breite Palette parametrischer Modelle anwendbar

Einschränkungen

  1. Integrierbarkeitsbedingungen: Erfordert die Erfüllung der Bedingung XL2/p,1X \in L^{2/p,1}, was den Anwendungsbereich einschränkt
  2. Parameterwahl: Die Wahl der Fehlertoleranz ϵ\epsilon erfordert weiterhin Fachwissen
  3. Rechenkomplexität: Im Vergleich zu einfachen GoF-Tests ist der Rechenaufwand höher

Zukünftige Richtungen

  1. Multivariate Erweiterung: Erweiterung der Methode auf multivariate Verteilungen
  2. Nichtparametrische Alternativen: Betrachtung der approximativen Verifikation nichtparametrischer oder semiparametrischer Modelle
  3. Adaptive Methoden: Entwicklung datengestützter Methoden zur automatischen Wahl von ϵ\epsilon

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Erstmals systematische Platzierung von "approximativer Anpassung" in der Alternativhypothese mit wichtigem konzeptuellem Durchbruch
  2. Methodische Vollständigkeit: Von theoretischer Analyse bis zur Implementierung sehr umfassend
  3. Praktischer Wert: Die AGoF-Statistik bietet ein intuitives Maß für die Modellqualität
  4. Technische Vorteile: Die Wahl der LpL^p-Distanz hat offensichtliche Vorteile in Theorie und Berechnung

Schwächen

  1. Annahmebedingungen: Der M-Schätzungs-Rahmen und Integrierbarkeitsbedingungen können die Anwendbarkeit einschränken
  2. Parametereinstellung: Systematische Anleitung zur Wahl von pp und ϵ\epsilon fehlt
  3. Recheneffizienz: Der Bootstrap-Prozess hat höhere Rechenkosten

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung für das Feld der Anpassungsgüte-Tests
  2. Praktischer Wert: Hat wichtige Anwendungsperspektiven in Modellauswahl und -verifikation
  3. Reproduzierbarkeit: Vollständige theoretische Ergebnisse und klare Algorithmusbeschreibung ermöglichen leichte Reproduktion

Anwendungsszenarien

  • Szenarien, in denen die Anwendbarkeit parametrischer Modelle verifiziert werden muss
  • Modellauswahl und -vergleich
  • Modellverifikation in Regulierung und Qualitätskontrolle
  • Verteilungsmodellbewertung im Risikomanagement

Referenzen

Das Papier zitiert umfangreiche relevante Literatur, die empirische Prozesstheorie, M-Schätzung, Bootstrap-Methoden und andere wichtige Arbeiten aus mehreren Bereichen abdeckt und eine solide theoretische Grundlage für die Forschung bietet.