We introduce the \textit{almost goodness-of-fit} test, a procedure to assess whether a (parametric) model provides a good representation of the probability distribution generating the observed sample. Specifically, given a distribution function $F$ and a parametric family $\mathcal{G}=\{ G(\boldsymbolθ) : \boldsymbolθ \in Î\}$, we consider the testing problem \[ H_0: \| F - G(\boldsymbolθ_F) \|_p \geq ε\quad \text{vs} \quad H_1: \| F - G(\boldsymbolθ_F) \|_p < ε, \] where $ε>0$ is a margin of error and $G(\boldsymbolθ_F)$ denotes a representative of $F$ within the parametric class. The approximate model is determined via an M-estimator of the parameters. %The objective is the approximate validation of a distribution or an entire parametric family up to a pre-specified threshold value. The methodology also quantifies the percentage improvement of the proposed model relative to a non-informative (constant) benchmark. The test statistic is the $\mathrm{L}^p$-distance between the empirical distribution function and that of the estimated model. We present two consistent, easy-to-implement, and flexible bootstrap schemes to carry out the test. The performance of the proposal is illustrated through simulation studies and analysis and real-data applications.
academic
Bootstrap-Tests für nahezu perfekte Anpassungsgüte
Dieses Papier führt den Test für "nahezu perfekte Anpassungsgüte" (Almost Goodness-of-Fit, AGoF) ein, um zu bewerten, ob parametrische Modelle die Wahrscheinlichkeitsverteilung einer beobachteten Stichprobe angemessen darstellen. Konkret wird für eine Verteilungsfunktion F und eine Parameterfamilie G={G(θ):θ∈Θ} das Hypothesentestproblem betrachtet:
H0:∥F−G(θF)∥p≥ϵvsH1:∥F−G(θF)∥p<ϵ
wobei ϵ>0 die Fehlertoleranz ist und G(θF) die beste Approximation von F in der Parameterklasse darstellt. Das approximative Modell wird durch M-Schätzung bestimmt, und zwei konsistente und leicht zu implementierende Bootstrap-Schemata werden zur Durchführung des Tests bereitgestellt.
Traditionelle Anpassungsgüte-Tests haben ein grundlegendes Problem: Sie stellen die Aussage "das Modell ist eine angemessene Approximation der Daten" in die Nullhypothese H0, können daher nur statistische Evidenz für die "Nichtanpassung" des Modells liefern, nicht aber für die tatsächliche "Anpassungsgüte".
Einschränkungen traditioneller GoF-Tests: Klassische Methoden können Modelle nur ablehnen, nicht ihre Anwendbarkeit verifizieren
Praktische Anforderungen: In der Praxis interessiert uns mehr, ob ein Modell "ausreichend gut" ist, nicht ob es vollkommen exakt ist
Bedeutung approximativer Modellierung: In der Realität können nur wenige Modelle Daten perfekt beschreiben; eine gewisse Abweichungstoleranz ist erforderlich
Einführung des AGoF-Test-Rahmens: Platziert "approximative Anpassung" in der Alternativhypothese und kann statistische Evidenz für die Modelleignung liefern
Verwendung von Lp-Distanzen: Im Vergleich zur traditionellen Supremum-Norm hat die Lp-Norm bessere theoretische Eigenschaften und Rechenvorteil
Entwicklung zweier Bootstrap-Schemata: Beweist ihre Konsistenz und stellt praktische Implementierungsalgorithmen bereit
Einführung der AGoF-Statistik: Quantifiziert den prozentualen Verbesserungsgrad des Modells relativ zu einem nicht-informativen Referenzmodell
Bereitstellung vollständiger theoretischer Analyse: Einschließlich asymptotischer Verteilungen, Bootstrap-Konsistenz und anderen theoretischen Garantien
Gegeben sei eine Stichprobe X1,…,Xn aus einer unbekannten Verteilung F und eine parametrische Modellfamilie G={G(θ):θ∈Θ⊂Rk}. Es wird getestet:
H0:∥F−G(θF)∥p≥ϵvsH1:∥F−G(θF)∥p<ϵ
wobei θF durch M-Schätzung bestimmt wird: EF[ψθF(X)]=0.
Theoretische Innovation: Erstmals systematische Platzierung von "approximativer Anpassung" in der Alternativhypothese mit wichtigem konzeptuellem Durchbruch
Methodische Vollständigkeit: Von theoretischer Analyse bis zur Implementierung sehr umfassend
Praktischer Wert: Die AGoF-Statistik bietet ein intuitives Maß für die Modellqualität
Technische Vorteile: Die Wahl der Lp-Distanz hat offensichtliche Vorteile in Theorie und Berechnung
Das Papier zitiert umfangreiche relevante Literatur, die empirische Prozesstheorie, M-Schätzung, Bootstrap-Methoden und andere wichtige Arbeiten aus mehreren Bereichen abdeckt und eine solide theoretische Grundlage für die Forschung bietet.