Criterion for the resemblance between the mother and the model distribution
Sheena
If the probability distribution model aims to approximate the hidden mother distribution, it is imperative to establish a useful criterion for the resemblance between the mother and the model distributions.
This study proposes a criterion that measures the Hellinger distance between discretized (quantized) samples from both distributions. Unlike information criteria such as AIC, this criterion does not require the probability density function of the model distribution, which cannot be explicitly obtained for a complicated model such as a deep learning machine. Second, it can draw a positive conclusion (i.e., both distributions are sufficiently close) under a given threshold, whereas a statistical hypothesis test, such as the Kolmogorov-Smirnov test, cannot genuinely lead to a positive conclusion when the hypothesis is accepted.
In this study, we establish a reasonable threshold for the criterion deduced from the Bayes error rate and also present the asymptotic bias of the estimator of the criterion. From these results, a reasonable and easy-to-use criterion is established that can be directly calculated from the two sets of samples from both distributions.
academic
Kriterium für die Ähnlichkeit zwischen der Grundgesamtheit und der Modellverteilung
Dieses Papier untersucht das Problem der Messung der Ähnlichkeit zwischen einem Wahrscheinlichkeitsverteilungsmodell und der echten Datenverteilung (Grundgesamtheit). Es wird ein Kriterium vorgeschlagen, das auf der Hellinger-Distanz von diskretisierten Stichproben basiert und keine explizite Wahrscheinlichkeitsdichtefunktion der Modellverteilung erfordert. Dies macht es für komplexe Modelle wie Deep Learning geeignet. Im Gegensatz zu traditionellen Hypothesentests (wie dem Kolmogorov-Smirnov-Test) kann das Kriterium unter einem gegebenen Schwellenwert zu einer positiven Schlussfolgerung führen, dass „die beiden Verteilungen ausreichend ähnlich sind". Die Forschung etabliert rationale Schwellenwerte basierend auf der Bayes-Fehlerrate und bietet eine asymptotische Verzerrungsanalyse des Kriteriumsschätzers.
Wenn ein Wahrscheinlichkeitsverteilungsmodell darauf abzielt, eine unbekannte echte Datenverteilung (Grundgesamtheit) zu approximieren, ist die Etablierung eines effektiven Ähnlichkeitskriteriums ein grundlegendes Problem. Dies ist besonders wichtig bei der Bewertung von generativen Modellen (wie tiefe generative Modelle und Bayes-Modelle).
Modellbewertungsbedarf: Im maschinellen Lernen und in der statistischen Modellierung ist es notwendig zu beurteilen, ob das generierte Modell die echte Datenverteilung ausreichend approximiert
Praktische Bedeutung: Beurteilung, ob das Training ausreichend ist, ob das parametrische Modell geeignet ist, ob die Stichprobengröße ausreichend ist und andere praktische Fragen
Theoretischer Wert: Bereitstellung interpretierbarer quantitativer Standards für die Verteilungsähnlichkeit
Kullback-Leibler-Divergenz und Informationskriterien (wie AIC):
Erfordern die explizite Wahrscheinlichkeitsdichtefunktion gm(x) der Modellverteilung
Schwierig zu erhalten für komplexe Modelle (wie tiefe neuronale Netze, Bayes-Modelle)
Obwohl für Modellvergleiche verwendbar, fehlt den numerischen Werten statistische Bedeutung und können nicht für die Modellbewertung verwendet werden
Statistische Hypothesentests (wie K-S-Test):
Beim Ablehnen der Nullhypothese kann nur die Schlussfolgerung „die beiden Verteilungen sind unterschiedlich" gezogen werden, aber sie könnten tatsächlich noch sehr ähnlich sein
Bei großen Stichproben wird die Hypothese leicht abgelehnt, wenn kleine Unterschiede erkannt werden
Beim Akzeptieren der Hypothese kann keine positive Schlussfolgerung gezogen werden, dass „die beiden Verteilungen ausreichend ähnlich sind"
Der p-Wert bietet keine direkte Information über den Grad der Verteilungsähnlichkeit
Vorschlag eines Zwei-Stichproben-Kriteriums basierend auf diskretisierter Hellinger-Distanz: Durch Diskretisierung (Quantisierung) von Stichproben aus zwei Verteilungen wird die Hellinger-Distanz auf der Ebene der Multinomialverteilung verglichen
Etablierung der theoretischen Verbindung zur Bayes-Fehlerrate (Theorem 1): Beweis der Beziehung zwischen f-Divergenz und Bayes-Fehlerrate, wodurch der Divergenzwert praktisch interpretierbar wird
Ableitung rationaler Schwellenwertstandards: Basierend auf der Bayes-Fehlerrate wird der Schwellenwert der Hellinger-Distanz δ* = 8ϵ² abgeleitet, wobei ϵ dem Grad der Abweichung der Fehlerrate vom Zufallsraten entspricht
Vorschlag einer Methode zur Diskretisierung mit beweglichen Regionen: Im Vergleich zur Methode mit festen Regionen hat sie eine bessere asymptotische Effizienz der Ordnung n⁻² (Theoreme 2 und 3)
Asymptotische Verzerrungsanalyse des Schätzers (Theorem 4): Beweis der oberen Grenze des Schätzers EDm⁽¹⁾ : m⁽²⁾ als EDm̂⁽¹⁾ : m̂⁽²⁾ + √(8p'/n₂) + o(n₁⁻¹) + o(n₂⁻¹/²)
Etablierung eines praktischen Modellanpassungskriteriums:
Etablierung der allgemeinen Beziehung zwischen f-Divergenz und Bayes-Fehlerrate (Theorem 1), die Divergenzwerten eine intuitive Interpretation als Klassifizierungsfehler bietet
Beweis der asymptotischen Überlegenheit der Methode mit beweglichen Regionen im Einstichproben-Problem (Theoreme 2, 3)
Methodische Innovation:
Verwendung der Methode mit beweglichen Regionen statt festen Regionen zur Verbesserung der Schätzeffizienz
Wahl der Hellinger-Distanz zur Vermeidung von Nullschätzungsproblemen (divergiert nicht wenn -1 < α < 1)
Verwendung von Modellstichprobe X⁽²⁾ zur Regionskonstruktion (da typischerweise n₂ >> n₁)
Verzerrungsanalyse:
Theorem 4 gibt die asymptotische Verzerrungsobergrenze des Schätzers an
Der Einfluss von n₂ ist von der Ordnung n₂⁻¹/², der Einfluss von n₁ ist von der Ordnung n₁⁻¹
Dies erklärt, warum relativ großes n₂ erforderlich ist
Praktisches Kriterium:
Bietet ein vollständiges Kriterium mit Verzerrungskorrektur (Formel 40)
Der Schwellenwert 8ϵ² hat klare statistische Bedeutung (entspricht Bayes-Fehlerrate)
Wichtige in diesem Papier zitierte Literatur umfasst:
Amari (2016): Information Geometry and Its Applications - Informationsgeometrische Grundlagen der f-Divergenz
Csiszár (1975): Grundlegende Arbeiten zur f-Divergenz
Gretton et al. (2007): Anwendung von Kernmethoden in Zwei-Stichproben-Tests
Richardson and Weiss (2018): Dem Papier am nächsten kommende Methode mit festen Regionen
Sheena (2018): Frühere Arbeiten des Autors, Beweis der Überlegenheit der Methode mit beweglichen Regionen im Skalarfall
Theis et al. (2015): Vergleichende Studie von Bewertungsmethoden generativer Modelle
Borji (2018): Umfassende Übersicht von GANs-Bewertungsindikatoren
Gesamtbewertung: Dies ist ein ausgezeichnetes Papier mit theoretischer Strenge und praktischem Nutzen. Die Kerneinnovation liegt in der Einführung der Bayes-Fehlerrate in die Divergenz-Schwellenwert-Einstellung, wodurch abstrakte statistische Größen intuitive Klassifizierungsinterpretation erhalten. Die Methode ist besonders geeignet zur Bewertung komplexer Modelle ohne explizite Dichtefunktion und füllt eine wichtige Lücke in diesem Forschungsgebiet. Haupteinschränkungen sind unvollständige hochdimensionale Theorie und begrenzte experimentelle Abdeckung, beeinflussen aber nicht seinen akademischen Wert und praktischen Nutzen. Lesern wird empfohlen, bei Anwendung auf Stichprobengröße-Anforderungen (besonders n₂) und Dimensions-Einschränkungen zu achten und bei Bedarf Dimensionsreduktions-Strategien zu verwenden.