MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--
Sheena
For a parametric model of distributions, the closest distribution in the model to the true distribution located outside the model is considered. Measuring the closeness between two distributions with the Kullback-Leibler (K-L) divergence, the closest distribution is called the "information projection." The estimation risk of the maximum likelihood estimator (MLE) is defined as the expectation of K-L divergence between the information projection and the predictive distribution with plugged-in MLE. Here, the asymptotic expansion of the risk is derived up to $n^{-2}$-order, and the sufficient condition on the risk for the Bayes error rate between the true distribution and the information projection to be lower than a specified value is investigated. Combining these results, the "$p-n$ criterion" is proposed, which determines whether the MLE is sufficiently close to the information projection for the given model and sample. In particular, the criterion for an exponential family model is relatively simple and can be used for a complex model with no explicit form of normalizing constant. This criterion can constitute a solution to the sample size or model acceptance problem. Use of the $p-n$ criteria is demonstrated for two practical datasets. The relationship between the results and information criteria is also studied.
academic
MLE-Konvergenzgeschwindigkeit zur Informationsprojektion der Exponentialfamilie: Kriterium für Modelldimension und Stichprobengröße -- vollständige Beweisversion--
Titel: MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--
Autor: Yo Sheena (Fakultät für Datenwissenschaften, Universität Shiga; Gastprofessor am Institut für Statistische Mathematik)
Diese Arbeit untersucht das Problem der Verteilung in parametrischen Verteilungsmodellen, die der wahren Verteilung am nächsten kommt, wenn die wahre Verteilung außerhalb des Modells liegt. Unter Verwendung der Kullback-Leibler (K-L) Divergenz zur Messung des Abstands zwischen Verteilungen wird die nächstgelegene Verteilung als "Informationsprojektion" bezeichnet. Das Schätzrisiko des Maximum-Likelihood-Schätzers (MLE) wird als die erwartete K-L Divergenz zwischen der Informationsprojektion und der Vorhersageverteilung mit eingefügtem MLE definiert. Diese Arbeit leitet die asymptotische Entwicklung des Risikos bis zur Ordnung n−2 ab und untersucht hinreichende Bedingungen für das Risiko, damit die Bayes-Fehlerrate zwischen der wahren Verteilung und der Informationsprojektion unter einem festgelegten Wert liegt. Durch die Kombination dieser Ergebnisse wird ein "p−n-Kriterium" vorgeschlagen, um zu bestimmen, ob der MLE unter einem gegebenen Modell und einer gegebenen Stichprobe der Informationsprojektion ausreichend nahe kommt. Insbesondere ist das Kriterium für Exponentialfamilienmodelle relativ einfach und kann auf komplexe Modelle ohne explizite Form der Normalisierungskonstante angewendet werden. Das Kriterium kann als Lösung für Probleme der Stichprobengröße oder Modellakzeptanz dienen.
Bei einem gegebenen Datensatz ist es erforderlich, eine unbekannte Wahrscheinlichkeitsverteilung als Generator für unabhängig und identisch verteilte (i.i.d.) Stichproben anzunehmen. Wenn ein bestimmtes parametrisches Verteilungsmodell zur "Erklärung" der Daten verwendet wird, besteht die erste Aufgabe darin, die "beste" Verteilung im Modell zu finden. Da die wahre Verteilung normalerweise außerhalb des Modells liegt, bedeutet "beste" die Verteilung, die der wahren Verteilung am nächsten kommt.
Diese Arbeit konzentriert sich auf das zweite Problem und etabliert ein Kriterium zur Bestimmung, ob der MLE der besten Verteilung ausreichend nahe kommt. Durch Trennung des zweiten und dritten Problems wird das Modell fixiert und die asymptotische Entwicklung des Risikos in Bezug auf die Stichprobengröße n abgeleitet.
Theoretischer Beitrag: Ableitung der asymptotischen Entwicklung des MLE-Schätzrisikos bis zur Ordnung n−2 für allgemeine Verteilungsmodelle mit vollständigen mathematischen Beweisen
Spezialisierung auf Exponentialfamilien: Vereinfachte Risikoausdrücke und praktisches p−n-Kriterium für Exponentialfamilienmodelle
Praktisches Kriterium: Vorschlag des p−n-Kriteriums zur Bestimmung, ob die Stichprobengröße ausreichend ist oder die Modelldimension angemessen ist
Algorithmen-Rahmen: Bereitstellung eines Berechnungsalgorithmus für komplexe Exponentialfamilienmodelle ohne explizite Normalisierungskonstante
Empirische Validierung: Validierung des p−n-Kriteriums an zwei realen Datensätzen
Theoretische Verbindungen: Etablierung von Beziehungen zu Informationskriterien (AIC/TIC)
Gegeben ein parametrisches Verteilungsmodell M={g(x;θ)∣θ∈Θ}, wobei g(x;θ) eine Wahrscheinlichkeitsdichtefunktion bezüglich eines Referenzmaßes dμ ist. Die Dichtefunktion der wahren Verteilung ist g(x). Das Ziel ist:
Finden der Informationsprojektion g(x;θ∗) im Modell
Bewertung des Abstands zwischen der Vorhersageverteilung g(x;θ^) des MLE θ^ und der Informationsprojektion
Etablierung eines Kriteriums zur Bestimmung, ob der MLE der Informationsprojektion ausreichend nahe kommt
Korollar 1: Für Exponentialfamilienmodelle g(x;θ)=exp(∑i=1pθiξi(x)−Ψ(θ)):
R[g(x;θ∗)∣g(x;θ^)]=2n1tr(G~−1G)+24n21[Funktion von Kumulanten dritter und vierter Ordnung]+O(n−3)
Schlüsseleigenschaft: G∗=G~=Ψ¨(θ∗) (Matrix der zweiten Ableitungen)
Diese Arbeit zitiert 28 wichtige Literaturquellen, die Informationsgeometrie, Exponentialfamilientheorie, asymptotische Statistik und andere Bereiche abdecken und eine solide theoretische Grundlage für die Forschung bieten. Wichtige Referenzen umfassen Amaris Monographie zur Informationsgeometrie, Barron & Sheus Forschung zur Konvergenz von Exponentialfamilien sowie klassische Literatur zur statistischen Lerntheorie.