MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--
Sheena
For a parametric model of distributions, the closest distribution in the model to the true distribution located outside the model is considered. Measuring the closeness between two distributions with the Kullback-Leibler (K-L) divergence, the closest distribution is called the "information projection." The estimation risk of the maximum likelihood estimator (MLE) is defined as the expectation of K-L divergence between the information projection and the predictive distribution with plugged-in MLE. Here, the asymptotic expansion of the risk is derived up to $n^{-2}$-order, and the sufficient condition on the risk for the Bayes error rate between the true distribution and the information projection to be lower than a specified value is investigated. Combining these results, the "$p-n$ criterion" is proposed, which determines whether the MLE is sufficiently close to the information projection for the given model and sample. In particular, the criterion for an exponential family model is relatively simple and can be used for a complex model with no explicit form of normalizing constant. This criterion can constitute a solution to the sample size or model acceptance problem. Use of the $p-n$ criteria is demonstrated for two practical datasets. The relationship between the results and information criteria is also studied.
academic
سرعة تقارب MLE إلى الإسقاط المعلوماتي للعائلة الأسية: معيار لبعد النموذج وحجم العينة -- نسخة الإثبات الكاملة--
تدرس هذه الورقة مشكلة إيجاد التوزيع الأقرب إلى التوزيع الحقيقي في نموذج توزيع احتمالي معين، عندما يقع التوزيع الحقيقي خارج النموذج. باستخدام تباعد كولباك-لايبلر (K-L) لقياس المسافة بين التوزيعات، يُطلق على التوزيع الأقرب اسم "الإسقاط المعلوماتي". يُعرّف خطر التقدير لمقدّر الاحتمالية الأعظم (MLE) بأنه التوقع الرياضي لتباعد K-L بين الإسقاط المعلوماتي والتوزيع التنبؤي المُدرج فيه MLE. تشتق الورقة التوسع التقاربي للخطر حتى الرتبة n−2، وتدرس شروط الخطر الكافية لجعل معدل الخطأ البايزي بين التوزيع الحقيقي والإسقاط المعلوماتي أقل من قيمة محددة. بدمج هذه النتائج، تقترح الورقة "معيار p−n" للحكم على ما إذا كان MLE قريباً بما يكفي من الإسقاط المعلوماتي في نموذج وعينة معينة. بشكل خاص، يكون معيار نماذج العائلة الأسية بسيطاً نسبياً، ويمكن تطبيقه على النماذج المعقدة التي لا توجد لها صيغة صريحة للثابت المعياري. يمكن استخدام هذا المعيار كحل لمشاكل حجم العينة أو قبول النموذج.
عند إعطاء مجموعة بيانات معينة، يتطلب الأمر افتراض توزيع احتمالي غير معروف كمولد لعينات موزعة بشكل مستقل وموحد (i.i.d.). إذا تم اعتماد نموذج توزيع احتمالي معين "لتفسير" البيانات، فإن المهمة الأولى هي إيجاد التوزيع "الأفضل" في النموذج. بما أن التوزيع الحقيقي يقع عادة خارج النموذج، فإن "الأفضل" يعني التوزيع الأكثر "قرباً" من التوزيع الحقيقي.
تركز هذه الورقة على المشكلة الثانية، وتضع معياراً للحكم على ما إذا كان MLE قريباً بما يكفي من التوزيع الأفضل. من خلال فصل المشاكل الثانية والثالثة، يتم تثبيت النموذج واشتقاق التوسع التقاربي للخطر فيما يتعلق بحجم العينة n.
بالنظر إلى نموذج توزيع احتمالي معامل M={g(x;θ)∣θ∈Θ}، حيث g(x;θ) هي دالة الكثافة الاحتمالية فيما يتعلق بمقياس مرجعي dμ. دالة الكثافة للتوزيع الحقيقي هي g(x). الهدف هو:
إيجاد الإسقاط المعلوماتي g(x;θ∗) في النموذج
تقييم المسافة بين التوزيع التنبؤي g(x;θ^) المقابل لـ MLE والإسقاط المعلوماتي
وضع معيار للحكم على ما إذا كان MLE قريباً بما يكفي من الإسقاط المعلوماتي
النتيجة 1: لنماذج العائلة الأسية g(x;θ)=exp(∑i=1pθiξi(x)−Ψ(θ)):
R[g(x;θ∗)∣g(x;θ^)]=2n1tr(G~−1G)+24n21[دالة التراكمات من الدرجة الثالثة والرابعة]+O(n−3)
تستشهد الورقة بـ 28 مرجعاً مهماً، تغطي الهندسة المعلوماتية ونظرية العائلة الأسية والإحصاء التقاربي وغيرها من المجالات، مما يوفر أساساً نظرياً متيناً للبحث. تشمل المراجع الرئيسية الكتاب المتخصص في الهندسة المعلوماتية لـ Amari، وأبحاث Barron & Sheu حول تقارب العائلة الأسية، بالإضافة إلى أدبيات نظرية التعلم الإحصائي الكلاسيكية.