MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--
Sheena
For a parametric model of distributions, the closest distribution in the model to the true distribution located outside the model is considered. Measuring the closeness between two distributions with the Kullback-Leibler (K-L) divergence, the closest distribution is called the "information projection." The estimation risk of the maximum likelihood estimator (MLE) is defined as the expectation of K-L divergence between the information projection and the predictive distribution with plugged-in MLE. Here, the asymptotic expansion of the risk is derived up to $n^{-2}$-order, and the sufficient condition on the risk for the Bayes error rate between the true distribution and the information projection to be lower than a specified value is investigated. Combining these results, the "$p-n$ criterion" is proposed, which determines whether the MLE is sufficiently close to the information projection for the given model and sample. In particular, the criterion for an exponential family model is relatively simple and can be used for a complex model with no explicit form of normalizing constant. This criterion can constitute a solution to the sample size or model acceptance problem. Use of the $p-n$ criteria is demonstrated for two practical datasets. The relationship between the results and information criteria is also studied.
academic
MLE의 지수족 정보 투영으로의 수렴 속도: 모형 차원과 표본 크기의 기준 -- 완전 증명 버전--
본 논문은 매개변수 분포 모형에서 참 분포가 모형 외부에 위치할 때, 모형 내에서 참 분포에 가장 가까운 분포 문제를 연구한다. Kullback-Leibler (K-L) 산도를 사용하여 분포 간 거리를 측정하며, 가장 가까운 분포를 "정보 투영"이라 한다. 최대우도추정량(MLE)의 추정 위험은 정보 투영과 MLE를 대입한 예측 분포 사이의 K-L 산도의 기댓값으로 정의된다. 본 논문은 위험의 점근 전개를 n−2 차수까지 도출하고, 참 분포와 정보 투영 사이의 베이즈 오류율을 지정된 값 이하로 만드는 위험의 충분조건을 연구한다. 이러한 결과를 결합하여 주어진 모형과 표본에서 MLE가 정보 투영에 충분히 가까운지 판단하기 위한 "p−n 기준"을 제안한다. 특히 지수족 모형의 기준은 상대적으로 단순하며, 정규화 상수의 명시적 형태가 없는 복잡한 모형에 적용할 수 있다. 본 기준은 표본 크기 또는 모형 채택 문제의 해결책으로 활용될 수 있다.
주어진 데이터 집합에 대해 독립동일분포(i.i.d.) 표본의 생성기로서 미지의 확률분포를 가정해야 한다. 어떤 매개변수 분포 모형을 사용하여 데이터를 "설명"하려면, 먼저 모형 내에서 "최적" 분포를 찾아야 한다. 참 분포는 일반적으로 모형 외부에 위치하므로, "최적"은 참 분포에 가장 "가까운" 분포를 의미한다.
본 논문은 28편의 중요 문헌을 인용하며, 정보 기하학, 지수족 이론, 점근 통계 등 다양한 분야를 포괄하여 연구에 견고한 이론적 기초를 제공한다. 주요 참고문헌에는 Amari의 정보 기하학 전문서, Barron & Sheu의 지수족 수렴성 연구, 그리고 고전적 통계학습 이론 문헌이 포함된다.