For a parametric model of distributions, the closest distribution in the model to the true distribution located outside the model is considered. Measuring the closeness between two distributions with the Kullback-Leibler (K-L) divergence, the closest distribution is called the "information projection." The estimation risk of the maximum likelihood estimator (MLE) is defined as the expectation of K-L divergence between the information projection and the predictive distribution with plugged-in MLE. Here, the asymptotic expansion of the risk is derived up to $n^{-2}$-order, and the sufficient condition on the risk for the Bayes error rate between the true distribution and the information projection to be lower than a specified value is investigated. Combining these results, the "$p-n$ criterion" is proposed, which determines whether the MLE is sufficiently close to the information projection for the given model and sample. In particular, the criterion for an exponential family model is relatively simple and can be used for a complex model with no explicit form of normalizing constant. This criterion can constitute a solution to the sample size or model acceptance problem. Use of the $p-n$ criteria is demonstrated for two practical datasets. The relationship between the results and information criteria is also studied.
論文ID : 2105.08947タイトル : MLE convergence speed to information projection of exponential family: Criterion for model dimension and sample size -- complete proof version--著者 : Yo Sheena(滋賀大学データサイエンス学部、統計数理研究所客員教授)分類 : math.ST stat.TH発表時期 : 2021年5月(arXiv プレプリント)論文リンク : https://arxiv.org/abs/2105.08947 本論文は、パラメトリック分布モデルにおいて、真の分布がモデル外部に位置する場合に、モデル内で真の分布に最も近い分布の問題を研究している。Kullback-Leibler (K-L)ダイバージェンスを用いて分布間の距離を測定し、最も近い分布を「情報投影」と呼ぶ。最大尤度推定量(MLE)の推定リスクは、情報投影とMLEを代入した予測分布間のK-Lダイバージェンスの期待値として定義される。本論文はリスクの漸近展開をn − 2 n^{-2} n − 2 次まで導出し、真の分布と情報投影間のベイズ誤り率を指定値以下にするリスクの十分条件を研究した。これらの結果を組み合わせることで、「p − n p-n p − n 基準」を提案し、与えられたモデルとサンプルの下でMLEが情報投影に十分近いかどうかを判定する。特に、指数族モデルの基準は比較的単純であり、正規化定数の明示的形式を持たない複雑なモデルに適用可能である。この基準は、サンプルサイズまたはモデル受容問題の解決策として機能する。
与えられたデータセットに対して、独立同分布(i.i.d.)サンプルの生成器として未知の確率分布を仮定する必要がある。パラメトリック分布モデルを用いてデータを「説明」する場合、最初のタスクはモデル内で「最適な」分布を見つけることである。真の分布は通常モデル外部に位置するため、「最適」とは真の分布に最も「近い」分布を意味する。
分布近似の成功は広範な応用を持つ:
条件付き分布に基づく回帰または判別分析 条件付きまたは無条件分布を用いた多重代入法 確率等高線領域に基づく異常値判定 C.R. Raoの有名な方程式を体現:「不確実な知識」+「不確実性の程度に関する知識」=「利用可能な知識」 分布近似プロセスには3つの重要な問題が存在する:
分布モデルを体系的に構築する方法 推定量と最適分布の近接度を評価する方法 最適分布と真の分布の近接度を評価する方法 既存研究は主に予測分布と真の分布の近接度に焦点を当てており、最適分布との近接度ではない。
本論文は第2の問題に焦点を当て、MLEが最適分布に十分近いかどうかを判定する基準を確立する。第2と第3の問題を分離することで、モデルを固定し、サンプルサイズnに関するリスクの漸近展開を導出する。
理論的貢献 :一般分布モデルの下でのMLE推定リスクの漸近展開をn − 2 n^{-2} n − 2 次まで導出し、完全な数学的証明を提供指数族の特化 :指数族モデルに対して簡略化されたリスク表現と実用的なp − n p-n p − n 基準を提供実用的基準 :p − n p-n p − n 基準を提案し、サンプルサイズが十分であるか、またはモデル次元が適切であるかを判定するために使用可能アルゴリズムフレームワーク :正規化定数の明示的形式を必要としない複雑な指数族モデルの計算アルゴリズムを提供実証的検証 :2つの実データセット上でp − n p-n p − n 基準の有効性を検証理論的関連性 :情報準則(AIC/TIC)との関係を確立パラメトリック分布モデルM = { g ( x ; θ ) ∣ θ ∈ Θ } M = \{g(x; \theta) | \theta \in \Theta\} M = { g ( x ; θ ) ∣ θ ∈ Θ } が与えられ、ここでg ( x ; θ ) g(x; \theta) g ( x ; θ ) は参照測度d μ d\mu d μ に関する確率密度関数である。真の分布の密度関数をg ( x ) g(x) g ( x ) とする。目標は:
モデル内の情報投影g ( x ; θ ∗ ) g(x; \theta^*) g ( x ; θ ∗ ) を見つける MLE θ ^ \hat{\theta} θ ^ に対応する予測分布g ( x ; θ ^ ) g(x; \hat{\theta}) g ( x ; θ ^ ) と情報投影間の距離を評価する MLEが情報投影に十分近いかどうかを判定する基準を確立する 情報投影g ( x ; θ ∗ ) g(x; \theta^*) g ( x ; θ ∗ ) は以下のように定義される:
θ ∗ = arg min θ ∈ Θ D [ g ( x ) ∣ g ( x ; θ ) ] \theta^* = \arg \min_{\theta \in \Theta} D[g(x) | g(x; \theta)] θ ∗ = arg min θ ∈ Θ D [ g ( x ) ∣ g ( x ; θ )]
ここでD [ g 1 ∣ g 2 ] = ∫ g 1 ( x ) log ( g 1 ( x ) / g 2 ( x ) ) d μ D[g_1 | g_2] = \int g_1(x) \log(g_1(x)/g_2(x))d\mu D [ g 1 ∣ g 2 ] = ∫ g 1 ( x ) log ( g 1 ( x ) / g 2 ( x )) d μ はK-Lダイバージェンスである。
推定リスクは以下のように定義される:
R [ g ( x ; θ ∗ ) ∣ g ( x ; θ ^ ) ] = E [ D [ g ( x ; θ ∗ ) ∣ g ( x ; θ ^ ) ] ] R[g(x; \theta^*) | g(x; \hat{\theta})] = E[D[g(x; \theta^*) | g(x; \hat{\theta})]] R [ g ( x ; θ ∗ ) ∣ g ( x ; θ ^ )] = E [ D [ g ( x ; θ ∗ ) ∣ g ( x ; θ ^ )]]
定理1 :K-Lダイバージェンスに関するMLEの推定リスクは:
R [ g ( x ; θ ∗ ) ∣ g ( x ; θ ^ ) ] = ( 2 n ) − 1 tr ( G ~ − 1 G G ~ − 1 G ∗ ) + n − 2 [ 複雑な二次項 ] + O ( n − 3 ) R[g(x; \theta^*) | g(x; \hat{\theta})] = (2n)^{-1}\text{tr}(\tilde{G}^{-1}G\tilde{G}^{-1}G^*) + n^{-2}[\text{複雑な二次項}] + O(n^{-3}) R [ g ( x ; θ ∗ ) ∣ g ( x ; θ ^ )] = ( 2 n ) − 1 tr ( G ~ − 1 G G ~ − 1 G ∗ ) + n − 2 [ 複雑な二次項 ] + O ( n − 3 )
ここで:
G i j ∗ ( θ ∗ ) G^*_{ij}(\theta^*) G ij ∗ ( θ ∗ ) :Fisher情報行列G ~ i j ( θ ∗ ) \tilde{G}_{ij}(\theta^*) G ~ ij ( θ ∗ ) :Hessian行列の負の期待値G i j ( θ ∗ ) G_{ij}(\theta^*) G ij ( θ ∗ ) :真の分布下の分散共分散行列系1 :指数族モデルg ( x ; θ ) = exp ( ∑ i = 1 p θ i ξ i ( x ) − Ψ ( θ ) ) g(x; \theta) = \exp(\sum_{i=1}^p \theta_i \xi_i(x) - \Psi(\theta)) g ( x ; θ ) = exp ( ∑ i = 1 p θ i ξ i ( x ) − Ψ ( θ )) に対して:
R [ g ( x ; θ ∗ ) ∣ g ( x ; θ ^ ) ] = 1 2 n tr ( G ~ − 1 G ) + 1 24 n 2 [ 三次および四次累積量の関数 ] + O ( n − 3 ) R[g(x; \theta^*) | g(x; \hat{\theta})] = \frac{1}{2n}\text{tr}(\tilde{G}^{-1}G) + \frac{1}{24n^2}[\text{三次および四次累積量の関数}] + O(n^{-3}) R [ g ( x ; θ ∗ ) ∣ g ( x ; θ ^ )] = 2 n 1 tr ( G ~ − 1 G ) + 24 n 2 1 [ 三次および四次累積量の関数 ] + O ( n − 3 )
重要な性質:G ∗ = G ~ = Ψ ¨ ( θ ∗ ) G^* = \tilde{G} = \ddot{\Psi}(\theta^*) G ∗ = G ~ = Ψ ¨ ( θ ∗ ) (二次導関数行列)
C ≥ 1 2 n tr ( G ~ ^ − 1 G ^ G ~ ^ − 1 G ^ ∗ ) C \geq \frac{1}{2n}\text{tr}(\hat{\tilde{G}}^{-1}\hat{G}\hat{\tilde{G}}^{-1}\hat{G}^*) C ≥ 2 n 1 tr ( G ~ ^ − 1 G ^ G ~ ^ − 1 G ^ ∗ )
C ≥ 1 2 n tr ( Σ ^ ( Ψ ¨ ( θ ^ ) ) − 1 ) + 1 24 n 2 [ 推定された二次項 ] C \geq \frac{1}{2n}\text{tr}(\hat{\Sigma}(\ddot{\Psi}(\hat{\theta}))^{-1}) + \frac{1}{24n^2}[\text{推定された二次項}] C ≥ 2 n 1 tr ( Σ ^ ( Ψ ¨ ( θ ^ ) ) − 1 ) + 24 n 2 1 [ 推定された二次項 ]
ここでΣ ^ \hat{\Sigma} Σ ^ はξ i \xi_i ξ i 項の標本共分散行列である。
ベイズ誤り率とK-Lダイバージェンスの関係を通じて閾値C C C を設定する:
D [ g 1 ∣ g 2 ] ≤ δ D[g_1 | g_2] \leq \delta D [ g 1 ∣ g 2 ] ≤ δ の場合、誤り率Er [ g 1 ∣ g 2 ] ≥ 1 / 2 − δ / 8 \text{Er}[g_1 | g_2] \geq 1/2 - \sqrt{\delta/8} Er [ g 1 ∣ g 2 ] ≥ 1/2 − δ /8 誤り率閾値1 / 2 − α 1/2 - \alpha 1/2 − α に対して、近似的にC α = 8 α 2 C_\alpha = 8\alpha^2 C α = 8 α 2 赤ワイン品質データセット :出典:UCI機械学習リポジトリ サンプルサイズ:1599(赤ワインデータ) 変数:11個の化学物質(連続変数)+品質指標(3-8整数) モデル:47次元指数族モデル(相関性フィルタリング後) アワビデータセット :出典:UCI機械学習リポジトリ サンプルサイズ:4177 変数:性別(3カテゴリ)+環数(1-29整数) モデル:62次元多項分布(63カテゴリ) 赤ワインデータ:ランダムに2分割、一方はモデル構築用、他方はパラメータ推定用 アワビデータ:多項分布のp − n p-n p − n 基準公式を直接適用 MCMC法を用いて複雑な指数族モデルの正規化定数の問題に対処 47次元モデル (n = 799 n=799 n = 799 ):一次項:2.95e-02 二次項:-1.30e-04 総推定リスク:2.93e-02 対応するα ≈ 0.06 \alpha \approx 0.06 α ≈ 0.06 、ベイズ誤り率 > 0.44 37次元簡略化モデル :総推定リスク:1.62e-02 < 0.02(α = 0.05 \alpha=0.05 α = 0.05 の閾値) p − n p-n p − n 基準要件を満たす分類性能 :生成モデル分類器の精度58%、決定木63%、ただし生成モデルは過学習が少ないp = 62 p=62 p = 62 、n = 4177 n=4177 n = 4177 、M ^ = 36128.33 M̂=36128.33 M ^ = 36128.33 一次リスク:0.0074、二次リスク:1.73e-04 総リスク:0.0076 < 0.02(α = 0.05 \alpha=0.05 α = 0.05 ) p − n p-n p − n 基準を満たすただしα = 0.01 \alpha=0.01 α = 0.01 に対してはn ≥ 38847 n \geq 38847 n ≥ 38847 が必要で、実際のサンプルは不足 二次項は総リスクへの寄与が小さく、一次近似が通常十分 p − n p-n p − n 基準はモデル選択とサンプルサイズ決定に効果的に指導可能複雑なモデルはMCMC法により実装可能で、正規化定数の明示的形式は不要 Portnoy、Stone、Barron & Sheuなどによる指数族列の収束性研究 Wainwright & Jordanによるグラフィカルモデルの基底関数選択研究 Efron & Tibshiraniによる混合指数族構築研究 Amari & Nagaokaの情報幾何学理論が本論文に幾何学的基礎を提供 Csiszárの情報投影概念 α \alpha α -ダイバージェンス理論フレームワークAIC/TIC情報準則との関係 本論文の方法は推定リスクと近似リスクを分離 MLE推定リスクの正確な漸近理論を確立し、特に指数族の簡略化形式を提供 実用的なp − n p-n p − n 基準を提案し、サンプルサイズ決定とモデル受容問題に使用可能 複雑な指数族モデルを処理するためのアルゴリズムフレームワークを提供 情報準則との理論的関連性を確立 理論的仮定は適切な正則性条件を必要とする 二次項の計算は複雑で、実際の応用では一次近似が常に使用される 閾値設定は近似関係に基づいており、十分に正確でない可能性がある 非指数族モデルに対しては、基準の形式がより複雑 より一般的なダイバージェンス族への拡張 有限標本特性の研究 より効率的な計算アルゴリズムの開発 深層学習などの現代的統計モデルへの応用 理論的厳密性 :完全な数学的証明を提供し、理論分析が深い実用的価値 :p − n p-n p − n 基準は実際の問題に直接適用可能方法論的革新 :推定リスクと近似リスクを分離する考え方が新規計算可能性 :複雑なモデルに対するMCMC実装方案を提供広範な適用性 :様々な指数族モデルに適用可能計算複雑度 :二次項の計算量が大きく、実際の応用を制限仮定条件 :より強い正則性仮定が必要実験が限定的 :2つのデータセットのみで検証閾値近似 :ベイズ誤り率とK-Lダイバージェンス関係の近似が十分でない可能性理論的貢献 :統計学習理論に新しい分析ツールを提供実践的指導 :モデル選択に定量的基準を提供方法論 :リスク分解の新しいフレームワークを確立拡張可能性 :後続研究の理論的基礎を提供指数族モデルのサンプルサイズ計画 複雑な統計モデルのモデル選択 機械学習におけるモデル複雑度制御 ベイズ統計における事前分布選択の指導 本論文は28篇の重要な参考文献を引用しており、情報幾何学、指数族理論、漸近統計など複数の分野をカバーし、研究に堅実な理論的基礎を提供している。主要な参考文献にはAmariの情報幾何学専著、Barron & Sheuの指数族収束性研究、および古典的な統計学習理論文献が含まれる。