The Principle of Maximum Entropy is a rigorous technique for estimating an unknown distribution given partial information while simultaneously minimizing bias. However, an important requirement for applying the principle is that the available information be provided error-free (Jaynes 1982). We relax this requirement using a memoryless communication channel as a framework to derive a new, more general principle. We show our new principle provides an upper bound on the entropy of the unknown distribution and the amount of information lost due to the use of a given communications channel is unknown unless the unknown distribution's entropy is also known. Using our new principle we provide a new interpretation of the classic principle and experimentally show its performance relative to the classic principle and other generally applicable solutions. Finally, we present a simple algorithm for solving our new principle and an approximation useful when samples are limited.
論文ID : 2305.09868タイトル : The Principle of Uncertain Maximum Entropy著者 : Kenneth Bogert、Matthew Kothe(ノースカロライナ大学アッシュビル校)分類 : cs.IT cs.CV cs.LG math.IT発表日時 : 2025年10月16日(arXiv v5)論文リンク : https://arxiv.org/abs/2305.09868 最大エントロピー原理は、部分的な情報が与えられた場合に未知の分布を推定し、同時にバイアスを最小化する厳密な技術である。しかし、この原理を適用する際の重要な要件は、利用可能な情報が誤差のないものである必要があることである(Jaynes 1982)。本論文は、無記憶通信チャネルをフレームワークとして使用してこの要件を緩和し、より汎用的な新しい原理を導出する。研究により、新原理は未知分布のエントロピーの上界を提供し、与えられた通信チャネルの使用により失われた情報量は、未知分布のエントロピーが既知である場合にのみ決定できることが示された。新原理を使用して、著者は古典的原理に対する新しい解釈を提供し、実験を通じて古典的原理および他の汎用ソリューションに対するその性能を実証した。
従来の最大エントロピー原理では、制約に使用される経験的特性期待値が既知かつ誤差のないものである必要がある。しかし、現実世界の多くのシナリオでは、ノイズまたは他の不確実性メカニズムのため、この要件を満たすことができないことが多い。
現実的ニーズ :顕著なノイズまたは不確実性が存在する領域では、誤差のないサンプル情報を取得できない理論的限界 :既存の方法は不確実性の源を潜在変数と仮定し、期待値を使用して欠落情報を補完するため、汎用性に欠ける実用的応用 :通信チャネルにノイズが存在する場合でも、古典的原理の理想的性質を保持する、より汎用的な原理が必要である無記憶通信チャネルモデルをフレームワークとして使用し、ノイズと不確実性を正式にモデル化することで、古典的最大エントロピー原理の優れた性質を保持する新しい原理を導出する。
理論的貢献 :新原理をノイズ通信チャネル上の古典的原理の応用として導出アルゴリズム的貢献 :階層的凸計画形式の新原理とその求解アルゴリズムを提案理論的分析 :新原理が初期の原理を一般化し、古典的原理に新しい解釈を提供することを証明界限分析 :新原理が未知分布のエントロピーの上界を生成し、情報損失を定量化することを証明実験的検証 :性能を示す豊富な実験結果を提供し、サンプルが限定された場合の近似方法を提示ノイズ通信チャネルを通じて受信されたサンプルが与えられた場合、未知の確率分布P₀(W)のパラメータを推定しながら、分布構造に関する追加情報(特性関数)を活用する。
離散無記憶通信チャネルを使用してモデル化:
送信側 :メッセージwは未知分布P₀(W)からサンプリングされる符号化 :P(X|W)を使用してwをxに符号化伝送 :チャネルP(Y|X)を通じて、xはyとして受信される受信側 :P₀(W)のパラメータを推定することを望むP̃(W)が不確実な場合、すべての可能なP̃(W)は以下を満たす必要がある:
∑_{w∈W} P̃r(w) ∑_{x∈X} Pr(x|w)Pr(y|x) = P̃r(y) ∀y
以下の条件を満たすすべての分布の中からエントロピーが最大のものを選択:
与えられた特性制約下の最大エントロピー分布集合のメンバーである 対応するP̃(W)が観測されたP̃(Y)を生成できる max -∑_{w∈W} P̃r(w) log P̃r(w)
制約条件:
∑_{w∈W} P̃r(w) = 1
∑_{w∈W} P̃r(w) ∑_{x∈X} Pr(x|w)Pr(y|x) = P̃r(y) ∀y
P̃(W) = M_φ(P̃(W))
ここでM_φは古典的最大エントロピー原理を適用する関数である。
1. 初期化 Pr(w) = 1/|W| ∀w
2. 凸計画を解いて新しいP̃(W)を得る:
min ∑_w P̃r(w) log(P̃r(w)/Pr(w))
制約条件:通信チャネル制約
3. 古典的最大エントロピー原理を適用して新しいP(W)を得る
4. 収束するまで繰り返す
理論的革新 :通信チャネルノイズを最大エントロピーフレームワークに初めて正式に組み込むアルゴリズム的革新 :二層最適化構造、外層はエントロピーを最大化、内層は制約充足を保証複数チャネル拡張 :複数チャネルシナリオに自然に拡張し、推定精度を向上有限サンプル近似 :大数の法則に基づくε上界を提供し、実用的応用における有限サンプル問題に対応状態空間 :|W| = 10(すべての実験)特性数 :|φ| ∈ {1,2,...,9}信号空間 :|Y| ∈ {2,3,...,10}実験数 :77,760個のランダムに生成された構成モデル生成 :スパース特性集合、真の重みλₖ = U(-1,1) × αチャネル生成 :P(X|W)とP(Y|X)をランダムに生成サンプル生成 :近似実験用に1,048,576個のサンプルuMaxEnt :提案された不確実最大エントロピー方法MaxEnt :古典的最大エントロピー(真のP̃(W)を使用、最良ケースの対照として)mlMaxEnt :最も可能性の高いwを使用して推定dMaxEnt :最大エントロピーでP̃(W)を先に推定し、その後古典的最大エントロピーを適用Kullback-Leibler発散 D_KL(P_λ,φ(W) ∥ P₀(W)) を使用して精度を測定。
低特性数 (<5):uMaxEntはdMaxEntを大幅に上回り、中央値D_KL値は数桁小さい高特性数 (≥5):ほとんどの解が高誤差モードにあるメカニズム :特性が少ないほど実行可能集合がより厳密になり、uMaxEntはこれを利用してより低いエントロピーの解を見つけることができる小|Y| (<6):ほとんどの解が高誤差モードにある大|Y| (≥6):ほとんどの解が低誤差モードにある一貫性 :uMaxEntは|Y|=10の場合、dMaxEntより一貫性がある顕著な改善 :単一の追加チャネルを追加するだけで性能が大幅に向上情報回復 :複数チャネル制約は実行可能集合を縮小し、情報損失を削減実用性 :高D_KLの単一チャネルケースに対するソリューションを提供アルゴリズム Y=W |Y|=|W| MaxEnt 3.2×10⁻¹⁵ 4.39×10⁻¹³ uMaxEnt 3.1×10⁻¹⁵ 0.001814 dMaxEnt 1.6×10⁻¹⁵ 0.01824 mlMaxEnt 1.4×10⁻¹⁵ 1.0398
収束性 :N=500付近からD_KL減少が見られ始める漸近性能 :サンプル数の増加に伴い継続的に改善、dMaxEntはN=10⁶で最大性能に近づく実用性 :中央値D_KLは常にdMaxEnt以上の性能を示す定理1 :プログラム7の実行可能集合は凸である
定理2 :プログラム7は凸である
系 :解の一意性と最適性
定理3 :古典的最大エントロピー原理は、制約を満たすP̃(W)が1つだけの場合の不確実最大エントロピー原理の特例である
定理4 :潜在最大エントロピー原理は不確実最大エントロピー原理の特例である
エントロピー上界 :H(P₀(W)) ≤ H(U_φ,P(Y|W)(P̃(Y)))情報損失 :E_φ(W;Y) = H(U_φ,P(Y|W)(P̃(Y))) - H(P₀(W))実用的意義 :通信チャネルによる情報損失を定量化Jaynes(1957)およびShannon(1948)の基礎的研究 制約情報が誤差のないものである必要があるという制限 潜在変数方法(Wang et al., 2012; Bogert et al., 2016) 最小交差エントロピー原理(Shore and Johnson, 1980) 本論文の方法はより汎用的で、不確実性の特定の源を仮定しない 凸最適化理論の活用 機械学習における二層最適化の応用 理論的貢献 :ノイズ通信チャネルを最大エントロピーフレームワークに成功裏に組み込む実用的価値 :様々な実験構成において既存の方法を上回る一般化能力 :複数の既存原理を統一情報理論的洞察 :情報損失の定量的分析を提供仮定条件 :φとP(Y|W)が既知であると仮定計算複雑性 :二層最適化は計算コストを増加させる有限サンプル性能 :小サンプルケースでの改善は限定的多峰性結果 :42%の構成が高誤差、53%が低誤差を生成仮定の緩和 :φが完全に既知でない場合に対応ノイズ特性 :特性関数内のノイズを考慮より厳密な界限 :有限サンプルケースのε界限を改善計算最適化 :アルゴリズム効率を向上理論的厳密性 :完全な数学的導出と証明実用性が高い :現実的なノイズに対応する汎用フレームワークを提供実験が充分 :大規模ランダム実験により方法の有効性を検証革新性が高い :通信チャネル理論と最大エントロピー原理を初めて結合計算複雑性 :二層最適化は大規模問題で効率が低い可能性パラメータ感度 :性能は特性数と信号空間サイズに依存実世界応用の検証 :実データセットでの検証が不足収束保証 :有限サンプル近似の収束性分析が不十分理論的価値 :情報論と機械学習の交差に新しい視点を提供応用可能性 :通信、信号処理、機械学習など複数の分野に応用可能方法論的貢献 :二層最適化フレームワークは他の問題解決にも応用可能通信システム :チャネルノイズが存在するパラメータ推定センサネットワーク :複数センサデータの融合機械学習 :ノイズラベル下の分布推定信号処理 :不完全な観測下での信号復元Jaynes, E. T. (1957). Information theory and statistical mechanics. Physical Review. Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal. Wang, S., Schuurmans, D., & Zhao, Y. (2012). The latent maximum entropy principle. ACM TKDD. Shore, J. & Johnson, R. (1980). Axiomatic derivation of the principle of maximum entropy. IEEE TIT. 総括 :これは理論と実践を重視する高品質な論文であり、古典的最大エントロピー原理をノイズ環境に対応させることに成功している。計算複雑性と実世界応用の検証の面でまだ改善の余地があるが、その理論的貢献と方法的革新は関連分野に価値のあるツールと洞察を提供している。