The Principle of Maximum Entropy is a rigorous technique for estimating an unknown distribution given partial information while simultaneously minimizing bias. However, an important requirement for applying the principle is that the available information be provided error-free (Jaynes 1982). We relax this requirement using a memoryless communication channel as a framework to derive a new, more general principle. We show our new principle provides an upper bound on the entropy of the unknown distribution and the amount of information lost due to the use of a given communications channel is unknown unless the unknown distribution's entropy is also known. Using our new principle we provide a new interpretation of the classic principle and experimentally show its performance relative to the classic principle and other generally applicable solutions. Finally, we present a simple algorithm for solving our new principle and an approximation useful when samples are limited.
论文ID : 2305.09868标题 : The Principle of Uncertain Maximum Entropy作者 : Kenneth Bogert, Matthew Kothe (University of North Carolina Asheville)分类 : cs.IT cs.CV cs.LG math.IT发表时间 : 2025年10月16日 (arXiv v5)论文链接 : https://arxiv.org/abs/2305.09868 最大熵原理是一种在给定部分信息的情况下估计未知分布的严格技术,同时能最小化偏差。然而,应用该原理的一个重要要求是可用信息必须是无误差的(Jaynes 1982)。本文使用无记忆通信信道作为框架来放松这一要求,并推导出一个新的、更通用的原理。研究表明,新原理提供了未知分布熵的上界,且由于使用给定通信信道而丢失的信息量在未知分布熵也已知的情况下才能确定。使用新原理,作者对经典原理提供了新的解释,并通过实验展示了其相对于经典原理和其他通用解决方案的性能。
传统的最大熵原理要求用于约束的经验特征期望是已知且无误差的。然而,在现实世界的许多场景中,由于噪声或其他不确定性机制,这一要求往往无法满足。
现实需求 :在存在显著噪声或不确定性的领域中,无法获得无误差的样本信息理论局限 :现有方法假设不确定性来源于隐变量,使用期望来填补缺失信息,缺乏通用性实际应用 :需要一个更通用的原理,在通信信道存在噪声的情况下仍能保持经典原理的理想性质使用无记忆通信信道模型作为框架,将噪声和不确定性正式建模,从而推导出一个保持经典最大熵原理优良性质的新原理。
理论贡献 :将新原理作为经典原理在噪声通信信道上的应用进行推导算法贡献 :提出层次凸规划形式的新原理及其求解算法理论分析 :证明新原理推广了早期原理,并对经典原理提供新解释界限分析 :证明新原理产生未知分布熵的上界,量化信息损失实验验证 :提供大量实验结果展示性能,并给出样本有限时的近似方法给定通过噪声通信信道接收的样本,估计未知概率分布P₀(W)的参数,同时利用关于分布结构的额外信息(特征函数)。
使用离散无记忆通信信道建模:
发送端 :消息w从未知分布P₀(W)中采样编码 :使用P(X|W)将w编码为x传输 :通过信道P(Y|X),x被接收为y接收端 :希望估计P₀(W)的参数当P̃(W)不确定时,所有可能的P̃(W)必须满足:
∑_{w∈W} P̃r(w) ∑_{x∈X} Pr(x|w)Pr(y|x) = P̃r(y) ∀y
在所有满足以下条件的分布中选择熵最大的:
是给定特征约束下的最大熵分布集合的成员 对应的P̃(W)能够产生观测到的P̃(Y) max -∑_{w∈W} P̃r(w) log P̃r(w)
subject to:
∑_{w∈W} P̃r(w) = 1
∑_{w∈W} P̃r(w) ∑_{x∈X} Pr(x|w)Pr(y|x) = P̃r(y) ∀y
P̃(W) = M_φ(P̃(W))
其中M_φ是应用经典最大熵原理的函数。
1. 初始化 Pr(w) = 1/|W| ∀w
2. 求解凸规划得到新的P̃(W):
min ∑_w P̃r(w) log(P̃r(w)/Pr(w))
约束条件:通信信道约束
3. 应用经典最大熵原理得到新的P(W)
4. 重复直到收敛
理论创新 :首次将通信信道噪声正式纳入最大熵框架算法创新 :双层优化结构,外层最大化熵,内层保证约束满足多信道扩展 :自然扩展到多信道场景,提高估计精度有限样本近似 :提供基于大数定律的ε上界,处理实际应用中的有限样本问题状态空间 :|W| = 10(所有实验)特征数量 :|φ| ∈ {1,2,...,9}信号空间 :|Y| ∈ {2,3,...,10}实验数量 :77,760个随机生成的配置模型生成 :稀疏特征集,真实权重λₖ = U(-1,1) × α信道生成 :随机生成P(X|W)和P(Y|X)样本生成 :1,048,576个样本用于近似实验uMaxEnt :提出的不确定最大熵方法MaxEnt :经典最大熵(使用真实P̃(W),作为最佳情况对照)mlMaxEnt :使用最可能的w进行估计dMaxEnt :先用最大熵估计P̃(W),再应用经典最大熵使用Kullback-Leibler散度 D_KL(P_λ,φ(W) ∥ P₀(W)) 衡量准确性。
低特征数 (<5):uMaxEnt显著优于dMaxEnt,中位数D_KL值小几个数量级高特征数 (≥5):大多数解处于高误差模式机制 :较少特征导致更紧的可行集,uMaxEnt能利用这一点找到较低熵的解小|Y| (<6):大多数解处于高误差模式大|Y| (≥6):大多数解处于低误差模式一致性 :uMaxEnt在|Y|=10时比dMaxEnt更一致显著改善 :仅添加一个额外信道就能显著提升性能信息恢复 :多信道约束可行集,减少信息损失实用性 :为高D_KL的单信道情况提供了解决方案算法 Y=W |Y|=|W| MaxEnt 3.2×10⁻¹⁵ 4.39×10⁻¹³ uMaxEnt 3.1×10⁻¹⁵ 0.001814 dMaxEnt 1.6×10⁻¹⁵ 0.01824 mlMaxEnt 1.4×10⁻¹⁵ 1.0398
收敛性 :N=500左右开始显示D_KL减少渐近性能 :随样本数增加持续改进,而dMaxEnt在N=10⁶时接近最大性能实用性 :中位数D_KL始终优于或等于dMaxEnt定理1 :程序7的可行集是凸的
定理2 :程序7是凸的
推论 :解的唯一性和最优性
定理3 :经典最大熵原理是不确定最大熵原理在只有一个P̃(W)满足约束时的特例
定理4 :潜在最大熵原理是不确定最大熵原理的特例
熵上界 :H(P₀(W)) ≤ H(U_φ,P(Y|W)(P̃(Y)))信息损失 :E_φ(W;Y) = H(U_φ,P(Y|W)(P̃(Y))) - H(P₀(W))实际意义 :量化了通信信道造成的信息损失Jaynes (1957)和Shannon (1948)的奠基性工作 要求约束信息无误差的限制 隐变量方法 (Wang et al., 2012; Bogert et al., 2016) 最小交叉熵原理 (Shore and Johnson, 1980) 本文方法更通用,不假设特定的不确定性来源 理论贡献 :成功将噪声通信信道纳入最大熵框架实用价值 :在多种实验配置下优于现有方法泛化能力 :统一了多个现有原理信息理论洞察 :提供了信息损失的定量分析假设条件 :假设φ和P(Y|W)已知计算复杂性 :双层优化增加了计算成本有限样本性能 :在小样本情况下改进有限多模态结果 :42%的配置产生高误差,53%产生低误差放松假设 :处理φ不完全已知的情况噪声特征 :考虑特征函数中的噪声更紧界限 :改进有限样本情况下的ε界限计算优化 :提高算法效率理论严谨性 :完整的数学推导和证明实用性强 :提供了处理现实噪声的通用框架实验充分 :大规模随机实验验证了方法的有效性创新性高 :首次将通信信道理论与最大熵原理结合计算复杂性 :双层优化可能在大规模问题中效率较低参数敏感性 :性能依赖于特征数量和信号空间大小实际应用验证 :缺乏真实世界数据集的验证收敛保证 :有限样本近似的收敛性分析不够深入理论价值 :为信息论和机器学习的交叉提供了新视角应用潜力 :可应用于通信、信号处理、机器学习等多个领域方法论贡献 :双层优化框架可能启发其他问题的解决方案通信系统 :信道存在噪声的参数估计传感器网络 :多传感器数据融合机器学习 :噪声标签下的分布估计信号处理 :不完美观测下的信号恢复Jaynes, E. T. (1957). Information theory and statistical mechanics. Physical Review. Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal. Wang, S., Schuurmans, D., & Zhao, Y. (2012). The latent maximum entropy principle. ACM TKDD. Shore, J. & Johnson, R. (1980). Axiomatic derivation of the principle of maximum entropy. IEEE TIT. 总结 :这是一篇理论与实践并重的高质量论文,成功地扩展了经典最大熵原理以处理噪声环境。虽然在计算复杂性和实际应用验证方面还有改进空间,但其理论贡献和方法创新为相关领域提供了有价值的工具和洞察。