2025-11-15T23:58:12.055440

An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs

Liu, Wei, Zimmert
We study decision making with structured observation (DMSO). Previous work (Foster et al., 2021b, 2023a) has characterized the complexity of DMSO via the decision-estimation coefficient (DEC), but left a gap between the regret upper and lower bounds that scales with the size of the model class. To tighten this gap, Foster et al. (2023b) introduced optimistic DEC, achieving a bound that scales only with the size of the value-function class. However, their optimism-based exploration is only known to handle the stochastic setting, and it remains unclear whether it extends to the adversarial setting. We introduce Dig-DEC, a model-free DEC that removes optimism and drives exploration purely by information gain. Dig-DEC is always no larger than optimistic DEC and can be much smaller in special cases. Importantly, the removal of optimism allows it to handle adversarial environments without explicit reward estimators. By applying Dig-DEC to hybrid MDPs with stochastic transitions and adversarial rewards, we obtain the first model-free regret bounds for hybrid MDPs with bandit feedback under several general transition structures, resolving the main open problem left by Liu et al. (2025). We also improve the online function-estimation procedure in model-free learning: For average estimation error minimization, we refine the estimator in Foster et al. (2023b) to achieve sharper concentration, improving their regret bounds from $T^{3/4}$ to $T^{2/3}$ (on-policy) and from $T^{5/6}$ to $T^{7/9}$ (off-policy). For squared error minimization in Bellman-complete MDPs, we redesign their two-timescale procedure, improving the regret bound from $T^{2/3}$ to $\sqrt{T}$. This is the first time a DEC-based method achieves performance matching that of optimism-based approaches (Jin et al., 2021; Xie et al., 2023) in Bellman-complete MDPs.
academic

An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs

基本信息

  • 论文ID: 2510.08882
  • 标题: An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs
  • 作者: Haolin Liu (University of Virginia), Chen-Yu Wei (University of Virginia), Julian Zimmert (Google Research)
  • 分类: cs.LG (Machine Learning)
  • 发表时间: 2025年10月
  • 论文链接: https://arxiv.org/abs/2510.08882v1

摘要

本文研究结构化观测决策制定问题(DMSO)。先前工作通过决策估计系数(DEC)刻画了DMSO的复杂度,但在遗憾上界和下界之间留下了与模型类大小相关的间隙。Foster等人(2023b)引入了乐观DEC来缩小这一间隙,实现了仅与值函数类大小相关的界。然而,基于乐观性的探索仅能处理随机环境,是否能扩展到对抗环境尚不明确。

本文提出了Dig-DEC,一个无模型的DEC方法,去除了乐观性并纯粹通过信息增益驱动探索。Dig-DEC总是不大于乐观DEC,在特殊情况下可以显著更小。重要的是,去除乐观性使其能够处理对抗环境而无需显式奖励估计器。通过将Dig-DEC应用于具有随机转移和对抗奖励的混合MDP,获得了首个在多种一般转移结构下带bandit反馈的混合MDP的无模型遗憾界。

研究背景与动机

  1. 要解决的问题: 现有的决策估计系数(DEC)框架在模型类大小和值函数类大小之间存在间隙,且基于乐观性的方法无法有效处理对抗环境。
  2. 问题重要性:
    • 在线决策制定是强化学习的核心问题
    • 实际应用中常面临部分随机、部分对抗的混合环境
    • 现有方法在理论保证和实际性能之间存在gap
  3. 现有方法局限性:
    • Foster等人的模型基于DEC/E2D需要承担log|M|的模型估计成本
    • 乐观DEC虽然改善了复杂度,但依赖乐观原理,无法处理对抗设置
    • Liu等人(2025)的混合MDP方法仅能处理全信息反馈,bandit情况仍为开放问题
  4. 研究动机: 开发一个统一框架,既能在随机环境中改进现有结果,又能首次处理混合MDP的bandit反馈情况。

核心贡献

  1. 提出Dig-DEC复杂度度量: 引入双信息增益决策估计系数,去除乐观性,纯粹通过信息增益驱动探索
  2. 统一理论框架: 构建了能同时处理随机和混合环境的通用算法框架
  3. 改进的在线函数估计:
    • 平均估计误差:从T^{3/4}/T^{5/6}改进到T^{2/3}/T^{7/9}
    • 平方误差:从T^{2/3}改进到√T,首次在Bellman完备MDP中达到与乐观方法相同性能
  4. 解决开放问题: 首次给出混合MDP在bandit反馈下的无模型遗憾界

方法详解

任务定义

DMSO框架: 给定模型空间M、策略空间Π、观测空间O和值函数V。每轮t中:

  • 环境选择模型Mt ∈ M
  • 学习者选择策略πt ∈ Π
  • 观测ot ~ Mt(·|πt)
  • 目标:最小化遗憾Reg(π*) = Σt(VMt(π*) - VMt(πt))

Φ-受限环境: 通过信息集Φ对M×Π进行划分,每个信息集ϕ包含单一策略πϕ。

模型架构

1. 通用框架(Algorithm 1)

核心思想是解决如下鞍点问题:

min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} AIR^{Φ,D}_η(p,ν;ρt)

其中散度度量为:

D^π(ν||ρ) = E_{M~ν}E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ) + E_{ϕ~ρ}[D^π(ϕ||M)]]

2. Dig-DEC定义

dig-dec^{Φ,D}_η = max_{ρ∈Δ(Φ)} min_{p∈Δ(Π)} max_{ν∈Δ(Ψ)} 
E_{π~p}E_{(M,π*)~ν}[V_M(π*) - V_M(π) - (1/η)E_{o~M(·|π)}[KL(ν_{ϕ}(·|π,o), ρ)] - (1/η)E_{ϕ~ρ}[D^π(ϕ||M)]]

3. 后验更新机制

根据不同的D选择:

  • 平均估计误差: 使用批处理算法(Algorithm 2)
  • 平方估计误差: 使用双层学习算法(Algorithm 3)

技术创新点

  1. 双信息增益设计:
    • KL项用于正则化,避免乐观机制
    • D^π项捕获分布差异,实现严格改进
  2. 去除乐观性: 通过正则化项KL(ν_{ϕ}, ρ)替代乐观DEC中的V_ϕ(π_ϕ)项
  3. 改进的估计程序:
    • 平均误差:使用无偏估计器替代有偏估计器
    • 平方误差:重新设计双时间尺度程序,Est界从T^{1/3}改进到常数

实验设置

理论验证环境

  1. 随机设置:
    • 双线性类MDP
    • Bellman-eluder维数有界的MDP
    • 可覆盖性有界的MDP
  2. 混合设置:
    • 混合双线性类
    • 混合可覆盖MDP
    • 已知线性奖励特征

评价指标

  • 遗憾界: EReg(π*)的上界
  • 复杂度比较: dig-dec vs o-dec vs 经典DEC
  • 收敛速率: T的幂次依赖关系

对比方法

  • Foster等人(2023b)的乐观DEC
  • Liu等人(2025)的AIR框架
  • 经典乐观方法(Jin等2021, Xie等2023)

实验结果

主要结果

随机环境改进(Table 1):

设置类别Foster等(2023b)本文方法
双线性/BE (平均误差)T^{3/4}/T^{5/6}T^{2/3}/T^{7/9}
Bellman完备 (平方误差)T^{2/3}√T

混合环境突破(Table 2):

设置类别Liu等(2025)本文方法
双线性 (平均误差)仅全信息T^{5/6}/T^{13/15}
Bellman完备 (平方误差)不适用T^{3/4}

理论优势验证

定理13: 在随机设置中,dig-dec^{Φ,D}_η ≤ o-dec^{Φ,D}_η + η

定理14: 构造三臂bandit实例,证明存在情况下:

  • Foster等方法: EReg(a) ≥ Ω(√T)
  • 本文方法: EReg(a) ≤ 1

实验发现

  1. 信息增益的重要性: KL项能捕获乐观DEC忽略的分布信息
  2. 估计程序改进: 无偏估计器显著提升浓度不等式效果
  3. 去除乐观性的优势: 使算法能自然扩展到对抗环境

相关工作

主要研究方向

  1. DEC框架发展:
    • Foster等(2021b, 2023a): 建立基本DEC理论
    • Foster等(2023b): 引入乐观DEC
    • Chen等(2025): 扩展到其他设置
  2. 对抗MDP研究:
    • Neu等(2013): 表格对抗MDP
    • Luo等(2021): 线性对抗MDP
    • Liu等(2025): 混合MDP理论
  3. 无模型强化学习:
    • Jin等(2021): Bellman-eluder维数
    • Xie等(2023): 可覆盖性理论

本文优势

  1. 理论统一: 首个同时处理随机和混合环境的DEC框架
  2. 技术创新: 双信息增益设计,去除乐观性依赖
  3. 问题解决: 解决Liu等(2025)留下的开放问题

结论与讨论

主要结论

  1. Dig-DEC提供了更精确的复杂度刻画,在特殊情况下可获得任意大的改进
  2. 去除乐观性使算法能自然处理对抗环境
  3. 改进的估计程序在理论和实际中都有重要意义

局限性

  1. 假设限制: 混合设置需要已知线性奖励特征(Assumption 4)
  2. 技术约束: 某些低秩MDP情况仍无法处理
  3. 计算复杂度: 鞍点优化的实际计算效率未详细讨论

未来方向

  1. 放松Assumption 3和4的限制
  2. 研究无模型学习的基本限制
  3. 开发更高效的计算算法

深度评价

优点

  1. 理论贡献显著:
    • 提出新的复杂度度量dig-dec
    • 统一处理随机和对抗环境
    • 解决重要开放问题
  2. 技术创新性强:
    • 双信息增益设计巧妙
    • 估计程序改进有效
    • 分析技术先进
  3. 结果说服力强:
    • 理论界tight且实用
    • 构造实例证明严格改进
    • 覆盖多种经典MDP类

不足

  1. 实验验证有限: 主要为理论分析,缺少实际算法实现和经验验证
  2. 适用范围受限: 对混合MDP的假设较强,限制了方法的一般性
  3. 计算复杂度: 鞍点优化的实际可解性和效率需要进一步研究

影响力

  1. 理论价值: 为DEC理论发展提供新方向,可能启发后续研究
  2. 实用潜力: 为实际强化学习算法设计提供理论指导
  3. 领域推进: 在无模型学习和对抗MDP交叉领域取得突破

适用场景

  1. 理论研究: DEC框架扩展,复杂度分析
  2. 算法设计: 需要处理混合环境的强化学习算法
  3. 应用领域: 金融交易、推荐系统等部分对抗环境

参考文献

关键参考文献包括:

  • Foster et al. (2021b, 2023a, 2023b): DEC理论基础
  • Liu et al. (2025): 混合MDP研究
  • Jin et al. (2021): Bellman-eluder维数
  • Xie et al. (2023): 可覆盖性理论
  • Xu and Zeevi (2023): AIR框架

本论文在决策估计系数理论方面取得了重要进展,通过巧妙的技术创新解决了该领域的关键问题,为强化学习理论发展做出了有价值的贡献。虽然在实际应用验证方面还有改进空间,但其理论价值和创新性使其成为该领域的重要工作。