Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.
- 论文ID: 2510.13358
- 标题: Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control
- 作者: Shingo Ayabe, Hiroshi Kera, Kazuhiko Kawamoto (千叶大学)
- 分类: cs.RO (机器人学), cs.AI (人工智能)
- 发表时间: 2025年10月15日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.13358
离线强化学习能够在不进行风险在线交互的情况下实现样本高效的策略获取,但在静态数据集上训练的策略在面对动作空间扰动(如执行器故障)时仍然脆弱。本研究提出了一个离线到在线的框架,首先在干净数据上训练策略,然后执行对抗性微调,在执行的动作中注入扰动以诱导补偿行为并提高鲁棒性。基于性能感知的课程进一步通过指数移动平均信号在训练过程中调整扰动概率,在整个学习过程中平衡鲁棒性和稳定性。在连续控制运动任务上的实验表明,所提出的方法在鲁棒性方面始终优于仅离线基线,并比从头训练收敛更快。
本研究要解决的核心问题是离线强化学习策略在动作空间扰动下的脆弱性。具体来说:
- 离线RL的局限性:离线强化学习虽然避免了在线交互的风险和成本,但训练的策略在面对执行器故障、动作噪声等动作空间扰动时表现脆弱。
- 保守性与鲁棒性的根本冲突:作者识别出一个关键洞察——保守的离线RL方法与动作空间鲁棒性在根本上是不兼容的。保守方法约束策略保持在数据集动作分布内以防止外推错误,但对动作扰动的鲁棒性恰恰需要学习这些被约束禁止的分布外样本。
- 安全关键应用:在医疗保健、能源管理、机器人控制等安全关键领域,策略必须能够处理意外扰动
- 实际部署需求:真实机器人系统中执行器故障和动作噪声不可避免
- 理论与实践差距:现有离线RL方法主要关注状态空间扰动,对动作空间扰动研究不足
- 离线RL保守约束:如TD3+BC等方法通过行为克隆损失约束策略接近数据集分布,限制了适应性
- 缺乏扰动数据:离线数据集通常不包含扰动感知的转换,无法评估策略在扰动下的有效性
- 状态vs动作扰动:现有鲁棒性研究主要针对状态扰动(传感器噪声),动作扰动研究较少
- 提出对抗性微调方法:在在线训练期间注入扰动,实现对动作扰动的针对性适应,同时保持离线预训练的样本效率
- 证明一致性优越表现:对抗性微调在鲁棒性方面始终优于仅离线和完全在线基线
- 设计自适应课程策略:基于策略性能调整扰动概率的自适应课程,防止对抗条件过拟合,同时保持训练稳定性,解决固定调度方法的关键局限
- 理论洞察:形式化分析了保守离线RL与动作空间鲁棒性的根本不兼容性
目标:在动作空间扰动下找到最优鲁棒策略
π∗=argmaxπmina~∈UE[∑t=0∞γtr(st,a~)]
其中a~是来自预定义集合U的对抗扰动动作。
使用TD3+BC算法在干净数据集上预训练:
π=argmaxπE(st,at)∼D[Qπ(st,π(st))−∥π(st)−at∥2]
第二项强制策略接近行为策略以保持保守性。
扰动注入机制:
at′=at+δa⊙at with probability q
其中⊙表示逐元素乘积,δa是预计算的对抗扰动。
目标更新:
yt=r~t+γmini∈{1,2}Qθi−(s~t+1,πϕ−(s~t+1)+ε)
其中s~t+1∼P(⋅∣st,a~t),r~t=r(st,a~t)。
线性课程:
q←clip(q+c,0,1)
其中c是固定步长。
自适应课程:
Δq=η(Rˉn−Rˉn−1)Rˉn=βRn+(1−β)Rˉn−1
其中Rˉn是指数移动平均性能,η和β控制适应动态。
- 扰动预计算:使用差分进化算法预生成扰动集合,避免微调期间的昂贵内循环最小化
- 性能感知调度:自适应课程根据策略表现动态调整扰动概率,性能提升时增加q以增强鲁棒性,性能下降时减少q以稳定训练
- 平衡机制:通过指数移动平均滤除短期波动,提供稳定的性能趋势估计
- 来源:D4RL专家数据集
- 环境:OpenAI Gym中的Hopper-v2、HalfCheetah-v2、Ant-v2腿式机器人环境
- 物理引擎:MuJoCo物理仿真
- 主要指标:D4RL标准化的回合奖励
- 评估条件:正常(无扰动)、随机扰动、对抗扰动
- 统计:100个回合的平均表现,5次独立运行
- Offline-only:仅离线训练的TD3+BC
- Fully Online (Adversarial):从头开始的在线对抗训练
- Fine-tuned variants:不同扰动条件下的微调策略
- 预训练:500万步TD3+BC
- 微调:100万步TD3(课程实验300万步)
- 扰动强度:Hopper/HalfCheetah ϵ=0.3,Ant ϵ=0.5
- 扰动概率:Hopper q=0.5,HalfCheetah/Ant q=0.1
- 自适应参数:β=0.9,η环境特定调整
表1核心发现:
- Ant-v2对抗条件:对抗微调91.6 vs 离线-21.0 vs 完全在线24.0
- Hopper-v2对抗条件:对抗微调83.5 vs 离线13.7 vs 完全在线57.0
- 一致性优势:对抗微调在所有环境的对抗评估中均显著优于基线
关键洞察:
- 微调条件与评估条件匹配时效果最佳
- 离线策略在扰动下性能急剧下降(甚至负奖励)
- 对抗微调比从头训练收敛更快
课程策略比较(表2):
- 1M步骤:自适应课程qada在所有环境中一致优于固定qfix和线性qlin
- 3M步骤:线性课程出现过拟合,正常性能下降(Hopper: 95.1→76.5)
- 自适应优势:qada维持或改善正常性能,同时保持对抗鲁棒性
图5课程轨迹:
- 线性策略:q值无情增长,导致过拟合
- 自适应策略:根据性能反馈调整q增长,防止过度困难升级
- 收敛速度:对抗微调利用离线预训练实现快速收敛
- 鲁棒性-稳定性权衡:自适应课程成功平衡两者
- 环境特异性:不同环境需要不同的超参数调整
- 保守方法:TD3+BC、CQL、IQL等通过约束策略接近数据分布
- 核心挑战:分布外状态-动作对的Q值过估计
- 状态扰动:RORL等方法通过平滑值分布改善鲁棒性
- 动作扰动:研究相对较少,现有工作显示离线策略特别脆弱
- 代表方法:AWAC、O2O、Policy Expansion等
- 主要挑战:早期微调阶段的性能退化
- 根本不兼容性:保守离线RL与动作空间鲁棒性存在结构性冲突
- 有效解决方案:对抗性微调成功桥接离线效率与在线适应性
- 课程学习价值:自适应调度优于固定策略,避免过拟合
- 理论保证缺失:缺乏课程自适应的理论分析
- 环境复杂性:实验仅限于相对简单的运动任务
- 扰动类型:主要关注乘性扰动,其他类型扰动未充分探索
- 理论发展:建立课程自适应的理论保证
- 复杂环境:探索状态和动作空间扰动的相互作用
- 扰动多样性:研究更广泛的扰动类型和模式
- 核心洞察深刻:识别保守性与鲁棒性的根本冲突是重要贡献
- 方法设计合理:对抗微调框架逻辑清晰,技术实现可行
- 实验充分:多环境、多基线、多指标的全面评估
- 实用价值高:解决实际机器人部署中的关键问题
- 理论分析不足:缺乏收敛性和鲁棒性的理论保证
- 环境局限性:仅在MuJoCo仿真环境测试,缺乏真实机器人验证
- 超参数敏感:自适应课程需要环境特定的参数调整
- 计算开销:扰动预计算和性能评估增加计算成本
- 学术贡献:为离线RL鲁棒性研究提供新视角和方法
- 实用价值:为安全关键机器人应用提供实际解决方案
- 可复现性:方法描述详细,实验设置清晰
- 机器人控制:需要处理执行器故障的自主系统
- 安全关键应用:医疗机器人、工业自动化等
- 资源受限环境:需要样本效率但要求鲁棒性的场景
论文引用了强化学习领域的重要工作,包括:
- 离线RL:Fujimoto & Gu (TD3+BC)、Kumar et al. (CQL)
- 鲁棒RL:Pinto et al. (对抗训练)、Yang et al. (RORL)
- 离线到在线:Nair et al. (AWAC)、Lee et al. (O2O)
总体评价:这是一篇高质量的研究论文,在理论洞察、方法创新和实验验证方面都有显著贡献。虽然在理论分析和真实环境验证方面还有改进空间,但为离线强化学习的鲁棒性研究开辟了重要方向,具有较高的学术和实用价值。