Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.
- 論文ID: 2510.13358
- タイトル: Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control
- 著者: 清野彰吾、慶良寛、川本和彦(千葉大学)
- 分類: cs.RO(ロボット工学)、cs.AI(人工知能)
- 発表日: 2025年10月15日(arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2510.13358
オフライン強化学習は危険なオンライン相互作用を行わずにサンプル効率的なポリシー獲得を実現できるが、静的データセット上で訓練されたポリシーは、動作空間の摂動(アクチュエータ故障など)に直面した際に脆弱性を示す。本研究は、オフライン・ツー・オンラインフレームワークを提案し、まずクリーンなデータ上でポリシーを訓練した後、対抗的ファインチューニングを実行して、実行された動作に摂動を注入し、補償行動を誘発して堅牢性を向上させる。性能認識型カリキュラムは、訓練過程中に指数移動平均信号を用いて摂動確率を調整することで、学習全体を通じて堅牢性と安定性のバランスをさらに取る。連続制御運動タスクの実験により、提案手法はオフラインのみのベースラインを堅牢性の面で一貫して上回り、ゼロからの訓練よりも高速に収束することが示された。
本研究が解決する核心的問題は、動作空間の摂動下におけるオフライン強化学習ポリシーの脆弱性である。具体的には:
- オフラインRLの限界:オフライン強化学習はオンライン相互作用のリスクと費用を回避するが、訓練されたポリシーはアクチュエータ故障や動作ノイズなどの動作空間摂動に直面した際に脆弱な性能を示す。
- 保守性と堅牢性の根本的矛盾:著者は重要な洞察を指摘している——保守的なオフラインRL手法と動作空間堅牢性は根本的に両立不可能である。保守的手法は外挿誤差を防ぐためにポリシーをデータセット動作分布内に制約するが、動作摂動への堅牢性はまさにこれらの制約で禁止されている分布外サンプルを学習することを必要とする。
- 安全関連アプリケーション:医療、エネルギー管理、ロボット制御などの安全関連分野では、ポリシーが予期しない摂動に対処できる必要がある
- 実装展開の要件:実際のロボットシステムではアクチュエータ故障と動作ノイズは避けられない
- 理論と実践のギャップ:既存のオフラインRL手法は主に状態空間摂動に焦点を当てており、動作空間摂動の研究は不十分である
- オフラインRL保守制約:TD3+BCなどの手法は行動クローニング損失を通じてポリシーをデータセット分布に近づけるよう制約し、適応性を制限する
- 摂動データの欠如:オフラインデータセットは通常、摂動認識遷移を含まず、摂動下でのポリシー有効性を評価できない
- 状態対動作摂動:既存の堅牢性研究は主に状態摂動(センサノイズ)に対するもので、動作摂動の研究は少ない
- 対抗的ファインチューニング手法の提案:オンライン訓練中に摂動を注入して、動作摂動への標的化された適応を実現しながら、オフライン事前訓練のサンプル効率を維持する
- 一貫した優れた性能の実証:対抗的ファインチューニングは堅牢性の面でオフラインのみおよび完全なオンラインベースラインを一貫して上回る
- 自適応カリキュラム戦略の設計:ポリシー性能に基づいて摂動確率を調整する自適応カリキュラムで、対抗条件への過学習を防ぎながら訓練安定性を維持し、固定スケジュール手法の重要な限界を解決する
- 理論的洞察:保守的オフラインRLと動作空間堅牢性の根本的な両立不可能性を形式的に分析する
目標:動作空間摂動下で最適な堅牢ポリシーを見つける
π∗=argmaxπmina~∈UE[∑t=0∞γtr(st,a~)]
ここでa~は事前定義集合Uからの対抗的摂動動作である。
TD3+BCアルゴリズムを使用してクリーンなデータセット上で事前訓練:
π=argmaxπE(st,at)∼D[Qπ(st,π(st))−∥π(st)−at∥2]
第2項はポリシーを行動ポリシーに近づけるよう強制して保守性を維持する。
摂動注入メカニズム:
at′=at+δa⊙at 確率 q で
ここで⊙は要素ごとの積を表し、δaは事前計算された対抗的摂動である。
ターゲット更新:
yt=r~t+γmini∈{1,2}Qθi−(s~t+1,πϕ−(s~t+1)+ε)
ここでs~t+1∼P(⋅∣st,a~t)、r~t=r(st,a~t)である。
線形カリキュラム:
q←clip(q+c,0,1)
ここでcは固定ステップサイズである。
自適応カリキュラム:
Δq=η(Rˉn−Rˉn−1)Rˉn=βRn+(1−β)Rˉn−1
ここでRˉnは指数移動平均性能で、ηとβは適応ダイナミクスを制御する。
- 摂動の事前計算:差分進化アルゴリズムを使用して摂動集合を事前生成し、ファインチューニング中の高価な内ループ最小化を回避する
- 性能認識スケジューリング:自適応カリキュラムはポリシー性能に基づいて摂動確率を動的に調整し、性能向上時にqを増加させて堅牢性を強化し、性能低下時にqを減少させて訓練を安定化させる
- バランスメカニズム:指数移動平均を通じて短期変動をフィルタリングし、安定した性能トレンド推定を提供する
- 出典:D4RLエキスパートデータセット
- 環境:OpenAI Gymの Hopper-v2、HalfCheetah-v2、Ant-v2脚式ロボット環境
- 物理エンジン:MuJoCo物理シミュレーション
- 主要指標:D4RL標準化エピソード報酬
- 評価条件:通常(摂動なし)、ランダム摂動、対抗的摂動
- 統計:100エピソードの平均性能、5回の独立実行
- Offline-only:TD3+BCのみのオフライン訓練
- Fully Online (Adversarial):ゼロからの開始によるオンライン対抗訓練
- Fine-tuned variants:異なる摂動条件下のファインチューニングポリシー
- 事前訓練:500万ステップのTD3+BC
- ファインチューニング:100万ステップのTD3(カリキュラム実験は300万ステップ)
- 摂動強度:Hopper/HalfCheetah ϵ=0.3、Ant ϵ=0.5
- 摂動確率:Hopper q=0.5、HalfCheetah/Ant q=0.1
- 自適応パラメータ:β=0.9、ηは環境特定の調整
表1の核心的発見:
- Ant-v2対抗条件:対抗的ファインチューニング91.6 対 オフラインのみ-21.0 対 完全オンライン24.0
- Hopper-v2対抗条件:対抗的ファインチューニング83.5 対 オフラインのみ13.7 対 完全オンライン57.0
- 一貫した優位性:対抗的ファインチューニングはすべての環境の対抗評価においてベースラインを大幅に上回る
重要な洞察:
- ファインチューニング条件が評価条件と一致する場合に最良の結果が得られる
- オフラインポリシーは摂動下で性能が急激に低下する(負の報酬さえ)
- 対抗的ファインチューニングはゼロからの訓練より高速に収束する
カリキュラム戦略の比較(表2):
- 100万ステップ:自適応カリキュラムqadaはすべての環境で固定qfixおよび線形qlinを一貫して上回る
- 300万ステップ:線形カリキュラムが過学習を示し、通常性能が低下(Hopper: 95.1→76.5)
- 自適応の優位性:qadaは通常性能を維持または改善しながら、対抗的堅牢性を保つ
図5のカリキュラム軌跡:
- 線形戦略:q値が無情に増加し、過学習につながる
- 自適応戦略:性能フィードバックに基づいてq増加を調整し、過度な難度上昇を防ぐ
- 収束速度:対抗的ファインチューニングはオフライン事前訓練を活用して高速収束を実現する
- 堅牢性-安定性トレードオフ:自適応カリキュラムは両者のバランスを成功裏に取る
- 環境特異性:異なる環境は異なるハイパーパラメータ調整を必要とする
- 保守的手法:TD3+BC、CQL、IQLなどはポリシーをデータ分布に近づけることで制約する
- 核心的課題:分布外状態-動作ペアのQ値過大推定
- 状態摂動:RORLなどの手法は値分布の平滑化を通じて堅牢性を改善する
- 動作摂動:研究は相対的に少なく、既存の研究はオフラインポリシーが特に脆弱であることを示している
- 代表的手法:AWAC、O2O、Policy Expansionなど
- 主要課題:早期ファインチューニング段階での性能低下
- 根本的な両立不可能性:保守的オフラインRLと動作空間堅牢性には構造的矛盾が存在する
- 有効な解決策:対抗的ファインチューニングはオフライン効率とオンライン適応性を成功裏に橋渡しする
- カリキュラム学習の価値:自適応スケジューリングは固定戦略を上回り、過学習を回避する
- 理論的保証の欠如:カリキュラム自適応の理論的分析が不足している
- 環境複雑性:実験は比較的単純な運動タスクに限定されている
- 摂動タイプ:主に乗法的摂動に焦点を当てており、他のタイプの摂動は十分に探索されていない
- 理論的発展:カリキュラム自適応の理論的保証を確立する
- 複雑な環境:状態および動作空間摂動の相互作用を探索する
- 摂動多様性:より広範な摂動タイプとパターンを研究する
- 核心的洞察の深さ:保守性と堅牢性の根本的矛盾を識別することは重要な貢献である
- 方法設計の合理性:対抗的ファインチューニングフレームワークは論理的に明確で技術的に実行可能である
- 実験の充実:複数環境、複数ベースライン、複数指標による包括的評価
- 実用的価値:実際のロボット展開における重要な問題を解決する
- 理論的分析の不足:収束性と堅牢性の理論的保証が欠けている
- 環境の限界:MuJoCoシミュレーション環境のみでテストされており、実際のロボット検証が不足している
- ハイパーパラメータ感度:自適応カリキュラムは環境特定のパラメータ調整を必要とする
- 計算オーバーヘッド:摂動事前計算と性能評価は計算コストを増加させる
- 学術的貢献:オフラインRL堅牢性研究に新しい視点と手法を提供する
- 実用的価値:安全関連ロボットアプリケーションに実践的な解決策を提供する
- 再現性:方法記述が詳細で実験設定が明確である
- ロボット制御:アクチュエータ故障に対処する必要がある自律システム
- 安全関連アプリケーション:医療ロボット、産業自動化など
- リソース制約環境:サンプル効率が必要だが堅牢性を要求するシーン
論文は強化学習分野の重要な研究を引用しており、以下を含む:
- オフラインRL:Fujimoto & Gu(TD3+BC)、Kumar et al.(CQL)
- 堅牢RL:Pinto et al.(対抗訓練)、Yang et al.(RORL)
- オフライン・ツー・オンライン:Nair et al.(AWAC)、Lee et al.(O2O)
総合評価:これは理論的洞察、方法的革新、実験的検証の面で顕著な貢献を有する高品質な研究論文である。理論的分析と実環境検証の面でまだ改善の余地があるが、オフライン強化学習の堅牢性研究に重要な方向性を開拓しており、学術的および実用的価値が高い。