2025-11-24T20:28:16.394652

Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control

Ayabe, Kera, Kawamoto

Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.

academic

オフライン・ツー・オンライン強化学習における対抗的ファインチューニングを用いたロボット制御の堅牢性向上

基本情報

論文ID: 2510.13358
タイトル: Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control
著者: 清野彰吾、慶良寛、川本和彦（千葉大学）
分類: cs.RO（ロボット工学）、cs.AI（人工知能）
発表日: 2025年10月15日（arXiv プレプリント）
論文リンク: https://arxiv.org/abs/2510.13358

要旨

オフライン強化学習は危険なオンライン相互作用を行わずにサンプル効率的なポリシー獲得を実現できるが、静的データセット上で訓練されたポリシーは、動作空間の摂動（アクチュエータ故障など）に直面した際に脆弱性を示す。本研究は、オフライン・ツー・オンラインフレームワークを提案し、まずクリーンなデータ上でポリシーを訓練した後、対抗的ファインチューニングを実行して、実行された動作に摂動を注入し、補償行動を誘発して堅牢性を向上させる。性能認識型カリキュラムは、訓練過程中に指数移動平均信号を用いて摂動確率を調整することで、学習全体を通じて堅牢性と安定性のバランスをさらに取る。連続制御運動タスクの実験により、提案手法はオフラインのみのベースラインを堅牢性の面で一貫して上回り、ゼロからの訓練よりも高速に収束することが示された。

研究背景と動機

核心的問題

本研究が解決する核心的問題は、動作空間の摂動下におけるオフライン強化学習ポリシーの脆弱性である。具体的には：

オフラインRLの限界：オフライン強化学習はオンライン相互作用のリスクと費用を回避するが、訓練されたポリシーはアクチュエータ故障や動作ノイズなどの動作空間摂動に直面した際に脆弱な性能を示す。
保守性と堅牢性の根本的矛盾：著者は重要な洞察を指摘している——保守的なオフラインRL手法と動作空間堅牢性は根本的に両立不可能である。保守的手法は外挿誤差を防ぐためにポリシーをデータセット動作分布内に制約するが、動作摂動への堅牢性はまさにこれらの制約で禁止されている分布外サンプルを学習することを必要とする。

問題の重要性

安全関連アプリケーション：医療、エネルギー管理、ロボット制御などの安全関連分野では、ポリシーが予期しない摂動に対処できる必要がある
実装展開の要件：実際のロボットシステムではアクチュエータ故障と動作ノイズは避けられない
理論と実践のギャップ：既存のオフラインRL手法は主に状態空間摂動に焦点を当てており、動作空間摂動の研究は不十分である

既存手法の限界

オフラインRL保守制約：TD3+BCなどの手法は行動クローニング損失を通じてポリシーをデータセット分布に近づけるよう制約し、適応性を制限する
摂動データの欠如：オフラインデータセットは通常、摂動認識遷移を含まず、摂動下でのポリシー有効性を評価できない
状態対動作摂動：既存の堅牢性研究は主に状態摂動（センサノイズ）に対するもので、動作摂動の研究は少ない

核心的貢献

対抗的ファインチューニング手法の提案：オンライン訓練中に摂動を注入して、動作摂動への標的化された適応を実現しながら、オフライン事前訓練のサンプル効率を維持する
一貫した優れた性能の実証：対抗的ファインチューニングは堅牢性の面でオフラインのみおよび完全なオンラインベースラインを一貫して上回る
自適応カリキュラム戦略の設計：ポリシー性能に基づいて摂動確率を調整する自適応カリキュラムで、対抗条件への過学習を防ぎながら訓練安定性を維持し、固定スケジュール手法の重要な限界を解決する
理論的洞察：保守的オフラインRLと動作空間堅牢性の根本的な両立不可能性を形式的に分析する

方法の詳細

タスク定義

目標：動作空間摂動下で最適な堅牢ポリシーを見つける $\pi^* = \arg\max_\pi \min_{\tilde{a} \in U} \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t r(s_t, \tilde{a})\right]$

ここで $\tilde{a}$ は事前定義集合 $U$ からの対抗的摂動動作である。

モデルアーキテクチャ

1. オフライン事前訓練段階

TD3+BCアルゴリズムを使用してクリーンなデータセット上で事前訓練： $\pi = \arg\max_\pi \mathbb{E}_{(s_t,a_t)\sim D}[Q^\pi(s_t, \pi(s_t)) - \|\pi(s_t) - a_t\|^2]$

第2項はポリシーを行動ポリシーに近づけるよう強制して保守性を維持する。

2. 対抗的ファインチューニング段階

摂動注入メカニズム： $a'_t = a_t + \delta_a \odot a_t \text{ 確率 } q \text{ で}$

ここで $\odot$ は要素ごとの積を表し、 $\delta_a$ は事前計算された対抗的摂動である。

ターゲット更新： $y_t = \tilde{r}_t + \gamma \min_{i\in\{1,2\}} Q_{\theta^-_i}(\tilde{s}_{t+1}, \pi_{\phi^-}(\tilde{s}_{t+1}) + \varepsilon)$

ここで $\tilde{s}_{t+1} \sim P(\cdot|s_t, \tilde{a}_t)$ 、 $\tilde{r}_t = r(s_t, \tilde{a}_t)$ である。

3. カリキュラム学習メカニズム

線形カリキュラム： $q \leftarrow \text{clip}(q + c, 0, 1)$ ここで $c$ は固定ステップサイズである。

自適応カリキュラム： $\Delta q = \eta(\bar{R}_n - \bar{R}_{n-1})$ $\bar{R}_n = \beta R_n + (1-\beta)\bar{R}_{n-1}$

ここで $\bar{R}_n$ は指数移動平均性能で、 $\eta$ と $\beta$ は適応ダイナミクスを制御する。

技術的革新点

摂動の事前計算：差分進化アルゴリズムを使用して摂動集合を事前生成し、ファインチューニング中の高価な内ループ最小化を回避する
性能認識スケジューリング：自適応カリキュラムはポリシー性能に基づいて摂動確率を動的に調整し、性能向上時に $q$ を増加させて堅牢性を強化し、性能低下時に $q$ を減少させて訓練を安定化させる
バランスメカニズム：指数移動平均を通じて短期変動をフィルタリングし、安定した性能トレンド推定を提供する