2025-11-24T20:28:16.394652

Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control

Ayabe, Kera, Kawamoto
Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.
academic

오프라인-온라인 강화학습에서의 적대적 미세조정을 통한 견고한 로봇 제어

기본 정보

  • 논문 ID: 2510.13358
  • 제목: Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control
  • 저자: Shingo Ayabe, Hiroshi Kera, Kazuhiko Kawamoto (치바대학교)
  • 분류: cs.RO (로봇공학), cs.AI (인공지능)
  • 발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.13358

초록

오프라인 강화학습은 위험한 온라인 상호작용 없이 표본 효율적인 정책 획득을 가능하게 하지만, 정적 데이터셋에서 훈련된 정책은 동작 공간 섭동(예: 액추에이터 고장)에 직면했을 때 여전히 취약하다. 본 연구는 오프라인-온라인 프레임워크를 제안하며, 먼저 깨끗한 데이터에서 정책을 훈련한 후 적대적 미세조정을 수행하여 실행된 동작에 섭동을 주입함으로써 보상 행동을 유도하고 견고성을 향상시킨다. 성능 인식 기반 커리큘럼은 지수 이동 평균 신호를 통해 훈련 과정 중 섭동 확률을 조정하여 전체 학습 과정에서 견고성과 안정성의 균형을 맞춘다. 연속 제어 운동 작업에 대한 실험은 제안된 방법이 견고성 측면에서 오프라인 전용 기준선을 지속적으로 능가하며, 처음부터 훈련하는 것보다 더 빠르게 수렴함을 보여준다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하는 핵심 문제는 동작 공간 섭동 하에서의 오프라인 강화학습 정책의 취약성이다. 구체적으로:

  1. 오프라인 RL의 한계: 오프라인 강화학습은 온라인 상호작용의 위험과 비용을 피하지만, 훈련된 정책은 액추에이터 고장, 동작 노이즈 등의 동작 공간 섭동에 직면했을 때 취약한 성능을 보인다.
  2. 보수성과 견고성의 근본적 충돌: 저자들은 핵심 통찰력을 식별했다 — 보수적인 오프라인 RL 방법과 동작 공간 견고성은 근본적으로 양립할 수 없다. 보수적 방법은 외삽 오류를 방지하기 위해 정책을 데이터셋 동작 분포 내에 유지하도록 제약하지만, 동작 섭동에 대한 견고성은 정확히 이러한 제약으로 금지된 분포 외 표본을 학습해야 한다.

문제의 중요성

  • 안전 중요 응용: 의료, 에너지 관리, 로봇 제어 등 안전 중요 분야에서 정책은 예상치 못한 섭동을 처리할 수 있어야 한다
  • 실제 배포 요구사항: 실제 로봇 시스템에서 액추에이터 고장과 동작 노이즈는 피할 수 없다
  • 이론과 실제의 격차: 기존 오프라인 RL 방법은 주로 상태 공간 섭동에 초점을 맞추며, 동작 공간 섭동에 대한 연구는 부족하다

기존 방법의 한계

  1. 오프라인 RL 보수 제약: TD3+BC 등의 방법은 행동 복제 손실을 통해 정책을 데이터셋 분포에 가깝게 제약하여 적응성을 제한한다
  2. 섭동 데이터 부족: 오프라인 데이터셋은 일반적으로 섭동 인식 전이를 포함하지 않아 섭동 하에서 정책의 효과성을 평가할 수 없다
  3. 상태 vs 동작 섭동: 기존 견고성 연구는 주로 상태 섭동(센서 노이즈)을 대상으로 하며, 동작 섭동 연구는 적다

핵심 기여

  1. 적대적 미세조정 방법 제안: 온라인 훈련 중 섭동을 주입하여 동작 섭동에 대한 표적화된 적응을 달성하면서 오프라인 사전훈련의 표본 효율성을 유지한다
  2. 일관된 우수한 성능 증명: 적대적 미세조정은 견고성 측면에서 오프라인 전용 및 완전 온라인 기준선을 지속적으로 능가한다
  3. 적응형 커리큘럼 전략 설계: 정책 성능을 기반으로 섭동 확률을 조정하는 적응형 커리큘럼으로 적대적 조건에 대한 과적합을 방지하면서 훈련 안정성을 유지하여 고정 스케줄 방법의 핵심 한계를 해결한다
  4. 이론적 통찰: 보수적 오프라인 RL과 동작 공간 견고성의 근본적 양립 불가능성을 형식적으로 분석한다

방법 상세 설명

작업 정의

목표: 동작 공간 섭동 하에서 최적 견고 정책 찾기 π=argmaxπmina~UE[t=0γtr(st,a~)]\pi^* = \arg\max_\pi \min_{\tilde{a} \in U} \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t r(s_t, \tilde{a})\right]

여기서 a~\tilde{a}는 사전정의된 집합 UU에서의 적대적 섭동 동작이다.

모델 아키텍처

1. 오프라인 사전훈련 단계

TD3+BC 알고리즘을 사용하여 깨끗한 데이터셋에서 사전훈련: π=argmaxπE(st,at)D[Qπ(st,π(st))π(st)at2]\pi = \arg\max_\pi \mathbb{E}_{(s_t,a_t)\sim D}[Q^\pi(s_t, \pi(s_t)) - \|\pi(s_t) - a_t\|^2]

두 번째 항은 보수성을 유지하기 위해 정책을 행동 정책에 가깝게 강제한다.

2. 적대적 미세조정 단계

섭동 주입 메커니즘: at=at+δaat with probability qa'_t = a_t + \delta_a \odot a_t \text{ with probability } q

여기서 \odot는 원소별 곱셈을 나타내고, δa\delta_a는 사전계산된 적대적 섭동이다.

목표 업데이트: yt=r~t+γmini{1,2}Qθi(s~t+1,πϕ(s~t+1)+ε)y_t = \tilde{r}_t + \gamma \min_{i\in\{1,2\}} Q_{\theta^-_i}(\tilde{s}_{t+1}, \pi_{\phi^-}(\tilde{s}_{t+1}) + \varepsilon)

여기서 s~t+1P(st,a~t)\tilde{s}_{t+1} \sim P(\cdot|s_t, \tilde{a}_t), r~t=r(st,a~t)\tilde{r}_t = r(s_t, \tilde{a}_t)이다.

3. 커리큘럼 학습 메커니즘

선형 커리큘럼: qclip(q+c,0,1)q \leftarrow \text{clip}(q + c, 0, 1) 여기서 cc는 고정 스텝 크기이다.

적응형 커리큘럼: Δq=η(RˉnRˉn1)\Delta q = \eta(\bar{R}_n - \bar{R}_{n-1})Rˉn=βRn+(1β)Rˉn1\bar{R}_n = \beta R_n + (1-\beta)\bar{R}_{n-1}

여기서 Rˉn\bar{R}_n은 지수 이동 평균 성능이고, η\etaβ\beta는 적응 동역학을 제어한다.

기술 혁신 포인트

  1. 섭동 사전계산: 미세조정 중 비용이 많이 드는 내부 루프 최소화를 피하기 위해 차분 진화 알고리즘을 사용하여 섭동 집합을 사전 생성한다
  2. 성능 인식 스케줄링: 적응형 커리큘럼은 정책 성능에 따라 섭동 확률을 동적으로 조정하며, 성능 향상 시 qq를 증가시켜 견고성을 강화하고, 성능 저하 시 qq를 감소시켜 훈련을 안정화한다
  3. 균형 메커니즘: 지수 이동 평균을 통해 단기 변동을 필터링하여 안정적인 성능 추세 추정을 제공한다

실험 설정

데이터셋

  • 출처: D4RL 전문가 데이터셋
  • 환경: OpenAI Gym의 Hopper-v2, HalfCheetah-v2, Ant-v2 다리 로봇 환경
  • 물리 엔진: MuJoCo 물리 시뮬레이션

평가 지표

  • 주요 지표: D4RL 정규화 에피소드 보상
  • 평가 조건: 정상(섭동 없음), 무작위 섭동, 적대적 섭동
  • 통계: 100 에피소드의 평균 성능, 5회 독립 실행

비교 방법

  1. 오프라인 전용: TD3+BC 오프라인 훈련만
  2. 완전 온라인(적대적): 처음부터 시작하는 온라인 적대적 훈련
  3. 미세조정 변형: 다양한 섭동 조건 하의 미세조정 정책

구현 세부사항

  • 사전훈련: 500만 스텝 TD3+BC
  • 미세조정: 100만 스텝 TD3(커리큘럼 실험 300만 스텝)
  • 섭동 강도: Hopper/HalfCheetah ϵ=0.3\epsilon=0.3, Ant ϵ=0.5\epsilon=0.5
  • 섭동 확률: Hopper q=0.5q=0.5, HalfCheetah/Ant q=0.1q=0.1
  • 적응형 매개변수: β=0.9\beta=0.9, η\eta 환경 특정 조정

실험 결과

주요 결과

표 1 핵심 발견:

  • Ant-v2 적대적 조건: 적대적 미세조정 91.6 vs 오프라인 -21.0 vs 완전 온라인 24.0
  • Hopper-v2 적대적 조건: 적대적 미세조정 83.5 vs 오프라인 13.7 vs 완전 온라인 57.0
  • 일관된 우위: 적대적 미세조정은 모든 환경의 적대적 평가에서 기준선을 크게 능가한다

주요 통찰:

  1. 미세조정 조건이 평가 조건과 일치할 때 최고의 성능을 발휘한다
  2. 오프라인 정책은 섭동 하에서 성능이 급격히 저하된다(음수 보상도 가능)
  3. 적대적 미세조정은 처음부터 훈련하는 것보다 더 빠르게 수렴한다

제거 실험

커리큘럼 전략 비교(표 2):

  • 100만 스텝: 적응형 커리큘럼 qadaq_{ada}는 모든 환경에서 고정 qfixq_{fix}와 선형 qlinq_{lin}을 일관되게 능가한다
  • 300만 스텝: 선형 커리큘럼은 과적합을 나타내며 정상 성능이 저하된다(Hopper: 95.1→76.5)
  • 적응형 우위: qadaq_{ada}는 정상 성능을 유지하거나 개선하면서 적대적 견고성을 유지한다

사례 분석

그림 5 커리큘럼 궤적:

  • 선형 전략: qq 값이 무자비하게 증가하여 과적합을 초래한다
  • 적응형 전략: 성능 피드백에 따라 qq 증가를 조정하여 과도한 어려움 상향을 방지한다

실험 발견

  1. 수렴 속도: 적대적 미세조정은 오프라인 사전훈련을 활용하여 빠른 수렴을 달성한다
  2. 견고성-안정성 트레이드오프: 적응형 커리큘럼이 둘 사이의 균형을 성공적으로 맞춘다
  3. 환경 특이성: 다양한 환경은 다양한 하이퍼파라미터 조정이 필요하다

관련 연구

오프라인 강화학습

  • 보수적 방법: TD3+BC, CQL, IQL 등은 정책을 데이터 분포에 가깝게 제약하여 보수성을 유지한다
  • 핵심 과제: 분포 외 상태-동작 쌍의 Q값 과대 추정

견고한 강화학습

  • 상태 섭동: RORL 등의 방법은 값 분포를 평활화하여 견고성을 개선한다
  • 동작 섭동: 연구가 상대적으로 적으며, 기존 연구는 오프라인 정책이 특히 취약함을 보여준다

오프라인-온라인 강화학습

  • 대표 방법: AWAC, O2O, Policy Expansion 등
  • 주요 과제: 초기 미세조정 단계의 성능 저하

결론 및 논의

주요 결론

  1. 근본적 양립 불가능성: 보수적 오프라인 RL과 동작 공간 견고성 사이에 구조적 충돌이 존재한다
  2. 효과적인 해결책: 적대적 미세조정이 오프라인 효율성과 온라인 적응성을 성공적으로 연결한다
  3. 커리큘럼 학습의 가치: 적응형 스케줄링이 고정 전략을 능가하며 과적합을 방지한다

한계

  1. 이론적 보장 부재: 커리큘럼 적응의 이론적 분석이 부족하다
  2. 환경 복잡성: 실험은 상대적으로 단순한 운동 작업으로 제한된다
  3. 섭동 유형: 주로 승법적 섭동에 초점을 맞추며, 다른 유형의 섭동은 충분히 탐구되지 않았다

향후 방향

  1. 이론 발전: 커리큘럼 적응의 이론적 보장 수립
  2. 복잡한 환경: 상태 및 동작 공간 섭동의 상호작용 탐구
  3. 섭동 다양성: 더 광범위한 섭동 유형 및 패턴 연구

심층 평가

장점

  1. 핵심 통찰 심화: 보수성과 견고성의 근본적 충돌을 식별하는 것은 중요한 기여이다
  2. 합리적 방법 설계: 적대적 미세조정 프레임워크는 논리적으로 명확하고 기술적으로 실행 가능하다
  3. 충분한 실험: 다중 환경, 다중 기준선, 다중 지표의 포괄적 평가
  4. 높은 실용 가치: 실제 로봇 배포의 핵심 문제를 해결한다

부족한 점

  1. 이론적 분석 부족: 수렴성 및 견고성에 대한 이론적 보장이 없다
  2. 환경 한계: MuJoCo 시뮬레이션 환경에서만 테스트되며 실제 로봇 검증이 부족하다
  3. 하이퍼파라미터 민감성: 적응형 커리큘럼은 환경 특정 매개변수 조정이 필요하다
  4. 계산 오버헤드: 섭동 사전계산 및 성능 평가가 계산 비용을 증가시킨다

영향력

  1. 학술적 기여: 오프라인 RL 견고성 연구에 새로운 관점과 방법을 제공한다
  2. 실용적 가치: 안전 중요 로봇 응용에 실제 해결책을 제공한다
  3. 재현성: 방법 설명이 상세하고 실험 설정이 명확하다

적용 시나리오

  1. 로봇 제어: 액추에이터 고장을 처리해야 하는 자율 시스템
  2. 안전 중요 응용: 의료 로봇, 산업 자동화 등
  3. 자원 제한 환경: 표본 효율성이 필요하지만 견고성을 요구하는 시나리오

참고문헌

논문은 강화학습 분야의 중요한 연구를 인용하며, 다음을 포함한다:

  • 오프라인 RL: Fujimoto & Gu (TD3+BC), Kumar et al. (CQL)
  • 견고한 RL: Pinto et al. (적대적 훈련), Yang et al. (RORL)
  • 오프라인-온라인: Nair et al. (AWAC), Lee et al. (O2O)

종합 평가: 이것은 이론적 통찰, 방법 혁신 및 실험 검증 측면에서 모두 상당한 기여를 하는 고품질 연구 논문이다. 이론적 분석과 실제 환경 검증에서 개선의 여지가 있지만, 오프라인 강화학습의 견고성 연구에 중요한 방향을 개척했으며 학술적 및 실용적 가치가 높다.