Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.
- 논문 ID: 2510.13358
- 제목: Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control
- 저자: Shingo Ayabe, Hiroshi Kera, Kazuhiko Kawamoto (치바대학교)
- 분류: cs.RO (로봇공학), cs.AI (인공지능)
- 발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
- 논문 링크: https://arxiv.org/abs/2510.13358
오프라인 강화학습은 위험한 온라인 상호작용 없이 표본 효율적인 정책 획득을 가능하게 하지만, 정적 데이터셋에서 훈련된 정책은 동작 공간 섭동(예: 액추에이터 고장)에 직면했을 때 여전히 취약하다. 본 연구는 오프라인-온라인 프레임워크를 제안하며, 먼저 깨끗한 데이터에서 정책을 훈련한 후 적대적 미세조정을 수행하여 실행된 동작에 섭동을 주입함으로써 보상 행동을 유도하고 견고성을 향상시킨다. 성능 인식 기반 커리큘럼은 지수 이동 평균 신호를 통해 훈련 과정 중 섭동 확률을 조정하여 전체 학습 과정에서 견고성과 안정성의 균형을 맞춘다. 연속 제어 운동 작업에 대한 실험은 제안된 방법이 견고성 측면에서 오프라인 전용 기준선을 지속적으로 능가하며, 처음부터 훈련하는 것보다 더 빠르게 수렴함을 보여준다.
본 연구가 해결하는 핵심 문제는 동작 공간 섭동 하에서의 오프라인 강화학습 정책의 취약성이다. 구체적으로:
- 오프라인 RL의 한계: 오프라인 강화학습은 온라인 상호작용의 위험과 비용을 피하지만, 훈련된 정책은 액추에이터 고장, 동작 노이즈 등의 동작 공간 섭동에 직면했을 때 취약한 성능을 보인다.
- 보수성과 견고성의 근본적 충돌: 저자들은 핵심 통찰력을 식별했다 — 보수적인 오프라인 RL 방법과 동작 공간 견고성은 근본적으로 양립할 수 없다. 보수적 방법은 외삽 오류를 방지하기 위해 정책을 데이터셋 동작 분포 내에 유지하도록 제약하지만, 동작 섭동에 대한 견고성은 정확히 이러한 제약으로 금지된 분포 외 표본을 학습해야 한다.
- 안전 중요 응용: 의료, 에너지 관리, 로봇 제어 등 안전 중요 분야에서 정책은 예상치 못한 섭동을 처리할 수 있어야 한다
- 실제 배포 요구사항: 실제 로봇 시스템에서 액추에이터 고장과 동작 노이즈는 피할 수 없다
- 이론과 실제의 격차: 기존 오프라인 RL 방법은 주로 상태 공간 섭동에 초점을 맞추며, 동작 공간 섭동에 대한 연구는 부족하다
- 오프라인 RL 보수 제약: TD3+BC 등의 방법은 행동 복제 손실을 통해 정책을 데이터셋 분포에 가깝게 제약하여 적응성을 제한한다
- 섭동 데이터 부족: 오프라인 데이터셋은 일반적으로 섭동 인식 전이를 포함하지 않아 섭동 하에서 정책의 효과성을 평가할 수 없다
- 상태 vs 동작 섭동: 기존 견고성 연구는 주로 상태 섭동(센서 노이즈)을 대상으로 하며, 동작 섭동 연구는 적다
- 적대적 미세조정 방법 제안: 온라인 훈련 중 섭동을 주입하여 동작 섭동에 대한 표적화된 적응을 달성하면서 오프라인 사전훈련의 표본 효율성을 유지한다
- 일관된 우수한 성능 증명: 적대적 미세조정은 견고성 측면에서 오프라인 전용 및 완전 온라인 기준선을 지속적으로 능가한다
- 적응형 커리큘럼 전략 설계: 정책 성능을 기반으로 섭동 확률을 조정하는 적응형 커리큘럼으로 적대적 조건에 대한 과적합을 방지하면서 훈련 안정성을 유지하여 고정 스케줄 방법의 핵심 한계를 해결한다
- 이론적 통찰: 보수적 오프라인 RL과 동작 공간 견고성의 근본적 양립 불가능성을 형식적으로 분석한다
목표: 동작 공간 섭동 하에서 최적 견고 정책 찾기
π∗=argmaxπmina~∈UE[∑t=0∞γtr(st,a~)]
여기서 a~는 사전정의된 집합 U에서의 적대적 섭동 동작이다.
TD3+BC 알고리즘을 사용하여 깨끗한 데이터셋에서 사전훈련:
π=argmaxπE(st,at)∼D[Qπ(st,π(st))−∥π(st)−at∥2]
두 번째 항은 보수성을 유지하기 위해 정책을 행동 정책에 가깝게 강제한다.
섭동 주입 메커니즘:
at′=at+δa⊙at with probability q
여기서 ⊙는 원소별 곱셈을 나타내고, δa는 사전계산된 적대적 섭동이다.
목표 업데이트:
yt=r~t+γmini∈{1,2}Qθi−(s~t+1,πϕ−(s~t+1)+ε)
여기서 s~t+1∼P(⋅∣st,a~t), r~t=r(st,a~t)이다.
선형 커리큘럼:
q←clip(q+c,0,1)
여기서 c는 고정 스텝 크기이다.
적응형 커리큘럼:
Δq=η(Rˉn−Rˉn−1)Rˉn=βRn+(1−β)Rˉn−1
여기서 Rˉn은 지수 이동 평균 성능이고, η와 β는 적응 동역학을 제어한다.
- 섭동 사전계산: 미세조정 중 비용이 많이 드는 내부 루프 최소화를 피하기 위해 차분 진화 알고리즘을 사용하여 섭동 집합을 사전 생성한다
- 성능 인식 스케줄링: 적응형 커리큘럼은 정책 성능에 따라 섭동 확률을 동적으로 조정하며, 성능 향상 시 q를 증가시켜 견고성을 강화하고, 성능 저하 시 q를 감소시켜 훈련을 안정화한다
- 균형 메커니즘: 지수 이동 평균을 통해 단기 변동을 필터링하여 안정적인 성능 추세 추정을 제공한다
- 출처: D4RL 전문가 데이터셋
- 환경: OpenAI Gym의 Hopper-v2, HalfCheetah-v2, Ant-v2 다리 로봇 환경
- 물리 엔진: MuJoCo 물리 시뮬레이션
- 주요 지표: D4RL 정규화 에피소드 보상
- 평가 조건: 정상(섭동 없음), 무작위 섭동, 적대적 섭동
- 통계: 100 에피소드의 평균 성능, 5회 독립 실행
- 오프라인 전용: TD3+BC 오프라인 훈련만
- 완전 온라인(적대적): 처음부터 시작하는 온라인 적대적 훈련
- 미세조정 변형: 다양한 섭동 조건 하의 미세조정 정책
- 사전훈련: 500만 스텝 TD3+BC
- 미세조정: 100만 스텝 TD3(커리큘럼 실험 300만 스텝)
- 섭동 강도: Hopper/HalfCheetah ϵ=0.3, Ant ϵ=0.5
- 섭동 확률: Hopper q=0.5, HalfCheetah/Ant q=0.1
- 적응형 매개변수: β=0.9, η 환경 특정 조정
표 1 핵심 발견:
- Ant-v2 적대적 조건: 적대적 미세조정 91.6 vs 오프라인 -21.0 vs 완전 온라인 24.0
- Hopper-v2 적대적 조건: 적대적 미세조정 83.5 vs 오프라인 13.7 vs 완전 온라인 57.0
- 일관된 우위: 적대적 미세조정은 모든 환경의 적대적 평가에서 기준선을 크게 능가한다
주요 통찰:
- 미세조정 조건이 평가 조건과 일치할 때 최고의 성능을 발휘한다
- 오프라인 정책은 섭동 하에서 성능이 급격히 저하된다(음수 보상도 가능)
- 적대적 미세조정은 처음부터 훈련하는 것보다 더 빠르게 수렴한다
커리큘럼 전략 비교(표 2):
- 100만 스텝: 적응형 커리큘럼 qada는 모든 환경에서 고정 qfix와 선형 qlin을 일관되게 능가한다
- 300만 스텝: 선형 커리큘럼은 과적합을 나타내며 정상 성능이 저하된다(Hopper: 95.1→76.5)
- 적응형 우위: qada는 정상 성능을 유지하거나 개선하면서 적대적 견고성을 유지한다
그림 5 커리큘럼 궤적:
- 선형 전략: q 값이 무자비하게 증가하여 과적합을 초래한다
- 적응형 전략: 성능 피드백에 따라 q 증가를 조정하여 과도한 어려움 상향을 방지한다
- 수렴 속도: 적대적 미세조정은 오프라인 사전훈련을 활용하여 빠른 수렴을 달성한다
- 견고성-안정성 트레이드오프: 적응형 커리큘럼이 둘 사이의 균형을 성공적으로 맞춘다
- 환경 특이성: 다양한 환경은 다양한 하이퍼파라미터 조정이 필요하다
- 보수적 방법: TD3+BC, CQL, IQL 등은 정책을 데이터 분포에 가깝게 제약하여 보수성을 유지한다
- 핵심 과제: 분포 외 상태-동작 쌍의 Q값 과대 추정
- 상태 섭동: RORL 등의 방법은 값 분포를 평활화하여 견고성을 개선한다
- 동작 섭동: 연구가 상대적으로 적으며, 기존 연구는 오프라인 정책이 특히 취약함을 보여준다
- 대표 방법: AWAC, O2O, Policy Expansion 등
- 주요 과제: 초기 미세조정 단계의 성능 저하
- 근본적 양립 불가능성: 보수적 오프라인 RL과 동작 공간 견고성 사이에 구조적 충돌이 존재한다
- 효과적인 해결책: 적대적 미세조정이 오프라인 효율성과 온라인 적응성을 성공적으로 연결한다
- 커리큘럼 학습의 가치: 적응형 스케줄링이 고정 전략을 능가하며 과적합을 방지한다
- 이론적 보장 부재: 커리큘럼 적응의 이론적 분석이 부족하다
- 환경 복잡성: 실험은 상대적으로 단순한 운동 작업으로 제한된다
- 섭동 유형: 주로 승법적 섭동에 초점을 맞추며, 다른 유형의 섭동은 충분히 탐구되지 않았다
- 이론 발전: 커리큘럼 적응의 이론적 보장 수립
- 복잡한 환경: 상태 및 동작 공간 섭동의 상호작용 탐구
- 섭동 다양성: 더 광범위한 섭동 유형 및 패턴 연구
- 핵심 통찰 심화: 보수성과 견고성의 근본적 충돌을 식별하는 것은 중요한 기여이다
- 합리적 방법 설계: 적대적 미세조정 프레임워크는 논리적으로 명확하고 기술적으로 실행 가능하다
- 충분한 실험: 다중 환경, 다중 기준선, 다중 지표의 포괄적 평가
- 높은 실용 가치: 실제 로봇 배포의 핵심 문제를 해결한다
- 이론적 분석 부족: 수렴성 및 견고성에 대한 이론적 보장이 없다
- 환경 한계: MuJoCo 시뮬레이션 환경에서만 테스트되며 실제 로봇 검증이 부족하다
- 하이퍼파라미터 민감성: 적응형 커리큘럼은 환경 특정 매개변수 조정이 필요하다
- 계산 오버헤드: 섭동 사전계산 및 성능 평가가 계산 비용을 증가시킨다
- 학술적 기여: 오프라인 RL 견고성 연구에 새로운 관점과 방법을 제공한다
- 실용적 가치: 안전 중요 로봇 응용에 실제 해결책을 제공한다
- 재현성: 방법 설명이 상세하고 실험 설정이 명확하다
- 로봇 제어: 액추에이터 고장을 처리해야 하는 자율 시스템
- 안전 중요 응용: 의료 로봇, 산업 자동화 등
- 자원 제한 환경: 표본 효율성이 필요하지만 견고성을 요구하는 시나리오
논문은 강화학습 분야의 중요한 연구를 인용하며, 다음을 포함한다:
- 오프라인 RL: Fujimoto & Gu (TD3+BC), Kumar et al. (CQL)
- 견고한 RL: Pinto et al. (적대적 훈련), Yang et al. (RORL)
- 오프라인-온라인: Nair et al. (AWAC), Lee et al. (O2O)
종합 평가: 이것은 이론적 통찰, 방법 혁신 및 실험 검증 측면에서 모두 상당한 기여를 하는 고품질 연구 논문이다. 이론적 분석과 실제 환경 검증에서 개선의 여지가 있지만, 오프라인 강화학습의 견고성 연구에 중요한 방향을 개척했으며 학술적 및 실용적 가치가 높다.