2025-11-24T20:28:16.394652

Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control

Ayabe, Kera, Kawamoto
Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.
academic

Messa a punto avversariale nell'apprendimento per rinforzo offline-to-online per il controllo robusto dei robot

Informazioni di base

  • ID articolo: 2510.13358
  • Titolo: Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control
  • Autori: Shingo Ayabe, Hiroshi Kera, Kazuhiko Kawamoto (Università di Chiba)
  • Classificazione: cs.RO (Robotica), cs.AI (Intelligenza Artificiale)
  • Data di pubblicazione: 15 ottobre 2025 (preprint arXiv)
  • Link articolo: https://arxiv.org/abs/2510.13358

Riassunto

L'apprendimento per rinforzo offline consente l'acquisizione di politiche efficienti dal punto di vista campionario senza interazioni online rischiose, ma le politiche addestrate su dataset statici rimangono fragili di fronte a perturbazioni nello spazio delle azioni, come i guasti degli attuatori. Questo studio propone un framework offline-to-online che addestra inizialmente una politica su dati puliti, seguito da una messa a punto avversariale che inietta perturbazioni nelle azioni eseguite per indurre comportamenti compensativi e migliorare la robustezza. Un curriculum basato sulla consapevolezza delle prestazioni regola ulteriormente la probabilità di perturbazione durante l'addestramento tramite un segnale di media mobile esponenziale, bilanciando robustezza e stabilità durante l'intero processo di apprendimento. Gli esperimenti su compiti di controllo continuo dimostrano che il metodo proposto supera costantemente i baseline solo offline in termini di robustezza e converge più rapidamente rispetto all'addestramento da zero.

Contesto e motivazione della ricerca

Problema fondamentale

Il problema fondamentale affrontato da questa ricerca è la fragilità delle politiche di apprendimento per rinforzo offline di fronte a perturbazioni nello spazio delle azioni. Nello specifico:

  1. Limitazioni dell'RL offline: Sebbene l'apprendimento per rinforzo offline eviti i rischi e i costi dell'interazione online, le politiche addestrate mostrano fragilità di fronte a perturbazioni nello spazio delle azioni come guasti degli attuatori e rumore nelle azioni.
  2. Conflitto fondamentale tra conservativismo e robustezza: Gli autori identificano un'intuizione critica: i metodi conservativi di RL offline sono fondamentalmente incompatibili con la robustezza nello spazio delle azioni. I metodi conservativi vincolano la politica a rimanere all'interno della distribuzione delle azioni del dataset per prevenire errori di estrapolazione, ma la robustezza alle perturbazioni delle azioni richiede precisamente di imparare da campioni fuori distribuzione che sono vietati da questi vincoli.

Importanza del problema

  • Applicazioni critiche per la sicurezza: In settori critici per la sicurezza come l'assistenza sanitaria, la gestione energetica e il controllo robotico, le politiche devono gestire perturbazioni inaspettate
  • Requisiti di distribuzione pratica: Nei sistemi robotici reali, i guasti degli attuatori e il rumore nelle azioni sono inevitabili
  • Divario tra teoria e pratica: I metodi di RL offline esistenti si concentrano principalmente su perturbazioni nello spazio degli stati, con ricerca insufficiente su perturbazioni nello spazio delle azioni

Limitazioni dei metodi esistenti

  1. Vincoli conservativi dell'RL offline: Metodi come TD3+BC vincolano la politica vicino alla distribuzione del dataset attraverso perdite di clonazione comportamentale, limitando l'adattabilità
  2. Mancanza di dati perturbati: I dataset offline tipicamente non includono transizioni consapevoli delle perturbazioni, rendendo impossibile valutare l'efficacia della politica sotto perturbazione
  3. Perturbazioni dello stato vs. dell'azione: La ricerca sulla robustezza esistente si concentra principalmente su perturbazioni dello stato (rumore dei sensori), con ricerca limitata su perturbazioni dell'azione

Contributi fondamentali

  1. Propone un metodo di messa a punto avversariale: Inietta perturbazioni durante l'addestramento online, realizzando adattamento mirato alle perturbazioni delle azioni mantenendo l'efficienza campionaria del preaddestramento offline
  2. Dimostra prestazioni superiori coerenti: La messa a punto avversariale supera costantemente i baseline solo offline e completamente online in termini di robustezza
  3. Progetta una strategia di curriculum adattivo: Un curriculum adattivo che regola la probabilità di perturbazione in base alle prestazioni della politica, prevenendo l'overfitting su condizioni avversariali mantenendo la stabilità dell'addestramento, risolvendo limitazioni critiche dei metodi a programmazione fissa
  4. Intuizioni teoriche: Analizza formalmente l'incompatibilità fondamentale tra RL offline conservativo e robustezza nello spazio delle azioni

Spiegazione dettagliata del metodo

Definizione del compito

Obiettivo: Trovare la politica robusta ottimale sotto perturbazioni nello spazio delle azioni π=argmaxπmina~UE[t=0γtr(st,a~)]\pi^* = \arg\max_\pi \min_{\tilde{a} \in U} \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t r(s_t, \tilde{a})\right]

dove a~\tilde{a} è un'azione perturbata avversariale proveniente da un insieme predefinito UU.

Architettura del modello

1. Fase di preaddestramento offline

Preaddestra utilizzando l'algoritmo TD3+BC su un dataset pulito: π=argmaxπE(st,at)D[Qπ(st,π(st))π(st)at2]\pi = \arg\max_\pi \mathbb{E}_{(s_t,a_t)\sim D}[Q^\pi(s_t, \pi(s_t)) - \|\pi(s_t) - a_t\|^2]

Il secondo termine forza la politica a rimanere vicina alla politica comportamentale per mantenere il conservativismo.

2. Fase di messa a punto avversariale

Meccanismo di iniezione di perturbazione: at=at+δaat con probabilitaˋ qa'_t = a_t + \delta_a \odot a_t \text{ con probabilità } q

dove \odot denota il prodotto elemento per elemento e δa\delta_a è una perturbazione avversariale precalcolata.

Aggiornamento del target: yt=r~t+γmini{1,2}Qθi(s~t+1,πϕ(s~t+1)+ε)y_t = \tilde{r}_t + \gamma \min_{i\in\{1,2\}} Q_{\theta^-_i}(\tilde{s}_{t+1}, \pi_{\phi^-}(\tilde{s}_{t+1}) + \varepsilon)

dove s~t+1P(st,a~t)\tilde{s}_{t+1} \sim P(\cdot|s_t, \tilde{a}_t) e r~t=r(st,a~t)\tilde{r}_t = r(s_t, \tilde{a}_t).

3. Meccanismo di apprendimento per curriculum

Curriculum lineare: qclip(q+c,0,1)q \leftarrow \text{clip}(q + c, 0, 1) dove cc è una dimensione di passo fissa.

Curriculum adattivo: Δq=η(RˉnRˉn1)\Delta q = \eta(\bar{R}_n - \bar{R}_{n-1})Rˉn=βRn+(1β)Rˉn1\bar{R}_n = \beta R_n + (1-\beta)\bar{R}_{n-1}

dove Rˉn\bar{R}_n è la prestazione della media mobile esponenziale e η\eta e β\beta controllano la dinamica di adattamento.

Punti di innovazione tecnica

  1. Precalcolo delle perturbazioni: Utilizza l'algoritmo di evoluzione differenziale per pregenerare insiemi di perturbazioni, evitando costose minimizzazioni di cicli interni durante la messa a punto
  2. Programmazione consapevole delle prestazioni: Il curriculum adattivo regola dinamicamente la probabilità di perturbazione in base alle prestazioni della politica, aumentando qq quando le prestazioni migliorano per aumentare la robustezza e riducendo qq quando le prestazioni diminuiscono per stabilizzare l'addestramento
  3. Meccanismo di bilanciamento: Utilizza la media mobile esponenziale per filtrare le fluttuazioni a breve termine, fornendo una stima stabile della tendenza delle prestazioni

Configurazione sperimentale

Dataset

  • Fonte: Dataset di esperti D4RL
  • Ambienti: Ambienti di robot quadrupedi Hopper-v2, HalfCheetah-v2, Ant-v2 in OpenAI Gym
  • Motore fisico: Simulazione fisica MuJoCo

Metriche di valutazione

  • Metrica principale: Ricompensa per episodio normalizzata D4RL
  • Condizioni di valutazione: Normale (senza perturbazione), perturbazione casuale, perturbazione avversariale
  • Statistiche: Prestazioni medie su 100 episodi, 5 esecuzioni indipendenti

Metodi di confronto

  1. Offline-only: TD3+BC addestrato solo offline
  2. Fully Online (Adversarial): Addestramento avversariale online da zero
  3. Varianti con messa a punto: Politiche con messa a punto sotto diverse condizioni di perturbazione

Dettagli di implementazione

  • Preaddestramento: 5 milioni di step TD3+BC
  • Messa a punto: 1 milione di step TD3 (3 milioni di step per esperimenti di curriculum)
  • Intensità di perturbazione: Hopper/HalfCheetah ϵ=0.3\epsilon=0.3, Ant ϵ=0.5\epsilon=0.5
  • Probabilità di perturbazione: Hopper q=0.5q=0.5, HalfCheetah/Ant q=0.1q=0.1
  • Parametri adattivi: β=0.9\beta=0.9, η\eta regolato specificamente per ambiente

Risultati sperimentali

Risultati principali

Scoperte fondamentali della Tabella 1:

  • Ant-v2 condizione avversariale: Messa a punto avversariale 91.6 vs offline -21.0 vs completamente online 24.0
  • Hopper-v2 condizione avversariale: Messa a punto avversariale 83.5 vs offline 13.7 vs completamente online 57.0
  • Vantaggio coerente: La messa a punto avversariale supera significativamente i baseline in tutte le valutazioni avversariali in tutti gli ambienti

Intuizioni chiave:

  1. Le prestazioni sono ottimali quando la condizione di messa a punto corrisponde alla condizione di valutazione
  2. Le prestazioni della politica offline diminuiscono drasticamente sotto perturbazione (persino ricompense negative)
  3. La messa a punto avversariale converge più rapidamente rispetto all'addestramento da zero

Esperimenti di ablazione

Confronto delle strategie di curriculum (Tabella 2):

  • 1M step: Il curriculum adattivo qadaq_{ada} supera costantemente qfixq_{fix} e qlinq_{lin} in tutti gli ambienti
  • 3M step: Il curriculum lineare mostra overfitting, con diminuzione delle prestazioni normali (Hopper: 95.1→76.5)
  • Vantaggio adattivo: qadaq_{ada} mantiene o migliora le prestazioni normali mantenendo la robustezza avversariale

Analisi di casi

Traiettorie di curriculum Figura 5:

  • Strategia lineare: Il valore di qq cresce inesorabilmente, portando a overfitting
  • Strategia adattiva: Regola la crescita di qq in base al feedback delle prestazioni, prevenendo l'aumento eccessivo della difficoltà

Scoperte sperimentali

  1. Velocità di convergenza: La messa a punto avversariale sfrutta il preaddestramento offline per una convergenza rapida
  2. Compromesso robustezza-stabilità: Il curriculum adattivo bilancia con successo i due aspetti
  3. Specificità dell'ambiente: Diversi ambienti richiedono regolazioni di iperparametri diverse

Lavori correlati

Apprendimento per rinforzo offline

  • Metodi conservativi: TD3+BC, CQL, IQL e altri vincolano la politica vicino alla distribuzione dei dati
  • Sfida fondamentale: Sovrastima dei valori Q per coppie stato-azione fuori distribuzione

Apprendimento per rinforzo robusto

  • Perturbazioni dello stato: Metodi come RORL migliorano la robustezza lisciando la distribuzione dei valori
  • Perturbazioni dell'azione: Ricerca relativamente scarsa, con lavori esistenti che mostrano che le politiche offline sono particolarmente fragili

Apprendimento per rinforzo offline-to-online

  • Metodi rappresentativi: AWAC, O2O, Policy Expansion e altri
  • Sfide principali: Degradazione delle prestazioni nella fase iniziale di messa a punto

Conclusioni e discussione

Conclusioni principali

  1. Incompatibilità fondamentale: Esiste un conflitto strutturale tra RL offline conservativo e robustezza nello spazio delle azioni
  2. Soluzione efficace: La messa a punto avversariale colma con successo l'efficienza offline e l'adattabilità online
  3. Valore dell'apprendimento per curriculum: La programmazione adattiva supera le strategie fisse, evitando l'overfitting

Limitazioni

  1. Mancanza di garanzie teoriche: Mancano analisi teoriche dell'adattamento del curriculum
  2. Complessità dell'ambiente: Gli esperimenti sono limitati a compiti di movimento relativamente semplici
  3. Tipi di perturbazione: Si concentra principalmente su perturbazioni moltiplicative, con esplorazione insufficiente di altri tipi

Direzioni future

  1. Sviluppo teorico: Stabilire garanzie teoriche per l'adattamento del curriculum
  2. Ambienti complessi: Esplorare l'interazione tra perturbazioni nello spazio degli stati e delle azioni
  3. Diversità di perturbazioni: Investigare tipi e modelli di perturbazione più ampi

Valutazione approfondita

Punti di forza

  1. Intuizioni fondamentali profonde: L'identificazione del conflitto fondamentale tra conservativismo e robustezza è un contributo importante
  2. Progettazione del metodo razionale: Il framework di messa a punto avversariale ha una logica chiara e implementazione tecnica fattibile
  3. Esperimenti completi: Valutazione completa su più ambienti, baseline e metriche
  4. Alto valore pratico: Risolve problemi critici nella distribuzione pratica di robot

Insufficienze

  1. Analisi teorica insufficiente: Mancano garanzie teoriche sulla convergenza e robustezza
  2. Limitazioni ambientali: Testato solo in ambienti di simulazione MuJoCo, manca verifica su robot reali
  3. Sensibilità agli iperparametri: Il curriculum adattivo richiede regolazioni di parametri specifiche per ambiente
  4. Costi computazionali: Il precalcolo delle perturbazioni e la valutazione delle prestazioni aumentano i costi computazionali

Impatto

  1. Contributo accademico: Fornisce una nuova prospettiva e metodi per la ricerca sulla robustezza dell'RL offline
  2. Valore pratico: Fornisce soluzioni pratiche per applicazioni robotiche critiche per la sicurezza
  3. Riproducibilità: La descrizione del metodo è dettagliata e la configurazione sperimentale è chiara

Scenari applicabili

  1. Controllo robotico: Sistemi autonomi che devono gestire guasti degli attuatori
  2. Applicazioni critiche per la sicurezza: Robot medici, automazione industriale e simili
  3. Ambienti con risorse limitate: Scenari che richiedono efficienza campionaria ma robustezza

Bibliografia

L'articolo cita importanti lavori nel campo dell'apprendimento per rinforzo, inclusi:

  • RL offline: Fujimoto & Gu (TD3+BC), Kumar et al. (CQL)
  • RL robusto: Pinto et al. (addestramento avversariale), Yang et al. (RORL)
  • Offline-to-online: Nair et al. (AWAC), Lee et al. (O2O)

Valutazione complessiva: Questo è un articolo di ricerca di alta qualità con contributi significativi in intuizioni teoriche, innovazione metodologica e verifica sperimentale. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nella verifica in ambienti reali, apre una direzione importante per la ricerca sulla robustezza dell'apprendimento per rinforzo offline, con notevole valore accademico e pratico.