2025-11-24T20:28:16.394652

Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control

Ayabe, Kera, Kawamoto

Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.

academic

Messa a punto avversariale nell'apprendimento per rinforzo offline-to-online per il controllo robusto dei robot

Informazioni di base

ID articolo: 2510.13358
Titolo: Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control
Autori: Shingo Ayabe, Hiroshi Kera, Kazuhiko Kawamoto (Università di Chiba)
Classificazione: cs.RO (Robotica), cs.AI (Intelligenza Artificiale)
Data di pubblicazione: 15 ottobre 2025 (preprint arXiv)
Link articolo: https://arxiv.org/abs/2510.13358

Riassunto

L'apprendimento per rinforzo offline consente l'acquisizione di politiche efficienti dal punto di vista campionario senza interazioni online rischiose, ma le politiche addestrate su dataset statici rimangono fragili di fronte a perturbazioni nello spazio delle azioni, come i guasti degli attuatori. Questo studio propone un framework offline-to-online che addestra inizialmente una politica su dati puliti, seguito da una messa a punto avversariale che inietta perturbazioni nelle azioni eseguite per indurre comportamenti compensativi e migliorare la robustezza. Un curriculum basato sulla consapevolezza delle prestazioni regola ulteriormente la probabilità di perturbazione durante l'addestramento tramite un segnale di media mobile esponenziale, bilanciando robustezza e stabilità durante l'intero processo di apprendimento. Gli esperimenti su compiti di controllo continuo dimostrano che il metodo proposto supera costantemente i baseline solo offline in termini di robustezza e converge più rapidamente rispetto all'addestramento da zero.

Contesto e motivazione della ricerca

Problema fondamentale

Il problema fondamentale affrontato da questa ricerca è la fragilità delle politiche di apprendimento per rinforzo offline di fronte a perturbazioni nello spazio delle azioni. Nello specifico:

Limitazioni dell'RL offline: Sebbene l'apprendimento per rinforzo offline eviti i rischi e i costi dell'interazione online, le politiche addestrate mostrano fragilità di fronte a perturbazioni nello spazio delle azioni come guasti degli attuatori e rumore nelle azioni.
Conflitto fondamentale tra conservativismo e robustezza: Gli autori identificano un'intuizione critica: i metodi conservativi di RL offline sono fondamentalmente incompatibili con la robustezza nello spazio delle azioni. I metodi conservativi vincolano la politica a rimanere all'interno della distribuzione delle azioni del dataset per prevenire errori di estrapolazione, ma la robustezza alle perturbazioni delle azioni richiede precisamente di imparare da campioni fuori distribuzione che sono vietati da questi vincoli.

Importanza del problema

Applicazioni critiche per la sicurezza: In settori critici per la sicurezza come l'assistenza sanitaria, la gestione energetica e il controllo robotico, le politiche devono gestire perturbazioni inaspettate
Requisiti di distribuzione pratica: Nei sistemi robotici reali, i guasti degli attuatori e il rumore nelle azioni sono inevitabili
Divario tra teoria e pratica: I metodi di RL offline esistenti si concentrano principalmente su perturbazioni nello spazio degli stati, con ricerca insufficiente su perturbazioni nello spazio delle azioni

Limitazioni dei metodi esistenti

Vincoli conservativi dell'RL offline: Metodi come TD3+BC vincolano la politica vicino alla distribuzione del dataset attraverso perdite di clonazione comportamentale, limitando l'adattabilità
Mancanza di dati perturbati: I dataset offline tipicamente non includono transizioni consapevoli delle perturbazioni, rendendo impossibile valutare l'efficacia della politica sotto perturbazione
Perturbazioni dello stato vs. dell'azione: La ricerca sulla robustezza esistente si concentra principalmente su perturbazioni dello stato (rumore dei sensori), con ricerca limitata su perturbazioni dell'azione

Contributi fondamentali

Propone un metodo di messa a punto avversariale: Inietta perturbazioni durante l'addestramento online, realizzando adattamento mirato alle perturbazioni delle azioni mantenendo l'efficienza campionaria del preaddestramento offline
Dimostra prestazioni superiori coerenti: La messa a punto avversariale supera costantemente i baseline solo offline e completamente online in termini di robustezza
Progetta una strategia di curriculum adattivo: Un curriculum adattivo che regola la probabilità di perturbazione in base alle prestazioni della politica, prevenendo l'overfitting su condizioni avversariali mantenendo la stabilità dell'addestramento, risolvendo limitazioni critiche dei metodi a programmazione fissa
Intuizioni teoriche: Analizza formalmente l'incompatibilità fondamentale tra RL offline conservativo e robustezza nello spazio delle azioni

Spiegazione dettagliata del metodo

Definizione del compito

Obiettivo: Trovare la politica robusta ottimale sotto perturbazioni nello spazio delle azioni $\pi^* = \arg\max_\pi \min_{\tilde{a} \in U} \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t r(s_t, \tilde{a})\right]$

dove $\tilde{a}$ è un'azione perturbata avversariale proveniente da un insieme predefinito $U$ .

Architettura del modello

1. Fase di preaddestramento offline

Preaddestra utilizzando l'algoritmo TD3+BC su un dataset pulito: $\pi = \arg\max_\pi \mathbb{E}_{(s_t,a_t)\sim D}[Q^\pi(s_t, \pi(s_t)) - \|\pi(s_t) - a_t\|^2]$

Il secondo termine forza la politica a rimanere vicina alla politica comportamentale per mantenere il conservativismo.

2. Fase di messa a punto avversariale

Meccanismo di iniezione di perturbazione: $a'_t = a_t + \delta_a \odot a_t \text{ con probabilità } q$

dove $\odot$ denota il prodotto elemento per elemento e $\delta_a$ è una perturbazione avversariale precalcolata.

Aggiornamento del target: $y_t = \tilde{r}_t + \gamma \min_{i\in\{1,2\}} Q_{\theta^-_i}(\tilde{s}_{t+1}, \pi_{\phi^-}(\tilde{s}_{t+1}) + \varepsilon)$

dove $\tilde{s}_{t+1} \sim P(\cdot|s_t, \tilde{a}_t)$ e $\tilde{r}_t = r(s_t, \tilde{a}_t)$ .

3. Meccanismo di apprendimento per curriculum

Curriculum lineare: $q \leftarrow \text{clip}(q + c, 0, 1)$ dove $c$ è una dimensione di passo fissa.

Curriculum adattivo: $\Delta q = \eta(\bar{R}_n - \bar{R}_{n-1})$ $\bar{R}_n = \beta R_n + (1-\beta)\bar{R}_{n-1}$

dove $\bar{R}_n$ è la prestazione della media mobile esponenziale e $\eta$ e $\beta$ controllano la dinamica di adattamento.

Punti di innovazione tecnica

Precalcolo delle perturbazioni: Utilizza l'algoritmo di evoluzione differenziale per pregenerare insiemi di perturbazioni, evitando costose minimizzazioni di cicli interni durante la messa a punto
Programmazione consapevole delle prestazioni: Il curriculum adattivo regola dinamicamente la probabilità di perturbazione in base alle prestazioni della politica, aumentando $q$ quando le prestazioni migliorano per aumentare la robustezza e riducendo $q$ quando le prestazioni diminuiscono per stabilizzare l'addestramento
Meccanismo di bilanciamento: Utilizza la media mobile esponenziale per filtrare le fluttuazioni a breve termine, fornendo una stima stabile della tendenza delle prestazioni

Configurazione sperimentale

Dataset

Fonte: Dataset di esperti D4RL
Ambienti: Ambienti di robot quadrupedi Hopper-v2, HalfCheetah-v2, Ant-v2 in OpenAI Gym
Motore fisico: Simulazione fisica MuJoCo

Metriche di valutazione

Metrica principale: Ricompensa per episodio normalizzata D4RL
Condizioni di valutazione: Normale (senza perturbazione), perturbazione casuale, perturbazione avversariale
Statistiche: Prestazioni medie su 100 episodi, 5 esecuzioni indipendenti

Metodi di confronto

Offline-only: TD3+BC addestrato solo offline
Fully Online (Adversarial): Addestramento avversariale online da zero
Varianti con messa a punto: Politiche con messa a punto sotto diverse condizioni di perturbazione

Dettagli di implementazione

Preaddestramento: 5 milioni di step TD3+BC
Messa a punto: 1 milione di step TD3 (3 milioni di step per esperimenti di curriculum)
Intensità di perturbazione: Hopper/HalfCheetah $\epsilon=0.3$ , Ant $\epsilon=0.5$
Probabilità di perturbazione: Hopper $q=0.5$ , HalfCheetah/Ant $q=0.1$
Parametri adattivi: $\beta=0.9$ , $\eta$ regolato specificamente per ambiente

Risultati sperimentali

Risultati principali

Scoperte fondamentali della Tabella 1:

Ant-v2 condizione avversariale: Messa a punto avversariale 91.6 vs offline -21.0 vs completamente online 24.0
Hopper-v2 condizione avversariale: Messa a punto avversariale 83.5 vs offline 13.7 vs completamente online 57.0
Vantaggio coerente: La messa a punto avversariale supera significativamente i baseline in tutte le valutazioni avversariali in tutti gli ambienti

Intuizioni chiave:

Le prestazioni sono ottimali quando la condizione di messa a punto corrisponde alla condizione di valutazione
Le prestazioni della politica offline diminuiscono drasticamente sotto perturbazione (persino ricompense negative)
La messa a punto avversariale converge più rapidamente rispetto all'addestramento da zero

Esperimenti di ablazione

Confronto delle strategie di curriculum (Tabella 2):

1M step: Il curriculum adattivo $q_{ada}$ supera costantemente $q_{fix}$ e $q_{lin}$ in tutti gli ambienti
3M step: Il curriculum lineare mostra overfitting, con diminuzione delle prestazioni normali (Hopper: 95.1→76.5)
Vantaggio adattivo: $q_{ada}$ mantiene o migliora le prestazioni normali mantenendo la robustezza avversariale

Analisi di casi

Traiettorie di curriculum Figura 5:

Strategia lineare: Il valore di $q$ cresce inesorabilmente, portando a overfitting
Strategia adattiva: Regola la crescita di $q$ in base al feedback delle prestazioni, prevenendo l'aumento eccessivo della difficoltà

Scoperte sperimentali

Velocità di convergenza: La messa a punto avversariale sfrutta il preaddestramento offline per una convergenza rapida
Compromesso robustezza-stabilità: Il curriculum adattivo bilancia con successo i due aspetti
Specificità dell'ambiente: Diversi ambienti richiedono regolazioni di iperparametri diverse

Lavori correlati

Apprendimento per rinforzo offline

Metodi conservativi: TD3+BC, CQL, IQL e altri vincolano la politica vicino alla distribuzione dei dati
Sfida fondamentale: Sovrastima dei valori Q per coppie stato-azione fuori distribuzione

Apprendimento per rinforzo robusto

Perturbazioni dello stato: Metodi come RORL migliorano la robustezza lisciando la distribuzione dei valori
Perturbazioni dell'azione: Ricerca relativamente scarsa, con lavori esistenti che mostrano che le politiche offline sono particolarmente fragili

Apprendimento per rinforzo offline-to-online

Metodi rappresentativi: AWAC, O2O, Policy Expansion e altri
Sfide principali: Degradazione delle prestazioni nella fase iniziale di messa a punto

Conclusioni e discussione

Conclusioni principali

Incompatibilità fondamentale: Esiste un conflitto strutturale tra RL offline conservativo e robustezza nello spazio delle azioni
Soluzione efficace: La messa a punto avversariale colma con successo l'efficienza offline e l'adattabilità online
Valore dell'apprendimento per curriculum: La programmazione adattiva supera le strategie fisse, evitando l'overfitting

Limitazioni

Mancanza di garanzie teoriche: Mancano analisi teoriche dell'adattamento del curriculum
Complessità dell'ambiente: Gli esperimenti sono limitati a compiti di movimento relativamente semplici
Tipi di perturbazione: Si concentra principalmente su perturbazioni moltiplicative, con esplorazione insufficiente di altri tipi

Direzioni future

Sviluppo teorico: Stabilire garanzie teoriche per l'adattamento del curriculum
Ambienti complessi: Esplorare l'interazione tra perturbazioni nello spazio degli stati e delle azioni
Diversità di perturbazioni: Investigare tipi e modelli di perturbazione più ampi

Valutazione approfondita

Punti di forza

Intuizioni fondamentali profonde: L'identificazione del conflitto fondamentale tra conservativismo e robustezza è un contributo importante
Progettazione del metodo razionale: Il framework di messa a punto avversariale ha una logica chiara e implementazione tecnica fattibile
Esperimenti completi: Valutazione completa su più ambienti, baseline e metriche
Alto valore pratico: Risolve problemi critici nella distribuzione pratica di robot

Insufficienze

Analisi teorica insufficiente: Mancano garanzie teoriche sulla convergenza e robustezza
Limitazioni ambientali: Testato solo in ambienti di simulazione MuJoCo, manca verifica su robot reali
Sensibilità agli iperparametri: Il curriculum adattivo richiede regolazioni di parametri specifiche per ambiente
Costi computazionali: Il precalcolo delle perturbazioni e la valutazione delle prestazioni aumentano i costi computazionali

Impatto

Contributo accademico: Fornisce una nuova prospettiva e metodi per la ricerca sulla robustezza dell'RL offline
Valore pratico: Fornisce soluzioni pratiche per applicazioni robotiche critiche per la sicurezza
Riproducibilità: La descrizione del metodo è dettagliata e la configurazione sperimentale è chiara

Scenari applicabili

Controllo robotico: Sistemi autonomi che devono gestire guasti degli attuatori
Applicazioni critiche per la sicurezza: Robot medici, automazione industriale e simili
Ambienti con risorse limitate: Scenari che richiedono efficienza campionaria ma robustezza

Bibliografia

L'articolo cita importanti lavori nel campo dell'apprendimento per rinforzo, inclusi:

RL offline: Fujimoto & Gu (TD3+BC), Kumar et al. (CQL)
RL robusto: Pinto et al. (addestramento avversariale), Yang et al. (RORL)
Offline-to-online: Nair et al. (AWAC), Lee et al. (O2O)

Valutazione complessiva: Questo è un articolo di ricerca di alta qualità con contributi significativi in intuizioni teoriche, innovazione metodologica e verifica sperimentale. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nella verifica in ambienti reali, apre una direzione importante per la ricerca sulla robustezza dell'apprendimento per rinforzo offline, con notevole valore accademico e pratico.