Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.
- ID articolo: 2510.13358
- Titolo: Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control
- Autori: Shingo Ayabe, Hiroshi Kera, Kazuhiko Kawamoto (Università di Chiba)
- Classificazione: cs.RO (Robotica), cs.AI (Intelligenza Artificiale)
- Data di pubblicazione: 15 ottobre 2025 (preprint arXiv)
- Link articolo: https://arxiv.org/abs/2510.13358
L'apprendimento per rinforzo offline consente l'acquisizione di politiche efficienti dal punto di vista campionario senza interazioni online rischiose, ma le politiche addestrate su dataset statici rimangono fragili di fronte a perturbazioni nello spazio delle azioni, come i guasti degli attuatori. Questo studio propone un framework offline-to-online che addestra inizialmente una politica su dati puliti, seguito da una messa a punto avversariale che inietta perturbazioni nelle azioni eseguite per indurre comportamenti compensativi e migliorare la robustezza. Un curriculum basato sulla consapevolezza delle prestazioni regola ulteriormente la probabilità di perturbazione durante l'addestramento tramite un segnale di media mobile esponenziale, bilanciando robustezza e stabilità durante l'intero processo di apprendimento. Gli esperimenti su compiti di controllo continuo dimostrano che il metodo proposto supera costantemente i baseline solo offline in termini di robustezza e converge più rapidamente rispetto all'addestramento da zero.
Il problema fondamentale affrontato da questa ricerca è la fragilità delle politiche di apprendimento per rinforzo offline di fronte a perturbazioni nello spazio delle azioni. Nello specifico:
- Limitazioni dell'RL offline: Sebbene l'apprendimento per rinforzo offline eviti i rischi e i costi dell'interazione online, le politiche addestrate mostrano fragilità di fronte a perturbazioni nello spazio delle azioni come guasti degli attuatori e rumore nelle azioni.
- Conflitto fondamentale tra conservativismo e robustezza: Gli autori identificano un'intuizione critica: i metodi conservativi di RL offline sono fondamentalmente incompatibili con la robustezza nello spazio delle azioni. I metodi conservativi vincolano la politica a rimanere all'interno della distribuzione delle azioni del dataset per prevenire errori di estrapolazione, ma la robustezza alle perturbazioni delle azioni richiede precisamente di imparare da campioni fuori distribuzione che sono vietati da questi vincoli.
- Applicazioni critiche per la sicurezza: In settori critici per la sicurezza come l'assistenza sanitaria, la gestione energetica e il controllo robotico, le politiche devono gestire perturbazioni inaspettate
- Requisiti di distribuzione pratica: Nei sistemi robotici reali, i guasti degli attuatori e il rumore nelle azioni sono inevitabili
- Divario tra teoria e pratica: I metodi di RL offline esistenti si concentrano principalmente su perturbazioni nello spazio degli stati, con ricerca insufficiente su perturbazioni nello spazio delle azioni
- Vincoli conservativi dell'RL offline: Metodi come TD3+BC vincolano la politica vicino alla distribuzione del dataset attraverso perdite di clonazione comportamentale, limitando l'adattabilità
- Mancanza di dati perturbati: I dataset offline tipicamente non includono transizioni consapevoli delle perturbazioni, rendendo impossibile valutare l'efficacia della politica sotto perturbazione
- Perturbazioni dello stato vs. dell'azione: La ricerca sulla robustezza esistente si concentra principalmente su perturbazioni dello stato (rumore dei sensori), con ricerca limitata su perturbazioni dell'azione
- Propone un metodo di messa a punto avversariale: Inietta perturbazioni durante l'addestramento online, realizzando adattamento mirato alle perturbazioni delle azioni mantenendo l'efficienza campionaria del preaddestramento offline
- Dimostra prestazioni superiori coerenti: La messa a punto avversariale supera costantemente i baseline solo offline e completamente online in termini di robustezza
- Progetta una strategia di curriculum adattivo: Un curriculum adattivo che regola la probabilità di perturbazione in base alle prestazioni della politica, prevenendo l'overfitting su condizioni avversariali mantenendo la stabilità dell'addestramento, risolvendo limitazioni critiche dei metodi a programmazione fissa
- Intuizioni teoriche: Analizza formalmente l'incompatibilità fondamentale tra RL offline conservativo e robustezza nello spazio delle azioni
Obiettivo: Trovare la politica robusta ottimale sotto perturbazioni nello spazio delle azioni
π∗=argmaxπmina~∈UE[∑t=0∞γtr(st,a~)]
dove a~ è un'azione perturbata avversariale proveniente da un insieme predefinito U.
Preaddestra utilizzando l'algoritmo TD3+BC su un dataset pulito:
π=argmaxπE(st,at)∼D[Qπ(st,π(st))−∥π(st)−at∥2]
Il secondo termine forza la politica a rimanere vicina alla politica comportamentale per mantenere il conservativismo.
Meccanismo di iniezione di perturbazione:
at′=at+δa⊙at con probabilitaˋ q
dove ⊙ denota il prodotto elemento per elemento e δa è una perturbazione avversariale precalcolata.
Aggiornamento del target:
yt=r~t+γmini∈{1,2}Qθi−(s~t+1,πϕ−(s~t+1)+ε)
dove s~t+1∼P(⋅∣st,a~t) e r~t=r(st,a~t).
Curriculum lineare:
q←clip(q+c,0,1)
dove c è una dimensione di passo fissa.
Curriculum adattivo:
Δq=η(Rˉn−Rˉn−1)Rˉn=βRn+(1−β)Rˉn−1
dove Rˉn è la prestazione della media mobile esponenziale e η e β controllano la dinamica di adattamento.
- Precalcolo delle perturbazioni: Utilizza l'algoritmo di evoluzione differenziale per pregenerare insiemi di perturbazioni, evitando costose minimizzazioni di cicli interni durante la messa a punto
- Programmazione consapevole delle prestazioni: Il curriculum adattivo regola dinamicamente la probabilità di perturbazione in base alle prestazioni della politica, aumentando q quando le prestazioni migliorano per aumentare la robustezza e riducendo q quando le prestazioni diminuiscono per stabilizzare l'addestramento
- Meccanismo di bilanciamento: Utilizza la media mobile esponenziale per filtrare le fluttuazioni a breve termine, fornendo una stima stabile della tendenza delle prestazioni
- Fonte: Dataset di esperti D4RL
- Ambienti: Ambienti di robot quadrupedi Hopper-v2, HalfCheetah-v2, Ant-v2 in OpenAI Gym
- Motore fisico: Simulazione fisica MuJoCo
- Metrica principale: Ricompensa per episodio normalizzata D4RL
- Condizioni di valutazione: Normale (senza perturbazione), perturbazione casuale, perturbazione avversariale
- Statistiche: Prestazioni medie su 100 episodi, 5 esecuzioni indipendenti
- Offline-only: TD3+BC addestrato solo offline
- Fully Online (Adversarial): Addestramento avversariale online da zero
- Varianti con messa a punto: Politiche con messa a punto sotto diverse condizioni di perturbazione
- Preaddestramento: 5 milioni di step TD3+BC
- Messa a punto: 1 milione di step TD3 (3 milioni di step per esperimenti di curriculum)
- Intensità di perturbazione: Hopper/HalfCheetah ϵ=0.3, Ant ϵ=0.5
- Probabilità di perturbazione: Hopper q=0.5, HalfCheetah/Ant q=0.1
- Parametri adattivi: β=0.9, η regolato specificamente per ambiente
Scoperte fondamentali della Tabella 1:
- Ant-v2 condizione avversariale: Messa a punto avversariale 91.6 vs offline -21.0 vs completamente online 24.0
- Hopper-v2 condizione avversariale: Messa a punto avversariale 83.5 vs offline 13.7 vs completamente online 57.0
- Vantaggio coerente: La messa a punto avversariale supera significativamente i baseline in tutte le valutazioni avversariali in tutti gli ambienti
Intuizioni chiave:
- Le prestazioni sono ottimali quando la condizione di messa a punto corrisponde alla condizione di valutazione
- Le prestazioni della politica offline diminuiscono drasticamente sotto perturbazione (persino ricompense negative)
- La messa a punto avversariale converge più rapidamente rispetto all'addestramento da zero
Confronto delle strategie di curriculum (Tabella 2):
- 1M step: Il curriculum adattivo qada supera costantemente qfix e qlin in tutti gli ambienti
- 3M step: Il curriculum lineare mostra overfitting, con diminuzione delle prestazioni normali (Hopper: 95.1→76.5)
- Vantaggio adattivo: qada mantiene o migliora le prestazioni normali mantenendo la robustezza avversariale
Traiettorie di curriculum Figura 5:
- Strategia lineare: Il valore di q cresce inesorabilmente, portando a overfitting
- Strategia adattiva: Regola la crescita di q in base al feedback delle prestazioni, prevenendo l'aumento eccessivo della difficoltà
- Velocità di convergenza: La messa a punto avversariale sfrutta il preaddestramento offline per una convergenza rapida
- Compromesso robustezza-stabilità: Il curriculum adattivo bilancia con successo i due aspetti
- Specificità dell'ambiente: Diversi ambienti richiedono regolazioni di iperparametri diverse
- Metodi conservativi: TD3+BC, CQL, IQL e altri vincolano la politica vicino alla distribuzione dei dati
- Sfida fondamentale: Sovrastima dei valori Q per coppie stato-azione fuori distribuzione
- Perturbazioni dello stato: Metodi come RORL migliorano la robustezza lisciando la distribuzione dei valori
- Perturbazioni dell'azione: Ricerca relativamente scarsa, con lavori esistenti che mostrano che le politiche offline sono particolarmente fragili
- Metodi rappresentativi: AWAC, O2O, Policy Expansion e altri
- Sfide principali: Degradazione delle prestazioni nella fase iniziale di messa a punto
- Incompatibilità fondamentale: Esiste un conflitto strutturale tra RL offline conservativo e robustezza nello spazio delle azioni
- Soluzione efficace: La messa a punto avversariale colma con successo l'efficienza offline e l'adattabilità online
- Valore dell'apprendimento per curriculum: La programmazione adattiva supera le strategie fisse, evitando l'overfitting
- Mancanza di garanzie teoriche: Mancano analisi teoriche dell'adattamento del curriculum
- Complessità dell'ambiente: Gli esperimenti sono limitati a compiti di movimento relativamente semplici
- Tipi di perturbazione: Si concentra principalmente su perturbazioni moltiplicative, con esplorazione insufficiente di altri tipi
- Sviluppo teorico: Stabilire garanzie teoriche per l'adattamento del curriculum
- Ambienti complessi: Esplorare l'interazione tra perturbazioni nello spazio degli stati e delle azioni
- Diversità di perturbazioni: Investigare tipi e modelli di perturbazione più ampi
- Intuizioni fondamentali profonde: L'identificazione del conflitto fondamentale tra conservativismo e robustezza è un contributo importante
- Progettazione del metodo razionale: Il framework di messa a punto avversariale ha una logica chiara e implementazione tecnica fattibile
- Esperimenti completi: Valutazione completa su più ambienti, baseline e metriche
- Alto valore pratico: Risolve problemi critici nella distribuzione pratica di robot
- Analisi teorica insufficiente: Mancano garanzie teoriche sulla convergenza e robustezza
- Limitazioni ambientali: Testato solo in ambienti di simulazione MuJoCo, manca verifica su robot reali
- Sensibilità agli iperparametri: Il curriculum adattivo richiede regolazioni di parametri specifiche per ambiente
- Costi computazionali: Il precalcolo delle perturbazioni e la valutazione delle prestazioni aumentano i costi computazionali
- Contributo accademico: Fornisce una nuova prospettiva e metodi per la ricerca sulla robustezza dell'RL offline
- Valore pratico: Fornisce soluzioni pratiche per applicazioni robotiche critiche per la sicurezza
- Riproducibilità: La descrizione del metodo è dettagliata e la configurazione sperimentale è chiara
- Controllo robotico: Sistemi autonomi che devono gestire guasti degli attuatori
- Applicazioni critiche per la sicurezza: Robot medici, automazione industriale e simili
- Ambienti con risorse limitate: Scenari che richiedono efficienza campionaria ma robustezza
L'articolo cita importanti lavori nel campo dell'apprendimento per rinforzo, inclusi:
- RL offline: Fujimoto & Gu (TD3+BC), Kumar et al. (CQL)
- RL robusto: Pinto et al. (addestramento avversariale), Yang et al. (RORL)
- Offline-to-online: Nair et al. (AWAC), Lee et al. (O2O)
Valutazione complessiva: Questo è un articolo di ricerca di alta qualità con contributi significativi in intuizioni teoriche, innovazione metodologica e verifica sperimentale. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nella verifica in ambienti reali, apre una direzione importante per la ricerca sulla robustezza dell'apprendimento per rinforzo offline, con notevole valore accademico e pratico.