Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.
- ID de l'article: 2510.13358
- Titre: Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control
- Auteurs: Shingo Ayabe, Hiroshi Kera, Kazuhiko Kawamoto (Université de Chiba)
- Classification: cs.RO (Robotique), cs.AI (Intelligence Artificielle)
- Date de publication: 15 octobre 2025 (prépublication arXiv)
- Lien de l'article: https://arxiv.org/abs/2510.13358
L'apprentissage par renforcement hors-ligne permet l'acquisition de politiques efficaces en échantillons sans interactions en ligne risquées, mais les politiques entraînées sur des ensembles de données statiques restent fragiles face aux perturbations de l'espace d'action (comme les défaillances d'actionneurs). Cette étude propose un cadre hors-ligne vers en-ligne qui entraîne d'abord une politique sur des données propres, puis exécute un affinage adversarial en injectant des perturbations dans les actions exécutées pour induire des comportements compensatoires et améliorer la robustesse. Un curriculum basé sur la performance ajuste davantage la probabilité de perturbation via un signal de moyenne mobile exponentielle au cours de l'entraînement, équilibrant la robustesse et la stabilité tout au long du processus d'apprentissage. Les expériences sur des tâches de contrôle continu montrent que la méthode proposée surpasse systématiquement les lignes de base hors-ligne uniquement en termes de robustesse et converge plus rapidement que l'entraînement à partir de zéro.
Cette recherche aborde le problème central de la fragilité des politiques d'apprentissage par renforcement hors-ligne face aux perturbations de l'espace d'action. Plus précisément:
- Limitations de l'RL hors-ligne: Bien que l'apprentissage par renforcement hors-ligne évite les risques et les coûts des interactions en ligne, les politiques entraînées présentent une fragilité face aux perturbations de l'espace d'action telles que les défaillances d'actionneurs et le bruit d'action.
- Conflit fondamental entre conservatisme et robustesse: Les auteurs identifient une intuition clé — les méthodes conservatrices d'RL hors-ligne sont fondamentalement incompatibles avec la robustesse de l'espace d'action. Les méthodes conservatrices contraignent la politique à rester dans la distribution d'action de l'ensemble de données pour prévenir les erreurs d'extrapolation, mais la robustesse aux perturbations d'action nécessite précisément d'apprendre ces échantillons hors-distribution que les contraintes interdisent.
- Applications critiques pour la sécurité: Dans les domaines critiques pour la sécurité tels que la santé, la gestion de l'énergie et le contrôle robotique, les politiques doivent gérer les perturbations inattendues
- Exigences de déploiement pratique: Les défaillances d'actionneurs et le bruit d'action sont inévitables dans les systèmes robotiques réels
- Écart théorie-pratique: Les méthodes d'RL hors-ligne existantes se concentrent principalement sur les perturbations d'état, avec une recherche insuffisante sur les perturbations d'action
- Contraintes conservatrices de l'RL hors-ligne: Les méthodes comme TD3+BC contraignent la politique à rester proche de la distribution de l'ensemble de données via une perte de clonage comportemental, limitant l'adaptabilité
- Absence de données perturbées: Les ensembles de données hors-ligne ne contiennent généralement pas de transitions conscientes des perturbations, rendant impossible l'évaluation de l'efficacité de la politique sous perturbation
- Perturbations d'état vs d'action: La recherche existante sur la robustesse se concentre principalement sur les perturbations d'état (bruit des capteurs), avec peu de recherche sur les perturbations d'action
- Proposition d'une méthode d'affinage adversarial: Injection de perturbations pendant l'entraînement en ligne pour réaliser une adaptation ciblée aux perturbations d'action, tout en maintenant l'efficacité en échantillons du préentraînement hors-ligne
- Démonstration de performances supérieures cohérentes: L'affinage adversarial surpasse systématiquement les lignes de base hors-ligne uniquement et complètement en ligne en termes de robustesse
- Conception d'une stratégie de curriculum adaptatif: Un curriculum adaptatif qui ajuste la probabilité de perturbation en fonction de la performance de la politique, prévenant le surapprentissage dans les conditions adversariales tout en maintenant la stabilité de l'entraînement, résolvant les limitations critiques des méthodes de planification fixe
- Intuitions théoriques: Analyse formalisée de l'incompatibilité fondamentale entre l'RL conservateur hors-ligne et la robustesse de l'espace d'action
Objectif: Trouver la politique robuste optimale sous perturbations de l'espace d'action
π∗=argmaxπmina~∈UE[∑t=0∞γtr(st,a~)]
où a~ est une action perturbée adversarialement provenant d'un ensemble prédéfini U.
Préentraînement utilisant l'algorithme TD3+BC sur un ensemble de données propres:
π=argmaxπE(st,at)∼D[Qπ(st,π(st))−∥π(st)−at∥2]
Le second terme force la politique à rester proche de la politique comportementale pour maintenir le conservatisme.
Mécanisme d'injection de perturbation:
at′=at+δa⊙at avec probabiliteˊ q
où ⊙ désigne le produit élément par élément, et δa est la perturbation adversariale précalculée.
Mise à jour de la cible:
yt=r~t+γmini∈{1,2}Qθi−(s~t+1,πϕ−(s~t+1)+ε)
où s~t+1∼P(⋅∣st,a~t), r~t=r(st,a~t).
Curriculum linéaire:
q←clip(q+c,0,1)
où c est un pas fixe.
Curriculum adaptatif:
Δq=η(Rˉn−Rˉn−1)Rˉn=βRn+(1−β)Rˉn−1
où Rˉn est la performance moyenne mobile exponentielle, et η et β contrôlent la dynamique d'adaptation.
- Précalcul des perturbations: Utilisation d'un algorithme d'évolution différentielle pour pré-générer l'ensemble de perturbations, évitant la minimisation interne coûteuse pendant l'affinage
- Planification consciente de la performance: Le curriculum adaptatif ajuste dynamiquement la probabilité de perturbation en fonction de la performance de la politique, augmentant q lors d'améliorations de performance pour renforcer la robustesse, et réduisant q lors de dégradations pour stabiliser l'entraînement
- Mécanisme d'équilibre: La moyenne mobile exponentielle filtre les fluctuations à court terme, fournissant une estimation stable de la tendance de performance
- Source: Ensemble de données d'experts D4RL
- Environnements: Environnements de robots quadrupèdes Hopper-v2, HalfCheetah-v2, Ant-v2 dans OpenAI Gym
- Moteur physique: Simulation physique MuJoCo
- Métrique principale: Récompense d'épisode normalisée D4RL
- Conditions d'évaluation: Normal (sans perturbation), perturbation aléatoire, perturbation adversariale
- Statistiques: Performance moyenne sur 100 épisodes, 5 exécutions indépendantes
- Hors-ligne uniquement: TD3+BC entraîné hors-ligne uniquement
- Complètement en ligne (Adversarial): Entraînement adversarial en ligne à partir de zéro
- Variantes affinées: Politiques affinées sous différentes conditions de perturbation
- Préentraînement: 5 millions d'étapes TD3+BC
- Affinage: 1 million d'étapes TD3 (3 millions d'étapes pour les expériences de curriculum)
- Intensité de perturbation: Hopper/HalfCheetah ϵ=0,3, Ant ϵ=0,5
- Probabilité de perturbation: Hopper q=0,5, HalfCheetah/Ant q=0,1
- Paramètres adaptatifs: β=0,9, η ajusté spécifiquement par environnement
Découvertes clés du Tableau 1:
- Ant-v2 condition adversariale: Affinage adversarial 91,6 vs hors-ligne -21,0 vs complètement en ligne 24,0
- Hopper-v2 condition adversariale: Affinage adversarial 83,5 vs hors-ligne 13,7 vs complètement en ligne 57,0
- Avantage cohérent: L'affinage adversarial surpasse significativement les lignes de base dans l'évaluation adversariale pour tous les environnements
Intuitions clés:
- Les performances sont optimales lorsque la condition d'affinage correspond à la condition d'évaluation
- Les politiques hors-ligne montrent une dégradation drastique de performance sous perturbation (récompenses négatives possibles)
- L'affinage adversarial converge plus rapidement que l'entraînement à partir de zéro
Comparaison des stratégies de curriculum (Tableau 2):
- 1M étapes: Le curriculum adaptatif qada surpasse systématiquement le curriculum fixe qfix et linéaire qlin dans tous les environnements
- 3M étapes: Le curriculum linéaire montre un surapprentissage, avec dégradation de la performance normale (Hopper: 95,1→76,5)
- Avantage adaptatif: qada maintient ou améliore la performance normale tout en préservant la robustesse adversariale
Trajectoires de curriculum Figure 5:
- Stratégie linéaire: Croissance inexorable de q, conduisant au surapprentissage
- Stratégie adaptatif: Ajustement de la croissance de q basé sur les retours de performance, prévenant l'escalade excessive de difficulté
- Vitesse de convergence: L'affinage adversarial exploite le préentraînement hors-ligne pour une convergence rapide
- Compromis robustesse-stabilité: Le curriculum adaptatif équilibre avec succès les deux
- Spécificité environnementale: Différents environnements nécessitent des ajustements d'hyperparamètres différents
- Méthodes conservatrices: TD3+BC, CQL, IQL et autres via contrainte de la politique proche de la distribution des données
- Défi central: Surestimation de la valeur Q pour les paires état-action hors-distribution
- Perturbations d'état: Méthodes comme RORL améliorant la robustesse via lissage de la distribution de valeur
- Perturbations d'action: Recherche relativement limitée, les travaux existants montrant une fragilité particulière des politiques hors-ligne
- Méthodes représentatives: AWAC, O2O, Policy Expansion et autres
- Défis principaux: Dégradation de performance lors de l'affinage précoce
- Incompatibilité fondamentale: Conflit structurel entre l'RL conservateur hors-ligne et la robustesse de l'espace d'action
- Solution efficace: L'affinage adversarial relie avec succès l'efficacité hors-ligne et l'adaptabilité en ligne
- Valeur de l'apprentissage par curriculum: La planification adaptatif surpasse les stratégies fixes, prévenant le surapprentissage
- Absence de garanties théoriques: Manque d'analyse théorique de l'adaptation du curriculum
- Complexité environnementale: Les expériences se limitent à des tâches de locomotion relativement simples
- Types de perturbation: Focus principal sur les perturbations multiplicatives, exploration insuffisante d'autres types
- Développement théorique: Établir des garanties théoriques pour l'adaptation du curriculum
- Environnements complexes: Explorer les interactions entre perturbations d'état et d'action
- Diversité des perturbations: Étudier une gamme plus large de types et de motifs de perturbation
- Intuitions fondamentales profondes: L'identification du conflit entre conservatisme et robustesse est une contribution importante
- Conception de méthode rationnelle: Le cadre d'affinage adversarial est logiquement clair et techniquement réalisable
- Expériences complètes: Évaluation globale sur plusieurs environnements, lignes de base et métriques
- Valeur pratique élevée: Résout les problèmes clés du déploiement de robots réels
- Analyse théorique insuffisante: Manque de garanties de convergence et de robustesse
- Limitations environnementales: Test uniquement en simulation MuJoCo, absence de validation sur robots réels
- Sensibilité aux hyperparamètres: Le curriculum adaptatif nécessite des ajustements de paramètres spécifiques à l'environnement
- Surcharge computationnelle: Le précalcul des perturbations et l'évaluation de performance augmentent les coûts computationnels
- Contribution académique: Fournit une nouvelle perspective et une méthode pour la recherche sur la robustesse de l'RL hors-ligne
- Valeur pratique: Offre une solution pratique pour les applications robotiques critiques pour la sécurité
- Reproductibilité: Description détaillée de la méthode et configuration expérimentale claire
- Contrôle robotique: Systèmes autonomes devant gérer les défaillances d'actionneurs
- Applications critiques pour la sécurité: Robots médicaux, automatisation industrielle, etc.
- Environnements aux ressources limitées: Scénarios nécessitant l'efficacité en échantillons mais exigeant la robustesse
L'article cite des travaux importants du domaine de l'apprentissage par renforcement, notamment:
- RL hors-ligne: Fujimoto & Gu (TD3+BC), Kumar et al. (CQL)
- RL robuste: Pinto et al. (entraînement adversarial), Yang et al. (RORL)
- Hors-ligne vers en-ligne: Nair et al. (AWAC), Lee et al. (O2O)
Évaluation générale: Ceci est un article de recherche de haute qualité avec des contributions significatives en intuitions théoriques, innovation méthodologique et validation expérimentale. Bien qu'il y ait place pour amélioration dans l'analyse théorique et la validation en environnement réel, il ouvre une direction importante pour la recherche sur la robustesse de l'apprentissage par renforcement hors-ligne, avec une valeur académique et pratique considérable.