2025-11-24T20:28:16.394652

Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control

Ayabe, Kera, Kawamoto

Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.

academic

Ajuste Adversarial en Aprendizaje por Refuerzo Offline-to-Online para Control Robusto de Robots

Información Básica

ID del Artículo: 2510.13358
Título: Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control
Autores: Shingo Ayabe, Hiroshi Kera, Kazuhiko Kawamoto (Universidad de Chiba)
Clasificación: cs.RO (Robótica), cs.AI (Inteligencia Artificial)
Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13358

Resumen

El aprendizaje por refuerzo offline permite la adquisición de políticas eficiente en muestras sin realizar interacciones en línea arriesgadas, pero las políticas entrenadas en conjuntos de datos estáticos siguen siendo frágiles ante perturbaciones en el espacio de acciones (como fallos de actuadores). Este estudio propone un marco offline-to-online que primero entrena una política en datos limpios y luego ejecuta ajuste adversarial, inyectando perturbaciones en las acciones ejecutadas para inducir comportamientos compensatorios y mejorar la robustez. Un currículo basado en el desempeño ajusta aún más la probabilidad de perturbación durante el entrenamiento mediante una señal de promedio móvil exponencial, equilibrando la robustez y estabilidad a lo largo de todo el proceso de aprendizaje. Los experimentos en tareas de control de movimiento continuo demuestran que el método propuesto supera consistentemente las líneas base solo offline y converge más rápido que el entrenamiento desde cero.

Antecedentes de Investigación y Motivación

Problema Central

El problema central que aborda esta investigación es la fragilidad de las políticas de aprendizaje por refuerzo offline ante perturbaciones en el espacio de acciones. Específicamente:

Limitaciones del RL Offline: Aunque el aprendizaje por refuerzo offline evita los riesgos y costos de la interacción en línea, las políticas entrenadas muestran un desempeño frágil ante perturbaciones en el espacio de acciones como fallos de actuadores y ruido en acciones.
Conflicto Fundamental entre Conservadurismo y Robustez: Los autores identifican una perspectiva clave: los métodos conservadores de RL offline son fundamentalmente incompatibles con la robustez en el espacio de acciones. Los métodos conservadores restringen las políticas para mantenerse dentro de la distribución de acciones del conjunto de datos para prevenir errores de extrapolación, pero la robustez ante perturbaciones de acciones requiere precisamente aprender muestras fuera de distribución que estos métodos prohíben.

Importancia del Problema

Aplicaciones Críticas para la Seguridad: En campos críticos para la seguridad como atención médica, gestión de energía y control robótico, las políticas deben manejar perturbaciones inesperadas
Requisitos de Despliegue Práctico: En sistemas robóticos reales, los fallos de actuadores y el ruido en acciones son inevitables
Brecha entre Teoría y Práctica: Los métodos existentes de RL offline se enfocaban principalmente en perturbaciones en el espacio de estados, con investigación insuficiente sobre perturbaciones en el espacio de acciones

Limitaciones de Métodos Existentes

Restricciones Conservadoras del RL Offline: Métodos como TD3+BC restringen las políticas para permanecer cerca de la distribución del conjunto de datos mediante pérdida de clonación de comportamiento, limitando la adaptabilidad
Falta de Datos con Perturbaciones: Los conjuntos de datos offline típicamente no incluyen transiciones conscientes de perturbaciones, imposibilitando evaluar la efectividad de políticas bajo perturbaciones
Perturbaciones de Estado vs. Acción: La investigación existente sobre robustez se enfoca principalmente en perturbaciones de estado (ruido de sensores), con investigación limitada sobre perturbaciones de acción

Contribuciones Principales

Propone Método de Ajuste Adversarial: Inyecta perturbaciones durante el entrenamiento en línea, logrando adaptación específica a perturbaciones de acciones mientras mantiene la eficiencia en muestras del preentrenamiento offline
Demuestra Desempeño Consistentemente Superior: El ajuste adversarial supera consistentemente las líneas base solo offline y completamente en línea en robustez
Diseña Estrategia de Currículo Adaptativo: Un currículo adaptativo que ajusta la probabilidad de perturbación basado en el desempeño de la política, previniendo sobreajuste a condiciones adversarias mientras mantiene la estabilidad del entrenamiento, resolviendo limitaciones clave de métodos de programación fija
Perspectivas Teóricas: Análisis formalizado de la incompatibilidad fundamental entre RL offline conservador y robustez en el espacio de acciones

Explicación Detallada del Método

Definición de Tarea

Objetivo: Encontrar la política óptima robusta bajo perturbaciones en el espacio de acciones $\pi^* = \arg\max_\pi \min_{\tilde{a} \in U} \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t r(s_t, \tilde{a})\right]$

donde $\tilde{a}$ es una acción perturbada adversarialmente del conjunto predefinido $U$ .

Arquitectura del Modelo

1. Fase de Preentrenamiento Offline

Preentrenamiento usando el algoritmo TD3+BC en un conjunto de datos limpio: $\pi = \arg\max_\pi \mathbb{E}_{(s_t,a_t)\sim D}[Q^\pi(s_t, \pi(s_t)) - \|\pi(s_t) - a_t\|^2]$

El segundo término fuerza a la política a aproximarse a la política de comportamiento para mantener el conservadurismo.

2. Fase de Ajuste Adversarial

Mecanismo de Inyección de Perturbaciones: $a'_t = a_t + \delta_a \odot a_t \text{ con probabilidad } q$

donde $\odot$ denota multiplicación elemento a elemento, y $\delta_a$ es la perturbación adversarial precomputada.

Actualización del Objetivo: $y_t = \tilde{r}_t + \gamma \min_{i\in\{1,2\}} Q_{\theta^-_i}(\tilde{s}_{t+1}, \pi_{\phi^-}(\tilde{s}_{t+1}) + \varepsilon)$

donde $\tilde{s}_{t+1} \sim P(\cdot|s_t, \tilde{a}_t)$ , $\tilde{r}_t = r(s_t, \tilde{a}_t)$ .

3. Mecanismo de Aprendizaje por Currículo

Currículo Lineal: $q \leftarrow \text{clip}(q + c, 0, 1)$ donde $c$ es un tamaño de paso fijo.

Currículo Adaptativo: $\Delta q = \eta(\bar{R}_n - \bar{R}_{n-1})$ $\bar{R}_n = \beta R_n + (1-\beta)\bar{R}_{n-1}$

donde $\bar{R}_n$ es el desempeño de promedio móvil exponencial, y $\eta$ y $\beta$ controlan la dinámica de adaptación.

Puntos de Innovación Técnica

Precomputación de Perturbaciones: Utiliza algoritmo de evolución diferencial para pregenerar conjuntos de perturbaciones, evitando minimización costosa en bucle interno durante el ajuste
Programación Consciente del Desempeño: El currículo adaptativo ajusta dinámicamente la probabilidad de perturbación basado en el desempeño de la política, aumentando $q$ cuando el desempeño mejora para mejorar robustez, y disminuyendo $q$ cuando el desempeño empeora para estabilizar el entrenamiento
Mecanismo de Equilibrio: Mediante promedio móvil exponencial filtra fluctuaciones a corto plazo, proporcionando estimación estable de tendencias de desempeño

Configuración Experimental

Conjunto de Datos

Fuente: Conjunto de datos de expertos D4RL
Entornos: Entornos de robots bípedos Hopper-v2, HalfCheetah-v2, Ant-v2 en OpenAI Gym
Motor Físico: Simulación física MuJoCo

Métricas de Evaluación

Métrica Principal: Recompensa normalizada por episodio D4RL
Condiciones de Evaluación: Normal (sin perturbaciones), perturbaciones aleatorias, perturbaciones adversariales
Estadísticas: Desempeño promedio en 100 episodios, 5 ejecuciones independientes

Métodos de Comparación

Solo Offline: TD3+BC entrenado solo offline
Completamente En Línea (Adversarial): Entrenamiento adversarial en línea desde cero
Variantes Ajustadas: Políticas ajustadas bajo diferentes condiciones de perturbación

Detalles de Implementación

Preentrenamiento: 5 millones de pasos TD3+BC
Ajuste: 1 millón de pasos TD3 (3 millones de pasos para experimentos de currículo)
Intensidad de Perturbación: Hopper/HalfCheetah $\epsilon=0.3$ , Ant $\epsilon=0.5$
Probabilidad de Perturbación: Hopper $q=0.5$ , HalfCheetah/Ant $q=0.1$
Parámetros Adaptativos: $\beta=0.9$ , $\eta$ ajustado específicamente por entorno

Resultados Experimentales

Resultados Principales

Hallazgos Clave de la Tabla 1:

Ant-v2 Condición Adversarial: Ajuste adversarial 91.6 vs. offline -21.0 vs. completamente en línea 24.0
Hopper-v2 Condición Adversarial: Ajuste adversarial 83.5 vs. offline 13.7 vs. completamente en línea 57.0
Ventaja Consistente: El ajuste adversarial supera significativamente las líneas base en evaluación adversarial en todos los entornos

Perspectivas Clave:

El desempeño es óptimo cuando la condición de ajuste coincide con la condición de evaluación
El desempeño de políticas offline se degrada drásticamente bajo perturbaciones (incluso recompensas negativas)
El ajuste adversarial converge más rápido que el entrenamiento desde cero

Experimentos de Ablación

Comparación de Estrategias de Currículo (Tabla 2):

1M Pasos: Currículo adaptativo $q_{ada}$ supera consistentemente $q_{fix}$ fijo y $q_{lin}$ lineal en todos los entornos
3M Pasos: Currículo lineal muestra sobreajuste, desempeño normal disminuye (Hopper: 95.1→76.5)
Ventaja Adaptativa: $q_{ada}$ mantiene o mejora desempeño normal mientras preserva robustez adversarial

Análisis de Casos

Trayectorias de Currículo Figura 5:

Estrategia lineal: Valor $q$ crece implacablemente, conduciendo a sobreajuste
Estrategia adaptativa: Ajusta crecimiento de $q$ basado en retroalimentación de desempeño, previniendo escalada excesivamente difícil

Hallazgos Experimentales

Velocidad de Convergencia: El ajuste adversarial aprovecha el preentrenamiento offline para convergencia rápida
Equilibrio Robustez-Estabilidad: El currículo adaptativo equilibra exitosamente ambos
Especificidad del Entorno: Diferentes entornos requieren ajuste de hiperparámetros diferentes

Trabajo Relacionado

Aprendizaje por Refuerzo Offline

Métodos Conservadores: TD3+BC, CQL, IQL y otros restringen políticas para permanecer cerca de la distribución de datos
Desafío Central: Sobreestimación de valores Q para pares estado-acción fuera de distribución

Aprendizaje por Refuerzo Robusto

Perturbaciones de Estado: Métodos como RORL mejoran robustez mediante suavizado de distribuciones de valores
Perturbaciones de Acción: Investigación relativamente limitada, trabajos existentes muestran que políticas offline son particularmente frágiles

Aprendizaje por Refuerzo Offline-to-Online

Métodos Representativos: AWAC, O2O, Policy Expansion y otros
Desafío Principal: Degradación de desempeño en fases tempranas de ajuste

Conclusiones y Discusión

Conclusiones Principales

Incompatibilidad Fundamental: Existe conflicto estructural entre RL offline conservador y robustez en el espacio de acciones
Solución Efectiva: El ajuste adversarial puente exitosamente la eficiencia offline con adaptabilidad en línea
Valor del Aprendizaje por Currículo: La programación adaptativa supera estrategias fijas, evitando sobreajuste

Limitaciones

Ausencia de Garantías Teóricas: Falta análisis teórico de adaptación de currículo
Complejidad del Entorno: Experimentos limitados a tareas de movimiento relativamente simples
Tipos de Perturbación: Se enfoca principalmente en perturbaciones multiplicativas, otros tipos no suficientemente explorados

Direcciones Futuras

Desarrollo Teórico: Establecer garantías teóricas para adaptación de currículo
Entornos Complejos: Explorar interacciones de perturbaciones en espacios de estado y acción
Diversidad de Perturbaciones: Investigar tipos y patrones de perturbaciones más amplios

Evaluación Profunda

Fortalezas

Perspectivas Centrales Profundas: Identificar el conflicto fundamental entre conservadurismo y robustez es contribución importante
Diseño de Método Razonable: Marco de ajuste adversarial con lógica clara e implementación técnica viable
Experimentación Completa: Evaluación integral en múltiples entornos, líneas base e indicadores
Valor Práctico Alto: Resuelve problema clave en despliegue práctico de robots

Deficiencias

Análisis Teórico Insuficiente: Falta garantías teóricas de convergencia y robustez
Limitaciones del Entorno: Pruebas solo en entornos de simulación MuJoCo, sin validación en robots reales
Sensibilidad de Hiperparámetros: Currículo adaptativo requiere ajuste de parámetros específicos del entorno
Costo Computacional: Precomputación de perturbaciones y evaluación de desempeño aumentan costo computacional

Impacto

Contribución Académica: Proporciona nueva perspectiva y método para investigación de robustez en RL offline
Valor Práctico: Ofrece solución práctica para aplicaciones robóticas críticas para la seguridad
Reproducibilidad: Descripción de método detallada, configuración experimental clara

Escenarios Aplicables

Control Robótico: Sistemas autónomos que necesitan manejar fallos de actuadores
Aplicaciones Críticas para la Seguridad: Robots médicos, automatización industrial, etc.
Entornos con Recursos Limitados: Escenarios que requieren eficiencia en muestras pero exigen robustez

Referencias

El artículo cita trabajos importantes en el campo del aprendizaje por refuerzo, incluyendo:

RL Offline: Fujimoto & Gu (TD3+BC), Kumar et al. (CQL)
RL Robusto: Pinto et al. (Entrenamiento Adversarial), Yang et al. (RORL)
Offline-to-Online: Nair et al. (AWAC), Lee et al. (O2O)

Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones significativas en perspectivas teóricas, innovación de métodos y verificación experimental. Aunque hay espacio para mejora en análisis teórico y validación en entornos reales, abre una dirección importante para investigación de robustez en aprendizaje por refuerzo offline, con valor académico y práctico considerable.