Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.
- ID del Artículo: 2510.13358
- Título: Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control
- Autores: Shingo Ayabe, Hiroshi Kera, Kazuhiko Kawamoto (Universidad de Chiba)
- Clasificación: cs.RO (Robótica), cs.AI (Inteligencia Artificial)
- Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.13358
El aprendizaje por refuerzo offline permite la adquisición de políticas eficiente en muestras sin realizar interacciones en línea arriesgadas, pero las políticas entrenadas en conjuntos de datos estáticos siguen siendo frágiles ante perturbaciones en el espacio de acciones (como fallos de actuadores). Este estudio propone un marco offline-to-online que primero entrena una política en datos limpios y luego ejecuta ajuste adversarial, inyectando perturbaciones en las acciones ejecutadas para inducir comportamientos compensatorios y mejorar la robustez. Un currículo basado en el desempeño ajusta aún más la probabilidad de perturbación durante el entrenamiento mediante una señal de promedio móvil exponencial, equilibrando la robustez y estabilidad a lo largo de todo el proceso de aprendizaje. Los experimentos en tareas de control de movimiento continuo demuestran que el método propuesto supera consistentemente las líneas base solo offline y converge más rápido que el entrenamiento desde cero.
El problema central que aborda esta investigación es la fragilidad de las políticas de aprendizaje por refuerzo offline ante perturbaciones en el espacio de acciones. Específicamente:
- Limitaciones del RL Offline: Aunque el aprendizaje por refuerzo offline evita los riesgos y costos de la interacción en línea, las políticas entrenadas muestran un desempeño frágil ante perturbaciones en el espacio de acciones como fallos de actuadores y ruido en acciones.
- Conflicto Fundamental entre Conservadurismo y Robustez: Los autores identifican una perspectiva clave: los métodos conservadores de RL offline son fundamentalmente incompatibles con la robustez en el espacio de acciones. Los métodos conservadores restringen las políticas para mantenerse dentro de la distribución de acciones del conjunto de datos para prevenir errores de extrapolación, pero la robustez ante perturbaciones de acciones requiere precisamente aprender muestras fuera de distribución que estos métodos prohíben.
- Aplicaciones Críticas para la Seguridad: En campos críticos para la seguridad como atención médica, gestión de energía y control robótico, las políticas deben manejar perturbaciones inesperadas
- Requisitos de Despliegue Práctico: En sistemas robóticos reales, los fallos de actuadores y el ruido en acciones son inevitables
- Brecha entre Teoría y Práctica: Los métodos existentes de RL offline se enfocaban principalmente en perturbaciones en el espacio de estados, con investigación insuficiente sobre perturbaciones en el espacio de acciones
- Restricciones Conservadoras del RL Offline: Métodos como TD3+BC restringen las políticas para permanecer cerca de la distribución del conjunto de datos mediante pérdida de clonación de comportamiento, limitando la adaptabilidad
- Falta de Datos con Perturbaciones: Los conjuntos de datos offline típicamente no incluyen transiciones conscientes de perturbaciones, imposibilitando evaluar la efectividad de políticas bajo perturbaciones
- Perturbaciones de Estado vs. Acción: La investigación existente sobre robustez se enfoca principalmente en perturbaciones de estado (ruido de sensores), con investigación limitada sobre perturbaciones de acción
- Propone Método de Ajuste Adversarial: Inyecta perturbaciones durante el entrenamiento en línea, logrando adaptación específica a perturbaciones de acciones mientras mantiene la eficiencia en muestras del preentrenamiento offline
- Demuestra Desempeño Consistentemente Superior: El ajuste adversarial supera consistentemente las líneas base solo offline y completamente en línea en robustez
- Diseña Estrategia de Currículo Adaptativo: Un currículo adaptativo que ajusta la probabilidad de perturbación basado en el desempeño de la política, previniendo sobreajuste a condiciones adversarias mientras mantiene la estabilidad del entrenamiento, resolviendo limitaciones clave de métodos de programación fija
- Perspectivas Teóricas: Análisis formalizado de la incompatibilidad fundamental entre RL offline conservador y robustez en el espacio de acciones
Objetivo: Encontrar la política óptima robusta bajo perturbaciones en el espacio de acciones
π∗=argmaxπmina~∈UE[∑t=0∞γtr(st,a~)]
donde a~ es una acción perturbada adversarialmente del conjunto predefinido U.
Preentrenamiento usando el algoritmo TD3+BC en un conjunto de datos limpio:
π=argmaxπE(st,at)∼D[Qπ(st,π(st))−∥π(st)−at∥2]
El segundo término fuerza a la política a aproximarse a la política de comportamiento para mantener el conservadurismo.
Mecanismo de Inyección de Perturbaciones:
at′=at+δa⊙at con probabilidad q
donde ⊙ denota multiplicación elemento a elemento, y δa es la perturbación adversarial precomputada.
Actualización del Objetivo:
yt=r~t+γmini∈{1,2}Qθi−(s~t+1,πϕ−(s~t+1)+ε)
donde s~t+1∼P(⋅∣st,a~t), r~t=r(st,a~t).
Currículo Lineal:
q←clip(q+c,0,1)
donde c es un tamaño de paso fijo.
Currículo Adaptativo:
Δq=η(Rˉn−Rˉn−1)Rˉn=βRn+(1−β)Rˉn−1
donde Rˉn es el desempeño de promedio móvil exponencial, y η y β controlan la dinámica de adaptación.
- Precomputación de Perturbaciones: Utiliza algoritmo de evolución diferencial para pregenerar conjuntos de perturbaciones, evitando minimización costosa en bucle interno durante el ajuste
- Programación Consciente del Desempeño: El currículo adaptativo ajusta dinámicamente la probabilidad de perturbación basado en el desempeño de la política, aumentando q cuando el desempeño mejora para mejorar robustez, y disminuyendo q cuando el desempeño empeora para estabilizar el entrenamiento
- Mecanismo de Equilibrio: Mediante promedio móvil exponencial filtra fluctuaciones a corto plazo, proporcionando estimación estable de tendencias de desempeño
- Fuente: Conjunto de datos de expertos D4RL
- Entornos: Entornos de robots bípedos Hopper-v2, HalfCheetah-v2, Ant-v2 en OpenAI Gym
- Motor Físico: Simulación física MuJoCo
- Métrica Principal: Recompensa normalizada por episodio D4RL
- Condiciones de Evaluación: Normal (sin perturbaciones), perturbaciones aleatorias, perturbaciones adversariales
- Estadísticas: Desempeño promedio en 100 episodios, 5 ejecuciones independientes
- Solo Offline: TD3+BC entrenado solo offline
- Completamente En Línea (Adversarial): Entrenamiento adversarial en línea desde cero
- Variantes Ajustadas: Políticas ajustadas bajo diferentes condiciones de perturbación
- Preentrenamiento: 5 millones de pasos TD3+BC
- Ajuste: 1 millón de pasos TD3 (3 millones de pasos para experimentos de currículo)
- Intensidad de Perturbación: Hopper/HalfCheetah ϵ=0.3, Ant ϵ=0.5
- Probabilidad de Perturbación: Hopper q=0.5, HalfCheetah/Ant q=0.1
- Parámetros Adaptativos: β=0.9, η ajustado específicamente por entorno
Hallazgos Clave de la Tabla 1:
- Ant-v2 Condición Adversarial: Ajuste adversarial 91.6 vs. offline -21.0 vs. completamente en línea 24.0
- Hopper-v2 Condición Adversarial: Ajuste adversarial 83.5 vs. offline 13.7 vs. completamente en línea 57.0
- Ventaja Consistente: El ajuste adversarial supera significativamente las líneas base en evaluación adversarial en todos los entornos
Perspectivas Clave:
- El desempeño es óptimo cuando la condición de ajuste coincide con la condición de evaluación
- El desempeño de políticas offline se degrada drásticamente bajo perturbaciones (incluso recompensas negativas)
- El ajuste adversarial converge más rápido que el entrenamiento desde cero
Comparación de Estrategias de Currículo (Tabla 2):
- 1M Pasos: Currículo adaptativo qada supera consistentemente qfix fijo y qlin lineal en todos los entornos
- 3M Pasos: Currículo lineal muestra sobreajuste, desempeño normal disminuye (Hopper: 95.1→76.5)
- Ventaja Adaptativa: qada mantiene o mejora desempeño normal mientras preserva robustez adversarial
Trayectorias de Currículo Figura 5:
- Estrategia lineal: Valor q crece implacablemente, conduciendo a sobreajuste
- Estrategia adaptativa: Ajusta crecimiento de q basado en retroalimentación de desempeño, previniendo escalada excesivamente difícil
- Velocidad de Convergencia: El ajuste adversarial aprovecha el preentrenamiento offline para convergencia rápida
- Equilibrio Robustez-Estabilidad: El currículo adaptativo equilibra exitosamente ambos
- Especificidad del Entorno: Diferentes entornos requieren ajuste de hiperparámetros diferentes
- Métodos Conservadores: TD3+BC, CQL, IQL y otros restringen políticas para permanecer cerca de la distribución de datos
- Desafío Central: Sobreestimación de valores Q para pares estado-acción fuera de distribución
- Perturbaciones de Estado: Métodos como RORL mejoran robustez mediante suavizado de distribuciones de valores
- Perturbaciones de Acción: Investigación relativamente limitada, trabajos existentes muestran que políticas offline son particularmente frágiles
- Métodos Representativos: AWAC, O2O, Policy Expansion y otros
- Desafío Principal: Degradación de desempeño en fases tempranas de ajuste
- Incompatibilidad Fundamental: Existe conflicto estructural entre RL offline conservador y robustez en el espacio de acciones
- Solución Efectiva: El ajuste adversarial puente exitosamente la eficiencia offline con adaptabilidad en línea
- Valor del Aprendizaje por Currículo: La programación adaptativa supera estrategias fijas, evitando sobreajuste
- Ausencia de Garantías Teóricas: Falta análisis teórico de adaptación de currículo
- Complejidad del Entorno: Experimentos limitados a tareas de movimiento relativamente simples
- Tipos de Perturbación: Se enfoca principalmente en perturbaciones multiplicativas, otros tipos no suficientemente explorados
- Desarrollo Teórico: Establecer garantías teóricas para adaptación de currículo
- Entornos Complejos: Explorar interacciones de perturbaciones en espacios de estado y acción
- Diversidad de Perturbaciones: Investigar tipos y patrones de perturbaciones más amplios
- Perspectivas Centrales Profundas: Identificar el conflicto fundamental entre conservadurismo y robustez es contribución importante
- Diseño de Método Razonable: Marco de ajuste adversarial con lógica clara e implementación técnica viable
- Experimentación Completa: Evaluación integral en múltiples entornos, líneas base e indicadores
- Valor Práctico Alto: Resuelve problema clave en despliegue práctico de robots
- Análisis Teórico Insuficiente: Falta garantías teóricas de convergencia y robustez
- Limitaciones del Entorno: Pruebas solo en entornos de simulación MuJoCo, sin validación en robots reales
- Sensibilidad de Hiperparámetros: Currículo adaptativo requiere ajuste de parámetros específicos del entorno
- Costo Computacional: Precomputación de perturbaciones y evaluación de desempeño aumentan costo computacional
- Contribución Académica: Proporciona nueva perspectiva y método para investigación de robustez en RL offline
- Valor Práctico: Ofrece solución práctica para aplicaciones robóticas críticas para la seguridad
- Reproducibilidad: Descripción de método detallada, configuración experimental clara
- Control Robótico: Sistemas autónomos que necesitan manejar fallos de actuadores
- Aplicaciones Críticas para la Seguridad: Robots médicos, automatización industrial, etc.
- Entornos con Recursos Limitados: Escenarios que requieren eficiencia en muestras pero exigen robustez
El artículo cita trabajos importantes en el campo del aprendizaje por refuerzo, incluyendo:
- RL Offline: Fujimoto & Gu (TD3+BC), Kumar et al. (CQL)
- RL Robusto: Pinto et al. (Entrenamiento Adversarial), Yang et al. (RORL)
- Offline-to-Online: Nair et al. (AWAC), Lee et al. (O2O)
Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones significativas en perspectivas teóricas, innovación de métodos y verificación experimental. Aunque hay espacio para mejora en análisis teórico y validación en entornos reales, abre una dirección importante para investigación de robustez en aprendizaje por refuerzo offline, con valor académico y práctico considerable.