2025-11-25T11:58:17.992104

Multi Timescale Stochastic Approximation: Stability and Convergence

Deb, Ganesh, Bhatnagar
This paper presents the first sufficient conditions that guarantee the stability and almost sure convergence of multi-timescale stochastic approximation (SA) iterates. It extends the existing results on one-timescale and two-timescale SA iterates to general $N$-timescale stochastic recursions, for any $N \geq 1$, using the ordinary differential equation (ODE) method. As an application, we study SA algorithms augmented with heavy-ball momentum in the context of Gradient Temporal Difference (GTD) learning. The added momentum introduces an auxiliary state evolving on an intermediate timescale, yielding a three-timescale recursion. We show that with appropriate momentum parameters, the scheme fits within our framework and converges almost surely to the same fixed point as baseline GTD. The stability and convergence of all iterates including the momentum state follow from our main results without ad hoc bounds. We then study off-policy actor-critic algorithms with a baseline learner, actor, and critic updated on separate timescales. In contrast to prior work, we eliminate projection steps from the actor update and instead use our framework to guarantee stability and almost sure convergence of all components. Finally, we extend the analysis to constrained policy optimization in the average reward setting, where the actor, critic, and dual variables evolve on three distinct timescales, and we verify that the resulting dynamics satisfy the conditions of our general theorem. These examples show how diverse reinforcement learning algorithms covering momentum acceleration, off-policy learning, and primal-dual methods-fit naturally into the proposed multi-timescale framework.
academic

Aproximación Estocástica Multi-Escala Temporal: Estabilidad y Convergencia

Información Básica

  • ID del Artículo: 2112.03515
  • Título: Multi Timescale Stochastic Approximation: Stability and Convergence
  • Autores: Rohan Deb (University of Illinois, Urbana-Champaign), Swetha Ganesh (Purdue University, West Lafayette), Shalabh Bhatnagar (Indian Institute of Science, Bengaluru)
  • Clasificación: eess.SY cs.SY
  • Fecha de Publicación: 16 de octubre de 2025 (versión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2112.03515v3

Resumen

Este artículo propone las primeras condiciones suficientes que garantizan la estabilidad y convergencia casi segura de iteraciones de aproximación estocástica multi-escala temporal (Multi-timescale Stochastic Approximation, SA). Este trabajo extiende los resultados existentes de SA de escala temporal única y dual a recursiones estocásticas generales de N escalas temporales, aplicables a cualquier N≥1, utilizando el método de ecuaciones diferenciales ordinarias (ODE). Como aplicación, se estudian algoritmos SA con momento de bola pesada mejorado en aprendizaje de diferencia temporal con gradiente (GTD). El momento añadido introduce estados auxiliares que evolucionan en una escala temporal intermedia, produciendo una recursión de tres escalas temporales. Se demuestra que bajo parámetros de momento apropiados, el esquema se ajusta al marco y converge casi seguramente al mismo punto fijo que el GTD de referencia.

Contexto de Investigación y Motivación

Definición del Problema

Los algoritmos de aproximación estocástica son procesos iterativos utilizados para encontrar ceros de funciones cuando la función verdadera es desconocida pero se dispone de observaciones ruidosas. En muchos problemas de optimización y control bajo incertidumbre, se encuentran algoritmos que involucran recursiones de tres o más escalas temporales.

Importancia de la Investigación

  1. Necesidad Práctica: En aprendizaje por refuerzo, los algoritmos actor-crítico para procesos de decisión de Markov restringidos, aprendizaje jerárquico por refuerzo y otros escenarios presentan naturalmente algoritmos multi-escala temporal
  2. Vacío Teórico: La literatura existente solo proporciona condiciones de estabilidad y convergencia para SA de escala temporal única y dual, careciendo de teoría general para casos N>2

Limitaciones de Métodos Existentes

  1. Suposiciones de Estabilidad: El análisis dual de escala temporal existente asume que las iteraciones permanecen estables (acotadas), lo cual es un requisito no trivial
  2. Dificultad de Verificación: Solo recientemente se han proporcionado condiciones para verificar este requisito de estabilidad
  3. Restricción de Aplicabilidad: No puede manejar algoritmos complejos con tres o más escalas temporales

Motivación de la Investigación

Proporcionar el primer conjunto de condiciones suficientes que aseguren estabilidad y convergencia de recursiones estocásticas generales de N escalas temporales, cerrando el vacío teórico y apoyando el análisis de algoritmos complejos de aprendizaje por refuerzo.

Contribuciones Principales

  1. Avance Teórico: Propone las primeras condiciones suficientes que garantizan estabilidad y convergencia casi segura de iteraciones SA de N escalas temporales
  2. Extensión de Métodos: Generaliza los resultados de escala temporal única de Borkar-Meyn y de escala temporal dual de Lakshminarayanan-Bhatnagar a N≥1 arbitrario
  3. Verificación de Aplicaciones: Valida la efectividad del marco en tres escenarios importantes de aprendizaje por refuerzo:
    • Aprendizaje de diferencia temporal con gradiente (GTD) con momento
    • Algoritmos actor-crítico fuera de política
    • Optimización de política restringida
  4. Innovación Técnica: Elimina los pasos de proyección en la actualización del actor, confiando únicamente en el marco de convergencia para garantizar estabilidad

Explicación Detallada del Método

Definición de la Tarea

Considérese N recursiones estocásticas acopladas:

x^(j)_{n+1} = x^(j)_n + α^(j)_n (h^(j)(x^(1)_n, x^(2)_n, ..., x^(N)_n) + M^(j)_{n+1})

donde j = 1, 2, ..., N, requiriendo asegurar:

  • Estabilidad: sup_n ||x^(j)_n|| < ∞ c.s. ∀j
  • Convergencia: x^(j)n → x^(j)* c.s. ∀j

Marco Teórico Principal

Suposiciones Fundamentales

(A:1) h^(j) es una función Lipschitz continua
(A:2) {M^(j)_{n+1}} es una secuencia de diferencias de martingala con esperanza condicional acotada
(A:3) Las secuencias de tamaño de paso satisfacen:

  • α^(j)_n > 0, Σα^(j)_n = ∞
  • Σ(α^(j)_n)² < ∞
  • α^(j)_n/α^(j-1)_n → 0 (separación de escala temporal)

Condición de Estabilidad (B.N.i)

Para la función escalada h^(i)_c(x^(i), x^(i+1), ..., x^(N)) = h^(i)(cy^(1), cy^(2), ..., cy^(N))/c, se requiere:

  1. h^(i)c → h^(i)∞ converge uniformemente
  2. La ODE límite ẋ^(i)(t) = h^(i)_∞(x^(i)(t), x^(i+1), ..., x^(N)) tiene un único punto de equilibrio globalmente asintóticamente estable
  3. El mapeo de punto de equilibrio λ^(i)_∞ es Lipschitz continuo

Condición de Convergencia (C.N.i)

Estabilidad asintótica global del sistema ODE original bajo estructura jerárquica de puntos fijos.

Teorema Principal

Teorema 1: Bajo las suposiciones (A:1)-(A:3), (B.N.i) y (C.N.i), la iteración de N escalas temporales converge al punto fijo jerárquico:

x^(j)_n → x^(j)_* = λ^(j:N-1)(x^(N)_*)

Estrategia de Demostración

  1. Descomposición Estabilidad-Convergencia: Primero se asume acotación para demostrar convergencia, luego se demuestra estabilidad
  2. Cascada de Escala Temporal: Comenzando desde la escala temporal más rápida, se analiza iterativamente el comportamiento de cada escala
  3. Argumento de Escalado Recursivo: Se utiliza comparación de iteraciones escaladas con iteraciones originales para demostrar acotación

Configuración Experimental

Escenarios de Aplicación

1. Aprendizaje GTD con Momento

  • Conjuntos de Datos: 5-State Random Walk, 7-state Boyan Chain
  • Algoritmos: GTD2-M-3TS, TDC-M-3TS (tres escalas temporales), GTD2-M-4TS, TDC-M-4TS (cuatro escalas temporales)
  • Configuración de Parámetros:
    • 5-State RW: α=0.4, β=0.4, ϱ^(1)=0.5, ϱ^(2)=0.25
    • Boyan Chain: α=0.35, β=0.35, ϱ^(1)=0.45, ϱ^(2)=0.35

2. Actor-Crítico Fuera de Política

  • Configuración: Parametrización de política de Gibbs, ratios de importancia de muestreo
  • Reglas de Actualización: crítico (más rápido), actor (intermedio), línea de base (más lento) en escalas temporales

3. Actor-Crítico Restringido

  • Problema: Optimización con restricción de recompensa promedio
  • Escalas Temporales: crítico (más rápido), actor (intermedio), variable dual (más lento)

Métricas de Evaluación

  • GTD: Error de Bellman Proyectado de Raíz Cuadrada Media (RMSPBE)
  • Actor-Crítico: Desempeño de política y convergencia
  • Verificación Teórica: Demostración de convergencia casi segura

Resultados Experimentales

Resultados Principales

Experimentos de Momento GTD

  1. Mejora de Desempeño: Las versiones con momento superan a sus contrapartes vanilla en ambos MDPs
  2. Verificación de Convergencia: Todos los algoritmos convergen al punto fijo predicho teóricamente θ* = -Ā^(-1)b̄
  3. Comparación de Escalas Temporales:
    • GTD2: El esquema 4-TS muestra mejor desempeño
    • TDC: La versión 3-TS muestra mejor desempeño

Verificación Teórica

  1. Estabilidad: Las tres aplicaciones satisfacen las suposiciones (B.N.i) y (C.N.i)
  2. Convergencia: Se demuestra convergencia casi segura al punto fijo jerárquico esperado
  3. Sin Proyección: Se logra eliminar exitosamente la operación de proyección en la actualización del actor

Hallazgos Técnicos

  1. Efecto del Momento: El momento de bola pesada mejora significativamente la velocidad de convergencia empírica del algoritmo GTD
  2. Universalidad del Marco: El mismo marco teórico maneja exitosamente aceleración con momento, aprendizaje fuera de política y métodos primal-dual
  3. Valor Práctico: Proporciona una herramienta práctica para verificar convergencia de algoritmos complejos multi-escala temporal

Trabajo Relacionado

Fundamentos Teóricos

  1. SA de Escala Temporal Única: Método ODE de Borkar-Meyn (2000) y condiciones de estabilidad
  2. SA de Escala Temporal Dual: Convergencia de Borkar (1997), estabilidad de Lakshminarayanan-Bhatnagar (2017)
  3. Aplicaciones en Aprendizaje por Refuerzo: Algoritmos actor-crítico, métodos GTD, MDP restringidos

Ventajas del Presente Trabajo

  1. Completitud Teórica: Primera teoría completa de estabilidad y convergencia para N escalas temporales
  2. Practicidad: Condiciones verificables, aplicables al diseño de algoritmos reales
  3. Amplitud de Aplicaciones: Cubre métodos con momento, aprendizaje fuera de política, optimización restringida y otros campos importantes

Conclusiones y Discusión

Conclusiones Principales

  1. Se establece exitosamente el primer marco teórico completo para SA de N escalas temporales
  2. Se demuestra estabilidad y convergencia de tres clases importantes de algoritmos de aprendizaje por refuerzo
  3. Se muestra la viabilidad teórica de técnicas de momento en aprendizaje de diferencia temporal

Limitaciones

  1. Ruido de Markov: El marco actual se limita a ruido de diferencia de martingala, sin tratar ruido de Markov más general
  2. Requisitos de Tamaño de Paso: El análisis teórico requiere tamaños de paso sumables al cuadrado, aunque experimentos muestran que tamaños no sumables al cuadrado también funcionan
  3. Análisis de Tiempo Finito: Carece de análisis cuantitativo de velocidades de convergencia

Direcciones Futuras

  1. Extensión a Ruido de Markov: Generalizar resultados de escala temporal única de Ramaswamy-Bhatnagar
  2. Mapeos Multivaluados: Manejar algoritmos RL bajo observación parcial/información limitada
  3. Velocidades de Convergencia: Desarrollar teoría de convergencia débil de velocidades para N escalas temporales
  4. Comportamiento de Tiempo Finito: Cuantificar ganancias de desempeño de tiempo finito de algoritmos con momento

Evaluación Profunda

Fortalezas

  1. Avance Teórico: Cierra un vacío importante en la teoría de SA multi-escala temporal, con significado de hito
  2. Rigor Metodológico: Técnicas de demostración sofisticadas, utilizando argumentos innovadores de escalado recursivo
  3. Valor de Aplicación: Los tres escenarios de aplicación tienen importancia práctica significativa, demostrando universalidad del marco
  4. Claridad de Escritura: Estructura bien organizada, comenzando desde 3 escalas temporales y generalizando a N, facilitando comprensión

Deficiencias

  1. Limitaciones de Suposiciones: La suposición de muestreo i.i.d. es relativamente restrictiva en RL práctico
  2. Escala de Experimentos: Los experimentos son relativamente simples, careciendo de verificación en entornos complejos a gran escala
  3. Complejidad Computacional: No se discute la complejidad computacional de verificar condiciones teóricas
  4. Orientación Práctica: Falta orientación específica sobre cómo elegir parámetros de separación de escala temporal

Impacto

  1. Contribución Teórica: Proporciona base teórica sólida para diseño de algoritmos multi-escala temporal
  2. Valor Práctico: Hace posible el análisis de convergencia de algoritmos RL complejos
  3. Inspiración: Puede estimular más investigación en algoritmos multi-escala temporal
  4. Reproducibilidad: Los resultados teóricos son verificables, la configuración experimental es clara

Escenarios Aplicables

  1. Aprendizaje por Refuerzo Restringido: Escenarios que requieren manejar actualizaciones primal-dual
  2. Aprendizaje por Refuerzo Jerárquico: Decisiones multinivel requiriendo diferentes escalas temporales
  3. Métodos de Aceleración con Momento: Proporciona apoyo teórico para técnicas de momento en RL
  4. Diseño de Algoritmos: Herramienta para verificar convergencia de nuevos algoritmos multi-escala temporal

Referencias

Este artículo se basa principalmente en los siguientes trabajos importantes:

  1. Borkar, V.S. (2008). Stochastic Approximation: A Dynamical Systems Viewpoint
  2. Lakshminarayanan, C. & Bhatnagar, S. (2017). A stability criterion for two-timescale stochastic approximation schemes
  3. Sutton, R. et al. (2009). Fast gradient-descent methods for temporal-difference learning with linear function approximation

Evaluación General: Este es un artículo de importante valor teórico que resuelve exitosamente los problemas de estabilidad y convergencia de aproximación estocástica multi-escala temporal, proporcionando herramientas teóricas poderosas para el análisis de algoritmos complejos en aprendizaje por refuerzo y otros campos. Aunque hay espacio para mejora en las condiciones de suposiciones para aplicaciones prácticas, sus contribuciones teóricas e innovaciones metodológicas tienen impacto duradero.