2025-11-25T11:58:17.992104

Multi Timescale Stochastic Approximation: Stability and Convergence

Deb, Ganesh, Bhatnagar

This paper presents the first sufficient conditions that guarantee the stability and almost sure convergence of multi-timescale stochastic approximation (SA) iterates. It extends the existing results on one-timescale and two-timescale SA iterates to general $N$-timescale stochastic recursions, for any $N \geq 1$, using the ordinary differential equation (ODE) method. As an application, we study SA algorithms augmented with heavy-ball momentum in the context of Gradient Temporal Difference (GTD) learning. The added momentum introduces an auxiliary state evolving on an intermediate timescale, yielding a three-timescale recursion. We show that with appropriate momentum parameters, the scheme fits within our framework and converges almost surely to the same fixed point as baseline GTD. The stability and convergence of all iterates including the momentum state follow from our main results without ad hoc bounds. We then study off-policy actor-critic algorithms with a baseline learner, actor, and critic updated on separate timescales. In contrast to prior work, we eliminate projection steps from the actor update and instead use our framework to guarantee stability and almost sure convergence of all components. Finally, we extend the analysis to constrained policy optimization in the average reward setting, where the actor, critic, and dual variables evolve on three distinct timescales, and we verify that the resulting dynamics satisfy the conditions of our general theorem. These examples show how diverse reinforcement learning algorithms covering momentum acceleration, off-policy learning, and primal-dual methods-fit naturally into the proposed multi-timescale framework.

academic

Aproximación Estocástica Multi-Escala Temporal: Estabilidad y Convergencia

Información Básica

ID del Artículo: 2112.03515
Título: Multi Timescale Stochastic Approximation: Stability and Convergence
Autores: Rohan Deb (University of Illinois, Urbana-Champaign), Swetha Ganesh (Purdue University, West Lafayette), Shalabh Bhatnagar (Indian Institute of Science, Bengaluru)
Clasificación: eess.SY cs.SY
Fecha de Publicación: 16 de octubre de 2025 (versión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2112.03515v3

Resumen

Este artículo propone las primeras condiciones suficientes que garantizan la estabilidad y convergencia casi segura de iteraciones de aproximación estocástica multi-escala temporal (Multi-timescale Stochastic Approximation, SA). Este trabajo extiende los resultados existentes de SA de escala temporal única y dual a recursiones estocásticas generales de N escalas temporales, aplicables a cualquier N≥1, utilizando el método de ecuaciones diferenciales ordinarias (ODE). Como aplicación, se estudian algoritmos SA con momento de bola pesada mejorado en aprendizaje de diferencia temporal con gradiente (GTD). El momento añadido introduce estados auxiliares que evolucionan en una escala temporal intermedia, produciendo una recursión de tres escalas temporales. Se demuestra que bajo parámetros de momento apropiados, el esquema se ajusta al marco y converge casi seguramente al mismo punto fijo que el GTD de referencia.

Contexto de Investigación y Motivación

Definición del Problema

Los algoritmos de aproximación estocástica son procesos iterativos utilizados para encontrar ceros de funciones cuando la función verdadera es desconocida pero se dispone de observaciones ruidosas. En muchos problemas de optimización y control bajo incertidumbre, se encuentran algoritmos que involucran recursiones de tres o más escalas temporales.

Importancia de la Investigación

Necesidad Práctica: En aprendizaje por refuerzo, los algoritmos actor-crítico para procesos de decisión de Markov restringidos, aprendizaje jerárquico por refuerzo y otros escenarios presentan naturalmente algoritmos multi-escala temporal
Vacío Teórico: La literatura existente solo proporciona condiciones de estabilidad y convergencia para SA de escala temporal única y dual, careciendo de teoría general para casos N>2

Limitaciones de Métodos Existentes

Suposiciones de Estabilidad: El análisis dual de escala temporal existente asume que las iteraciones permanecen estables (acotadas), lo cual es un requisito no trivial
Dificultad de Verificación: Solo recientemente se han proporcionado condiciones para verificar este requisito de estabilidad
Restricción de Aplicabilidad: No puede manejar algoritmos complejos con tres o más escalas temporales

Motivación de la Investigación

Proporcionar el primer conjunto de condiciones suficientes que aseguren estabilidad y convergencia de recursiones estocásticas generales de N escalas temporales, cerrando el vacío teórico y apoyando el análisis de algoritmos complejos de aprendizaje por refuerzo.

Contribuciones Principales

Avance Teórico: Propone las primeras condiciones suficientes que garantizan estabilidad y convergencia casi segura de iteraciones SA de N escalas temporales
Extensión de Métodos: Generaliza los resultados de escala temporal única de Borkar-Meyn y de escala temporal dual de Lakshminarayanan-Bhatnagar a N≥1 arbitrario
Verificación de Aplicaciones: Valida la efectividad del marco en tres escenarios importantes de aprendizaje por refuerzo:
- Aprendizaje de diferencia temporal con gradiente (GTD) con momento
- Algoritmos actor-crítico fuera de política
- Optimización de política restringida
Innovación Técnica: Elimina los pasos de proyección en la actualización del actor, confiando únicamente en el marco de convergencia para garantizar estabilidad

Explicación Detallada del Método

Definición de la Tarea

Considérese N recursiones estocásticas acopladas:

x^(j)_{n+1} = x^(j)_n + α^(j)_n (h^(j)(x^(1)_n, x^(2)_n, ..., x^(N)_n) + M^(j)_{n+1})

donde j = 1, 2, ..., N, requiriendo asegurar:

Estabilidad: sup_n ||x^(j)_n|| < ∞ c.s. ∀j
Convergencia: x^(j)n → x^(j)* c.s. ∀j

Marco Teórico Principal

Suposiciones Fundamentales

(A:1) h^(j) es una función Lipschitz continua
(A:2) {M^(j)_{n+1}} es una secuencia de diferencias de martingala con esperanza condicional acotada
(A:3) Las secuencias de tamaño de paso satisfacen:

α^(j)_n > 0, Σα^(j)_n = ∞
Σ(α^(j)_n)² < ∞
α^(j)_n/α^(j-1)_n → 0 (separación de escala temporal)

Condición de Estabilidad (B.N.i)

Para la función escalada h^(i)_c(x^(i), x^(i+1), ..., x^(N)) = h^(i)(cy^(1), cy^(2), ..., cy^(N))/c, se requiere:

h^(i)c → h^(i)∞ converge uniformemente
La ODE límite ẋ^(i)(t) = h^(i)_∞(x^(i)(t), x^(i+1), ..., x^(N)) tiene un único punto de equilibrio globalmente asintóticamente estable
El mapeo de punto de equilibrio λ^(i)_∞ es Lipschitz continuo

Condición de Convergencia (C.N.i)

Estabilidad asintótica global del sistema ODE original bajo estructura jerárquica de puntos fijos.

Teorema Principal

Teorema 1: Bajo las suposiciones (A:1)-(A:3), (B.N.i) y (C.N.i), la iteración de N escalas temporales converge al punto fijo jerárquico:

x^(j)_n → x^(j)_* = λ^(j:N-1)(x^(N)_*)

Estrategia de Demostración

Descomposición Estabilidad-Convergencia: Primero se asume acotación para demostrar convergencia, luego se demuestra estabilidad
Cascada de Escala Temporal: Comenzando desde la escala temporal más rápida, se analiza iterativamente el comportamiento de cada escala
Argumento de Escalado Recursivo: Se utiliza comparación de iteraciones escaladas con iteraciones originales para demostrar acotación

Configuración Experimental

Escenarios de Aplicación

1. Aprendizaje GTD con Momento

Conjuntos de Datos: 5-State Random Walk, 7-state Boyan Chain
Algoritmos: GTD2-M-3TS, TDC-M-3TS (tres escalas temporales), GTD2-M-4TS, TDC-M-4TS (cuatro escalas temporales)
Configuración de Parámetros:
- 5-State RW: α=0.4, β=0.4, ϱ^(1)=0.5, ϱ^(2)=0.25
- Boyan Chain: α=0.35, β=0.35, ϱ^(1)=0.45, ϱ^(2)=0.35

2. Actor-Crítico Fuera de Política

Configuración: Parametrización de política de Gibbs, ratios de importancia de muestreo
Reglas de Actualización: crítico (más rápido), actor (intermedio), línea de base (más lento) en escalas temporales

3. Actor-Crítico Restringido

Problema: Optimización con restricción de recompensa promedio
Escalas Temporales: crítico (más rápido), actor (intermedio), variable dual (más lento)

Métricas de Evaluación

GTD: Error de Bellman Proyectado de Raíz Cuadrada Media (RMSPBE)
Actor-Crítico: Desempeño de política y convergencia
Verificación Teórica: Demostración de convergencia casi segura

Resultados Experimentales

Resultados Principales

Experimentos de Momento GTD

Mejora de Desempeño: Las versiones con momento superan a sus contrapartes vanilla en ambos MDPs
Verificación de Convergencia: Todos los algoritmos convergen al punto fijo predicho teóricamente θ* = -Ā^(-1)b̄
Comparación de Escalas Temporales:
- GTD2: El esquema 4-TS muestra mejor desempeño
- TDC: La versión 3-TS muestra mejor desempeño

Verificación Teórica

Estabilidad: Las tres aplicaciones satisfacen las suposiciones (B.N.i) y (C.N.i)
Convergencia: Se demuestra convergencia casi segura al punto fijo jerárquico esperado
Sin Proyección: Se logra eliminar exitosamente la operación de proyección en la actualización del actor

Hallazgos Técnicos

Efecto del Momento: El momento de bola pesada mejora significativamente la velocidad de convergencia empírica del algoritmo GTD
Universalidad del Marco: El mismo marco teórico maneja exitosamente aceleración con momento, aprendizaje fuera de política y métodos primal-dual
Valor Práctico: Proporciona una herramienta práctica para verificar convergencia de algoritmos complejos multi-escala temporal

Trabajo Relacionado

Fundamentos Teóricos

SA de Escala Temporal Única: Método ODE de Borkar-Meyn (2000) y condiciones de estabilidad
SA de Escala Temporal Dual: Convergencia de Borkar (1997), estabilidad de Lakshminarayanan-Bhatnagar (2017)
Aplicaciones en Aprendizaje por Refuerzo: Algoritmos actor-crítico, métodos GTD, MDP restringidos

Ventajas del Presente Trabajo

Completitud Teórica: Primera teoría completa de estabilidad y convergencia para N escalas temporales
Practicidad: Condiciones verificables, aplicables al diseño de algoritmos reales
Amplitud de Aplicaciones: Cubre métodos con momento, aprendizaje fuera de política, optimización restringida y otros campos importantes

Conclusiones y Discusión

Conclusiones Principales

Se establece exitosamente el primer marco teórico completo para SA de N escalas temporales
Se demuestra estabilidad y convergencia de tres clases importantes de algoritmos de aprendizaje por refuerzo
Se muestra la viabilidad teórica de técnicas de momento en aprendizaje de diferencia temporal

Limitaciones

Ruido de Markov: El marco actual se limita a ruido de diferencia de martingala, sin tratar ruido de Markov más general
Requisitos de Tamaño de Paso: El análisis teórico requiere tamaños de paso sumables al cuadrado, aunque experimentos muestran que tamaños no sumables al cuadrado también funcionan
Análisis de Tiempo Finito: Carece de análisis cuantitativo de velocidades de convergencia

Direcciones Futuras

Extensión a Ruido de Markov: Generalizar resultados de escala temporal única de Ramaswamy-Bhatnagar
Mapeos Multivaluados: Manejar algoritmos RL bajo observación parcial/información limitada
Velocidades de Convergencia: Desarrollar teoría de convergencia débil de velocidades para N escalas temporales
Comportamiento de Tiempo Finito: Cuantificar ganancias de desempeño de tiempo finito de algoritmos con momento

Evaluación Profunda

Fortalezas

Avance Teórico: Cierra un vacío importante en la teoría de SA multi-escala temporal, con significado de hito
Rigor Metodológico: Técnicas de demostración sofisticadas, utilizando argumentos innovadores de escalado recursivo
Valor de Aplicación: Los tres escenarios de aplicación tienen importancia práctica significativa, demostrando universalidad del marco
Claridad de Escritura: Estructura bien organizada, comenzando desde 3 escalas temporales y generalizando a N, facilitando comprensión

Deficiencias

Limitaciones de Suposiciones: La suposición de muestreo i.i.d. es relativamente restrictiva en RL práctico
Escala de Experimentos: Los experimentos son relativamente simples, careciendo de verificación en entornos complejos a gran escala
Complejidad Computacional: No se discute la complejidad computacional de verificar condiciones teóricas
Orientación Práctica: Falta orientación específica sobre cómo elegir parámetros de separación de escala temporal

Impacto

Contribución Teórica: Proporciona base teórica sólida para diseño de algoritmos multi-escala temporal
Valor Práctico: Hace posible el análisis de convergencia de algoritmos RL complejos
Inspiración: Puede estimular más investigación en algoritmos multi-escala temporal
Reproducibilidad: Los resultados teóricos son verificables, la configuración experimental es clara

Escenarios Aplicables

Aprendizaje por Refuerzo Restringido: Escenarios que requieren manejar actualizaciones primal-dual
Aprendizaje por Refuerzo Jerárquico: Decisiones multinivel requiriendo diferentes escalas temporales
Métodos de Aceleración con Momento: Proporciona apoyo teórico para técnicas de momento en RL
Diseño de Algoritmos: Herramienta para verificar convergencia de nuevos algoritmos multi-escala temporal

Referencias

Este artículo se basa principalmente en los siguientes trabajos importantes:

Borkar, V.S. (2008). Stochastic Approximation: A Dynamical Systems Viewpoint
Lakshminarayanan, C. & Bhatnagar, S. (2017). A stability criterion for two-timescale stochastic approximation schemes
Sutton, R. et al. (2009). Fast gradient-descent methods for temporal-difference learning with linear function approximation

Evaluación General: Este es un artículo de importante valor teórico que resuelve exitosamente los problemas de estabilidad y convergencia de aproximación estocástica multi-escala temporal, proporcionando herramientas teóricas poderosas para el análisis de algoritmos complejos en aprendizaje por refuerzo y otros campos. Aunque hay espacio para mejora en las condiciones de suposiciones para aplicaciones prácticas, sus contribuciones teóricas e innovaciones metodológicas tienen impacto duradero.