2025-11-15T11:28:11.649653

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Geiping, Yang, Su

Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.

academic

Muestreadores Paralelos Eficientes para Modelos de Profundidad Recurrente y su Conexión con Modelos de Lenguaje de Difusión

Información Básica

ID del Artículo: 2510.14961
Título: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
Autores: Jonas Geiping, Xinyu Yang, Guinan Su
Clasificación: cs.LG cs.CL
Fecha de Publicación: 16 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.14961

Resumen

Este artículo investiga las conexiones entre modelos de lenguaje con profundidad recurrente (también denominados transformadores universales o transformadores recurrentes) y modelos de lenguaje de difusión. Los modelos de profundidad recurrente aumentan la cantidad de cálculo mediante la repetición de capas, demostrando ventajas en tareas de razonamiento. Basándose en las similitudes entre ambas clases de modelos, los autores desarrollan un nuevo muestreador de fuerza de difusión para acelerar el proceso de generación. El muestreador decodifica nuevos tokens en cada propagación hacia adelante, mientras optimiza en paralelo los estados latentes potenciales de estos tokens mediante recursión. Teóricamente, bajo el mismo presupuesto de tiempo, el muestreador es más expresivo que la generación autoregresiva de referencia. Más importante aún, el muestreador puede aplicarse directamente a transformadores de profundidad recurrente existentes con 3.5B parámetros, logrando una aceleración de hasta 5 veces sin ningún ajuste fino.

Antecedentes de Investigación y Motivación

Definición del Problema

Los modelos de lenguaje grandes tradicionales emplean arquitecturas de redes neuronales de profundidad fija, con típicamente pocas capas (solo dos dígitos). Aunque este diseño funciona bien en eficiencia de entrenamiento y en la mayoría de tareas, presenta limitaciones en tareas complejas que requieren razonamiento lógico multietapa, como matemáticas y programación. Desde la perspectiva de la teoría de complejidad, los transformadores de profundidad fija pertenecen a la clase de complejidad TC0, con capacidad expresiva limitada.

Motivación de la Investigación

Limitaciones de Capacidad Computacional: Los modelos de profundidad fija tienen dificultades para manejar cadenas lógicas multietapa que requieren saltos conceptuales
Problemas de Eficiencia de Razonamiento: Aunque los modelos de profundidad recurrente tienen mayor capacidad expresiva, la generación es lenta, requiriendo ejecución secuencial en cada recursión
Necesidad de Paralelización: Las arquitecturas GPU modernas ofrecen oportunidades para cálculo paralelo, pero la generación autoregresiva tradicional no puede aprovecharlas completamente

Limitaciones de Métodos Existentes

Métodos de Cadena de Pensamiento: Requieren externalizar el proceso de razonamiento interno en pasos pequeños, aumentando la longitud de la secuencia
Modelos de Profundidad Recurrente: Aunque tienen mayor capacidad expresiva, cada paso recursivo durante la inferencia debe ejecutarse en serie, resultando en generación lenta
Métodos de Paralelización Tradicionales: Métodos como decodificación especulativa están principalmente diseñados para modelos de profundidad fija

Contribuciones Principales

Contribución Teórica: Clarifica las conexiones entre modelos de profundidad recurrente y modelos de difusión, estableciendo un puente teórico entre ambos mediante fuerza de difusión y estrategias de razonamiento basadas en bloques u ondas
Innovación Metodológica: Propone un muestreador de fuerza de difusión aplicable a modelos de profundidad recurrente, logrando paralelización del proceso de inferencia
Verificación Experimental: Verifica la efectividad del método en el modelo Huginn-0125 con 3.5B parámetros, logrando aproximadamente 5 veces de aceleración de velocidad en puntos de referencia como GSM8K, MATH500, HumanEval y MBPP, manteniendo precisión comparable
Valor Práctico: El muestreador puede aplicarse directamente a modelos de profundidad recurrente existentes sin reentrenamiento o ajuste fino

Detalles del Método

Definición de la Tarea

Dado un modelo de profundidad recurrente y una indicación de entrada x, el objetivo es acelerar el proceso de generación de texto manteniendo la calidad de generación. Específicamente, se necesita generar más tokens bajo el mismo presupuesto de tiempo, o reducir el tiempo de generación para la misma cantidad de tokens.

Arquitectura del Modelo

Estructura del Modelo de Profundidad Recurrente

El modelo de profundidad recurrente utilizado (Huginn-0125) contiene tres componentes principales:

Bloque de Preludio (Prelude Block) P: Proyecta tokens de entrada incrustados al espacio latente
Bloque Recurrente (Recurrent Block) R: Itera r veces en el espacio latente, realizando razonamiento mediante optimización del vector de estado s
Bloque de Coda (Coda Block) C: Procesa el estado latente y produce la distribución de probabilidad del siguiente token

La representación matemática es la siguiente:

e = P(x)
s₀ ~ N(0, σ²I)
sᵢ = R(e, sᵢ₋₁) para i ∈ {1, ..., r}
p = C(sᵣ)

Diseño del Muestreador de Fuerza de Difusión

La idea central es aplicar el principio de fuerza de difusión a modelos de profundidad recurrente, logrando paralelización "diagonal":

Generación de Tokens en Paralelo: Procesa múltiples posiciones de token simultáneamente en cada propagación hacia adelante
Optimización Iterativa: Optimiza progresivamente los estados latentes de todos los tokens activos mediante pasos recursivos
Congelamiento Dinámico: Mecanismo de salida adaptativo basado en distancia en el espacio latente

Puntos de Innovación Técnica

1. Mecanismo de Inyección de Entrada

El proceso recursivo está condicionado por la entrada incrustada e, permitiendo que el muestreador realice "corrección de trayectoria" cuando cambian las condiciones, sin necesidad de descartar estados parcialmente calculados.

2. Compartición de Caché KV

Diferentes profundidades recursivas pueden compartir caché KV, reduciendo significativamente el uso de memoria. Los experimentos muestran que el modelo soporta naturalmente compartición de caché KV, solo necesitando almacenar el estado KV de la recursión más reciente para cada posición de token.

3. Estrategia de Salida Adaptativa

Utiliza la distancia normalizada en el espacio latente como criterio de salida:

δᵢ = ||zᵢ - z_prev,ᵢ||₂ / ||zᵢ||₂

Cuando δᵢ < ε, el token en la posición correspondiente se congela y se añade al caché KV.

4. Componentes de Estabilización

Mecanismo de Momento: Añade momento a la condición de entrada e: e = η·e_prev + (1-η)·P(y_current)
Inyección de Ruido: Añade ruido en cada paso de muestreo: z' = (1-βₜ)z + βₜ·z_noise

Configuración Experimental

Conjuntos de Datos

GSM8K: Tarea de razonamiento matemático, utilizando versión CoT y configuración 8-shot
MATH500: Problemas matemáticos de alta dificultad
HumanEval: Tarea de generación de código
MBPP: Problemas de programación en Python

Métricas de Evaluación

Precisión (Accuracy): Métricas de precisión específicas de la tarea
Velocidad de Generación (Tokens/Second): Número de tokens generados por segundo, medido utilizando eventos CUDA

Métodos de Comparación

Autoregresión Estática (Static AR): Método de referencia con diferentes pasos recursivos (r=4,8,32,64)
Autoregresión de Cálculo Adaptativo: Muestreador de cálculo adaptativo del trabajo original
Decodificación Especulativa: Línea de base de decodificación especulativa auto-especulativa finamente ajustada

Detalles de Implementación

Tamaño de lote: 1 (inferencia de secuencia única)
Temperatura: 0.2, top-p: 0.95
Parámetros por defecto: r'=4, ε=0.03, βₜ=0, η=0.1
Tamaño máximo de frente de onda: 128
Hardware: GPU A100-40GB

Resultados Experimentales

Resultados Principales

En todos los puntos de referencia, el muestreador de fuerza de difusión logra aceleración de velocidad significativa:

Muestreador	GSM8K	MATH500	HumanEval	MBPP
	Prec/t/s	Prec/t/s	Prec/t/s	Prec/t/s
Static AR (r=32)	41.77%/36.1	17.60%/6.4	22.56%/13.5	31.60%/15.3
Muestreador Difusión	42.08%/157.3	18.00%/30.3	20.12%/64.9	31.00%/70.2
Mejora Relativa	+0.31/4.36×	+0.40/4.73×	-2.44/4.81×	-0.60/4.59×

Experimentos de Ablación

Análisis de Sensibilidad de Hiperparámetros

Pasos de Recursión Interna r': Aumentar r' mejora la precisión pero reduce el rendimiento, r'=4 es el punto de equilibrio óptimo
Umbral de Salida ε: Valores de ε más pequeños mejoran la precisión pero reducen la velocidad, ε=0.03 es la configuración recomendada
Coeficiente de Ruido βₜ: Cuando r' es pequeño, ruido moderado (βₜ=0.2-0.3) ayuda a la estabilidad
Tamaño de Frente de Onda: 64-128 es la configuración óptima para GPU A100

Verificación de Variantes de Modelo

Se verificó la robustez del método en diferentes puntos de control del modelo:

Modelo SWA: Versión de promediado de pesos
Modelo Ajustado en Matemáticas: Versión ajustada en el conjunto de datos MetaMath

Todas las variantes muestran aceleración consistente de 4-5 veces, con desviación de precisión en el rango de 0.5-1%.

Verificación de Análisis Teórico

Escalado de Profundidad vs Amplitud

Los experimentos verifican las predicciones del análisis teórico:

Fase de Prefill: El escalado de profundidad supera al escalado de amplitud
Fase de Decodificación: El muestreo de difusión logra mejor escalado de amplitud
Expresividad: Bajo el mismo presupuesto de tiempo, el muestreador de difusión es estrictamente superior a la generación autoregresiva

Trabajo Relacionado

Investigación de Modelos Recurrentes

Desarrollo Histórico: Evolución desde RNN temprano a transformadores universales
Fundamentos Teóricos: Capacidad computacional de máquinas de Turing universales y clases de complejidad
Aplicaciones Prácticas: Ventajas en aprendizaje de algoritmos y tareas de razonamiento

Modelos de Lenguaje de Difusión

Difusión en Dominio Continuo: Aplicaciones exitosas en generación de imágenes
Difusión en Dominio Discreto: Desafíos y soluciones en generación de texto
Estrategias de Razonamiento: Métodos como difusión por bloques y fuerza de difusión

Técnicas de Aceleración de Inferencia

Decodificación Especulativa: Utiliza modelo pequeño para borrador, modelo grande para verificación
Estrategias de Paralelización: Equilibrio entre limitaciones de memoria vs limitaciones de cálculo

Conclusiones y Discusión

Conclusiones Principales

Contribución Teórica: Establece conexiones teóricas entre modelos de profundidad recurrente y modelos de difusión
Valor Práctico: Logra aceleración de inferencia de 5 veces manteniendo calidad de generación
Universalidad: El método puede aplicarse directamente a modelos existentes sin reentrenamiento
Nueva Perspectiva: Los modelos de profundidad recurrente pueden verse como modelos de lenguaje de difusión causal continua

Limitaciones

Limitaciones de Procesamiento por Lotes: La implementación actual solo soporta inferencia de secuencia única, escenarios de procesamiento por lotes requieren motor de inferencia complejo
Eficiencia FLOP: Aunque aumenta el paralelismo, el uso real de FLOP aumenta
Dependencia de Hardware: La configuración de parámetros óptima depende de configuración de hardware específica
Requisitos del Modelo: Requiere que el modelo cumpla requisitos de arquitectura específica (inyección de entrada, recursión robusta, etc.)

Direcciones Futuras

Motor de Inferencia de Procesamiento por Lotes: Desarrollar sistemas que soporten inferencia de lotes grandes
Optimización de Arquitectura: Diseñar arquitecturas de profundidad recurrente más adecuadas para muestreo de fuerza de difusión
Objetivos de Entrenamiento: Explorar aplicaciones de objetivos de despliegue en modelado de lenguaje de difusión
Profundización Teórica: Investigar más a fondo la base teórica de modelos de profundidad recurrente como modelos de difusión

Evaluación Profunda

Fortalezas

Innovación Fuerte: Establece por primera vez conexiones entre modelos de profundidad recurrente y modelos de difusión, proporcionando nueva perspectiva teórica
Alto Valor Práctico: Logra aceleración de inferencia significativa, aplicable directamente a modelos existentes
Rigor Teórico: Proporciona análisis teórico de escalado de profundidad vs amplitud y pruebas de convergencia
Experimentos Completos: Verifica la efectividad y robustez del método en múltiples puntos de referencia y variantes de modelo

Insuficiencias

Limitaciones de Rango de Aplicación: El método requiere que el modelo cumpla requisitos de arquitectura específica, limitando la universalidad
Soporte Insuficiente para Procesamiento por Lotes: La inferencia de secuencia única limita aplicaciones en entornos de producción
Sobrecarga de Memoria: Aunque hay compartición de caché KV, aún requiere almacenamiento adicional de estado latente
Sensibilidad de Parámetros: Múltiples hiperparámetros requieren ajuste para diferentes tareas y hardware

Impacto

Contribución Académica: Proporciona nuevo punto de intersección para investigación de modelos de profundidad recurrente y modelos de difusión
Valor de Ingeniería: Proporciona nuevo camino técnico para optimización de inferencia de modelos grandes
Significado Inspirador: Puede inspirar más investigación sobre combinación de arquitectura de modelo y estrategias de muestreo

Escenarios Aplicables

Inferencia de Usuario Único: Generación de texto en aplicaciones personales o a pequeña escala
Tareas Intensivas en Razonamiento: Tareas como matemáticas y programación que requieren razonamiento multietapa
Entornos con Recursos Limitados: Escenarios que necesitan mejorar eficiencia de inferencia bajo recursos computacionales limitados
Prototipos de Investigación: Investigación adicional de modelos de profundidad recurrente y muestreo de difusión

Referencias

El artículo cita trabajo relacionado abundante, incluyendo:

Dehghani et al. (2019): Trabajo original de Transformadores Universales
Chen et al. (2024a): Método de Fuerza de Difusión
Geiping et al. (2025): Modelo de Profundidad Recurrente Huginn-0125
Rombach et al. (2022): Modelos de Difusión en Espacio Latente
Leviathan et al. (2023): Método de Decodificación Especulativa

Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones importantes tanto en innovación teórica como en valor práctico. El artículo establece exitosamente conexiones entre dos categorías importantes de modelos y propone un método de aceleración práctico. Aunque existen algunas limitaciones, proporciona direcciones valiosas y fundamentos para investigación futura.