2025-11-15T11:28:11.649653

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Geiping, Yang, Su
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
academic

Muestreadores Paralelos Eficientes para Modelos de Profundidad Recurrente y su Conexión con Modelos de Lenguaje de Difusión

Información Básica

  • ID del Artículo: 2510.14961
  • Título: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
  • Autores: Jonas Geiping, Xinyu Yang, Guinan Su
  • Clasificación: cs.LG cs.CL
  • Fecha de Publicación: 16 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.14961

Resumen

Este artículo investiga las conexiones entre modelos de lenguaje con profundidad recurrente (también denominados transformadores universales o transformadores recurrentes) y modelos de lenguaje de difusión. Los modelos de profundidad recurrente aumentan la cantidad de cálculo mediante la repetición de capas, demostrando ventajas en tareas de razonamiento. Basándose en las similitudes entre ambas clases de modelos, los autores desarrollan un nuevo muestreador de fuerza de difusión para acelerar el proceso de generación. El muestreador decodifica nuevos tokens en cada propagación hacia adelante, mientras optimiza en paralelo los estados latentes potenciales de estos tokens mediante recursión. Teóricamente, bajo el mismo presupuesto de tiempo, el muestreador es más expresivo que la generación autoregresiva de referencia. Más importante aún, el muestreador puede aplicarse directamente a transformadores de profundidad recurrente existentes con 3.5B parámetros, logrando una aceleración de hasta 5 veces sin ningún ajuste fino.

Antecedentes de Investigación y Motivación

Definición del Problema

Los modelos de lenguaje grandes tradicionales emplean arquitecturas de redes neuronales de profundidad fija, con típicamente pocas capas (solo dos dígitos). Aunque este diseño funciona bien en eficiencia de entrenamiento y en la mayoría de tareas, presenta limitaciones en tareas complejas que requieren razonamiento lógico multietapa, como matemáticas y programación. Desde la perspectiva de la teoría de complejidad, los transformadores de profundidad fija pertenecen a la clase de complejidad TC0, con capacidad expresiva limitada.

Motivación de la Investigación

  1. Limitaciones de Capacidad Computacional: Los modelos de profundidad fija tienen dificultades para manejar cadenas lógicas multietapa que requieren saltos conceptuales
  2. Problemas de Eficiencia de Razonamiento: Aunque los modelos de profundidad recurrente tienen mayor capacidad expresiva, la generación es lenta, requiriendo ejecución secuencial en cada recursión
  3. Necesidad de Paralelización: Las arquitecturas GPU modernas ofrecen oportunidades para cálculo paralelo, pero la generación autoregresiva tradicional no puede aprovecharlas completamente

Limitaciones de Métodos Existentes

  • Métodos de Cadena de Pensamiento: Requieren externalizar el proceso de razonamiento interno en pasos pequeños, aumentando la longitud de la secuencia
  • Modelos de Profundidad Recurrente: Aunque tienen mayor capacidad expresiva, cada paso recursivo durante la inferencia debe ejecutarse en serie, resultando en generación lenta
  • Métodos de Paralelización Tradicionales: Métodos como decodificación especulativa están principalmente diseñados para modelos de profundidad fija

Contribuciones Principales

  1. Contribución Teórica: Clarifica las conexiones entre modelos de profundidad recurrente y modelos de difusión, estableciendo un puente teórico entre ambos mediante fuerza de difusión y estrategias de razonamiento basadas en bloques u ondas
  2. Innovación Metodológica: Propone un muestreador de fuerza de difusión aplicable a modelos de profundidad recurrente, logrando paralelización del proceso de inferencia
  3. Verificación Experimental: Verifica la efectividad del método en el modelo Huginn-0125 con 3.5B parámetros, logrando aproximadamente 5 veces de aceleración de velocidad en puntos de referencia como GSM8K, MATH500, HumanEval y MBPP, manteniendo precisión comparable
  4. Valor Práctico: El muestreador puede aplicarse directamente a modelos de profundidad recurrente existentes sin reentrenamiento o ajuste fino

Detalles del Método

Definición de la Tarea

Dado un modelo de profundidad recurrente y una indicación de entrada x, el objetivo es acelerar el proceso de generación de texto manteniendo la calidad de generación. Específicamente, se necesita generar más tokens bajo el mismo presupuesto de tiempo, o reducir el tiempo de generación para la misma cantidad de tokens.

Arquitectura del Modelo

Estructura del Modelo de Profundidad Recurrente

El modelo de profundidad recurrente utilizado (Huginn-0125) contiene tres componentes principales:

  1. Bloque de Preludio (Prelude Block) P: Proyecta tokens de entrada incrustados al espacio latente
  2. Bloque Recurrente (Recurrent Block) R: Itera r veces en el espacio latente, realizando razonamiento mediante optimización del vector de estado s
  3. Bloque de Coda (Coda Block) C: Procesa el estado latente y produce la distribución de probabilidad del siguiente token

La representación matemática es la siguiente:

e = P(x)
s₀ ~ N(0, σ²I)
sᵢ = R(e, sᵢ₋₁) para i ∈ {1, ..., r}
p = C(sᵣ)

Diseño del Muestreador de Fuerza de Difusión

La idea central es aplicar el principio de fuerza de difusión a modelos de profundidad recurrente, logrando paralelización "diagonal":

  1. Generación de Tokens en Paralelo: Procesa múltiples posiciones de token simultáneamente en cada propagación hacia adelante
  2. Optimización Iterativa: Optimiza progresivamente los estados latentes de todos los tokens activos mediante pasos recursivos
  3. Congelamiento Dinámico: Mecanismo de salida adaptativo basado en distancia en el espacio latente

Puntos de Innovación Técnica

1. Mecanismo de Inyección de Entrada

El proceso recursivo está condicionado por la entrada incrustada e, permitiendo que el muestreador realice "corrección de trayectoria" cuando cambian las condiciones, sin necesidad de descartar estados parcialmente calculados.

2. Compartición de Caché KV

Diferentes profundidades recursivas pueden compartir caché KV, reduciendo significativamente el uso de memoria. Los experimentos muestran que el modelo soporta naturalmente compartición de caché KV, solo necesitando almacenar el estado KV de la recursión más reciente para cada posición de token.

3. Estrategia de Salida Adaptativa

Utiliza la distancia normalizada en el espacio latente como criterio de salida:

δᵢ = ||zᵢ - z_prev,ᵢ||₂ / ||zᵢ||₂

Cuando δᵢ < ε, el token en la posición correspondiente se congela y se añade al caché KV.

4. Componentes de Estabilización

  • Mecanismo de Momento: Añade momento a la condición de entrada e: e = η·e_prev + (1-η)·P(y_current)
  • Inyección de Ruido: Añade ruido en cada paso de muestreo: z' = (1-βₜ)z + βₜ·z_noise

Configuración Experimental

Conjuntos de Datos

  • GSM8K: Tarea de razonamiento matemático, utilizando versión CoT y configuración 8-shot
  • MATH500: Problemas matemáticos de alta dificultad
  • HumanEval: Tarea de generación de código
  • MBPP: Problemas de programación en Python

Métricas de Evaluación

  • Precisión (Accuracy): Métricas de precisión específicas de la tarea
  • Velocidad de Generación (Tokens/Second): Número de tokens generados por segundo, medido utilizando eventos CUDA

Métodos de Comparación

  1. Autoregresión Estática (Static AR): Método de referencia con diferentes pasos recursivos (r=4,8,32,64)
  2. Autoregresión de Cálculo Adaptativo: Muestreador de cálculo adaptativo del trabajo original
  3. Decodificación Especulativa: Línea de base de decodificación especulativa auto-especulativa finamente ajustada

Detalles de Implementación

  • Tamaño de lote: 1 (inferencia de secuencia única)
  • Temperatura: 0.2, top-p: 0.95
  • Parámetros por defecto: r'=4, ε=0.03, βₜ=0, η=0.1
  • Tamaño máximo de frente de onda: 128
  • Hardware: GPU A100-40GB

Resultados Experimentales

Resultados Principales

En todos los puntos de referencia, el muestreador de fuerza de difusión logra aceleración de velocidad significativa:

MuestreadorGSM8KMATH500HumanEvalMBPP
Prec/t/sPrec/t/sPrec/t/sPrec/t/s
Static AR (r=32)41.77%/36.117.60%/6.422.56%/13.531.60%/15.3
Muestreador Difusión42.08%/157.318.00%/30.320.12%/64.931.00%/70.2
Mejora Relativa+0.31/4.36×+0.40/4.73×-2.44/4.81×-0.60/4.59×

Experimentos de Ablación

Análisis de Sensibilidad de Hiperparámetros

  1. Pasos de Recursión Interna r': Aumentar r' mejora la precisión pero reduce el rendimiento, r'=4 es el punto de equilibrio óptimo
  2. Umbral de Salida ε: Valores de ε más pequeños mejoran la precisión pero reducen la velocidad, ε=0.03 es la configuración recomendada
  3. Coeficiente de Ruido βₜ: Cuando r' es pequeño, ruido moderado (βₜ=0.2-0.3) ayuda a la estabilidad
  4. Tamaño de Frente de Onda: 64-128 es la configuración óptima para GPU A100

Verificación de Variantes de Modelo

Se verificó la robustez del método en diferentes puntos de control del modelo:

  • Modelo SWA: Versión de promediado de pesos
  • Modelo Ajustado en Matemáticas: Versión ajustada en el conjunto de datos MetaMath

Todas las variantes muestran aceleración consistente de 4-5 veces, con desviación de precisión en el rango de 0.5-1%.

Verificación de Análisis Teórico

Escalado de Profundidad vs Amplitud

Los experimentos verifican las predicciones del análisis teórico:

  • Fase de Prefill: El escalado de profundidad supera al escalado de amplitud
  • Fase de Decodificación: El muestreo de difusión logra mejor escalado de amplitud
  • Expresividad: Bajo el mismo presupuesto de tiempo, el muestreador de difusión es estrictamente superior a la generación autoregresiva

Trabajo Relacionado

Investigación de Modelos Recurrentes

  • Desarrollo Histórico: Evolución desde RNN temprano a transformadores universales
  • Fundamentos Teóricos: Capacidad computacional de máquinas de Turing universales y clases de complejidad
  • Aplicaciones Prácticas: Ventajas en aprendizaje de algoritmos y tareas de razonamiento

Modelos de Lenguaje de Difusión

  • Difusión en Dominio Continuo: Aplicaciones exitosas en generación de imágenes
  • Difusión en Dominio Discreto: Desafíos y soluciones en generación de texto
  • Estrategias de Razonamiento: Métodos como difusión por bloques y fuerza de difusión

Técnicas de Aceleración de Inferencia

  • Decodificación Especulativa: Utiliza modelo pequeño para borrador, modelo grande para verificación
  • Estrategias de Paralelización: Equilibrio entre limitaciones de memoria vs limitaciones de cálculo

Conclusiones y Discusión

Conclusiones Principales

  1. Contribución Teórica: Establece conexiones teóricas entre modelos de profundidad recurrente y modelos de difusión
  2. Valor Práctico: Logra aceleración de inferencia de 5 veces manteniendo calidad de generación
  3. Universalidad: El método puede aplicarse directamente a modelos existentes sin reentrenamiento
  4. Nueva Perspectiva: Los modelos de profundidad recurrente pueden verse como modelos de lenguaje de difusión causal continua

Limitaciones

  1. Limitaciones de Procesamiento por Lotes: La implementación actual solo soporta inferencia de secuencia única, escenarios de procesamiento por lotes requieren motor de inferencia complejo
  2. Eficiencia FLOP: Aunque aumenta el paralelismo, el uso real de FLOP aumenta
  3. Dependencia de Hardware: La configuración de parámetros óptima depende de configuración de hardware específica
  4. Requisitos del Modelo: Requiere que el modelo cumpla requisitos de arquitectura específica (inyección de entrada, recursión robusta, etc.)

Direcciones Futuras

  1. Motor de Inferencia de Procesamiento por Lotes: Desarrollar sistemas que soporten inferencia de lotes grandes
  2. Optimización de Arquitectura: Diseñar arquitecturas de profundidad recurrente más adecuadas para muestreo de fuerza de difusión
  3. Objetivos de Entrenamiento: Explorar aplicaciones de objetivos de despliegue en modelado de lenguaje de difusión
  4. Profundización Teórica: Investigar más a fondo la base teórica de modelos de profundidad recurrente como modelos de difusión

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Establece por primera vez conexiones entre modelos de profundidad recurrente y modelos de difusión, proporcionando nueva perspectiva teórica
  2. Alto Valor Práctico: Logra aceleración de inferencia significativa, aplicable directamente a modelos existentes
  3. Rigor Teórico: Proporciona análisis teórico de escalado de profundidad vs amplitud y pruebas de convergencia
  4. Experimentos Completos: Verifica la efectividad y robustez del método en múltiples puntos de referencia y variantes de modelo

Insuficiencias

  1. Limitaciones de Rango de Aplicación: El método requiere que el modelo cumpla requisitos de arquitectura específica, limitando la universalidad
  2. Soporte Insuficiente para Procesamiento por Lotes: La inferencia de secuencia única limita aplicaciones en entornos de producción
  3. Sobrecarga de Memoria: Aunque hay compartición de caché KV, aún requiere almacenamiento adicional de estado latente
  4. Sensibilidad de Parámetros: Múltiples hiperparámetros requieren ajuste para diferentes tareas y hardware

Impacto

  1. Contribución Académica: Proporciona nuevo punto de intersección para investigación de modelos de profundidad recurrente y modelos de difusión
  2. Valor de Ingeniería: Proporciona nuevo camino técnico para optimización de inferencia de modelos grandes
  3. Significado Inspirador: Puede inspirar más investigación sobre combinación de arquitectura de modelo y estrategias de muestreo

Escenarios Aplicables

  1. Inferencia de Usuario Único: Generación de texto en aplicaciones personales o a pequeña escala
  2. Tareas Intensivas en Razonamiento: Tareas como matemáticas y programación que requieren razonamiento multietapa
  3. Entornos con Recursos Limitados: Escenarios que necesitan mejorar eficiencia de inferencia bajo recursos computacionales limitados
  4. Prototipos de Investigación: Investigación adicional de modelos de profundidad recurrente y muestreo de difusión

Referencias

El artículo cita trabajo relacionado abundante, incluyendo:

  • Dehghani et al. (2019): Trabajo original de Transformadores Universales
  • Chen et al. (2024a): Método de Fuerza de Difusión
  • Geiping et al. (2025): Modelo de Profundidad Recurrente Huginn-0125
  • Rombach et al. (2022): Modelos de Difusión en Espacio Latente
  • Leviathan et al. (2023): Método de Decodificación Especulativa

Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones importantes tanto en innovación teórica como en valor práctico. El artículo establece exitosamente conexiones entre dos categorías importantes de modelos y propone un método de aceleración práctico. Aunque existen algunas limitaciones, proporciona direcciones valiosas y fundamentos para investigación futura.