Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
Geiping, Yang, Su
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
academic
Muestreadores Paralelos Eficientes para Modelos de Profundidad Recurrente y su Conexión con Modelos de Lenguaje de Difusión
Este artículo investiga las conexiones entre modelos de lenguaje con profundidad recurrente (también denominados transformadores universales o transformadores recurrentes) y modelos de lenguaje de difusión. Los modelos de profundidad recurrente aumentan la cantidad de cálculo mediante la repetición de capas, demostrando ventajas en tareas de razonamiento. Basándose en las similitudes entre ambas clases de modelos, los autores desarrollan un nuevo muestreador de fuerza de difusión para acelerar el proceso de generación. El muestreador decodifica nuevos tokens en cada propagación hacia adelante, mientras optimiza en paralelo los estados latentes potenciales de estos tokens mediante recursión. Teóricamente, bajo el mismo presupuesto de tiempo, el muestreador es más expresivo que la generación autoregresiva de referencia. Más importante aún, el muestreador puede aplicarse directamente a transformadores de profundidad recurrente existentes con 3.5B parámetros, logrando una aceleración de hasta 5 veces sin ningún ajuste fino.
Los modelos de lenguaje grandes tradicionales emplean arquitecturas de redes neuronales de profundidad fija, con típicamente pocas capas (solo dos dígitos). Aunque este diseño funciona bien en eficiencia de entrenamiento y en la mayoría de tareas, presenta limitaciones en tareas complejas que requieren razonamiento lógico multietapa, como matemáticas y programación. Desde la perspectiva de la teoría de complejidad, los transformadores de profundidad fija pertenecen a la clase de complejidad TC0, con capacidad expresiva limitada.
Limitaciones de Capacidad Computacional: Los modelos de profundidad fija tienen dificultades para manejar cadenas lógicas multietapa que requieren saltos conceptuales
Problemas de Eficiencia de Razonamiento: Aunque los modelos de profundidad recurrente tienen mayor capacidad expresiva, la generación es lenta, requiriendo ejecución secuencial en cada recursión
Necesidad de Paralelización: Las arquitecturas GPU modernas ofrecen oportunidades para cálculo paralelo, pero la generación autoregresiva tradicional no puede aprovecharlas completamente
Métodos de Cadena de Pensamiento: Requieren externalizar el proceso de razonamiento interno en pasos pequeños, aumentando la longitud de la secuencia
Modelos de Profundidad Recurrente: Aunque tienen mayor capacidad expresiva, cada paso recursivo durante la inferencia debe ejecutarse en serie, resultando en generación lenta
Métodos de Paralelización Tradicionales: Métodos como decodificación especulativa están principalmente diseñados para modelos de profundidad fija
Contribución Teórica: Clarifica las conexiones entre modelos de profundidad recurrente y modelos de difusión, estableciendo un puente teórico entre ambos mediante fuerza de difusión y estrategias de razonamiento basadas en bloques u ondas
Innovación Metodológica: Propone un muestreador de fuerza de difusión aplicable a modelos de profundidad recurrente, logrando paralelización del proceso de inferencia
Verificación Experimental: Verifica la efectividad del método en el modelo Huginn-0125 con 3.5B parámetros, logrando aproximadamente 5 veces de aceleración de velocidad en puntos de referencia como GSM8K, MATH500, HumanEval y MBPP, manteniendo precisión comparable
Valor Práctico: El muestreador puede aplicarse directamente a modelos de profundidad recurrente existentes sin reentrenamiento o ajuste fino
Dado un modelo de profundidad recurrente y una indicación de entrada x, el objetivo es acelerar el proceso de generación de texto manteniendo la calidad de generación. Específicamente, se necesita generar más tokens bajo el mismo presupuesto de tiempo, o reducir el tiempo de generación para la misma cantidad de tokens.
El proceso recursivo está condicionado por la entrada incrustada e, permitiendo que el muestreador realice "corrección de trayectoria" cuando cambian las condiciones, sin necesidad de descartar estados parcialmente calculados.
Diferentes profundidades recursivas pueden compartir caché KV, reduciendo significativamente el uso de memoria. Los experimentos muestran que el modelo soporta naturalmente compartición de caché KV, solo necesitando almacenar el estado KV de la recursión más reciente para cada posición de token.
Limitaciones de Procesamiento por Lotes: La implementación actual solo soporta inferencia de secuencia única, escenarios de procesamiento por lotes requieren motor de inferencia complejo
Eficiencia FLOP: Aunque aumenta el paralelismo, el uso real de FLOP aumenta
Dependencia de Hardware: La configuración de parámetros óptima depende de configuración de hardware específica
Requisitos del Modelo: Requiere que el modelo cumpla requisitos de arquitectura específica (inyección de entrada, recursión robusta, etc.)
Innovación Fuerte: Establece por primera vez conexiones entre modelos de profundidad recurrente y modelos de difusión, proporcionando nueva perspectiva teórica
Alto Valor Práctico: Logra aceleración de inferencia significativa, aplicable directamente a modelos existentes
Rigor Teórico: Proporciona análisis teórico de escalado de profundidad vs amplitud y pruebas de convergencia
Experimentos Completos: Verifica la efectividad y robustez del método en múltiples puntos de referencia y variantes de modelo
El artículo cita trabajo relacionado abundante, incluyendo:
Dehghani et al. (2019): Trabajo original de Transformadores Universales
Chen et al. (2024a): Método de Fuerza de Difusión
Geiping et al. (2025): Modelo de Profundidad Recurrente Huginn-0125
Rombach et al. (2022): Modelos de Difusión en Espacio Latente
Leviathan et al. (2023): Método de Decodificación Especulativa
Evaluación General: Este es un artículo de investigación de alta calidad con contribuciones importantes tanto en innovación teórica como en valor práctico. El artículo establece exitosamente conexiones entre dos categorías importantes de modelos y propone un método de aceleración práctico. Aunque existen algunas limitaciones, proporciona direcciones valiosas y fundamentos para investigación futura.