Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
Geiping, Yang, Su
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
본 논문은 순환 깊이를 가진 언어 모델(범용 트랜스포머 또는 순환 트랜스포머라고도 함)과 확산 언어 모델 간의 연결을 연구한다. 순환 깊이 모델은 계층의 반복을 통해 계산량을 증가시키며, 추론 작업에서 우수한 성능을 보인다. 두 모델 클래스의 유사성을 바탕으로, 저자들은 생성 과정을 가속화하기 위한 새로운 확산 강제 샘플러를 개발했다. 이 샘플러는 각 전방 전파에서 새로운 토큰을 디코딩하면서 순환 병렬화를 통해 이러한 토큰의 잠재 상태를 동시에 최적화한다. 이론적으로, 동일한 시간 예산 하에서 이 샘플러는 기준선 자회귀 생성보다 더 표현력이 있다. 더욱 중요하게도, 이 샘플러는 기존의 3.5B 매개변수 순환 깊이 트랜스포머에 직접 적용할 수 있으며, 어떤 미세 조정 없이도 최대 5배의 가속을 달성한다.
전통적인 대규모 언어 모델은 고정된 깊이의 신경망 아키텍처를 채택하며, 계층 수는 일반적으로 적다(두 자리 수만). 이러한 설계는 훈련 효율성과 대부분의 작업에서 좋은 성능을 보이지만, 수학 및 프로그래밍과 같이 다단계 논리 추론이 필요한 복잡한 작업에서는 한계가 있다. 복잡도 이론 관점에서, 고정 깊이 트랜스포머는 TC0 복잡도 클래스에 속하며, 표현 능력이 제한된다.
Dehghani et al. (2019): Universal Transformers의 원본 연구
Chen et al. (2024a): Diffusion Forcing 방법
Geiping et al. (2025): Huginn-0125 순환 깊이 모델
Rombach et al. (2022): 잠재 공간 확산 모델
Leviathan et al. (2023): 추측 디코딩 방법
종합 평가: 이는 이론적 혁신과 실용적 가치 측면에서 모두 중요한 기여를 하는 고품질 연구 논문이다. 논문은 두 개의 중요한 모델 클래스 간의 연결을 성공적으로 구축하고 실용적인 가속 방법을 제안했다. 일부 한계가 있지만, 향후 연구를 위한 귀중한 방향과 기초를 제공한다.