2025-11-15T11:28:11.649653

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Geiping, Yang, Su
Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.
academic

순환 깊이 모델을 위한 효율적인 병렬 샘플러 및 확산 언어 모델과의 연결

기본 정보

  • 논문 ID: 2510.14961
  • 제목: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
  • 저자: Jonas Geiping, Xinyu Yang, Guinan Su
  • 분류: cs.LG cs.CL
  • 발표 시간: 2025년 10월 16일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.14961

초록

본 논문은 순환 깊이를 가진 언어 모델(범용 트랜스포머 또는 순환 트랜스포머라고도 함)과 확산 언어 모델 간의 연결을 연구한다. 순환 깊이 모델은 계층의 반복을 통해 계산량을 증가시키며, 추론 작업에서 우수한 성능을 보인다. 두 모델 클래스의 유사성을 바탕으로, 저자들은 생성 과정을 가속화하기 위한 새로운 확산 강제 샘플러를 개발했다. 이 샘플러는 각 전방 전파에서 새로운 토큰을 디코딩하면서 순환 병렬화를 통해 이러한 토큰의 잠재 상태를 동시에 최적화한다. 이론적으로, 동일한 시간 예산 하에서 이 샘플러는 기준선 자회귀 생성보다 더 표현력이 있다. 더욱 중요하게도, 이 샘플러는 기존의 3.5B 매개변수 순환 깊이 트랜스포머에 직접 적용할 수 있으며, 어떤 미세 조정 없이도 최대 5배의 가속을 달성한다.

연구 배경 및 동기

문제 정의

전통적인 대규모 언어 모델은 고정된 깊이의 신경망 아키텍처를 채택하며, 계층 수는 일반적으로 적다(두 자리 수만). 이러한 설계는 훈련 효율성과 대부분의 작업에서 좋은 성능을 보이지만, 수학 및 프로그래밍과 같이 다단계 논리 추론이 필요한 복잡한 작업에서는 한계가 있다. 복잡도 이론 관점에서, 고정 깊이 트랜스포머는 TC0 복잡도 클래스에 속하며, 표현 능력이 제한된다.

연구 동기

  1. 계산 능력 제한: 고정 깊이 모델은 개념적 도약이 필요한 다단계 논리 체인을 처리하기 어려움
  2. 추론 효율 문제: 순환 깊이 모델은 표현 능력이 더 강하지만 생성 속도가 느리며, 각 순환은 순차적으로 실행되어야 함
  3. 병렬화 필요성: 현대 GPU 아키텍처는 병렬 계산을 위한 기회를 제공하지만, 전통적인 자회귀 생성은 이를 충분히 활용하지 못함

기존 방법의 한계

  • 사고의 연쇄 방법: 내부 추론 과정을 작은 단계로 외부화해야 하므로 시퀀스 길이가 증가함
  • 순환 깊이 모델: 표현 능력은 강하지만 추론 시 각 순환 단계를 순차적으로 실행해야 하므로 생성 속도가 느림
  • 전통적인 병렬화 방법: 추측 디코딩 등의 방법은 주로 고정 깊이 모델을 위해 설계됨

핵심 기여

  1. 이론적 기여: 순환 깊이 모델과 확산 모델 간의 연결을 명확히 하고, 확산 강제 및 블록 또는 파동 기반 추론 전략을 통해 두 모델 간의 이론적 다리를 구축함
  2. 방법론 혁신: 순환 깊이 모델에 적용 가능한 확산 강제 샘플러를 제안하여 추론 과정의 병렬화를 실현함
  3. 실험 검증: 3.5B 매개변수의 Huginn-0125 모델에서 방법의 유효성을 검증하고, GSM8K, MATH500, HumanEval 및 MBPP 벤치마크에서 약 5배의 속도 향상을 달성하면서 유사한 정확도를 유지함
  4. 실용적 가치: 이 샘플러는 기존 순환 깊이 모델에 직접 적용할 수 있으며, 재훈련이나 미세 조정이 필요 없음

방법론 상세 설명

작업 정의

주어진 순환 깊이 모델과 입력 프롬프트 x에 대해, 생성 품질을 유지하면서 텍스트 생성 과정을 가속화하는 것이 목표이다. 구체적으로, 동일한 시간 예산 하에서 더 많은 토큰을 생성하거나, 동일한 토큰 수에서 생성 시간을 줄여야 한다.

모델 아키텍처

순환 깊이 모델 구조

본 논문에서 사용하는 순환 깊이 모델(Huginn-0125)은 세 가지 주요 구성 요소를 포함한다:

  1. 전주곡 블록(Prelude Block) P: 임베딩된 입력 토큰을 잠재 공간으로 투영
  2. 순환 블록(Recurrent Block) R: 잠재 공간에서 r번 반복하며, 상태 벡터 s를 최적화하여 추론 수행
  3. 후주곡 블록(Coda Block) C: 잠재 상태를 처리하고 다음 토큰의 확률 분포 생성

수학적 표현은 다음과 같다:

e = P(x)
s₀ ~ N(0, σ²I)
sᵢ = R(e, sᵢ₋₁) for i ∈ {1, ..., r}
p = C(sᵣ)

확산 강제 샘플러 설계

핵심 아이디어는 확산 강제 원리를 순환 깊이 모델에 적용하여 "대각선" 병렬화를 실현하는 것이다:

  1. 병렬 토큰 생성: 각 전방 전파에서 여러 토큰 위치를 동시에 처리
  2. 반복적 최적화: 순환 단계를 통해 모든 활성 토큰의 잠재 상태를 점진적으로 최적화
  3. 동적 고정: 잠재 공간 거리 기반의 적응형 종료 메커니즘

기술 혁신점

1. 입력 주입 메커니즘

순환 과정은 임베딩된 입력 e를 조건으로 하며, 샘플러가 조건 변화 시 "경로 수정"을 수행할 수 있게 하고, 부분적으로 계산된 상태를 버릴 필요가 없다.

2. KV 캐시 공유

서로 다른 순환 깊이는 KV 캐시를 공유할 수 있으며, 메모리 사용량을 크게 줄인다. 실험에 따르면, 이 모델은 자연스럽게 KV 캐시 공유를 지원하며, 각 토큰 위치의 최신 순환에 대한 KV 상태만 저장하면 된다.

3. 적응형 종료 전략

잠재 공간의 정규화된 거리를 종료 기준으로 사용한다:

δᵢ = ||zᵢ - z_prev,ᵢ||₂ / ||zᵢ||₂

δᵢ < ε일 때, 해당 위치의 토큰이 고정되고 KV 캐시에 추가된다.

4. 안정화 구성 요소

  • 모멘텀 메커니즘: 입력 조건 e에 모멘텀 추가: e = η·e_prev + (1-η)·P(y_current)
  • 노이즈 주입: 각 샘플링 단계에 노이즈 추가: z' = (1-βₜ)z + βₜ·z_noise

실험 설정

데이터셋

  • GSM8K: 수학 추론 작업, CoT 버전 및 8-shot 설정 사용
  • MATH500: 고난도 수학 문제
  • HumanEval: 코드 생성 작업
  • MBPP: Python 프로그래밍 문제

평가 지표

  • 정확도(Accuracy): 작업별 정확성 지표
  • 생성 속도(Tokens/Second): 초당 생성되는 토큰 수, CUDA 이벤트를 사용하여 측정

비교 방법

  1. 정적 자회귀(Static AR): 다양한 순환 단계(r=4,8,32,64)의 기준선 방법
  2. 적응형 계산 자회귀: 원본 작업의 적응형 계산 샘플러
  3. 추측 디코딩: 세밀하게 조정된 자체 추측 디코딩 기준선

구현 세부사항

  • 배치 크기: 1(단일 시퀀스 추론)
  • 온도: 0.2, top-p: 0.95
  • 기본 매개변수: r'=4, ε=0.03, βₜ=0, η=0.1
  • 최대 파동 전면 크기: 128
  • 하드웨어: A100-40GB GPU

실험 결과

주요 결과

모든 벤치마크에서 확산 강제 샘플러는 현저한 속도 향상을 달성했다:

샘플러GSM8KMATH500HumanEvalMBPP
정확도/t/s정확도/t/s정확도/t/s정확도/t/s
Static AR (r=32)41.77%/36.117.60%/6.422.56%/13.531.60%/15.3
Diff. Sampler42.08%/157.318.00%/30.320.12%/64.931.00%/70.2
상대 향상+0.31/4.36×+0.40/4.73×-2.44/4.81×-0.60/4.59×

제거 실험

초매개변수 민감도 분석

  1. 내부 순환 단계 r': r' 증가는 정확도를 높이지만 처리량을 감소시키며, r'=4가 최적의 균형점
  2. 종료 임계값 ε: 더 작은 ε 값은 정확도를 높이지만 속도를 감소시키며, ε=0.03이 권장 설정
  3. 노이즈 계수 βₜ: r'이 작을 때, 적절한 노이즈(βₜ=0.2-0.3)는 안정성을 향상시킴
  4. 파동 전면 크기: A100 GPU의 최적 설정은 64-128

모델 변형 검증

다양한 모델 체크포인트에서 방법의 견고성을 검증했다:

  • SWA 모델: 가중치 평균 버전
  • 수학 미세 조정 모델: MetaMath 데이터셋에서 미세 조정된 버전

모든 변형은 일관된 4-5배 속도 향상을 보였으며, 정확도 편차는 0.5-1% 범위 내

이론적 분석 검증

깊이 대 너비 스케일링

실험은 이론적 분석의 예측을 검증했다:

  • 사전 채우기 단계: 깊이 스케일링이 너비 스케일링보다 우수
  • 디코딩 단계: 확산 강제 샘플링이 더 나은 너비 스케일링 달성
  • 표현력: 동일한 시간 예산 하에서 확산 샘플러가 자회귀 생성보다 엄격히 우수

관련 연구

순환 모델 연구

  • 역사적 발전: 초기 RNN에서 범용 트랜스포머로의 진화
  • 이론적 기초: 범용 튜링 기계의 계산 능력 및 복잡도 클래스
  • 실제 응용: 알고리즘 학습 및 추론 작업에서의 장점

확산 언어 모델

  • 연속 영역 확산: 이미지 생성에서의 성공적 응용
  • 이산 영역 확산: 텍스트 생성의 과제 및 해결책
  • 추론 전략: 블록 확산 및 확산 강제 등의 방법

추론 가속 기술

  • 추측 디코딩: 작은 모델의 초안 작성, 큰 모델의 검증 활용
  • 병렬화 전략: 메모리 바운드 대 계산 바운드의 균형

결론 및 논의

주요 결론

  1. 이론적 기여: 순환 깊이 모델과 확산 모델 간의 이론적 연결 구축
  2. 실용적 가치: 생성 품질을 유지하면서 5배의 추론 가속 달성
  3. 일반성: 방법은 기존 모델에 직접 적용 가능하며, 재훈련 불필요
  4. 새로운 관점: 순환 깊이 모델을 연속 인과 확산 언어 모델로 볼 수 있음

한계

  1. 배치 처리 제한: 현재 구현은 단일 시퀀스 추론만 지원하며, 배치 처리 시나리오는 복잡한 추론 엔진 필요
  2. FLOP 효율성: 병렬도는 증가하지만 FLOP 사용량은 실제로 증가
  3. 하드웨어 의존성: 최적 매개변수 설정은 특정 하드웨어 구성에 따라 달라짐
  4. 모델 요구사항: 모델이 특정 아키텍처 요구사항(입력 주입, 견고한 순환 등)을 충족해야 함

향후 방향

  1. 배치 처리 추론 엔진: 대규모 배치 추론을 지원하는 시스템 개발
  2. 아키텍처 최적화: 확산 강제 샘플링에 더 적합한 순환 깊이 아키텍처 설계
  3. 훈련 목표: 확산 언어 모델링에서 전개 목표의 응용 탐색
  4. 이론 심화: 순환 깊이 모델을 확산 모델로서의 이론적 기초 추가 연구

심층 평가

장점

  1. 혁신성 강함: 순환 깊이 모델과 확산 모델 간의 연결을 처음으로 구축하여 새로운 이론적 관점 제공
  2. 실용적 가치 높음: 현저한 추론 가속을 달성하며 기존 모델에 직접 적용 가능
  3. 이론 엄밀함: 깊이 대 너비 스케일링의 이론적 분석 및 수렴성 증명 제공
  4. 실험 충분함: 여러 벤치마크 및 모델 변형에서 방법의 유효성 및 견고성 검증

부족한 점

  1. 적용 범위 제한: 방법은 모델이 특정 아키텍처 요구사항을 충족해야 하므로 보편성 제한
  2. 배치 처리 지원 부족: 단일 시퀀스 추론은 생산 환경에서의 응용 제한
  3. 메모리 오버헤드: KV 캐시 공유가 있지만 추가 잠재 상태 저장 필요
  4. 매개변수 민감성: 여러 초매개변수가 다양한 작업 및 하드웨어에 대해 조정 필요

영향력

  1. 학술적 기여: 순환 깊이 모델 및 확산 모델 연구에 새로운 교차점 제공
  2. 공학적 가치: 대규모 모델 추론 최적화를 위한 새로운 기술 경로 제공
  3. 영감 제공: 모델 아키텍처와 샘플링 전략 결합에 관한 더 많은 연구 영감 가능

적용 시나리오

  1. 단일 사용자 추론: 개인 또는 소규모 응용의 텍스트 생성
  2. 추론 집약적 작업: 수학, 프로그래밍 등 다단계 추론이 필요한 작업
  3. 리소스 제약 환경: 제한된 계산 리소스 하에서 추론 효율성 향상이 필요한 시나리오
  4. 연구 프로토타입: 순환 깊이 모델 및 확산 샘플링의 추가 연구

참고문헌

논문은 풍부한 관련 연구를 인용하고 있으며, 다음을 포함한다:

  • Dehghani et al. (2019): Universal Transformers의 원본 연구
  • Chen et al. (2024a): Diffusion Forcing 방법
  • Geiping et al. (2025): Huginn-0125 순환 깊이 모델
  • Rombach et al. (2022): 잠재 공간 확산 모델
  • Leviathan et al. (2023): 추측 디코딩 방법

종합 평가: 이는 이론적 혁신과 실용적 가치 측면에서 모두 중요한 기여를 하는 고품질 연구 논문이다. 논문은 두 개의 중요한 모델 클래스 간의 연결을 성공적으로 구축하고 실용적인 가속 방법을 제안했다. 일부 한계가 있지만, 향후 연구를 위한 귀중한 방향과 기초를 제공한다.