2025-11-13T00:28:10.748028

Unlocking the Potential of Diffusion Language Models through Template Infilling

Lee, Kim, Kwak

Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.

academic

템플릿 채우기를 통한 확산 언어 모델의 잠재력 활용

기본 정보

논문 ID: 2510.13870
제목: Unlocking the Potential of Diffusion Language Models through Template Infilling
저자: Junhoo Lee (서울대학교), Seungyeon Kim (성균관대학교), Nojun Kwak (서울대학교)
분류: cs.CL cs.AI
발표 시간: 2025년 10월 13일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.13870

초록

확산 언어 모델(DLMs)은 자회귀 언어 모델의 유망한 대안으로 등장했지만, 그 추론 전략은 자회귀 패러다임에서 상속된 접두사 기반 프롬프팅으로 제한되어 있습니다. 본 논문은 DLM의 생성 과정을 위해 맞춤 설계된 조건부 방법인 템플릿 채우기(TI)를 제안합니다. 기존의 접두사 프롬프팅과 달리, TI는 먼저 목표 응답에 대한 구조적 템플릿을 생성한 후 마스크된 세그먼트를 채웁니다. 이러한 구조적 제어의 유연성을 향상시키기 위해, 저자들은 생성 신뢰도에 따라 세그먼트 길이를 적응적으로 조정하는 동적 세그먼트 할당(DSA)을 도입했습니다. 수학 추론 및 코드 생성 벤치마크에서 이 방법은 기준선 대비 17.01%의 일관된 개선을 달성했습니다. 또한 TI는 다중 토큰 생성 설정에서 추가 이점을 제공하며, 생성 품질을 유지하면서 효과적인 가속화를 실현합니다.

연구 배경 및 동기

문제 정의

확산 언어 모델(DLMs)은 반복적 노이즈 제거 과정을 통해 텍스트를 생성하며, 이는 자회귀 언어 모델(ALMs)의 좌에서 우로의 생성 패러다임과 근본적으로 다릅니다. DLM은 임의의 위치 집합에 대한 조건부 생성이 가능하며, 양방향 문맥 모델링 능력을 갖추고 있습니다.

기존 방법의 한계

제한된 추론 전략: 기존 DLM 연구는 주로 자회귀 모델에서 상속된 접두사 기반 프롬프팅 방법을 따릅니다
미충분한 능력 활용: 대부분의 연구는 DLM의 다중 토큰 병렬 생성 능력을 추론 비용 감소에만 집중합니다
부적절한 조건부 전략: DLM의 양방향 생성 능력을 위해 특별히 설계된 조건부 방법이 부족합니다

연구 동기

DLM의 양방향 조건부 생성 능력은 텍스트 생성에 새로운 가능성을 제공하지만, 기존의 평가 및 적용 방법은 이러한 이점을 충분히 활용하지 못합니다. 저자들은 DLM의 특성에 맞게 설계된 새로운 조건부 방법이 필요하다고 주장합니다.

핵심 기여

Template Infilling (TI) 프레임워크 제안: DLM의 양방향 생성 능력을 활용하는 조건부 생성 방법
Dynamic Segment Allocation (DSA) 알고리즘 설계: 신뢰도 기반의 적응적 세그먼트 길이 조정 메커니즘
실험적 유효성 검증: 수학 추론 및 코드 생성 작업에서 평균 17.01%의 성능 향상
다중 토큰 생성 이점: TI가 여러 토큰을 병렬로 생성할 때 성능 안정성을 유지함을 입증
새로운 패러다임 수립: DLM의 조건부 전략 설계를 위한 새로운 연구 방향 개척

방법론 상세 설명

작업 정의

입력 문맥이 주어졌을 때, DLM의 양방향 조건부 생성 능력을 활용하여 구조화된 템플릿을 통해 생성 과정을 안내하고 고품질의 목표 응답을 생성합니다.

모델 아키텍처

3.1 기초 이론

자회귀 언어 모델:

p(xt|x<t) = p(xt|x1, ..., xt-1)

확산 언어 모델:

p(x(t-1)|x(t))

여기서 DLM의 핵심 특성은 임의의 위치 집합에 대한 조건부 생성이 가능하다는 것입니다:

p(xM|xO)

여기서 O는 관찰 위치, M은 마스크 위치이며, O∩M = ∅, O∪M = {1,...,N}

3.2 Template Infilling (TI)

TI는 기존의 접두사 조건을 템플릿 채우기로 일반화합니다. 먼저 목표 응답의 구조적 골격을 지정하는 템플릿 τ를 구성합니다:

τ = [t1, M1, t2, M2, ..., tk, Mk]

여기서:

ti: 템플릿 앵커(사전 정의된 구조 요소)
Mi: 채워질 마스크 세그먼트

3.3 Dynamic Segment Allocation (DSA)

고정 템플릿 위치의 한계를 해결하기 위해, DSA는 신뢰도에 따라 세그먼트 길이를 동적으로 조정합니다.

신뢰도 정의:

ci = max p(xi = v|xO, xM\{i})
    v∈V

세그먼트 확장 메커니즘: 세그먼트 Mi의 평균 신뢰도가 임계값 τ 이하일 때, 추가 마스크 토큰을 삽입하여 확장합니다:

M(k+1)_i = M(k)_i ∪ |Δ|

기술 혁신 포인트

구조화된 조건부 생성: 템플릿 앵커를 통해 명시적인 구조 사전 정보를 제공하며, 암묵적인 접두사 안내가 아닙니다
전역 일관성: DLM이 모든 세그먼트를 동시에 고려하는 능력을 활용하여 전역적으로 일관된 응답을 생성합니다
적응적 길이 조정: 신뢰도 기반의 동적 할당 메커니즘으로 고정 길이 제한을 해결합니다
양방향 문맥 활용: DLM의 양방향 모델링 아키텍처 이점을 충분히 활용합니다

실험 설정

데이터셋

수학 추론: GSM8K - 초등학교 수학 응용 문제 데이터셋
코드 생성: HumanEval - 프로그램 합성 능력 평가 데이터셋

평가 지표

GSM8K: 정확도(Accuracy)
HumanEval: pass@1 지표(단일 시도의 정확성)

비교 방법

Fixed-Length Denoising: 다양한 고정 길이(64, 128, 256, 512)의 기준선 방법
Prefix-based Template: 기존 접두사 프롬프팅 방법

구현 세부사항

기본 모델: LLaDA (Nie et al., 2025)
하드웨어: 단일 NVIDIA RTX Pro 6000 GPU
신뢰도 임계값: 0.1
평가 설정: 영샷 학습, Language Model Evaluation Harness 사용
생성 방식: 완전 병렬 업데이트(블록 생성 미사용)

실험 결과

주요 결과

방법	GSM8K	HumanEval	평균
기준선(128)	48.75	11.59	30.17
TI	56.56	18.29	37.43
TI+DSA	72.10	22.50	47.30

핵심 발견:

TI는 기준선 대비 평균 17.01% 향상
TI+DSA는 추가 향상을 달성하여 최고 성능 달성
다양한 작업 유형에서 일관된 개선 획득

소거 실험

접두사 프롬프팅 vs 템플릿 채우기 비교

방법	GSM8K	HumanEval	평균
접두사 템플릿 프롬프팅	51.25	5.49	28.37
TI	56.56	18.29	37.26

TI는 접두사 방법 대비 평균 8.89% 향상하여 구조화된 조건부의 이점을 입증합니다.

다중 토큰 생성 분석

방법	1토큰	2토큰	4토큰	8토큰	16토큰
기준선	48.75	47.84	44.73	35.48	18.50
TI	56.56	55.50	53.90	52.69	48.60

주요 발견: 기준선 방법은 다중 토큰 생성 시 성능이 급격히 저하되는 반면, TI는 상대적으로 안정적을 유지하여 구조화된 안내의 이점을 보여줍니다.

실험 발견

작업 무관성: TI는 수학 추론과 코드 생성 두 가지 다른 영역에서 개선을 달성합니다
구조화된 이점: 템플릿 채우기는 기존 접두사 프롬프팅보다 명확히 우수합니다
병렬 생성 안정성: TI는 다중 토큰 병렬 생성 시 성능을 유지합니다
신뢰도 안내의 효과: DSA의 적응적 메커니즘이 성능을 추가로 향상시킵니다

결론 및 논의

주요 결론

Template Infilling은 DLM의 양방향 생성 능력을 성공적으로 활용하여 현저한 성능 향상을 달성합니다
Dynamic Segment Allocation은 유연한 구조적 제어 메커니즘을 제공합니다
TI는 다중 토큰 병렬 생성 시나리오에서 독특한 이점을 보여줍니다
이 방법은 DLM의 적용을 위한 새로운 연구 방향을 개척합니다

한계

훈련 패러다임 제한: 현존하는 지시 미세조정 모델은 여전히 기존 프롬프팅-추론 패러다임으로 훈련되어 TI에 최적화되지 않음
템플릿 설계 의존성: 적절한 템플릿 구조를 수동으로 설계해야 함
평가 범위: 수학 추론 및 코드 생성 작업에서만 검증되어 더 광범위한 작업 평가 필요

향후 방향

훈련 통합: TI를 지시 미세조정 과정에 포함시켜 훈련 단계에서 템플릿 조건부 능력 최적화
자동 템플릿 생성: 작업별 템플릿을 자동으로 생성하는 방법 연구
더 많은 작업 검증: 더 광범위한 NLP 작업에서 TI의 유효성 검증

심층 평가

장점

높은 혁신성: DLM의 양방향 생성 특성을 위해 특별히 설계된 조건부 방법을 최초로 제시하여 기존 접두사 프롬프팅의 한계를 돌파합니다
합리적인 방법론: TI와 DSA의 설계는 DLM의 아키텍처 이점을 충분히 활용하며 견고한 이론적 기초를 갖추고 있습니다
충분한 실험: 다양한 비교 실험과 소거 연구를 통해 방법의 유효성을 검증합니다
실용적 가치: 다중 토큰 생성 시나리오에서의 안정성은 실제 적용에 가치를 제공합니다
명확한 작성: 논문 구조가 명확하고 방법 설명이 상세하여 이해와 재현이 용이합니다

부족한 점

제한된 평가 범위: 두 가지 작업 유형에서만 검증되어 더 광범위한 작업 평가 부족
템플릿 의존성: 템플릿 구조를 수동으로 설계해야 하므로 방법의 일반성을 제한할 수 있습니다
불충분한 이론 분석: TI가 성능을 향상시키는 이유에 대한 심층적 이론 분석 부족
계산 비용 분석 미흡: TI와 기준선 방법의 계산 오버헤드에 대한 상세 분석 부재
통계적 유의성 부재: 통계적 유의성 검증 보고 부족

영향력

학술 기여: DLM 연구에 새로운 방향을 개척하여 효율성 최적화에서 능력 충분 활용으로 전환
실무 가치: 추가 훈련 없이 즉시 적용 가능한 성능 향상 방법 제공
영감 제공: 연구자들이 새로운 모델 아키텍처에 맞는 조건부 전략 설계를 재고하도록 영감 제공
재현성: 상세한 구현 세부사항을 제공하여 다른 연구자의 재현 및 개선 용이

적용 시나리오

구조화된 생성 작업: 특히 특정 구조의 출력이 필요한 작업(예: 수학 문제 풀이, 코드 생성)에 적합
다중 토큰 병렬 생성: 추론 가속화가 필요한 시나리오에서 독특한 이점 제공
DLM 적용: 모든 확산 기반 언어 모델에 성능 향상 방안 제공
연구 도구: DLM의 능력 경계 연구를 위한 새로운 실험 패러다임 제공

참고문헌

논문은 다음을 포함한 여러 중요한 관련 연구를 인용합니다:

확산 모델 기초: Ho et al. (2020) - 노이즈 제거 확산 확률 모델
DLM 발전: Austin et al. (2021) - D3PM, Lou et al. (2023) - SEDD, Nie et al. (2025) - LLaDA
언어 모델 프롬프팅: Brown et al. (2020) - GPT-3, Wei et al. (2022) - Chain-of-Thought
평가 벤치마크: Cobbe et al. (2021) - GSM8K, Chen et al. (2021) - HumanEval

종합 평가: 이는 확산 언어 모델을 위한 혁신적인 조건부 방법을 제시하는 고품질 연구 논문입니다. 평가 범위와 이론 분석 측면에서 일정한 한계가 있지만, 핵심 아이디어는 참신하고 실험 결과는 설득력 있으며, DLM의 연구와 적용에 가치 있는 기여를 제공합니다. 이 연구는 확산 언어 모델을 단순한 효율성 최적화에서 능력의 충분한 발휘로 발전시키는 데 기여할 것으로 기대됩니다.