Unlocking the Potential of Diffusion Language Models through Template Infilling
Lee, Kim, Kwak
Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.
확산 언어 모델(DLMs)은 자회귀 언어 모델의 유망한 대안으로 등장했지만, 그 추론 전략은 자회귀 패러다임에서 상속된 접두사 기반 프롬프팅으로 제한되어 있습니다. 본 논문은 DLM의 생성 과정을 위해 맞춤 설계된 조건부 방법인 템플릿 채우기(TI)를 제안합니다. 기존의 접두사 프롬프팅과 달리, TI는 먼저 목표 응답에 대한 구조적 템플릿을 생성한 후 마스크된 세그먼트를 채웁니다. 이러한 구조적 제어의 유연성을 향상시키기 위해, 저자들은 생성 신뢰도에 따라 세그먼트 길이를 적응적으로 조정하는 동적 세그먼트 할당(DSA)을 도입했습니다. 수학 추론 및 코드 생성 벤치마크에서 이 방법은 기준선 대비 17.01%의 일관된 개선을 달성했습니다. 또한 TI는 다중 토큰 생성 설정에서 추가 이점을 제공하며, 생성 품질을 유지하면서 효과적인 가속화를 실현합니다.
확산 언어 모델(DLMs)은 반복적 노이즈 제거 과정을 통해 텍스트를 생성하며, 이는 자회귀 언어 모델(ALMs)의 좌에서 우로의 생성 패러다임과 근본적으로 다릅니다. DLM은 임의의 위치 집합에 대한 조건부 생성이 가능하며, 양방향 문맥 모델링 능력을 갖추고 있습니다.
DLM 발전: Austin et al. (2021) - D3PM, Lou et al. (2023) - SEDD, Nie et al. (2025) - LLaDA
언어 모델 프롬프팅: Brown et al. (2020) - GPT-3, Wei et al. (2022) - Chain-of-Thought
평가 벤치마크: Cobbe et al. (2021) - GSM8K, Chen et al. (2021) - HumanEval
종합 평가: 이는 확산 언어 모델을 위한 혁신적인 조건부 방법을 제시하는 고품질 연구 논문입니다. 평가 범위와 이론 분석 측면에서 일정한 한계가 있지만, 핵심 아이디어는 참신하고 실험 결과는 설득력 있으며, DLM의 연구와 적용에 가치 있는 기여를 제공합니다. 이 연구는 확산 언어 모델을 단순한 효율성 최적화에서 능력의 충분한 발휘로 발전시키는 데 기여할 것으로 기대됩니다.