Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.
論文ID : 2510.13870タイトル : Unlocking the Potential of Diffusion Language Models through Template Infilling著者 : Junhoo Lee (ソウル国立大学), Seungyeon Kim (成均館大学), Nojun Kwak (ソウル国立大学)分類 : cs.CL cs.AI発表日 : 2025年10月13日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.13870 拡散言語モデル(DLM)は自己回帰言語モデルの有望な代替案として登場していますが、その推論戦略は自己回帰パラダイムから継承されたプレフィックスベースのプロンプティングに限定されています。本論文では、DLMの生成プロセス向けにカスタマイズされた条件付け方法であるテンプレート埋め込み(TI)を提案します。従来のプレフィックスプロンプティングとは異なり、TIはまず目標応答の構造テンプレートを生成し、その後、マスクされたセグメントを埋め込みます。この構造制御の柔軟性を強化するため、著者らは動的セグメント割り当て(DSA)を導入しました。これは生成信頼度に基づいてセグメント長を適応的に調整します。数学推論とコード生成ベンチマークにおいて、本手法はベースラインと比較して17.01%の一貫性改善を達成しました。さらに、TIはマルチトークン生成設定において追加の利点を提供し、生成品質を維持しながら効果的な高速化を実現します。
拡散言語モデル(DLM)は反復的なデノイジングプロセスを通じてテキストを生成し、自己回帰言語モデル(ALM)の左から右への生成パラダイムとは根本的に異なります。DLMは任意の位置セットに対する条件付き生成が可能であり、双方向コンテキストモデリング能力を備えています。
推論戦略の制限 : 既存のDLM研究は主に自己回帰モデルから継承されたプレフィックスベースのプロンプティング手法に従っています能力の未充分な利用 : ほとんどの研究はDLMのマルチトークン並列生成能力を推論コスト削減のためにのみ活用しています条件付け戦略の不一致 : DLMの双方向生成能力向けに特別に設計された条件付け方法が不足していますDLMの双方向条件付き生成能力はテキスト生成に新たな可能性をもたらしていますが、既存の評価および応用方法はこの利点を十分に活かしていません。著者らは、DLMの特性に特別に対応した新しい条件付け方法の設計が必要であると考えています。
テンプレート埋め込み(TI)フレームワークの提案 : DLMの双方向生成能力を特別に利用する条件付き生成方法動的セグメント割り当て(DSA)アルゴリズムの設計 : 信頼度ベースの適応的セグメント長調整メカニズム有効性の実験的検証 : 数学推論とコード生成タスクにおいて平均17.01%のパフォーマンス向上マルチトークン生成の利点 : 複数トークンの並列生成時にパフォーマンスの安定性を証明新しいパラダイムの確立 : DLMの条件付け戦略設計に新たな研究方向を開拓入力コンテキストが与えられた場合、DLMの双方向条件付き生成能力を利用して、構造化テンプレートを通じて生成プロセスを指導し、高品質の目標応答を生成します。
自己回帰言語モデル :
p(xt|x<t) = p(xt|x1, ..., xt-1)
拡散言語モデル :
ここでDLMの重要な特性は任意の位置セットに対する条件付き生成が可能なことです:
ここでOは観察位置、Mはマスク位置であり、O∩M = ∅、O∪M = {1,...,N}
TIは従来のプレフィックス条件付けをテンプレート埋め込みに一般化します。まず目標応答の構造スケルトンを指定するテンプレートτを構築します:
τ = [t1, M1, t2, M2, ..., tk, Mk]
ここで:
ti: テンプレートアンカーポイント(事前定義された構造要素) Mi: 埋め込まれるマスクセグメント 固定テンプレート位置の制限を解決するため、DSAは信頼度に基づいてセグメント長を動的に調整します。
信頼度の定義 :
ci = max p(xi = v|xO, xM\{i})
v∈V
セグメント拡張メカニズム :
セグメントMiの平均信頼度がしきい値τを下回る場合、追加のマスクトークンを挿入して拡張します:
構造化条件付き生成 : テンプレートアンカーポイントを通じた明示的な構造事前情報の提供(暗黙的なプレフィックスガイダンスではなく)グローバル一貫性 : DLMがすべてのセグメントを同時に考慮する能力を利用した、グローバルに一貫した応答の生成適応的長さ調整 : 信頼度ベースの動的割り当てメカニズムにより、固定長の制限を解決双方向コンテキストの利用 : DLMの双方向モデリングのアーキテクチャ上の利点を十分に活用数学推論 : GSM8K - 小学校数学応用問題データセットコード生成 : HumanEval - プログラム合成能力評価データセットGSM8K : 正確度(Accuracy)HumanEval : pass@1指標(単一試行の正確性)固定長デノイジング : 異なる固定長(64, 128, 256, 512)のベースライン手法プレフィックスベーステンプレート : 従来のプレフィックスプロンプティング手法ベースモデル : LLaDA (Nie et al., 2025)ハードウェア : 単一のNVIDIA RTX Pro 6000 GPU信頼度しきい値 : 0.1評価設定 : ゼロショット学習、Language Model Evaluation Harnessを使用生成方式 : 完全並列更新(ブロック生成を採用しない)手法 GSM8K HumanEval 平均 ベースライン(128) 48.75 11.59 30.17 TI 56.56 18.29 37.43 TI+DSA 72.10 22.50 47.30
核心的発見 :
TIはベースラインと比較して平均17.01%向上 TI+DSAはさらに向上し、最高のパフォーマンスを達成 異なるタスクタイプ全体で一貫した改善を獲得 手法 GSM8K HumanEval 平均 プレフィックステンプレートプロンプティング 51.25 5.49 28.37 TI 56.56 18.29 37.26
TIはプレフィックス手法と比較して平均8.89%向上し、構造化条件付けの利点を証明しています。
手法 1トークン 2トークン 4トークン 8トークン 16トークン ベースライン 48.75 47.84 44.73 35.48 18.50 TI 56.56 55.50 53.90 52.69 48.60
重要な発見 : ベースライン手法はマルチトークン生成時にパフォーマンスが急激に低下しますが、TIは相対的に安定を保ち、構造化ガイダンスの利点を示しています。
タスク無関性 : TIは数学推論とコード生成という2つの異なる領域で改善を達成構造化の利点 : テンプレート埋め込みは従来のプレフィックスプロンプティングより明らかに優れている並列生成の安定性 : TIはマルチトークン並列生成時にパフォーマンスの安定性を維持信頼度ガイダンスの有効性 : DSAの適応的メカニズムはパフォーマンスをさらに向上させた初期の研究 : D3PMが離散拡散の基礎を確立、SEDDがスコアエントロピーを通じてモデリングを改善規模化研究 : LLaDAが8BスケールでのDLMのスケーラビリティを実証効率最適化 : 既存研究は主にキャッシュメカニズムとマルチトークン生成を通じた計算コスト削減に焦点自己回帰モデル : GPT-3の少数ショット学習、Chain-of-Thoughtの推論ガイダンス埋め込み方法 : 既存の埋め込み技術は依然として単方向性の制約に制限されている本論文の貢献 : DLM向けに特別に設計された双方向条件付け戦略を初めて提案テンプレート埋め込みはDLMの双方向生成能力を成功裏に利用し、顕著なパフォーマンス向上を実現 動的セグメント割り当ては柔軟な構造制御メカニズムを提供 TIはマルチトークン並列生成シナリオにおいて独特の利点を示す 本手法はDLMの応用に新たな研究方向を開拓 訓練パラダイムの制限 : 既存の指示微調整モデルは依然として従来のプロンプティング-推論パラダイムに基づいて訓練されており、TI向けに最適化されていないテンプレート設計への依存 : 適切なテンプレート構造の手動設計が必要評価範囲 : 数学推論とコード生成タスクのみで検証され、より広範なタスク評価が必要訓練への統合 : TIを指示微調整プロセスに組み込み、訓練段階からテンプレート条件付け能力を最適化自動テンプレート生成 : タスク固有のテンプレートを自動生成する方法の研究より多くのタスクでの検証 : より広範なNLPタスクでTIの有効性を検証革新性が高い : DLMの双方向生成特性向けに特別に設計された条件付け方法を初めて提案し、従来のプレフィックスプロンプティングの制限を突破方法が合理的 : TIとDSAの設計はDLMのアーキテクチャ上の利点を十分に利用し、理論的基礎が堅牢実験が充分 : 複数の比較実験とアブレーション研究を通じて方法の有効性を検証実用的価値 : マルチトークン生成シナリオでの安定性は実際の応用に価値を提供執筆が明確 : 論文構造が明確で、方法の説明が詳細で理解しやすく、再現可能評価範囲が限定的 : 2つのタスクタイプのみで検証され、より広範なタスク評価が不足テンプレート依存性 : テンプレート構造の手動設計が必要で、方法の汎用性を制限する可能性理論分析が不足 : TIがなぜパフォーマンスを向上させるのかについての深い理論分析が不足計算コスト分析 : TIとベースライン手法の計算オーバーヘッドの詳細な分析が不足統計的有意性 : 統計的有意性検定の報告が不足学術的貢献 : DLM研究に新たな方向を開拓し、効率最適化から能力の十分な利用へシフト実践的価値 : 追加訓練なしで即座に適用可能なパフォーマンス向上方法を提供啓発的意義 : 研究者に新型モデルアーキテクチャに適した条件付け戦略の設計を再考させる再現性 : 詳細な実装詳細を提供し、他の研究者による再現と改善を容易にする構造化生成タスク : 特に数学問題解法やコード生成など、特定の構造出力が必要なタスクに適しているマルチトークン並列生成 : 推論加速が必要なシナリオで独特の利点を持つDLM応用 : すべての拡散ベース言語モデルにパフォーマンス向上方案を提供研究ツール : DLMの能力境界を研究するための新しい実験パラダイムを提供論文は複数の重要な関連研究を引用しており、以下を含みます:
拡散モデルの基礎 : Ho et al. (2020) - デノイジング拡散確率モデルDLM発展 : Austin et al. (2021) - D3PM、Lou et al. (2023) - SEDD、Nie et al. (2025) - LLaDA言語モデルプロンプティング : Brown et al. (2020) - GPT-3、Wei et al. (2022) - Chain-of-Thought評価ベンチマーク : Cobbe et al. (2021) - GSM8K、Chen et al. (2021) - HumanEval総合評価 : これは高品質の研究論文であり、拡散言語モデル向けの革新的な条件付け方法を提案しています。評価範囲と理論分析の面で一定の限界がありますが、その核心的な考え方は新規性に富み、実験結果は説得力があり、DLMの研究と応用に価値ある貢献を提供しています。本研究は拡散言語モデルを単なる効率最適化から能力の十分な発揮へと発展させることが期待されます。