2025-11-13T00:28:10.748028

Unlocking the Potential of Diffusion Language Models through Template Infilling

Lee, Kim, Kwak

Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.

academic

Erschließung des Potenzials von Diffusions-Sprachmodellen durch Template-Infilling

Grundinformationen

Paper-ID: 2510.13870
Titel: Unlocking the Potential of Diffusion Language Models through Template Infilling
Autoren: Junhoo Lee (Seoul National University), Seungyeon Kim (Sungkyunkwan University), Nojun Kwak (Seoul National University)
Klassifizierung: cs.CL cs.AI
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.13870

Zusammenfassung

Diffusions-Sprachmodelle (DLMs) erscheinen als vielversprechende Alternative zu autoregressiven Sprachmodellen, doch ihre Inferenzstrategien sind auf präfixbasierte Prompting-Methoden beschränkt, die vom autoregressiven Paradigma geerbt wurden. Dieses Paper stellt Template Infilling (TI) vor, eine maßgeschneiderte Konditionierungsmethode für den Generierungsprozess von DLMs. Im Gegensatz zum traditionellen Präfix-Prompting generiert TI zunächst ein Strukturtemplate für die Zielantwort und füllt dann maskierte Segmente. Um die Flexibilität dieser Strukturkontrolle zu verbessern, führen die Autoren Dynamic Segment Allocation (DSA) ein, die Segmentlängen adaptiv basierend auf Generierungsvertrauen anpasst. Bei mathematischen Reasoning- und Code-Generierungs-Benchmarks erreichte die Methode eine Konsistenzverbesserung von 17,01% gegenüber der Baseline. Darüber hinaus bietet TI zusätzliche Vorteile in Multi-Token-Generierungseinstellungen und ermöglicht effektive Beschleunigung bei Beibehaltung der Generierungsqualität.

Forschungshintergrund und Motivation

Problemdefinition

Diffusions-Sprachmodelle (DLMs) generieren Text durch iterative Entrauschungsprozesse, was sich grundlegend vom Links-nach-Rechts-Generierungsparadigma autoregressiver Sprachmodelle (ALMs) unterscheidet. DLMs ermöglichen Konditionierung auf beliebige Positionsmengen mit bidirektionalen Kontextmodellierungsfähigkeiten.

Limitierungen bestehender Methoden

Begrenzte Inferenzstrategien: Bestehende DLM-Forschung folgt hauptsächlich präfixbasierten Prompting-Methoden, die von autoregressiven Modellen geerbt wurden
Unzureichend genutzte Fähigkeiten: Die meisten Arbeiten konzentrieren sich nur auf die Nutzung der Multi-Token-Parallelgenerierungsfähigkeit von DLMs zur Reduzierung von Inferenzkosten
Nicht übereinstimmende Konditionierungsstrategien: Mangel an Konditionierungsmethoden, die speziell für die bidirektionalen Generierungsfähigkeiten von DLMs konzipiert sind

Forschungsmotivation

Die bidirektionalen Konditionierungsgenerierungsfähigkeiten von DLMs bieten neue Möglichkeiten für die Textgenerierung, doch bestehende Bewertungs- und Anwendungsmethoden nutzen diesen Vorteil nicht vollständig aus. Die Autoren argumentieren, dass neue Konditionierungsmethoden erforderlich sind, die speziell für die Eigenschaften von DLMs konzipiert sind.

Kernbeiträge

Vorschlag des Template Infilling (TI)-Frameworks: Eine Konditionierungsgenerierungsmethode, die speziell die bidirektionalen Generierungsfähigkeiten von DLMs nutzt
Entwurf des Dynamic Segment Allocation (DSA)-Algorithmus: Ein Mechanismus zur adaptiven Anpassung der Segmentlänge basierend auf Vertrauen
Experimentelle Validierung der Wirksamkeit: Durchschnittliche Leistungsverbesserung von 17,01% bei mathematischen Reasoning- und Code-Generierungsaufgaben
Multi-Token-Generierungsvorteil: Nachweis, dass TI bei paralleler Generierung mehrerer Tokens die Leistungsstabilität bewahrt
Etablierung eines neuen Paradigmas: Eröffnet neue Forschungsrichtungen für das Design von Konditionierungsstrategien für DLMs

Methodische Details

Aufgabendefinition

Unter Verwendung der bidirektionalen Konditionierungsgenerierungsfähigkeiten von DLMs, gegeben ein Eingabekontext, durch strukturierte Templates den Generierungsprozess leiten, um hochwertige Zielantworten zu produzieren.

Modellarchitektur

3.1 Theoretische Grundlagen

Autoregressives Sprachmodell:

p(xt|x<t) = p(xt|x1, ..., xt-1)

Diffusions-Sprachmodell:

p(x(t-1)|x(t))

wobei die Schlüsseleigenschaft von DLMs die Fähigkeit zur Konditionierung auf beliebige Positionsmengen ist:

p(xM|xO)

wobei O beobachtete Positionen sind, M maskierte Positionen sind, und O∩M = ∅, O∪M = {1,...,N}

3.2 Template Infilling (TI)

TI verallgemeinert die traditionelle Präfixkonditionierung zu Template-Infilling. Zunächst wird ein Template τ konstruiert, das das Strukturgerüst der Zielantwort angibt:

τ = [t1, M1, t2, M2, ..., tk, Mk]

wobei:

ti: Template-Ankerpunkte (vordefinierte Strukturelemente)
Mi: Zu füllende maskierte Segmente

3.3 Dynamic Segment Allocation (DSA)

Um die Limitierungen fester Template-Positionen zu adressieren, passt DSA Segmentlängen dynamisch basierend auf Vertrauen an.

Vertrauensdefinition:

ci = max p(xi = v|xO, xM\{i})
    v∈V

Segmenterweiterungsmechanismus: Wenn das durchschnittliche Vertrauen des Segments Mi unter Schwellenwert τ fällt, wird durch Einfügen zusätzlicher maskierter Tokens erweitert:

M(k+1)_i = M(k)_i ∪ |Δ|

Technische Innovationen

Strukturierte Konditionierungsgenerierung: Bereitstellung expliziter Strukturpriors durch Template-Ankerpunkte statt impliziter Präfix-Führung
Globale Kohärenz: Nutzung der Fähigkeit von DLMs, alle Segmente gleichzeitig zu berücksichtigen, um global kohärente Antworten zu generieren
Adaptive Längensanpassung: Dynamischer Allokationsmechanismus basierend auf Vertrauen, der Limitierungen fester Längen überwindet
Bidirektionale Kontextnutzung: Vollständige Ausnutzung der bidirektionalen Modellierungsarchitekturvorteil von DLMs

Experimentelle Einrichtung

Datensätze

Mathematisches Reasoning: GSM8K - Datensatz für mathematische Anwendungsaufgaben der Grundschule
Code-Generierung: HumanEval - Datensatz zur Bewertung der Programmsynthesefähigkeit

Bewertungsmetriken

GSM8K: Genauigkeit (Accuracy)
HumanEval: pass@1-Metrik (Korrektheit bei einzelnem Versuch)

Vergleichsmethoden

Fixed-Length Denoising: Baseline-Methoden mit verschiedenen festen Längen (64, 128, 256, 512)
Prefix-based Template: Traditionelle Präfix-Prompting-Methode

Implementierungsdetails

Basismodell: LLaDA (Nie et al., 2025)
Hardware: Einzelne NVIDIA RTX Pro 6000 GPU
Vertrauensschwellenwert: 0,1
Bewertungseinstellung: Zero-Shot-Lernen mit Language Model Evaluation Harness
Generierungsmodus: Vollständig paralleles Update (kein Block-Generierung)

Experimentelle Ergebnisse

Hauptergebnisse

Methode	GSM8K	HumanEval	Durchschnitt
Baseline (128)	48,75	11,59	30,17
TI	56,56	18,29	37,43
TI+DSA	72,10	22,50	47,30

Kernfunde:

TI erreicht durchschnittliche Verbesserung von 17,01% gegenüber Baseline
TI+DSA zeigt weitere Verbesserung und erreicht beste Leistung
Konsistente Verbesserungen über verschiedene Aufgabentypen hinweg

Ablationsstudien

Präfix-Prompting vs. Template-Infilling-Vergleich

Methode	GSM8K	HumanEval	Durchschnitt
Präfix-Template-Prompting	51,25	5,49	28,37
TI	56,56	18,29	37,26

TI erreicht durchschnittliche Verbesserung von 8,89% gegenüber Präfix-Methode und beweist die Vorteile strukturierter Konditionierung.

Multi-Token-Generierungsanalyse

Methode	1 Token	2 Tokens	4 Tokens	8 Tokens	16 Tokens
Baseline	48,75	47,84	44,73	35,48	18,50
TI	56,56	55,50	53,90	52,69	48,60

Schlüsselfunde: Die Baseline-Methode zeigt dramatischen Leistungsabfall bei Multi-Token-Generierung, während TI relative Stabilität bewahrt und die Vorteile strukturierter Führung demonstriert.

Experimentelle Erkenntnisse

Aufgabenunabhängigkeit: TI erreicht Verbesserungen in zwei verschiedenen Domänen – mathematisches Reasoning und Code-Generierung
Strukturierter Vorteil: Template-Infilling übertrifft deutlich traditionelle Präfix-Prompting
Parallelgenerierungsstabilität: TI bewahrt Leistungsstabilität bei Multi-Token-Parallelgenerierung
Effektive Vertrauensführung: Der adaptive Mechanismus von DSA verbessert die Leistung weiter

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Template Infilling nutzt erfolgreich die bidirektionalen Generierungsfähigkeiten von DLMs und erreicht signifikante Leistungsverbesserungen
Dynamic Segment Allocation bietet einen flexiblen Strukturkontrollmechanismus
TI zeigt einzigartige Vorteile in Multi-Token-Parallelgenerierungsszenarien
Die Methode eröffnet neue Forschungsrichtungen für DLM-Anwendungen

Limitierungen

Trainingsparadigma-Limitierungen: Bestehende Instruction-Tuning-Modelle basieren weiterhin auf traditionellem Prompting-Reasoning-Paradigma, nicht optimiert für TI
Template-Design-Abhängigkeit: Erfordert manuelle Gestaltung geeigneter Template-Strukturen
Bewertungsumfang: Validierung nur bei mathematischen Reasoning- und Code-Generierungsaufgaben, breitere Aufgabenbewertung erforderlich

Zukünftige Richtungen

Trainingsintegration: Einbeziehung von TI in Instruction-Tuning-Prozess, Optimierung der Template-Konditionierungsfähigkeit ab Trainingsphase
Automatische Template-Generierung: Forschung zu Methoden für automatische Generierung aufgabenspezifischer Templates
Breitere Aufgabenvalidierung: Validierung der TI-Wirksamkeit über breitere NLP-Aufgaben

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erste spezialisierte Konditionierungsmethode für die bidirektionalen Generierungseigenschaften von DLMs, überwindet Limitierungen traditionellen Präfix-Prompting
Rationale Methodik: TI- und DSA-Design nutzen vollständig die Architekturvorteil von DLMs mit solider theoretischer Grundlage
Umfassende Experimente: Validierung der Methodenwirksamkeit durch mehrere Vergleichsexperimente und Ablationsstudien
Praktischer Wert: Stabilität in Multi-Token-Generierungsszenarien bietet Wert für praktische Anwendungen
Klare Darstellung: Klare Papierstruktur, detaillierte Methodenbeschreibung, leicht verständlich und reproduzierbar

Schwächen

Begrenzte Bewertungsreichweite: Validierung nur bei zwei Aufgabentypen, breitere Aufgabenbewertung erforderlich
Template-Abhängigkeit: Erfordert manuelle Template-Gestaltung, könnte Methodenallgemeingültigkeit limitieren
Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum TI Leistung verbessert
Fehlende Rechenaufwand-Analyse: Keine detaillierte Analyse der Rechenkosten von TI gegenüber Baseline-Methoden
Fehlende statistische Signifikanz: Keine Berichte über statistische Signifikanztests

Auswirkungen

Akademischer Beitrag: Eröffnet neue Forschungsrichtung für DLM-Forschung, Verschiebung von Effizienzoptimierung zu Fähigkeitsauslastung
Praktischer Wert: Bietet Plug-and-Play-Leistungsverbesserungsmethode ohne zusätzliches Training
Inspirationswert: Inspiriert Forscher, Konditionierungsstrategien für neue Modellarchitekturen neu zu überdenken
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails für einfache Reproduktion und Verbesserung durch andere Forscher

Anwendungsszenarien

Strukturierte Generierungsaufgaben: Besonders geeignet für Aufgaben, die spezifische Strukturausgaben erfordern, wie mathematische Problemlösung und Code-Generierung
Multi-Token-Parallelgenerierung: Einzigartige Vorteile in Szenarien, die Inferenzbeschleunigung erfordern
DLM-Anwendungen: Leistungsverbesserungslösung für alle diffusionsbasierten Sprachmodelle
Forschungswerkzeug: Bietet neues experimentelles Paradigma für Forschung von DLM-Fähigkeitsgrenzen

Referenzen

Das Paper zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

Diffusions-Modell-Grundlagen: Ho et al. (2020) - Denoising Diffusion Probabilistic Models
DLM-Entwicklung: Austin et al. (2021) - D3PM, Lou et al. (2023) - SEDD, Nie et al. (2025) - LLaDA
Sprachmodell-Prompting: Brown et al. (2020) - GPT-3, Wei et al. (2022) - Chain-of-Thought
Bewertungs-Benchmarks: Cobbe et al. (2021) - GSM8K, Chen et al. (2021) - HumanEval

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Konditionierungsmethode für Diffusions-Sprachmodelle vorschlägt. Obwohl es gewisse Limitierungen in Bewertungsumfang und theoretischer Analyse gibt, ist die Kernidee neuartig, die experimentellen Ergebnisse überzeugend, und die Arbeit leistet wertvollen Beitrag zur Forschung und Anwendung von DLMs. Diese Arbeit wird voraussichtlich die Entwicklung von Diffusions-Sprachmodellen von reiner Effizienzoptimierung zu vollständiger Fähigkeitsauslastung vorantreiben.