2025-11-13T00:28:10.748028

Unlocking the Potential of Diffusion Language Models through Template Infilling

Lee, Kim, Kwak
Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.
academic

Erschließung des Potenzials von Diffusions-Sprachmodellen durch Template-Infilling

Grundinformationen

  • Paper-ID: 2510.13870
  • Titel: Unlocking the Potential of Diffusion Language Models through Template Infilling
  • Autoren: Junhoo Lee (Seoul National University), Seungyeon Kim (Sungkyunkwan University), Nojun Kwak (Seoul National University)
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13870

Zusammenfassung

Diffusions-Sprachmodelle (DLMs) erscheinen als vielversprechende Alternative zu autoregressiven Sprachmodellen, doch ihre Inferenzstrategien sind auf präfixbasierte Prompting-Methoden beschränkt, die vom autoregressiven Paradigma geerbt wurden. Dieses Paper stellt Template Infilling (TI) vor, eine maßgeschneiderte Konditionierungsmethode für den Generierungsprozess von DLMs. Im Gegensatz zum traditionellen Präfix-Prompting generiert TI zunächst ein Strukturtemplate für die Zielantwort und füllt dann maskierte Segmente. Um die Flexibilität dieser Strukturkontrolle zu verbessern, führen die Autoren Dynamic Segment Allocation (DSA) ein, die Segmentlängen adaptiv basierend auf Generierungsvertrauen anpasst. Bei mathematischen Reasoning- und Code-Generierungs-Benchmarks erreichte die Methode eine Konsistenzverbesserung von 17,01% gegenüber der Baseline. Darüber hinaus bietet TI zusätzliche Vorteile in Multi-Token-Generierungseinstellungen und ermöglicht effektive Beschleunigung bei Beibehaltung der Generierungsqualität.

Forschungshintergrund und Motivation

Problemdefinition

Diffusions-Sprachmodelle (DLMs) generieren Text durch iterative Entrauschungsprozesse, was sich grundlegend vom Links-nach-Rechts-Generierungsparadigma autoregressiver Sprachmodelle (ALMs) unterscheidet. DLMs ermöglichen Konditionierung auf beliebige Positionsmengen mit bidirektionalen Kontextmodellierungsfähigkeiten.

Limitierungen bestehender Methoden

  1. Begrenzte Inferenzstrategien: Bestehende DLM-Forschung folgt hauptsächlich präfixbasierten Prompting-Methoden, die von autoregressiven Modellen geerbt wurden
  2. Unzureichend genutzte Fähigkeiten: Die meisten Arbeiten konzentrieren sich nur auf die Nutzung der Multi-Token-Parallelgenerierungsfähigkeit von DLMs zur Reduzierung von Inferenzkosten
  3. Nicht übereinstimmende Konditionierungsstrategien: Mangel an Konditionierungsmethoden, die speziell für die bidirektionalen Generierungsfähigkeiten von DLMs konzipiert sind

Forschungsmotivation

Die bidirektionalen Konditionierungsgenerierungsfähigkeiten von DLMs bieten neue Möglichkeiten für die Textgenerierung, doch bestehende Bewertungs- und Anwendungsmethoden nutzen diesen Vorteil nicht vollständig aus. Die Autoren argumentieren, dass neue Konditionierungsmethoden erforderlich sind, die speziell für die Eigenschaften von DLMs konzipiert sind.

Kernbeiträge

  1. Vorschlag des Template Infilling (TI)-Frameworks: Eine Konditionierungsgenerierungsmethode, die speziell die bidirektionalen Generierungsfähigkeiten von DLMs nutzt
  2. Entwurf des Dynamic Segment Allocation (DSA)-Algorithmus: Ein Mechanismus zur adaptiven Anpassung der Segmentlänge basierend auf Vertrauen
  3. Experimentelle Validierung der Wirksamkeit: Durchschnittliche Leistungsverbesserung von 17,01% bei mathematischen Reasoning- und Code-Generierungsaufgaben
  4. Multi-Token-Generierungsvorteil: Nachweis, dass TI bei paralleler Generierung mehrerer Tokens die Leistungsstabilität bewahrt
  5. Etablierung eines neuen Paradigmas: Eröffnet neue Forschungsrichtungen für das Design von Konditionierungsstrategien für DLMs

Methodische Details

Aufgabendefinition

Unter Verwendung der bidirektionalen Konditionierungsgenerierungsfähigkeiten von DLMs, gegeben ein Eingabekontext, durch strukturierte Templates den Generierungsprozess leiten, um hochwertige Zielantworten zu produzieren.

Modellarchitektur

3.1 Theoretische Grundlagen

Autoregressives Sprachmodell:

p(xt|x<t) = p(xt|x1, ..., xt-1)

Diffusions-Sprachmodell:

p(x(t-1)|x(t))

wobei die Schlüsseleigenschaft von DLMs die Fähigkeit zur Konditionierung auf beliebige Positionsmengen ist:

p(xM|xO)

wobei O beobachtete Positionen sind, M maskierte Positionen sind, und O∩M = ∅, O∪M = {1,...,N}

3.2 Template Infilling (TI)

TI verallgemeinert die traditionelle Präfixkonditionierung zu Template-Infilling. Zunächst wird ein Template τ konstruiert, das das Strukturgerüst der Zielantwort angibt:

τ = [t1, M1, t2, M2, ..., tk, Mk]

wobei:

  • ti: Template-Ankerpunkte (vordefinierte Strukturelemente)
  • Mi: Zu füllende maskierte Segmente

3.3 Dynamic Segment Allocation (DSA)

Um die Limitierungen fester Template-Positionen zu adressieren, passt DSA Segmentlängen dynamisch basierend auf Vertrauen an.

Vertrauensdefinition:

ci = max p(xi = v|xO, xM\{i})
    v∈V

Segmenterweiterungsmechanismus: Wenn das durchschnittliche Vertrauen des Segments Mi unter Schwellenwert τ fällt, wird durch Einfügen zusätzlicher maskierter Tokens erweitert:

M(k+1)_i = M(k)_i ∪ |Δ|

Technische Innovationen

  1. Strukturierte Konditionierungsgenerierung: Bereitstellung expliziter Strukturpriors durch Template-Ankerpunkte statt impliziter Präfix-Führung
  2. Globale Kohärenz: Nutzung der Fähigkeit von DLMs, alle Segmente gleichzeitig zu berücksichtigen, um global kohärente Antworten zu generieren
  3. Adaptive Längensanpassung: Dynamischer Allokationsmechanismus basierend auf Vertrauen, der Limitierungen fester Längen überwindet
  4. Bidirektionale Kontextnutzung: Vollständige Ausnutzung der bidirektionalen Modellierungsarchitekturvorteil von DLMs

Experimentelle Einrichtung

Datensätze

  • Mathematisches Reasoning: GSM8K - Datensatz für mathematische Anwendungsaufgaben der Grundschule
  • Code-Generierung: HumanEval - Datensatz zur Bewertung der Programmsynthesefähigkeit

Bewertungsmetriken

  • GSM8K: Genauigkeit (Accuracy)
  • HumanEval: pass@1-Metrik (Korrektheit bei einzelnem Versuch)

Vergleichsmethoden

  • Fixed-Length Denoising: Baseline-Methoden mit verschiedenen festen Längen (64, 128, 256, 512)
  • Prefix-based Template: Traditionelle Präfix-Prompting-Methode

Implementierungsdetails

  • Basismodell: LLaDA (Nie et al., 2025)
  • Hardware: Einzelne NVIDIA RTX Pro 6000 GPU
  • Vertrauensschwellenwert: 0,1
  • Bewertungseinstellung: Zero-Shot-Lernen mit Language Model Evaluation Harness
  • Generierungsmodus: Vollständig paralleles Update (kein Block-Generierung)

Experimentelle Ergebnisse

Hauptergebnisse

MethodeGSM8KHumanEvalDurchschnitt
Baseline (128)48,7511,5930,17
TI56,5618,2937,43
TI+DSA72,1022,5047,30

Kernfunde:

  • TI erreicht durchschnittliche Verbesserung von 17,01% gegenüber Baseline
  • TI+DSA zeigt weitere Verbesserung und erreicht beste Leistung
  • Konsistente Verbesserungen über verschiedene Aufgabentypen hinweg

Ablationsstudien

Präfix-Prompting vs. Template-Infilling-Vergleich

MethodeGSM8KHumanEvalDurchschnitt
Präfix-Template-Prompting51,255,4928,37
TI56,5618,2937,26

TI erreicht durchschnittliche Verbesserung von 8,89% gegenüber Präfix-Methode und beweist die Vorteile strukturierter Konditionierung.

Multi-Token-Generierungsanalyse

Methode1 Token2 Tokens4 Tokens8 Tokens16 Tokens
Baseline48,7547,8444,7335,4818,50
TI56,5655,5053,9052,6948,60

Schlüsselfunde: Die Baseline-Methode zeigt dramatischen Leistungsabfall bei Multi-Token-Generierung, während TI relative Stabilität bewahrt und die Vorteile strukturierter Führung demonstriert.

Experimentelle Erkenntnisse

  1. Aufgabenunabhängigkeit: TI erreicht Verbesserungen in zwei verschiedenen Domänen – mathematisches Reasoning und Code-Generierung
  2. Strukturierter Vorteil: Template-Infilling übertrifft deutlich traditionelle Präfix-Prompting
  3. Parallelgenerierungsstabilität: TI bewahrt Leistungsstabilität bei Multi-Token-Parallelgenerierung
  4. Effektive Vertrauensführung: Der adaptive Mechanismus von DSA verbessert die Leistung weiter

Verwandte Arbeiten

Entwicklung von Diffusions-Sprachmodellen

  • Frühe Arbeiten: D3PM etablierte Grundlagen für diskrete Diffusion, SEDD verbesserte Modellierung durch Score-Entropie
  • Skalierungsforschung: LLaDA demonstrierte Skalierbarkeit von DLMs auf 8B-Skala
  • Effizienzoptimierung: Bestehende Forschung konzentriert sich hauptsächlich auf Kostenreduktion durch Caching-Mechanismen und Multi-Token-Generierung

Prompting-Techniken für Sprachmodelle

  • Autoregressive Modelle: Few-Shot-Lernen von GPT-3, Reasoning-Führung durch Chain-of-Thought
  • Infilling-Methoden: Bestehende Infilling-Techniken unterliegen weiterhin unidirektionalen Einschränkungen
  • Beitrag dieses Papers: Erste spezialisierte bidirektionale Konditionierungsstrategie für DLMs

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Template Infilling nutzt erfolgreich die bidirektionalen Generierungsfähigkeiten von DLMs und erreicht signifikante Leistungsverbesserungen
  2. Dynamic Segment Allocation bietet einen flexiblen Strukturkontrollmechanismus
  3. TI zeigt einzigartige Vorteile in Multi-Token-Parallelgenerierungsszenarien
  4. Die Methode eröffnet neue Forschungsrichtungen für DLM-Anwendungen

Limitierungen

  1. Trainingsparadigma-Limitierungen: Bestehende Instruction-Tuning-Modelle basieren weiterhin auf traditionellem Prompting-Reasoning-Paradigma, nicht optimiert für TI
  2. Template-Design-Abhängigkeit: Erfordert manuelle Gestaltung geeigneter Template-Strukturen
  3. Bewertungsumfang: Validierung nur bei mathematischen Reasoning- und Code-Generierungsaufgaben, breitere Aufgabenbewertung erforderlich

Zukünftige Richtungen

  1. Trainingsintegration: Einbeziehung von TI in Instruction-Tuning-Prozess, Optimierung der Template-Konditionierungsfähigkeit ab Trainingsphase
  2. Automatische Template-Generierung: Forschung zu Methoden für automatische Generierung aufgabenspezifischer Templates
  3. Breitere Aufgabenvalidierung: Validierung der TI-Wirksamkeit über breitere NLP-Aufgaben

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste spezialisierte Konditionierungsmethode für die bidirektionalen Generierungseigenschaften von DLMs, überwindet Limitierungen traditionellen Präfix-Prompting
  2. Rationale Methodik: TI- und DSA-Design nutzen vollständig die Architekturvorteil von DLMs mit solider theoretischer Grundlage
  3. Umfassende Experimente: Validierung der Methodenwirksamkeit durch mehrere Vergleichsexperimente und Ablationsstudien
  4. Praktischer Wert: Stabilität in Multi-Token-Generierungsszenarien bietet Wert für praktische Anwendungen
  5. Klare Darstellung: Klare Papierstruktur, detaillierte Methodenbeschreibung, leicht verständlich und reproduzierbar

Schwächen

  1. Begrenzte Bewertungsreichweite: Validierung nur bei zwei Aufgabentypen, breitere Aufgabenbewertung erforderlich
  2. Template-Abhängigkeit: Erfordert manuelle Template-Gestaltung, könnte Methodenallgemeingültigkeit limitieren
  3. Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Analyse, warum TI Leistung verbessert
  4. Fehlende Rechenaufwand-Analyse: Keine detaillierte Analyse der Rechenkosten von TI gegenüber Baseline-Methoden
  5. Fehlende statistische Signifikanz: Keine Berichte über statistische Signifikanztests

Auswirkungen

  1. Akademischer Beitrag: Eröffnet neue Forschungsrichtung für DLM-Forschung, Verschiebung von Effizienzoptimierung zu Fähigkeitsauslastung
  2. Praktischer Wert: Bietet Plug-and-Play-Leistungsverbesserungsmethode ohne zusätzliches Training
  3. Inspirationswert: Inspiriert Forscher, Konditionierungsstrategien für neue Modellarchitekturen neu zu überdenken
  4. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails für einfache Reproduktion und Verbesserung durch andere Forscher

Anwendungsszenarien

  1. Strukturierte Generierungsaufgaben: Besonders geeignet für Aufgaben, die spezifische Strukturausgaben erfordern, wie mathematische Problemlösung und Code-Generierung
  2. Multi-Token-Parallelgenerierung: Einzigartige Vorteile in Szenarien, die Inferenzbeschleunigung erfordern
  3. DLM-Anwendungen: Leistungsverbesserungslösung für alle diffusionsbasierten Sprachmodelle
  4. Forschungswerkzeug: Bietet neues experimentelles Paradigma für Forschung von DLM-Fähigkeitsgrenzen

Referenzen

Das Paper zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

  1. Diffusions-Modell-Grundlagen: Ho et al. (2020) - Denoising Diffusion Probabilistic Models
  2. DLM-Entwicklung: Austin et al. (2021) - D3PM, Lou et al. (2023) - SEDD, Nie et al. (2025) - LLaDA
  3. Sprachmodell-Prompting: Brown et al. (2020) - GPT-3, Wei et al. (2022) - Chain-of-Thought
  4. Bewertungs-Benchmarks: Cobbe et al. (2021) - GSM8K, Chen et al. (2021) - HumanEval

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Konditionierungsmethode für Diffusions-Sprachmodelle vorschlägt. Obwohl es gewisse Limitierungen in Bewertungsumfang und theoretischer Analyse gibt, ist die Kernidee neuartig, die experimentellen Ergebnisse überzeugend, und die Arbeit leistet wertvollen Beitrag zur Forschung und Anwendung von DLMs. Diese Arbeit wird voraussichtlich die Entwicklung von Diffusions-Sprachmodellen von reiner Effizienzoptimierung zu vollständiger Fähigkeitsauslastung vorantreiben.