Unlocking the Potential of Diffusion Language Models through Template Infilling
Lee, Kim, Kwak
Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.
academic
Erschließung des Potenzials von Diffusions-Sprachmodellen durch Template-Infilling
Diffusions-Sprachmodelle (DLMs) erscheinen als vielversprechende Alternative zu autoregressiven Sprachmodellen, doch ihre Inferenzstrategien sind auf präfixbasierte Prompting-Methoden beschränkt, die vom autoregressiven Paradigma geerbt wurden. Dieses Paper stellt Template Infilling (TI) vor, eine maßgeschneiderte Konditionierungsmethode für den Generierungsprozess von DLMs. Im Gegensatz zum traditionellen Präfix-Prompting generiert TI zunächst ein Strukturtemplate für die Zielantwort und füllt dann maskierte Segmente. Um die Flexibilität dieser Strukturkontrolle zu verbessern, führen die Autoren Dynamic Segment Allocation (DSA) ein, die Segmentlängen adaptiv basierend auf Generierungsvertrauen anpasst. Bei mathematischen Reasoning- und Code-Generierungs-Benchmarks erreichte die Methode eine Konsistenzverbesserung von 17,01% gegenüber der Baseline. Darüber hinaus bietet TI zusätzliche Vorteile in Multi-Token-Generierungseinstellungen und ermöglicht effektive Beschleunigung bei Beibehaltung der Generierungsqualität.
Diffusions-Sprachmodelle (DLMs) generieren Text durch iterative Entrauschungsprozesse, was sich grundlegend vom Links-nach-Rechts-Generierungsparadigma autoregressiver Sprachmodelle (ALMs) unterscheidet. DLMs ermöglichen Konditionierung auf beliebige Positionsmengen mit bidirektionalen Kontextmodellierungsfähigkeiten.
Begrenzte Inferenzstrategien: Bestehende DLM-Forschung folgt hauptsächlich präfixbasierten Prompting-Methoden, die von autoregressiven Modellen geerbt wurden
Unzureichend genutzte Fähigkeiten: Die meisten Arbeiten konzentrieren sich nur auf die Nutzung der Multi-Token-Parallelgenerierungsfähigkeit von DLMs zur Reduzierung von Inferenzkosten
Nicht übereinstimmende Konditionierungsstrategien: Mangel an Konditionierungsmethoden, die speziell für die bidirektionalen Generierungsfähigkeiten von DLMs konzipiert sind
Die bidirektionalen Konditionierungsgenerierungsfähigkeiten von DLMs bieten neue Möglichkeiten für die Textgenerierung, doch bestehende Bewertungs- und Anwendungsmethoden nutzen diesen Vorteil nicht vollständig aus. Die Autoren argumentieren, dass neue Konditionierungsmethoden erforderlich sind, die speziell für die Eigenschaften von DLMs konzipiert sind.
Vorschlag des Template Infilling (TI)-Frameworks: Eine Konditionierungsgenerierungsmethode, die speziell die bidirektionalen Generierungsfähigkeiten von DLMs nutzt
Entwurf des Dynamic Segment Allocation (DSA)-Algorithmus: Ein Mechanismus zur adaptiven Anpassung der Segmentlänge basierend auf Vertrauen
Experimentelle Validierung der Wirksamkeit: Durchschnittliche Leistungsverbesserung von 17,01% bei mathematischen Reasoning- und Code-Generierungsaufgaben
Multi-Token-Generierungsvorteil: Nachweis, dass TI bei paralleler Generierung mehrerer Tokens die Leistungsstabilität bewahrt
Etablierung eines neuen Paradigmas: Eröffnet neue Forschungsrichtungen für das Design von Konditionierungsstrategien für DLMs
Unter Verwendung der bidirektionalen Konditionierungsgenerierungsfähigkeiten von DLMs, gegeben ein Eingabekontext, durch strukturierte Templates den Generierungsprozess leiten, um hochwertige Zielantworten zu produzieren.
TI verallgemeinert die traditionelle Präfixkonditionierung zu Template-Infilling. Zunächst wird ein Template τ konstruiert, das das Strukturgerüst der Zielantwort angibt:
Um die Limitierungen fester Template-Positionen zu adressieren, passt DSA Segmentlängen dynamisch basierend auf Vertrauen an.
Vertrauensdefinition:
ci = max p(xi = v|xO, xM\{i})
v∈V
Segmenterweiterungsmechanismus:
Wenn das durchschnittliche Vertrauen des Segments Mi unter Schwellenwert τ fällt, wird durch Einfügen zusätzlicher maskierter Tokens erweitert:
Schlüsselfunde: Die Baseline-Methode zeigt dramatischen Leistungsabfall bei Multi-Token-Generierung, während TI relative Stabilität bewahrt und die Vorteile strukturierter Führung demonstriert.
Trainingsparadigma-Limitierungen: Bestehende Instruction-Tuning-Modelle basieren weiterhin auf traditionellem Prompting-Reasoning-Paradigma, nicht optimiert für TI
Hohe Innovativität: Erste spezialisierte Konditionierungsmethode für die bidirektionalen Generierungseigenschaften von DLMs, überwindet Limitierungen traditionellen Präfix-Prompting
Rationale Methodik: TI- und DSA-Design nutzen vollständig die Architekturvorteil von DLMs mit solider theoretischer Grundlage
Umfassende Experimente: Validierung der Methodenwirksamkeit durch mehrere Vergleichsexperimente und Ablationsstudien
Praktischer Wert: Stabilität in Multi-Token-Generierungsszenarien bietet Wert für praktische Anwendungen
Klare Darstellung: Klare Papierstruktur, detaillierte Methodenbeschreibung, leicht verständlich und reproduzierbar
Strukturierte Generierungsaufgaben: Besonders geeignet für Aufgaben, die spezifische Strukturausgaben erfordern, wie mathematische Problemlösung und Code-Generierung
Multi-Token-Parallelgenerierung: Einzigartige Vorteile in Szenarien, die Inferenzbeschleunigung erfordern
DLM-Anwendungen: Leistungsverbesserungslösung für alle diffusionsbasierten Sprachmodelle
Forschungswerkzeug: Bietet neues experimentelles Paradigma für Forschung von DLM-Fähigkeitsgrenzen
Das Paper zitiert mehrere wichtige verwandte Arbeiten, einschließlich:
Diffusions-Modell-Grundlagen: Ho et al. (2020) - Denoising Diffusion Probabilistic Models
DLM-Entwicklung: Austin et al. (2021) - D3PM, Lou et al. (2023) - SEDD, Nie et al. (2025) - LLaDA
Sprachmodell-Prompting: Brown et al. (2020) - GPT-3, Wei et al. (2022) - Chain-of-Thought
Bewertungs-Benchmarks: Cobbe et al. (2021) - GSM8K, Chen et al. (2021) - HumanEval
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine innovative Konditionierungsmethode für Diffusions-Sprachmodelle vorschlägt. Obwohl es gewisse Limitierungen in Bewertungsumfang und theoretischer Analyse gibt, ist die Kernidee neuartig, die experimentellen Ergebnisse überzeugend, und die Arbeit leistet wertvollen Beitrag zur Forschung und Anwendung von DLMs. Diese Arbeit wird voraussichtlich die Entwicklung von Diffusions-Sprachmodellen von reiner Effizienzoptimierung zu vollständiger Fähigkeitsauslastung vorantreiben.