2025-11-13T00:28:10.748028

Unlocking the Potential of Diffusion Language Models through Template Infilling

Lee, Kim, Kwak

Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.

academic

Déverrouiller le Potentiel des Modèles de Langage par Diffusion grâce au Remplissage de Modèles

Informations Fondamentales

ID de l'article: 2510.13870
Titre: Unlocking the Potential of Diffusion Language Models through Template Infilling
Auteurs: Junhoo Lee (Université Nationale de Séoul), Seungyeon Kim (Université Sungkyunkwan), Nojun Kwak (Université Nationale de Séoul)
Classification: cs.CL cs.AI
Date de publication: 13 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.13870

Résumé

Les modèles de langage par diffusion (DLMs) émergent comme une alternative prometteuse aux modèles de langage autorégressifs, mais leurs stratégies d'inférence restent limitées aux invites basées sur les préfixes héritées du paradigme autorégressif. Cet article propose le remplissage de modèles (TI), une méthode de conditionnement personnalisée pour le processus de génération des DLMs. Contrairement aux invites de préfixe traditionnelles, TI génère d'abord un modèle structurel pour la réponse cible, puis remplit les segments masqués. Pour améliorer la flexibilité de ce contrôle structurel, les auteurs introduisent l'allocation dynamique de segments (DSA), qui ajuste adaptivement les longueurs de segments en fonction de la confiance de génération. Sur les benchmarks de raisonnement mathématique et de génération de code, la méthode obtient une amélioration de cohérence de 17,01% par rapport aux méthodes de base. De plus, TI offre des avantages supplémentaires dans les paramètres de génération multi-jetons, réalisant une accélération efficace tout en maintenant la qualité de génération.

Contexte de Recherche et Motivation

Définition du Problème

Les modèles de langage par diffusion (DLMs) génèrent du texte par un processus de débruitage itératif, fondamentalement différent du paradigme de génération de gauche à droite des modèles de langage autorégressifs (ALMs). Les DLMs peuvent effectuer une génération conditionnelle sur des ensembles arbitraires de positions, avec une capacité de modélisation de contexte bidirectionnelle.

Limitations des Approches Existantes

Stratégies d'inférence limitées: La recherche existante sur les DLMs adopte principalement des méthodes d'invites basées sur les préfixes héritées des modèles autorégressifs
Capacités sous-exploitées: La plupart des recherches se concentrent uniquement sur l'exploitation de la capacité de génération parallèle multi-jetons des DLMs pour réduire les coûts d'inférence
Stratégies de conditionnement inadéquates: Absence de méthodes de conditionnement conçues spécifiquement pour les capacités de génération bidirectionnelle des DLMs

Motivation de la Recherche

La capacité de génération conditionnelle bidirectionnelle des DLMs offre de nouvelles possibilités pour la génération de texte, mais les méthodes d'évaluation et d'application existantes n'exploitent pas pleinement cet avantage. Les auteurs estiment qu'il est nécessaire de concevoir de nouvelles méthodes de conditionnement spécialement adaptées aux caractéristiques des DLMs.

Contributions Principales

Proposition du cadre Template Infilling (TI): Une méthode de génération conditionnelle qui exploite spécifiquement les capacités de génération bidirectionnelle des DLMs
Conception de l'algorithme Dynamic Segment Allocation (DSA): Un mécanisme d'ajustement adaptatif de la longueur des segments basé sur la confiance
Vérification expérimentale de l'efficacité: Amélioration moyenne de 17,01% des performances sur les tâches de raisonnement mathématique et de génération de code
Avantages de la génération multi-jetons: Démonstration que TI maintient la stabilité des performances lors de la génération parallèle de plusieurs jetons
Établissement d'un nouveau paradigme: Ouverture d'une nouvelle direction de recherche pour la conception de stratégies de conditionnement des DLMs

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un contexte d'entrée, exploiter la capacité de génération conditionnelle bidirectionnelle des DLMs, en guidant le processus de génération par un modèle structuré, pour produire une réponse cible de haute qualité.

Architecture du Modèle

3.1 Théorie Fondamentale

Modèle de langage autorégressif:

p(xt|x<t) = p(xt|x1, ..., xt-1)

Modèle de langage par diffusion:

p(x(t-1)|x(t))

où la caractéristique clé des DLMs est la capacité à effectuer une génération conditionnelle sur des ensembles arbitraires de positions:

p(xM|xO)

où O représente les positions observées, M les positions masquées, et O∩M = ∅, O∪M = {1,...,N}

3.2 Template Infilling (TI)

TI généralise le conditionnement de préfixe traditionnel en remplissage de modèles. Il construit d'abord un modèle τ spécifiant le squelette structurel de la réponse cible:

τ = [t1, M1, t2, M2, ..., tk, Mk]

où:

ti: points d'ancrage du modèle (éléments structurels prédéfinis)
Mi: segments masqués à remplir

3.3 Allocation Dynamique de Segments (DSA)

Pour résoudre les limitations des positions de modèles fixes, DSA ajuste dynamiquement les longueurs de segments en fonction de la confiance.

Définition de la confiance:

ci = max p(xi = v|xO, xM\{i})
    v∈V

Mécanisme d'extension de segment: Lorsque la confiance moyenne du segment Mi est inférieure au seuil τ, l'extension s'effectue par insertion de jetons masqués supplémentaires:

M(k+1)_i = M(k)_i ∪ |Δ|

Points d'Innovation Technique

Génération conditionnelle structurée: Fourniture d'a priori structurels explicites par des points d'ancrage de modèles, plutôt qu'un guidage implicite par préfixe
Cohérence globale: Exploitation de la capacité des DLMs à considérer simultanément tous les segments pour générer des réponses globalement cohérentes
Ajustement adaptatif de la longueur: Mécanisme d'allocation dynamique basé sur la confiance, résolvant les limitations de longueur fixe
Exploitation du contexte bidirectionnel: Exploitation complète des avantages architecturaux de la modélisation bidirectionnelle des DLMs

Configuration Expérimentale

Ensembles de Données

Raisonnement mathématique: GSM8K - ensemble de données de problèmes mathématiques élémentaires
Génération de code: HumanEval - ensemble de données d'évaluation de la capacité de synthèse de programmes

Métriques d'Évaluation

GSM8K: Précision (Accuracy)
HumanEval: Métrique pass@1 (exactitude en une seule tentative)

Méthodes de Comparaison

Fixed-Length Denoising: Méthodes de base avec différentes longueurs fixes (64, 128, 256, 512)
Prefix-based Template: Méthode traditionnelle d'invites par préfixe

Détails d'Implémentation

Modèle de base: LLaDA (Nie et al., 2025)
Matériel: Un seul GPU NVIDIA RTX Pro 6000
Seuil de confiance: 0,1
Configuration d'évaluation: Apprentissage sans exemples, utilisant Language Model Evaluation Harness
Mode de génération: Mise à jour entièrement parallèle (sans génération par blocs)

Résultats Expérimentaux

Résultats Principaux

Méthode	GSM8K	HumanEval	Moyenne
Baseline (128)	48,75	11,59	30,17
TI	56,56	18,29	37,43
TI+DSA	72,10	22,50	47,30

Découvertes principales:

TI améliore la baseline de 17,01% en moyenne
TI+DSA améliore davantage, atteignant les meilleures performances
Améliorations cohérentes sur différents types de tâches

Études d'Ablation

Comparaison Invites par Préfixe vs Remplissage de Modèles

Méthode	GSM8K	HumanEval	Moyenne
Invites par modèle de préfixe	51,25	5,49	28,37
TI	56,56	18,29	37,26

TI améliore la méthode par préfixe de 8,89% en moyenne, démontrant les avantages du conditionnement structuré.

Analyse de Génération Multi-Jetons

Méthode	1 jeton	2 jetons	4 jetons	8 jetons	16 jetons
Baseline	48,75	47,84	44,73	35,48	18,50
TI	56,56	55,50	53,90	52,69	48,60

Découverte clé: La méthode de base voit ses performances chuter drastiquement avec la génération multi-jetons, tandis que TI maintient une stabilité relative, démontrant les avantages du guidage structuré.

Découvertes Expérimentales

Indépendance par rapport aux tâches: TI obtient des améliorations dans deux domaines différents: raisonnement mathématique et génération de code
Avantages de la structuration: Le remplissage de modèles surpasse clairement les invites traditionnelles par préfixe
Stabilité de la génération parallèle: TI maintient une stabilité relative des performances lors de la génération parallèle multi-jetons
Efficacité du guidage par confiance: Le mécanisme adaptatif de DSA améliore davantage les performances

Travaux Connexes

Développement des Modèles de Langage par Diffusion

Travaux précoces: D3PM établit les fondations de la diffusion discrète, SEDD améliore la modélisation par entropie de score
Recherche à grande échelle: LLaDA démontre l'évolutivité des DLMs à l'échelle 8B
Optimisation de l'efficacité: La recherche existante se concentre principalement sur la réduction des coûts de calcul par mécanismes de cache et génération multi-jetons

Techniques d'Invites pour Modèles de Langage

Modèles autorégressifs: Apprentissage peu supervisé de GPT-3, guidage du raisonnement par Chain-of-Thought
Méthodes de remplissage: Les techniques de remplissage existantes restent limitées par les contraintes d'unidirectionnalité
Contribution de cet article: Première conception d'une stratégie de conditionnement bidirectionnelle spécialisée pour les DLMs

Conclusion et Discussion

Conclusions Principales

Template Infilling exploite avec succès les capacités de génération bidirectionnelle des DLMs, réalisant une amélioration significative des performances
Dynamic Segment Allocation fournit un mécanisme de contrôle structurel flexible
TI démontre des avantages uniques dans les scénarios de génération parallèle multi-jetons
Cette méthode ouvre une nouvelle direction de recherche pour les applications des DLMs

Limitations

Limitations du paradigme d'entraînement: Les modèles d'ajustement d'instructions existants sont toujours entraînés selon le paradigme traditionnel d'invites-raisonnement, sans optimisation pour TI
Dépendance à la conception du modèle: Nécessite une conception manuelle de structures de modèles appropriées
Portée d'évaluation: Vérification uniquement sur les tâches de raisonnement mathématique et génération de code, nécessitant une évaluation plus large

Directions Futures

Intégration d'entraînement: Intégrer TI dans le processus d'ajustement d'instructions, optimisant les capacités de conditionnement de modèles dès la phase d'entraînement
Génération automatique de modèles: Recherche de méthodes pour générer automatiquement des modèles spécifiques aux tâches
Vérification sur plus de tâches: Vérification de l'efficacité de TI sur un plus large éventail de tâches de traitement du langage naturel

Évaluation Approfondie

Points Forts

Innovation forte: Première conception d'une méthode de conditionnement spécialisée pour les caractéristiques de génération bidirectionnelle des DLMs, dépassant les limitations des invites traditionnelles par préfixe
Méthode rationnelle: La conception de TI et DSA exploite pleinement les avantages architecturaux des DLMs, avec des fondations théoriques solides
Expérimentation complète: Vérification de l'efficacité de la méthode par plusieurs expériences comparatives et études d'ablation
Valeur pratique: La stabilité dans les scénarios de génération multi-jetons offre une valeur pour les applications réelles
Rédaction claire: Structure de l'article claire, description détaillée de la méthode, facile à comprendre et reproduire

Insuffisances

Portée d'évaluation limitée: Vérification uniquement sur deux types de tâches, manque d'évaluation plus large
Dépendance au modèle: Nécessite une conception manuelle de structures de modèles, pouvant limiter la généralité de la méthode
Analyse théorique insuffisante: Manque d'analyse théorique approfondie sur les raisons pour lesquelles TI améliore les performances
Analyse des coûts de calcul: Pas d'analyse détaillée des frais de calcul de TI par rapport à la méthode de base
Signification statistique: Absence de rapports sur les tests de signification statistique

Impact

Contribution académique: Ouvre une nouvelle direction pour la recherche sur les DLMs, passant de l'optimisation de l'efficacité à l'exploitation complète des capacités
Valeur pratique: Fournit une méthode d'amélioration des performances prête à l'emploi, sans entraînement supplémentaire
Valeur inspirante: Inspire les chercheurs à repenser la conception de stratégies de conditionnement adaptées aux nouvelles architectures de modèles
Reproductibilité: Fournit des détails d'implémentation détaillés, facilitant la reproduction et l'amélioration par d'autres chercheurs

Scénarios d'Application

Tâches de génération structurée: Particulièrement adaptée aux tâches nécessitant des sorties avec structure spécifique, comme la résolution de problèmes mathématiques et la génération de code
Génération parallèle multi-jetons: Avantages uniques dans les scénarios nécessitant une accélération de l'inférence
Applications des DLMs: Fournit une solution d'amélioration des performances pour tous les modèles de langage basés sur la diffusion
Outil de recherche: Fournit un nouveau paradigme expérimental pour la recherche sur les limites des capacités des DLMs

Références

L'article cite plusieurs travaux connexes importants, notamment:

Fondations des modèles de diffusion: Ho et al. (2020) - Modèles de probabilité de diffusion avec débruitage
Développement des DLMs: Austin et al. (2021) - D3PM, Lou et al. (2023) - SEDD, Nie et al. (2025) - LLaDA
Invites pour modèles de langage: Brown et al. (2020) - GPT-3, Wei et al. (2022) - Chain-of-Thought
Benchmarks d'évaluation: Cobbe et al. (2021) - GSM8K, Chen et al. (2021) - HumanEval

Évaluation Globale: Cet article est une recherche de haute qualité proposant une méthode de conditionnement innovante pour les modèles de langage par diffusion. Bien qu'il présente certaines limitations en termes de portée d'évaluation et d'analyse théorique, son idée centrale est novatrice, ses résultats expérimentaux convaincants, et il fournit une contribution précieuse à la recherche et aux applications des DLMs. Ce travail devrait promouvoir le développement des modèles de langage par diffusion, passant de la simple optimisation de l'efficacité à l'exploitation complète des capacités.