2025-11-13T00:28:10.748028

Unlocking the Potential of Diffusion Language Models through Template Infilling

Lee, Kim, Kwak
Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.
academic

Déverrouiller le Potentiel des Modèles de Langage par Diffusion grâce au Remplissage de Modèles

Informations Fondamentales

  • ID de l'article: 2510.13870
  • Titre: Unlocking the Potential of Diffusion Language Models through Template Infilling
  • Auteurs: Junhoo Lee (Université Nationale de Séoul), Seungyeon Kim (Université Sungkyunkwan), Nojun Kwak (Université Nationale de Séoul)
  • Classification: cs.CL cs.AI
  • Date de publication: 13 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.13870

Résumé

Les modèles de langage par diffusion (DLMs) émergent comme une alternative prometteuse aux modèles de langage autorégressifs, mais leurs stratégies d'inférence restent limitées aux invites basées sur les préfixes héritées du paradigme autorégressif. Cet article propose le remplissage de modèles (TI), une méthode de conditionnement personnalisée pour le processus de génération des DLMs. Contrairement aux invites de préfixe traditionnelles, TI génère d'abord un modèle structurel pour la réponse cible, puis remplit les segments masqués. Pour améliorer la flexibilité de ce contrôle structurel, les auteurs introduisent l'allocation dynamique de segments (DSA), qui ajuste adaptivement les longueurs de segments en fonction de la confiance de génération. Sur les benchmarks de raisonnement mathématique et de génération de code, la méthode obtient une amélioration de cohérence de 17,01% par rapport aux méthodes de base. De plus, TI offre des avantages supplémentaires dans les paramètres de génération multi-jetons, réalisant une accélération efficace tout en maintenant la qualité de génération.

Contexte de Recherche et Motivation

Définition du Problème

Les modèles de langage par diffusion (DLMs) génèrent du texte par un processus de débruitage itératif, fondamentalement différent du paradigme de génération de gauche à droite des modèles de langage autorégressifs (ALMs). Les DLMs peuvent effectuer une génération conditionnelle sur des ensembles arbitraires de positions, avec une capacité de modélisation de contexte bidirectionnelle.

Limitations des Approches Existantes

  1. Stratégies d'inférence limitées: La recherche existante sur les DLMs adopte principalement des méthodes d'invites basées sur les préfixes héritées des modèles autorégressifs
  2. Capacités sous-exploitées: La plupart des recherches se concentrent uniquement sur l'exploitation de la capacité de génération parallèle multi-jetons des DLMs pour réduire les coûts d'inférence
  3. Stratégies de conditionnement inadéquates: Absence de méthodes de conditionnement conçues spécifiquement pour les capacités de génération bidirectionnelle des DLMs

Motivation de la Recherche

La capacité de génération conditionnelle bidirectionnelle des DLMs offre de nouvelles possibilités pour la génération de texte, mais les méthodes d'évaluation et d'application existantes n'exploitent pas pleinement cet avantage. Les auteurs estiment qu'il est nécessaire de concevoir de nouvelles méthodes de conditionnement spécialement adaptées aux caractéristiques des DLMs.

Contributions Principales

  1. Proposition du cadre Template Infilling (TI): Une méthode de génération conditionnelle qui exploite spécifiquement les capacités de génération bidirectionnelle des DLMs
  2. Conception de l'algorithme Dynamic Segment Allocation (DSA): Un mécanisme d'ajustement adaptatif de la longueur des segments basé sur la confiance
  3. Vérification expérimentale de l'efficacité: Amélioration moyenne de 17,01% des performances sur les tâches de raisonnement mathématique et de génération de code
  4. Avantages de la génération multi-jetons: Démonstration que TI maintient la stabilité des performances lors de la génération parallèle de plusieurs jetons
  5. Établissement d'un nouveau paradigme: Ouverture d'une nouvelle direction de recherche pour la conception de stratégies de conditionnement des DLMs

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un contexte d'entrée, exploiter la capacité de génération conditionnelle bidirectionnelle des DLMs, en guidant le processus de génération par un modèle structuré, pour produire une réponse cible de haute qualité.

Architecture du Modèle

3.1 Théorie Fondamentale

Modèle de langage autorégressif:

p(xt|x<t) = p(xt|x1, ..., xt-1)

Modèle de langage par diffusion:

p(x(t-1)|x(t))

où la caractéristique clé des DLMs est la capacité à effectuer une génération conditionnelle sur des ensembles arbitraires de positions:

p(xM|xO)

où O représente les positions observées, M les positions masquées, et O∩M = ∅, O∪M = {1,...,N}

3.2 Template Infilling (TI)

TI généralise le conditionnement de préfixe traditionnel en remplissage de modèles. Il construit d'abord un modèle τ spécifiant le squelette structurel de la réponse cible:

τ = [t1, M1, t2, M2, ..., tk, Mk]

où:

  • ti: points d'ancrage du modèle (éléments structurels prédéfinis)
  • Mi: segments masqués à remplir

3.3 Allocation Dynamique de Segments (DSA)

Pour résoudre les limitations des positions de modèles fixes, DSA ajuste dynamiquement les longueurs de segments en fonction de la confiance.

Définition de la confiance:

ci = max p(xi = v|xO, xM\{i})
    v∈V

Mécanisme d'extension de segment: Lorsque la confiance moyenne du segment Mi est inférieure au seuil τ, l'extension s'effectue par insertion de jetons masqués supplémentaires:

M(k+1)_i = M(k)_i ∪ |Δ|

Points d'Innovation Technique

  1. Génération conditionnelle structurée: Fourniture d'a priori structurels explicites par des points d'ancrage de modèles, plutôt qu'un guidage implicite par préfixe
  2. Cohérence globale: Exploitation de la capacité des DLMs à considérer simultanément tous les segments pour générer des réponses globalement cohérentes
  3. Ajustement adaptatif de la longueur: Mécanisme d'allocation dynamique basé sur la confiance, résolvant les limitations de longueur fixe
  4. Exploitation du contexte bidirectionnel: Exploitation complète des avantages architecturaux de la modélisation bidirectionnelle des DLMs

Configuration Expérimentale

Ensembles de Données

  • Raisonnement mathématique: GSM8K - ensemble de données de problèmes mathématiques élémentaires
  • Génération de code: HumanEval - ensemble de données d'évaluation de la capacité de synthèse de programmes

Métriques d'Évaluation

  • GSM8K: Précision (Accuracy)
  • HumanEval: Métrique pass@1 (exactitude en une seule tentative)

Méthodes de Comparaison

  • Fixed-Length Denoising: Méthodes de base avec différentes longueurs fixes (64, 128, 256, 512)
  • Prefix-based Template: Méthode traditionnelle d'invites par préfixe

Détails d'Implémentation

  • Modèle de base: LLaDA (Nie et al., 2025)
  • Matériel: Un seul GPU NVIDIA RTX Pro 6000
  • Seuil de confiance: 0,1
  • Configuration d'évaluation: Apprentissage sans exemples, utilisant Language Model Evaluation Harness
  • Mode de génération: Mise à jour entièrement parallèle (sans génération par blocs)

Résultats Expérimentaux

Résultats Principaux

MéthodeGSM8KHumanEvalMoyenne
Baseline (128)48,7511,5930,17
TI56,5618,2937,43
TI+DSA72,1022,5047,30

Découvertes principales:

  • TI améliore la baseline de 17,01% en moyenne
  • TI+DSA améliore davantage, atteignant les meilleures performances
  • Améliorations cohérentes sur différents types de tâches

Études d'Ablation

Comparaison Invites par Préfixe vs Remplissage de Modèles

MéthodeGSM8KHumanEvalMoyenne
Invites par modèle de préfixe51,255,4928,37
TI56,5618,2937,26

TI améliore la méthode par préfixe de 8,89% en moyenne, démontrant les avantages du conditionnement structuré.

Analyse de Génération Multi-Jetons

Méthode1 jeton2 jetons4 jetons8 jetons16 jetons
Baseline48,7547,8444,7335,4818,50
TI56,5655,5053,9052,6948,60

Découverte clé: La méthode de base voit ses performances chuter drastiquement avec la génération multi-jetons, tandis que TI maintient une stabilité relative, démontrant les avantages du guidage structuré.

Découvertes Expérimentales

  1. Indépendance par rapport aux tâches: TI obtient des améliorations dans deux domaines différents: raisonnement mathématique et génération de code
  2. Avantages de la structuration: Le remplissage de modèles surpasse clairement les invites traditionnelles par préfixe
  3. Stabilité de la génération parallèle: TI maintient une stabilité relative des performances lors de la génération parallèle multi-jetons
  4. Efficacité du guidage par confiance: Le mécanisme adaptatif de DSA améliore davantage les performances

Travaux Connexes

Développement des Modèles de Langage par Diffusion

  • Travaux précoces: D3PM établit les fondations de la diffusion discrète, SEDD améliore la modélisation par entropie de score
  • Recherche à grande échelle: LLaDA démontre l'évolutivité des DLMs à l'échelle 8B
  • Optimisation de l'efficacité: La recherche existante se concentre principalement sur la réduction des coûts de calcul par mécanismes de cache et génération multi-jetons

Techniques d'Invites pour Modèles de Langage

  • Modèles autorégressifs: Apprentissage peu supervisé de GPT-3, guidage du raisonnement par Chain-of-Thought
  • Méthodes de remplissage: Les techniques de remplissage existantes restent limitées par les contraintes d'unidirectionnalité
  • Contribution de cet article: Première conception d'une stratégie de conditionnement bidirectionnelle spécialisée pour les DLMs

Conclusion et Discussion

Conclusions Principales

  1. Template Infilling exploite avec succès les capacités de génération bidirectionnelle des DLMs, réalisant une amélioration significative des performances
  2. Dynamic Segment Allocation fournit un mécanisme de contrôle structurel flexible
  3. TI démontre des avantages uniques dans les scénarios de génération parallèle multi-jetons
  4. Cette méthode ouvre une nouvelle direction de recherche pour les applications des DLMs

Limitations

  1. Limitations du paradigme d'entraînement: Les modèles d'ajustement d'instructions existants sont toujours entraînés selon le paradigme traditionnel d'invites-raisonnement, sans optimisation pour TI
  2. Dépendance à la conception du modèle: Nécessite une conception manuelle de structures de modèles appropriées
  3. Portée d'évaluation: Vérification uniquement sur les tâches de raisonnement mathématique et génération de code, nécessitant une évaluation plus large

Directions Futures

  1. Intégration d'entraînement: Intégrer TI dans le processus d'ajustement d'instructions, optimisant les capacités de conditionnement de modèles dès la phase d'entraînement
  2. Génération automatique de modèles: Recherche de méthodes pour générer automatiquement des modèles spécifiques aux tâches
  3. Vérification sur plus de tâches: Vérification de l'efficacité de TI sur un plus large éventail de tâches de traitement du langage naturel

Évaluation Approfondie

Points Forts

  1. Innovation forte: Première conception d'une méthode de conditionnement spécialisée pour les caractéristiques de génération bidirectionnelle des DLMs, dépassant les limitations des invites traditionnelles par préfixe
  2. Méthode rationnelle: La conception de TI et DSA exploite pleinement les avantages architecturaux des DLMs, avec des fondations théoriques solides
  3. Expérimentation complète: Vérification de l'efficacité de la méthode par plusieurs expériences comparatives et études d'ablation
  4. Valeur pratique: La stabilité dans les scénarios de génération multi-jetons offre une valeur pour les applications réelles
  5. Rédaction claire: Structure de l'article claire, description détaillée de la méthode, facile à comprendre et reproduire

Insuffisances

  1. Portée d'évaluation limitée: Vérification uniquement sur deux types de tâches, manque d'évaluation plus large
  2. Dépendance au modèle: Nécessite une conception manuelle de structures de modèles, pouvant limiter la généralité de la méthode
  3. Analyse théorique insuffisante: Manque d'analyse théorique approfondie sur les raisons pour lesquelles TI améliore les performances
  4. Analyse des coûts de calcul: Pas d'analyse détaillée des frais de calcul de TI par rapport à la méthode de base
  5. Signification statistique: Absence de rapports sur les tests de signification statistique

Impact

  1. Contribution académique: Ouvre une nouvelle direction pour la recherche sur les DLMs, passant de l'optimisation de l'efficacité à l'exploitation complète des capacités
  2. Valeur pratique: Fournit une méthode d'amélioration des performances prête à l'emploi, sans entraînement supplémentaire
  3. Valeur inspirante: Inspire les chercheurs à repenser la conception de stratégies de conditionnement adaptées aux nouvelles architectures de modèles
  4. Reproductibilité: Fournit des détails d'implémentation détaillés, facilitant la reproduction et l'amélioration par d'autres chercheurs

Scénarios d'Application

  1. Tâches de génération structurée: Particulièrement adaptée aux tâches nécessitant des sorties avec structure spécifique, comme la résolution de problèmes mathématiques et la génération de code
  2. Génération parallèle multi-jetons: Avantages uniques dans les scénarios nécessitant une accélération de l'inférence
  3. Applications des DLMs: Fournit une solution d'amélioration des performances pour tous les modèles de langage basés sur la diffusion
  4. Outil de recherche: Fournit un nouveau paradigme expérimental pour la recherche sur les limites des capacités des DLMs

Références

L'article cite plusieurs travaux connexes importants, notamment:

  1. Fondations des modèles de diffusion: Ho et al. (2020) - Modèles de probabilité de diffusion avec débruitage
  2. Développement des DLMs: Austin et al. (2021) - D3PM, Lou et al. (2023) - SEDD, Nie et al. (2025) - LLaDA
  3. Invites pour modèles de langage: Brown et al. (2020) - GPT-3, Wei et al. (2022) - Chain-of-Thought
  4. Benchmarks d'évaluation: Cobbe et al. (2021) - GSM8K, Chen et al. (2021) - HumanEval

Évaluation Globale: Cet article est une recherche de haute qualité proposant une méthode de conditionnement innovante pour les modèles de langage par diffusion. Bien qu'il présente certaines limitations en termes de portée d'évaluation et d'analyse théorique, son idée centrale est novatrice, ses résultats expérimentaux convaincants, et il fournit une contribution précieuse à la recherche et aux applications des DLMs. Ce travail devrait promouvoir le développement des modèles de langage par diffusion, passant de la simple optimisation de l'efficacité à l'exploitation complète des capacités.