Unlocking the Potential of Diffusion Language Models through Template Infilling
Lee, Kim, Kwak
Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.
academic
Déverrouiller le Potentiel des Modèles de Langage par Diffusion grâce au Remplissage de Modèles
Les modèles de langage par diffusion (DLMs) émergent comme une alternative prometteuse aux modèles de langage autorégressifs, mais leurs stratégies d'inférence restent limitées aux invites basées sur les préfixes héritées du paradigme autorégressif. Cet article propose le remplissage de modèles (TI), une méthode de conditionnement personnalisée pour le processus de génération des DLMs. Contrairement aux invites de préfixe traditionnelles, TI génère d'abord un modèle structurel pour la réponse cible, puis remplit les segments masqués. Pour améliorer la flexibilité de ce contrôle structurel, les auteurs introduisent l'allocation dynamique de segments (DSA), qui ajuste adaptivement les longueurs de segments en fonction de la confiance de génération. Sur les benchmarks de raisonnement mathématique et de génération de code, la méthode obtient une amélioration de cohérence de 17,01% par rapport aux méthodes de base. De plus, TI offre des avantages supplémentaires dans les paramètres de génération multi-jetons, réalisant une accélération efficace tout en maintenant la qualité de génération.
Les modèles de langage par diffusion (DLMs) génèrent du texte par un processus de débruitage itératif, fondamentalement différent du paradigme de génération de gauche à droite des modèles de langage autorégressifs (ALMs). Les DLMs peuvent effectuer une génération conditionnelle sur des ensembles arbitraires de positions, avec une capacité de modélisation de contexte bidirectionnelle.
Stratégies d'inférence limitées: La recherche existante sur les DLMs adopte principalement des méthodes d'invites basées sur les préfixes héritées des modèles autorégressifs
Capacités sous-exploitées: La plupart des recherches se concentrent uniquement sur l'exploitation de la capacité de génération parallèle multi-jetons des DLMs pour réduire les coûts d'inférence
Stratégies de conditionnement inadéquates: Absence de méthodes de conditionnement conçues spécifiquement pour les capacités de génération bidirectionnelle des DLMs
La capacité de génération conditionnelle bidirectionnelle des DLMs offre de nouvelles possibilités pour la génération de texte, mais les méthodes d'évaluation et d'application existantes n'exploitent pas pleinement cet avantage. Les auteurs estiment qu'il est nécessaire de concevoir de nouvelles méthodes de conditionnement spécialement adaptées aux caractéristiques des DLMs.
Proposition du cadre Template Infilling (TI): Une méthode de génération conditionnelle qui exploite spécifiquement les capacités de génération bidirectionnelle des DLMs
Conception de l'algorithme Dynamic Segment Allocation (DSA): Un mécanisme d'ajustement adaptatif de la longueur des segments basé sur la confiance
Vérification expérimentale de l'efficacité: Amélioration moyenne de 17,01% des performances sur les tâches de raisonnement mathématique et de génération de code
Avantages de la génération multi-jetons: Démonstration que TI maintient la stabilité des performances lors de la génération parallèle de plusieurs jetons
Établissement d'un nouveau paradigme: Ouverture d'une nouvelle direction de recherche pour la conception de stratégies de conditionnement des DLMs
Étant donné un contexte d'entrée, exploiter la capacité de génération conditionnelle bidirectionnelle des DLMs, en guidant le processus de génération par un modèle structuré, pour produire une réponse cible de haute qualité.
TI généralise le conditionnement de préfixe traditionnel en remplissage de modèles. Il construit d'abord un modèle τ spécifiant le squelette structurel de la réponse cible:
τ = [t1, M1, t2, M2, ..., tk, Mk]
où:
ti: points d'ancrage du modèle (éléments structurels prédéfinis)
Pour résoudre les limitations des positions de modèles fixes, DSA ajuste dynamiquement les longueurs de segments en fonction de la confiance.
Définition de la confiance:
ci = max p(xi = v|xO, xM\{i})
v∈V
Mécanisme d'extension de segment:
Lorsque la confiance moyenne du segment Mi est inférieure au seuil τ, l'extension s'effectue par insertion de jetons masqués supplémentaires:
Génération conditionnelle structurée: Fourniture d'a priori structurels explicites par des points d'ancrage de modèles, plutôt qu'un guidage implicite par préfixe
Cohérence globale: Exploitation de la capacité des DLMs à considérer simultanément tous les segments pour générer des réponses globalement cohérentes
Ajustement adaptatif de la longueur: Mécanisme d'allocation dynamique basé sur la confiance, résolvant les limitations de longueur fixe
Exploitation du contexte bidirectionnel: Exploitation complète des avantages architecturaux de la modélisation bidirectionnelle des DLMs
Découverte clé: La méthode de base voit ses performances chuter drastiquement avec la génération multi-jetons, tandis que TI maintient une stabilité relative, démontrant les avantages du guidage structuré.
Travaux précoces: D3PM établit les fondations de la diffusion discrète, SEDD améliore la modélisation par entropie de score
Recherche à grande échelle: LLaDA démontre l'évolutivité des DLMs à l'échelle 8B
Optimisation de l'efficacité: La recherche existante se concentre principalement sur la réduction des coûts de calcul par mécanismes de cache et génération multi-jetons
Template Infilling exploite avec succès les capacités de génération bidirectionnelle des DLMs, réalisant une amélioration significative des performances
Dynamic Segment Allocation fournit un mécanisme de contrôle structurel flexible
TI démontre des avantages uniques dans les scénarios de génération parallèle multi-jetons
Cette méthode ouvre une nouvelle direction de recherche pour les applications des DLMs
Limitations du paradigme d'entraînement: Les modèles d'ajustement d'instructions existants sont toujours entraînés selon le paradigme traditionnel d'invites-raisonnement, sans optimisation pour TI
Dépendance à la conception du modèle: Nécessite une conception manuelle de structures de modèles appropriées
Portée d'évaluation: Vérification uniquement sur les tâches de raisonnement mathématique et génération de code, nécessitant une évaluation plus large
Intégration d'entraînement: Intégrer TI dans le processus d'ajustement d'instructions, optimisant les capacités de conditionnement de modèles dès la phase d'entraînement
Génération automatique de modèles: Recherche de méthodes pour générer automatiquement des modèles spécifiques aux tâches
Vérification sur plus de tâches: Vérification de l'efficacité de TI sur un plus large éventail de tâches de traitement du langage naturel
Innovation forte: Première conception d'une méthode de conditionnement spécialisée pour les caractéristiques de génération bidirectionnelle des DLMs, dépassant les limitations des invites traditionnelles par préfixe
Méthode rationnelle: La conception de TI et DSA exploite pleinement les avantages architecturaux des DLMs, avec des fondations théoriques solides
Expérimentation complète: Vérification de l'efficacité de la méthode par plusieurs expériences comparatives et études d'ablation
Valeur pratique: La stabilité dans les scénarios de génération multi-jetons offre une valeur pour les applications réelles
Rédaction claire: Structure de l'article claire, description détaillée de la méthode, facile à comprendre et reproduire
Contribution académique: Ouvre une nouvelle direction pour la recherche sur les DLMs, passant de l'optimisation de l'efficacité à l'exploitation complète des capacités
Valeur pratique: Fournit une méthode d'amélioration des performances prête à l'emploi, sans entraînement supplémentaire
Valeur inspirante: Inspire les chercheurs à repenser la conception de stratégies de conditionnement adaptées aux nouvelles architectures de modèles
Reproductibilité: Fournit des détails d'implémentation détaillés, facilitant la reproduction et l'amélioration par d'autres chercheurs
Tâches de génération structurée: Particulièrement adaptée aux tâches nécessitant des sorties avec structure spécifique, comme la résolution de problèmes mathématiques et la génération de code
Génération parallèle multi-jetons: Avantages uniques dans les scénarios nécessitant une accélération de l'inférence
Applications des DLMs: Fournit une solution d'amélioration des performances pour tous les modèles de langage basés sur la diffusion
Outil de recherche: Fournit un nouveau paradigme expérimental pour la recherche sur les limites des capacités des DLMs
L'article cite plusieurs travaux connexes importants, notamment:
Fondations des modèles de diffusion: Ho et al. (2020) - Modèles de probabilité de diffusion avec débruitage
Développement des DLMs: Austin et al. (2021) - D3PM, Lou et al. (2023) - SEDD, Nie et al. (2025) - LLaDA
Invites pour modèles de langage: Brown et al. (2020) - GPT-3, Wei et al. (2022) - Chain-of-Thought
Benchmarks d'évaluation: Cobbe et al. (2021) - GSM8K, Chen et al. (2021) - HumanEval
Évaluation Globale: Cet article est une recherche de haute qualité proposant une méthode de conditionnement innovante pour les modèles de langage par diffusion. Bien qu'il présente certaines limitations en termes de portée d'évaluation et d'analyse théorique, son idée centrale est novatrice, ses résultats expérimentaux convaincants, et il fournit une contribution précieuse à la recherche et aux applications des DLMs. Ce travail devrait promouvoir le développement des modèles de langage par diffusion, passant de la simple optimisation de l'efficacité à l'exploitation complète des capacités.