2025-11-13T00:28:10.748028

Unlocking the Potential of Diffusion Language Models through Template Infilling

Lee, Kim, Kwak

Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.

academic

Desbloqueando el Potencial de Modelos de Lenguaje de Difusión a través del Relleno de Plantillas

Información Básica

ID del Artículo: 2510.13870
Título: Unlocking the Potential of Diffusion Language Models through Template Infilling
Autores: Junhoo Lee (Seoul National University), Seungyeon Kim (Sungkyunkwan University), Nojun Kwak (Seoul National University)
Clasificación: cs.CL cs.AI
Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13870

Resumen

Los modelos de lenguaje de difusión (DLMs) han surgido como una alternativa prometedora a los modelos de lenguaje autorregresivos, pero sus estrategias de inferencia siguen limitadas a indicaciones basadas en prefijos heredadas del paradigma autorregresivo. Este artículo propone el relleno de plantillas (TI), un método de condicionamiento personalizado para el proceso generativo de DLMs. A diferencia de las indicaciones de prefijo tradicionales, TI genera primero una plantilla estructural para la respuesta objetivo y luego rellena los segmentos enmascarados. Para mejorar la flexibilidad del control estructural, los autores introducen la asignación dinámica de segmentos (DSA), que ajusta adaptativamente la longitud de los segmentos basándose en la confianza generativa. En puntos de referencia de razonamiento matemático y generación de código, el método logra una mejora de consistencia del 17.01% en comparación con las líneas base. Además, TI proporciona ventajas adicionales en configuraciones de generación de múltiples tokens, logrando aceleración efectiva mientras se mantiene la calidad de generación.

Antecedentes de Investigación y Motivación

Definición del Problema

Los modelos de lenguaje de difusión (DLMs) generan texto mediante un proceso iterativo de desruido, fundamentalmente diferente del paradigma generativo de izquierda a derecha de los modelos de lenguaje autorregresivos (ALMs). Los DLMs pueden realizar generación condicionada en conjuntos arbitrarios de posiciones, con capacidad de modelado de contexto bidireccional.

Limitaciones de Métodos Existentes

Estrategias de Inferencia Limitadas: La investigación existente en DLMs adopta principalmente métodos de indicación basados en prefijos heredados de modelos autorregresivos
Capacidades Subutilizadas: La mayoría de investigaciones se centran únicamente en aprovechar la capacidad de generación paralela de múltiples tokens de DLMs para reducir costos de inferencia
Estrategias de Condicionamiento Desajustadas: Falta de métodos de condicionamiento diseñados específicamente para las capacidades generativas bidireccionales de DLMs

Motivación de la Investigación

La capacidad de generación condicionada bidireccional de DLMs ofrece nuevas posibilidades para la generación de texto, pero los métodos de evaluación y aplicación existentes no aprovechan plenamente esta ventaja. Los autores argumentan que es necesario diseñar nuevos métodos de condicionamiento especializados para las características de DLMs.

Contribuciones Principales

Propuesta del Marco Template Infilling (TI): Un método de generación condicionada que aprovecha específicamente las capacidades generativas bidireccionales de DLMs
Diseño del Algoritmo Dynamic Segment Allocation (DSA): Mecanismo de ajuste adaptativo de longitud de segmentos basado en confianza
Validación Experimental de Efectividad: Mejora promedio del 17.01% en tareas de razonamiento matemático y generación de código
Ventajas en Generación de Múltiples Tokens: Demostración de que TI mantiene estabilidad de rendimiento durante la generación paralela de múltiples tokens
Establecimiento de Nuevo Paradigma: Abre nuevas direcciones de investigación para el diseño de estrategias de condicionamiento en DLMs

Explicación Detallada del Método

Definición de la Tarea

Dado un contexto de entrada, se aprovechan las capacidades de generación condicionada bidireccional de DLMs, mediante una plantilla estructurada que guía el proceso generativo, para producir respuestas objetivo de alta calidad.

Arquitectura del Modelo

3.1 Teoría Fundamental

Modelo de Lenguaje Autorregresivo:

p(xt|x<t) = p(xt|x1, ..., xt-1)

Modelo de Lenguaje de Difusión:

p(x(t-1)|x(t))

donde la característica clave de DLMs es la capacidad de realizar generación condicionada en conjuntos arbitrarios de posiciones:

p(xM|xO)

donde O es el conjunto de posiciones observadas, M es el conjunto de posiciones enmascaradas, y O∩M = ∅, O∪M = {1,...,N}

3.2 Template Infilling (TI)

TI generaliza el condicionamiento de prefijo tradicional hacia relleno de plantillas. Primero construye una plantilla τ que especifica el esqueleto estructural de la respuesta objetivo:

τ = [t1, M1, t2, M2, ..., tk, Mk]

donde:

ti: puntos de anclaje de plantilla (elementos estructurales predefinidos)
Mi: segmentos enmascarados a rellenar

3.3 Dynamic Segment Allocation (DSA)

Para resolver las limitaciones de posiciones de plantilla fijas, DSA ajusta dinámicamente la longitud de segmentos basándose en confianza.

Definición de Confianza:

ci = max p(xi = v|xO, xM\{i})
    v∈V

Mecanismo de Expansión de Segmentos: Cuando la confianza promedio del segmento Mi cae por debajo del umbral τ, se expande mediante la inserción de tokens de máscara adicionales:

M(k+1)_i = M(k)_i ∪ |Δ|

Puntos de Innovación Técnica

Generación Condicionada Estructurada: Proporciona priors estructurales explícitos mediante puntos de anclaje de plantilla, en lugar de guía de prefijo implícita
Consistencia Global: Aprovecha la capacidad de DLMs de considerar simultáneamente todos los segmentos, generando respuestas globalmente coherentes
Ajuste Adaptativo de Longitud: Mecanismo de asignación dinámica basado en confianza que resuelve limitaciones de longitud fija
Utilización de Contexto Bidireccional: Aprovecha plenamente las ventajas arquitectónicas del modelado bidireccional de DLMs

Configuración Experimental

Conjuntos de Datos

Razonamiento Matemático: GSM8K - conjunto de datos de problemas de aplicación matemática de primaria
Generación de Código: HumanEval - conjunto de datos de evaluación de capacidad de síntesis de programas

Métricas de Evaluación

GSM8K: Precisión (Accuracy)
HumanEval: Métrica pass@1 (corrección en un único intento)

Métodos de Comparación

Fixed-Length Denoising: Métodos de línea base con diferentes longitudes fijas (64, 128, 256, 512)
Prefix-based Template: Método de indicación de prefijo tradicional

Detalles de Implementación

Modelo Base: LLaDA (Nie et al., 2025)
Hardware: GPU NVIDIA RTX Pro 6000 individual
Umbral de Confianza: 0.1
Configuración de Evaluación: Aprendizaje de cero ejemplos, utilizando Language Model Evaluation Harness
Modo de Generación: Actualización completamente paralela (sin generación por bloques)

Resultados Experimentales

Resultados Principales

Método	GSM8K	HumanEval	Promedio
Línea Base (128)	48.75	11.59	30.17
TI	56.56	18.29	37.43
TI+DSA	72.10	22.50	47.30

Hallazgos Principales:

TI logra una mejora promedio del 17.01% en comparación con la línea base
TI+DSA mejora aún más, alcanzando el mejor rendimiento
Se obtienen mejoras consistentes en diferentes tipos de tareas

Estudios de Ablación

Comparación de Indicación de Prefijo vs. Relleno de Plantilla

Método	GSM8K	HumanEval	Promedio
Indicación de Plantilla de Prefijo	51.25	5.49	28.37
TI	56.56	18.29	37.26

TI logra una mejora promedio del 8.89% en comparación con el método de prefijo, demostrando las ventajas del condicionamiento estructurado.

Análisis de Generación de Múltiples Tokens

Método	1 Token	2 Tokens	4 Tokens	8 Tokens	16 Tokens
Línea Base	48.75	47.84	44.73	35.48	18.50
TI	56.56	55.50	53.90	52.69	48.60

Hallazgos Clave: El método de línea base experimenta una caída pronunciada en rendimiento durante la generación de múltiples tokens, mientras que TI mantiene una estabilidad relativa, demostrando las ventajas de la guía estructurada.

Hallazgos Experimentales

Independencia de Tarea: TI logra mejoras en dos dominios diferentes: razonamiento matemático y generación de código
Ventajas Estructuradas: El relleno de plantillas es claramente superior a la indicación de prefijo tradicional
Estabilidad en Generación Paralela: TI mantiene estabilidad de rendimiento durante la generación paralela de múltiples tokens
Efectividad de Guía por Confianza: El mecanismo adaptativo de DSA mejora aún más el rendimiento

Trabajo Relacionado

Desarrollo de Modelos de Lenguaje de Difusión

Trabajos Tempranos: D3PM establece fundamentos de difusión discreta, SEDD mejora el modelado mediante entropía de puntuación
Investigación a Escala: LLaDA demuestra la escalabilidad de DLMs a escala de 8B
Optimización de Eficiencia: La investigación existente se centra principalmente en reducir costos computacionales mediante mecanismos de caché y generación de múltiples tokens

Técnicas de Indicación de Modelos de Lenguaje

Modelos Autorregresivos: Aprendizaje de pocos ejemplos de GPT-3, guía de razonamiento de Chain-of-Thought
Métodos de Relleno: Las técnicas de relleno existentes siguen limitadas por restricciones de unidireccionalidad
Contribución de este Artículo: Primera estrategia de condicionamiento bidireccional diseñada específicamente para DLMs

Conclusiones y Discusión

Conclusiones Principales

Template Infilling aprovecha exitosamente las capacidades generativas bidireccionales de DLMs, logrando mejoras de rendimiento significativas
Dynamic Segment Allocation proporciona un mecanismo flexible de control estructural
TI demuestra ventajas únicas en escenarios de generación paralela de múltiples tokens
Este método abre nuevas direcciones de investigación para la aplicación de DLMs

Limitaciones

Restricciones del Paradigma de Entrenamiento: Los modelos de ajuste fino de instrucciones existentes aún se entrenan en el paradigma de indicación-razonamiento tradicional, sin optimización para TI
Dependencia del Diseño de Plantilla: Requiere diseño manual de estructuras de plantilla apropiadas
Alcance de Evaluación: Validación únicamente en tareas de razonamiento matemático y generación de código, requiere evaluación en tareas más amplias

Direcciones Futuras

Integración de Entrenamiento: Incorporar TI en el proceso de ajuste fino de instrucciones, optimizando capacidades de condicionamiento de plantilla desde la fase de entrenamiento
Generación Automática de Plantillas: Investigar métodos para generar automáticamente plantillas específicas de tareas
Validación en Más Tareas: Verificar la efectividad de TI en un rango más amplio de tareas de PNL

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera estrategia de condicionamiento diseñada específicamente para las características generativas bidireccionales de DLMs, superando las limitaciones de la indicación de prefijo tradicional
Método Razonable: El diseño de TI y DSA aprovecha plenamente las ventajas arquitectónicas de DLMs, con fundamentos teóricos sólidos
Experimentación Completa: Validación de la efectividad del método mediante múltiples experimentos comparativos e investigaciones de ablación
Valor Práctico: La estabilidad en escenarios de generación de múltiples tokens proporciona valor para aplicaciones prácticas
Escritura Clara: Estructura de artículo clara, descripción detallada del método, fácil de entender y reproducir

Insuficiencias

Alcance de Evaluación Limitado: Validación únicamente en dos tipos de tareas, falta de evaluación en tareas más amplias
Dependencia de Plantilla: Requiere diseño manual de estructura de plantilla, lo que puede limitar la generalidad del método
Análisis Teórico Insuficiente: Falta análisis teórico profundo de por qué TI puede mejorar el rendimiento
Análisis de Costo Computacional: No analiza detalladamente los gastos computacionales de TI en comparación con métodos de línea base
Significancia Estadística: Falta de reportes de pruebas de significancia estadística

Impacto

Contribución Académica: Abre nuevas direcciones de investigación para DLMs, pasando de optimización de eficiencia a utilización completa de capacidades
Valor Práctico: Proporciona método de mejora de rendimiento plug-and-play sin reentrenamiento adicional
Significado Inspirador: Inspira a investigadores a repensar cómo diseñar estrategias de condicionamiento adecuadas para nuevas arquitecturas de modelos
Reproducibilidad: Proporciona detalles de implementación detallados, facilitando que otros investigadores reproduzcan y mejoren el trabajo

Escenarios Aplicables

Tareas de Generación Estructurada: Particularmente adecuado para tareas que requieren salida con estructura específica, como resolución de problemas matemáticos y generación de código
Generación Paralela de Múltiples Tokens: Posee ventajas únicas en escenarios que requieren aceleración de inferencia
Aplicaciones de DLMs: Proporciona solución de mejora de rendimiento para todos los modelos de lenguaje basados en difusión
Herramienta de Investigación: Proporciona nuevo paradigma experimental para investigar los límites de capacidad de DLMs

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

Fundamentos de Modelos de Difusión: Ho et al. (2020) - Modelos Probabilísticos de Difusión Desruidora
Desarrollo de DLMs: Austin et al. (2021) - D3PM, Lou et al. (2023) - SEDD, Nie et al. (2025) - LLaDA
Indicación de Modelos de Lenguaje: Brown et al. (2020) - GPT-3, Wei et al. (2022) - Chain-of-Thought
Puntos de Referencia de Evaluación: Cobbe et al. (2021) - GSM8K, Chen et al. (2021) - HumanEval

Evaluación General: Este es un artículo de investigación de alta calidad que propone un método de condicionamiento innovador para modelos de lenguaje de difusión. Aunque existen ciertas limitaciones en el alcance de evaluación y análisis teórico, su idea central es novedosa, los resultados experimentales son convincentes, y proporciona contribuciones valiosas para la investigación y aplicación de DLMs. Este trabajo tiene el potencial de impulsar el desarrollo de modelos de lenguaje de difusión desde la optimización de eficiencia pura hacia la dirección de utilización completa de capacidades.