Unlocking the Potential of Diffusion Language Models through Template Infilling
Lee, Kim, Kwak
Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.
academic
Desbloqueando el Potencial de Modelos de Lenguaje de Difusión a través del Relleno de Plantillas
Los modelos de lenguaje de difusión (DLMs) han surgido como una alternativa prometedora a los modelos de lenguaje autorregresivos, pero sus estrategias de inferencia siguen limitadas a indicaciones basadas en prefijos heredadas del paradigma autorregresivo. Este artículo propone el relleno de plantillas (TI), un método de condicionamiento personalizado para el proceso generativo de DLMs. A diferencia de las indicaciones de prefijo tradicionales, TI genera primero una plantilla estructural para la respuesta objetivo y luego rellena los segmentos enmascarados. Para mejorar la flexibilidad del control estructural, los autores introducen la asignación dinámica de segmentos (DSA), que ajusta adaptativamente la longitud de los segmentos basándose en la confianza generativa. En puntos de referencia de razonamiento matemático y generación de código, el método logra una mejora de consistencia del 17.01% en comparación con las líneas base. Además, TI proporciona ventajas adicionales en configuraciones de generación de múltiples tokens, logrando aceleración efectiva mientras se mantiene la calidad de generación.
Los modelos de lenguaje de difusión (DLMs) generan texto mediante un proceso iterativo de desruido, fundamentalmente diferente del paradigma generativo de izquierda a derecha de los modelos de lenguaje autorregresivos (ALMs). Los DLMs pueden realizar generación condicionada en conjuntos arbitrarios de posiciones, con capacidad de modelado de contexto bidireccional.
Estrategias de Inferencia Limitadas: La investigación existente en DLMs adopta principalmente métodos de indicación basados en prefijos heredados de modelos autorregresivos
Capacidades Subutilizadas: La mayoría de investigaciones se centran únicamente en aprovechar la capacidad de generación paralela de múltiples tokens de DLMs para reducir costos de inferencia
Estrategias de Condicionamiento Desajustadas: Falta de métodos de condicionamiento diseñados específicamente para las capacidades generativas bidireccionales de DLMs
La capacidad de generación condicionada bidireccional de DLMs ofrece nuevas posibilidades para la generación de texto, pero los métodos de evaluación y aplicación existentes no aprovechan plenamente esta ventaja. Los autores argumentan que es necesario diseñar nuevos métodos de condicionamiento especializados para las características de DLMs.
Propuesta del Marco Template Infilling (TI): Un método de generación condicionada que aprovecha específicamente las capacidades generativas bidireccionales de DLMs
Diseño del Algoritmo Dynamic Segment Allocation (DSA): Mecanismo de ajuste adaptativo de longitud de segmentos basado en confianza
Validación Experimental de Efectividad: Mejora promedio del 17.01% en tareas de razonamiento matemático y generación de código
Ventajas en Generación de Múltiples Tokens: Demostración de que TI mantiene estabilidad de rendimiento durante la generación paralela de múltiples tokens
Establecimiento de Nuevo Paradigma: Abre nuevas direcciones de investigación para el diseño de estrategias de condicionamiento en DLMs
Dado un contexto de entrada, se aprovechan las capacidades de generación condicionada bidireccional de DLMs, mediante una plantilla estructurada que guía el proceso generativo, para producir respuestas objetivo de alta calidad.
TI generaliza el condicionamiento de prefijo tradicional hacia relleno de plantillas. Primero construye una plantilla τ que especifica el esqueleto estructural de la respuesta objetivo:
τ = [t1, M1, t2, M2, ..., tk, Mk]
donde:
ti: puntos de anclaje de plantilla (elementos estructurales predefinidos)
Para resolver las limitaciones de posiciones de plantilla fijas, DSA ajusta dinámicamente la longitud de segmentos basándose en confianza.
Definición de Confianza:
ci = max p(xi = v|xO, xM\{i})
v∈V
Mecanismo de Expansión de Segmentos:
Cuando la confianza promedio del segmento Mi cae por debajo del umbral τ, se expande mediante la inserción de tokens de máscara adicionales:
Generación Condicionada Estructurada: Proporciona priors estructurales explícitos mediante puntos de anclaje de plantilla, en lugar de guía de prefijo implícita
Consistencia Global: Aprovecha la capacidad de DLMs de considerar simultáneamente todos los segmentos, generando respuestas globalmente coherentes
Ajuste Adaptativo de Longitud: Mecanismo de asignación dinámica basado en confianza que resuelve limitaciones de longitud fija
Utilización de Contexto Bidireccional: Aprovecha plenamente las ventajas arquitectónicas del modelado bidireccional de DLMs
Hallazgos Clave: El método de línea base experimenta una caída pronunciada en rendimiento durante la generación de múltiples tokens, mientras que TI mantiene una estabilidad relativa, demostrando las ventajas de la guía estructurada.
Trabajos Tempranos: D3PM establece fundamentos de difusión discreta, SEDD mejora el modelado mediante entropía de puntuación
Investigación a Escala: LLaDA demuestra la escalabilidad de DLMs a escala de 8B
Optimización de Eficiencia: La investigación existente se centra principalmente en reducir costos computacionales mediante mecanismos de caché y generación de múltiples tokens
Restricciones del Paradigma de Entrenamiento: Los modelos de ajuste fino de instrucciones existentes aún se entrenan en el paradigma de indicación-razonamiento tradicional, sin optimización para TI
Dependencia del Diseño de Plantilla: Requiere diseño manual de estructuras de plantilla apropiadas
Alcance de Evaluación: Validación únicamente en tareas de razonamiento matemático y generación de código, requiere evaluación en tareas más amplias
Integración de Entrenamiento: Incorporar TI en el proceso de ajuste fino de instrucciones, optimizando capacidades de condicionamiento de plantilla desde la fase de entrenamiento
Generación Automática de Plantillas: Investigar métodos para generar automáticamente plantillas específicas de tareas
Validación en Más Tareas: Verificar la efectividad de TI en un rango más amplio de tareas de PNL
Innovación Fuerte: Primera estrategia de condicionamiento diseñada específicamente para las características generativas bidireccionales de DLMs, superando las limitaciones de la indicación de prefijo tradicional
Método Razonable: El diseño de TI y DSA aprovecha plenamente las ventajas arquitectónicas de DLMs, con fundamentos teóricos sólidos
Experimentación Completa: Validación de la efectividad del método mediante múltiples experimentos comparativos e investigaciones de ablación
Valor Práctico: La estabilidad en escenarios de generación de múltiples tokens proporciona valor para aplicaciones prácticas
Escritura Clara: Estructura de artículo clara, descripción detallada del método, fácil de entender y reproducir
Contribución Académica: Abre nuevas direcciones de investigación para DLMs, pasando de optimización de eficiencia a utilización completa de capacidades
Valor Práctico: Proporciona método de mejora de rendimiento plug-and-play sin reentrenamiento adicional
Significado Inspirador: Inspira a investigadores a repensar cómo diseñar estrategias de condicionamiento adecuadas para nuevas arquitecturas de modelos
Reproducibilidad: Proporciona detalles de implementación detallados, facilitando que otros investigadores reproduzcan y mejoren el trabajo
Tareas de Generación Estructurada: Particularmente adecuado para tareas que requieren salida con estructura específica, como resolución de problemas matemáticos y generación de código
Generación Paralela de Múltiples Tokens: Posee ventajas únicas en escenarios que requieren aceleración de inferencia
Aplicaciones de DLMs: Proporciona solución de mejora de rendimiento para todos los modelos de lenguaje basados en difusión
Herramienta de Investigación: Proporciona nuevo paradigma experimental para investigar los límites de capacidad de DLMs
El artículo cita múltiples trabajos relacionados importantes, incluyendo:
Fundamentos de Modelos de Difusión: Ho et al. (2020) - Modelos Probabilísticos de Difusión Desruidora
Desarrollo de DLMs: Austin et al. (2021) - D3PM, Lou et al. (2023) - SEDD, Nie et al. (2025) - LLaDA
Indicación de Modelos de Lenguaje: Brown et al. (2020) - GPT-3, Wei et al. (2022) - Chain-of-Thought
Puntos de Referencia de Evaluación: Cobbe et al. (2021) - GSM8K, Chen et al. (2021) - HumanEval
Evaluación General: Este es un artículo de investigación de alta calidad que propone un método de condicionamiento innovador para modelos de lenguaje de difusión. Aunque existen ciertas limitaciones en el alcance de evaluación y análisis teórico, su idea central es novedosa, los resultados experimentales son convincentes, y proporciona contribuciones valiosas para la investigación y aplicación de DLMs. Este trabajo tiene el potencial de impulsar el desarrollo de modelos de lenguaje de difusión desde la optimización de eficiencia pura hacia la dirección de utilización completa de capacidades.