2025-11-13T00:28:10.748028

Unlocking the Potential of Diffusion Language Models through Template Infilling

Lee, Kim, Kwak
Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.
academic

Desbloqueando el Potencial de Modelos de Lenguaje de Difusión a través del Relleno de Plantillas

Información Básica

  • ID del Artículo: 2510.13870
  • Título: Unlocking the Potential of Diffusion Language Models through Template Infilling
  • Autores: Junhoo Lee (Seoul National University), Seungyeon Kim (Sungkyunkwan University), Nojun Kwak (Seoul National University)
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.13870

Resumen

Los modelos de lenguaje de difusión (DLMs) han surgido como una alternativa prometedora a los modelos de lenguaje autorregresivos, pero sus estrategias de inferencia siguen limitadas a indicaciones basadas en prefijos heredadas del paradigma autorregresivo. Este artículo propone el relleno de plantillas (TI), un método de condicionamiento personalizado para el proceso generativo de DLMs. A diferencia de las indicaciones de prefijo tradicionales, TI genera primero una plantilla estructural para la respuesta objetivo y luego rellena los segmentos enmascarados. Para mejorar la flexibilidad del control estructural, los autores introducen la asignación dinámica de segmentos (DSA), que ajusta adaptativamente la longitud de los segmentos basándose en la confianza generativa. En puntos de referencia de razonamiento matemático y generación de código, el método logra una mejora de consistencia del 17.01% en comparación con las líneas base. Además, TI proporciona ventajas adicionales en configuraciones de generación de múltiples tokens, logrando aceleración efectiva mientras se mantiene la calidad de generación.

Antecedentes de Investigación y Motivación

Definición del Problema

Los modelos de lenguaje de difusión (DLMs) generan texto mediante un proceso iterativo de desruido, fundamentalmente diferente del paradigma generativo de izquierda a derecha de los modelos de lenguaje autorregresivos (ALMs). Los DLMs pueden realizar generación condicionada en conjuntos arbitrarios de posiciones, con capacidad de modelado de contexto bidireccional.

Limitaciones de Métodos Existentes

  1. Estrategias de Inferencia Limitadas: La investigación existente en DLMs adopta principalmente métodos de indicación basados en prefijos heredados de modelos autorregresivos
  2. Capacidades Subutilizadas: La mayoría de investigaciones se centran únicamente en aprovechar la capacidad de generación paralela de múltiples tokens de DLMs para reducir costos de inferencia
  3. Estrategias de Condicionamiento Desajustadas: Falta de métodos de condicionamiento diseñados específicamente para las capacidades generativas bidireccionales de DLMs

Motivación de la Investigación

La capacidad de generación condicionada bidireccional de DLMs ofrece nuevas posibilidades para la generación de texto, pero los métodos de evaluación y aplicación existentes no aprovechan plenamente esta ventaja. Los autores argumentan que es necesario diseñar nuevos métodos de condicionamiento especializados para las características de DLMs.

Contribuciones Principales

  1. Propuesta del Marco Template Infilling (TI): Un método de generación condicionada que aprovecha específicamente las capacidades generativas bidireccionales de DLMs
  2. Diseño del Algoritmo Dynamic Segment Allocation (DSA): Mecanismo de ajuste adaptativo de longitud de segmentos basado en confianza
  3. Validación Experimental de Efectividad: Mejora promedio del 17.01% en tareas de razonamiento matemático y generación de código
  4. Ventajas en Generación de Múltiples Tokens: Demostración de que TI mantiene estabilidad de rendimiento durante la generación paralela de múltiples tokens
  5. Establecimiento de Nuevo Paradigma: Abre nuevas direcciones de investigación para el diseño de estrategias de condicionamiento en DLMs

Explicación Detallada del Método

Definición de la Tarea

Dado un contexto de entrada, se aprovechan las capacidades de generación condicionada bidireccional de DLMs, mediante una plantilla estructurada que guía el proceso generativo, para producir respuestas objetivo de alta calidad.

Arquitectura del Modelo

3.1 Teoría Fundamental

Modelo de Lenguaje Autorregresivo:

p(xt|x<t) = p(xt|x1, ..., xt-1)

Modelo de Lenguaje de Difusión:

p(x(t-1)|x(t))

donde la característica clave de DLMs es la capacidad de realizar generación condicionada en conjuntos arbitrarios de posiciones:

p(xM|xO)

donde O es el conjunto de posiciones observadas, M es el conjunto de posiciones enmascaradas, y O∩M = ∅, O∪M = {1,...,N}

3.2 Template Infilling (TI)

TI generaliza el condicionamiento de prefijo tradicional hacia relleno de plantillas. Primero construye una plantilla τ que especifica el esqueleto estructural de la respuesta objetivo:

τ = [t1, M1, t2, M2, ..., tk, Mk]

donde:

  • ti: puntos de anclaje de plantilla (elementos estructurales predefinidos)
  • Mi: segmentos enmascarados a rellenar

3.3 Dynamic Segment Allocation (DSA)

Para resolver las limitaciones de posiciones de plantilla fijas, DSA ajusta dinámicamente la longitud de segmentos basándose en confianza.

Definición de Confianza:

ci = max p(xi = v|xO, xM\{i})
    v∈V

Mecanismo de Expansión de Segmentos: Cuando la confianza promedio del segmento Mi cae por debajo del umbral τ, se expande mediante la inserción de tokens de máscara adicionales:

M(k+1)_i = M(k)_i ∪ |Δ|

Puntos de Innovación Técnica

  1. Generación Condicionada Estructurada: Proporciona priors estructurales explícitos mediante puntos de anclaje de plantilla, en lugar de guía de prefijo implícita
  2. Consistencia Global: Aprovecha la capacidad de DLMs de considerar simultáneamente todos los segmentos, generando respuestas globalmente coherentes
  3. Ajuste Adaptativo de Longitud: Mecanismo de asignación dinámica basado en confianza que resuelve limitaciones de longitud fija
  4. Utilización de Contexto Bidireccional: Aprovecha plenamente las ventajas arquitectónicas del modelado bidireccional de DLMs

Configuración Experimental

Conjuntos de Datos

  • Razonamiento Matemático: GSM8K - conjunto de datos de problemas de aplicación matemática de primaria
  • Generación de Código: HumanEval - conjunto de datos de evaluación de capacidad de síntesis de programas

Métricas de Evaluación

  • GSM8K: Precisión (Accuracy)
  • HumanEval: Métrica pass@1 (corrección en un único intento)

Métodos de Comparación

  • Fixed-Length Denoising: Métodos de línea base con diferentes longitudes fijas (64, 128, 256, 512)
  • Prefix-based Template: Método de indicación de prefijo tradicional

Detalles de Implementación

  • Modelo Base: LLaDA (Nie et al., 2025)
  • Hardware: GPU NVIDIA RTX Pro 6000 individual
  • Umbral de Confianza: 0.1
  • Configuración de Evaluación: Aprendizaje de cero ejemplos, utilizando Language Model Evaluation Harness
  • Modo de Generación: Actualización completamente paralela (sin generación por bloques)

Resultados Experimentales

Resultados Principales

MétodoGSM8KHumanEvalPromedio
Línea Base (128)48.7511.5930.17
TI56.5618.2937.43
TI+DSA72.1022.5047.30

Hallazgos Principales:

  • TI logra una mejora promedio del 17.01% en comparación con la línea base
  • TI+DSA mejora aún más, alcanzando el mejor rendimiento
  • Se obtienen mejoras consistentes en diferentes tipos de tareas

Estudios de Ablación

Comparación de Indicación de Prefijo vs. Relleno de Plantilla

MétodoGSM8KHumanEvalPromedio
Indicación de Plantilla de Prefijo51.255.4928.37
TI56.5618.2937.26

TI logra una mejora promedio del 8.89% en comparación con el método de prefijo, demostrando las ventajas del condicionamiento estructurado.

Análisis de Generación de Múltiples Tokens

Método1 Token2 Tokens4 Tokens8 Tokens16 Tokens
Línea Base48.7547.8444.7335.4818.50
TI56.5655.5053.9052.6948.60

Hallazgos Clave: El método de línea base experimenta una caída pronunciada en rendimiento durante la generación de múltiples tokens, mientras que TI mantiene una estabilidad relativa, demostrando las ventajas de la guía estructurada.

Hallazgos Experimentales

  1. Independencia de Tarea: TI logra mejoras en dos dominios diferentes: razonamiento matemático y generación de código
  2. Ventajas Estructuradas: El relleno de plantillas es claramente superior a la indicación de prefijo tradicional
  3. Estabilidad en Generación Paralela: TI mantiene estabilidad de rendimiento durante la generación paralela de múltiples tokens
  4. Efectividad de Guía por Confianza: El mecanismo adaptativo de DSA mejora aún más el rendimiento

Trabajo Relacionado

Desarrollo de Modelos de Lenguaje de Difusión

  • Trabajos Tempranos: D3PM establece fundamentos de difusión discreta, SEDD mejora el modelado mediante entropía de puntuación
  • Investigación a Escala: LLaDA demuestra la escalabilidad de DLMs a escala de 8B
  • Optimización de Eficiencia: La investigación existente se centra principalmente en reducir costos computacionales mediante mecanismos de caché y generación de múltiples tokens

Técnicas de Indicación de Modelos de Lenguaje

  • Modelos Autorregresivos: Aprendizaje de pocos ejemplos de GPT-3, guía de razonamiento de Chain-of-Thought
  • Métodos de Relleno: Las técnicas de relleno existentes siguen limitadas por restricciones de unidireccionalidad
  • Contribución de este Artículo: Primera estrategia de condicionamiento bidireccional diseñada específicamente para DLMs

Conclusiones y Discusión

Conclusiones Principales

  1. Template Infilling aprovecha exitosamente las capacidades generativas bidireccionales de DLMs, logrando mejoras de rendimiento significativas
  2. Dynamic Segment Allocation proporciona un mecanismo flexible de control estructural
  3. TI demuestra ventajas únicas en escenarios de generación paralela de múltiples tokens
  4. Este método abre nuevas direcciones de investigación para la aplicación de DLMs

Limitaciones

  1. Restricciones del Paradigma de Entrenamiento: Los modelos de ajuste fino de instrucciones existentes aún se entrenan en el paradigma de indicación-razonamiento tradicional, sin optimización para TI
  2. Dependencia del Diseño de Plantilla: Requiere diseño manual de estructuras de plantilla apropiadas
  3. Alcance de Evaluación: Validación únicamente en tareas de razonamiento matemático y generación de código, requiere evaluación en tareas más amplias

Direcciones Futuras

  1. Integración de Entrenamiento: Incorporar TI en el proceso de ajuste fino de instrucciones, optimizando capacidades de condicionamiento de plantilla desde la fase de entrenamiento
  2. Generación Automática de Plantillas: Investigar métodos para generar automáticamente plantillas específicas de tareas
  3. Validación en Más Tareas: Verificar la efectividad de TI en un rango más amplio de tareas de PNL

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera estrategia de condicionamiento diseñada específicamente para las características generativas bidireccionales de DLMs, superando las limitaciones de la indicación de prefijo tradicional
  2. Método Razonable: El diseño de TI y DSA aprovecha plenamente las ventajas arquitectónicas de DLMs, con fundamentos teóricos sólidos
  3. Experimentación Completa: Validación de la efectividad del método mediante múltiples experimentos comparativos e investigaciones de ablación
  4. Valor Práctico: La estabilidad en escenarios de generación de múltiples tokens proporciona valor para aplicaciones prácticas
  5. Escritura Clara: Estructura de artículo clara, descripción detallada del método, fácil de entender y reproducir

Insuficiencias

  1. Alcance de Evaluación Limitado: Validación únicamente en dos tipos de tareas, falta de evaluación en tareas más amplias
  2. Dependencia de Plantilla: Requiere diseño manual de estructura de plantilla, lo que puede limitar la generalidad del método
  3. Análisis Teórico Insuficiente: Falta análisis teórico profundo de por qué TI puede mejorar el rendimiento
  4. Análisis de Costo Computacional: No analiza detalladamente los gastos computacionales de TI en comparación con métodos de línea base
  5. Significancia Estadística: Falta de reportes de pruebas de significancia estadística

Impacto

  1. Contribución Académica: Abre nuevas direcciones de investigación para DLMs, pasando de optimización de eficiencia a utilización completa de capacidades
  2. Valor Práctico: Proporciona método de mejora de rendimiento plug-and-play sin reentrenamiento adicional
  3. Significado Inspirador: Inspira a investigadores a repensar cómo diseñar estrategias de condicionamiento adecuadas para nuevas arquitecturas de modelos
  4. Reproducibilidad: Proporciona detalles de implementación detallados, facilitando que otros investigadores reproduzcan y mejoren el trabajo

Escenarios Aplicables

  1. Tareas de Generación Estructurada: Particularmente adecuado para tareas que requieren salida con estructura específica, como resolución de problemas matemáticos y generación de código
  2. Generación Paralela de Múltiples Tokens: Posee ventajas únicas en escenarios que requieren aceleración de inferencia
  3. Aplicaciones de DLMs: Proporciona solución de mejora de rendimiento para todos los modelos de lenguaje basados en difusión
  4. Herramienta de Investigación: Proporciona nuevo paradigma experimental para investigar los límites de capacidad de DLMs

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

  1. Fundamentos de Modelos de Difusión: Ho et al. (2020) - Modelos Probabilísticos de Difusión Desruidora
  2. Desarrollo de DLMs: Austin et al. (2021) - D3PM, Lou et al. (2023) - SEDD, Nie et al. (2025) - LLaDA
  3. Indicación de Modelos de Lenguaje: Brown et al. (2020) - GPT-3, Wei et al. (2022) - Chain-of-Thought
  4. Puntos de Referencia de Evaluación: Cobbe et al. (2021) - GSM8K, Chen et al. (2021) - HumanEval

Evaluación General: Este es un artículo de investigación de alta calidad que propone un método de condicionamiento innovador para modelos de lenguaje de difusión. Aunque existen ciertas limitaciones en el alcance de evaluación y análisis teórico, su idea central es novedosa, los resultados experimentales son convincentes, y proporciona contribuciones valiosas para la investigación y aplicación de DLMs. Este trabajo tiene el potencial de impulsar el desarrollo de modelos de lenguaje de difusión desde la optimización de eficiencia pura hacia la dirección de utilización completa de capacidades.