2025-11-13T00:28:10.748028

Unlocking the Potential of Diffusion Language Models through Template Infilling

Lee, Kim, Kwak

Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.

academic

Раскрытие потенциала диффузионных языковых моделей через заполнение шаблонов

Основная информация

ID статьи: 2510.13870
Название: Unlocking the Potential of Diffusion Language Models through Template Infilling
Авторы: Junhoo Lee (Сеульский национальный университет), Seungyeon Kim (Университет Сунгкюнкван), Nojun Kwak (Сеульский национальный университет)
Классификация: cs.CL cs.AI
Дата публикации: 13 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.13870

Аннотация

Диффузионные языковые модели (DLMs) появились как перспективная альтернатива авторегрессивным языковым моделям, однако их стратегии вывода остаются ограниченными подсказками на основе префиксов, унаследованными от авторегрессивной парадигмы. В данной работе предлагается заполнение шаблонов (TI) — специализированный метод условной генерации для процесса генерации DLMs. В отличие от традиционных подсказок на основе префиксов, TI сначала генерирует структурный шаблон для целевого ответа, а затем заполняет замаскированные сегменты. Для повышения гибкости структурного управления авторы вводят динамическое распределение сегментов (DSA), которое адаптивно регулирует длину сегментов на основе уверенности генерации. На тестах математического рассуждения и генерации кода метод достигает улучшения согласованности на 17,01% по сравнению с базовыми методами. Кроме того, TI обеспечивает дополнительные преимущества в условиях многотокенной генерации, достигая эффективного ускорения при сохранении качества генерации.

Исследовательский контекст и мотивация

Определение проблемы

Диффузионные языковые модели (DLMs) генерируют текст через итеративный процесс удаления шума, что принципиально отличается от парадигмы генерации слева направо авторегрессивных языковых моделей (ALMs). DLMs способны выполнять условную генерацию для произвольных наборов позиций с двусторонним моделированием контекста.

Ограничения существующих методов

Ограниченные стратегии вывода: Существующие исследования DLMs в основном используют методы подсказок на основе префиксов, унаследованные от авторегрессивных моделей
Недостаточное использование возможностей: Большинство исследований сосредоточены только на использовании способности DLMs к параллельной генерации нескольких токенов для снижения затрат на вывод
Несоответствие условных стратегий: Отсутствуют специализированные методы условной генерации, разработанные для двусторонних возможностей DLMs

Исследовательская мотивация

Двусторонние возможности условной генерации DLMs открывают новые возможности для генерации текста, однако существующие методы оценки и применения не полностью раскрывают это преимущество. Авторы считают необходимым разработать новые методы условной генерации, специально разработанные для характеристик DLMs.

Основные вклады

Предложение фреймворка Template Infilling (TI): Метод условной генерации, специально использующий двусторонние возможности генерации DLMs
Разработка алгоритма Dynamic Segment Allocation (DSA): Механизм адаптивного регулирования длины сегментов на основе уверенности
Экспериментальная верификация эффективности: Среднее улучшение производительности на 17,01% на задачах математического рассуждения и генерации кода
Преимущества многотокенной генерации: Доказательство того, что TI сохраняет стабильность производительности при параллельной генерации нескольких токенов
Установление новой парадигмы: Открытие новых направлений исследований в разработке стратегий условной генерации для DLMs

Подробное описание метода

Определение задачи

Используя двусторонние возможности условной генерации DLMs, применить структурированный шаблон для направления процесса генерации и получить высококачественный целевой ответ на основе входного контекста.

Архитектура модели

3.1 Теоретические основы

Авторегрессивная языковая модель:

p(xt|x<t) = p(xt|x1, ..., xt-1)

Диффузионная языковая модель:

p(x(t-1)|x(t))

где ключевой характеристикой DLMs является способность выполнять условную генерацию для произвольных наборов позиций:

p(xM|xO)

где O — наблюдаемые позиции, M — замаскированные позиции, и O∩M = ∅, O∪M = {1,...,N}

3.2 Template Infilling (TI)

TI обобщает традиционное условие на основе префикса до заполнения шаблона. Сначала строится шаблон τ, определяющий структурный скелет целевого ответа:

τ = [t1, M1, t2, M2, ..., tk, Mk]

где:

ti: якоря шаблона (предопределенные структурные элементы)
Mi: замаскированные сегменты для заполнения

3.3 Dynamic Segment Allocation (DSA)

Для решения ограничений фиксированных позиций шаблона DSA динамически регулирует длину сегментов на основе уверенности.

Определение уверенности:

ci = max p(xi = v|xO, xM\{i})
    v∈V

Механизм расширения сегментов: Когда средняя уверенность сегмента Mi падает ниже порога τ, выполняется расширение путем вставки дополнительных замаскированных токенов:

M(k+1)_i = M(k)_i ∪ |Δ|

Технические инновации

Структурированная условная генерация: Предоставление явных структурных приоров через якоря шаблона вместо неявного руководства на основе префикса
Глобальная согласованность: Использование способности DLMs одновременно рассматривать все сегменты для генерации глобально связного ответа
Адаптивное регулирование длины: Механизм динамического распределения на основе уверенности, решающий проблему ограничений фиксированной длины
Использование двустороннего контекста: Полное раскрытие архитектурных преимуществ двустороннего моделирования DLMs

Экспериментальная установка

Наборы данных

Математическое рассуждение: GSM8K — набор данных задач прикладной математики начальной школы
Генерация кода: HumanEval — набор данных для оценки способностей синтеза программ

Метрики оценки

GSM8K: Точность (Accuracy)
HumanEval: метрика pass@1 (корректность при одной попытке)

Методы сравнения

Fixed-Length Denoising: Базовые методы с различными фиксированными длинами (64, 128, 256, 512)
Prefix-based Template: Традиционный метод подсказок на основе префикса

Детали реализации

Базовая модель: LLaDA (Nie et al., 2025)
Оборудование: Один GPU NVIDIA RTX Pro 6000
Порог уверенности: 0,1
Параметры оценки: Обучение без примеров, использование Language Model Evaluation Harness
Способ генерации: Полное параллельное обновление (без блочной генерации)

Результаты экспериментов

Основные результаты

Метод	GSM8K	HumanEval	Среднее
Базовый (128)	48,75	11,59	30,17
TI	56,56	18,29	37,43
TI+DSA	72,10	22,50	47,30

Ключевые находки:

TI достигает среднего улучшения на 17,01% по сравнению с базовым методом
TI+DSA обеспечивает дальнейшее улучшение, достигая оптимальной производительности
Получены последовательные улучшения на различных типах задач

Абляционные исследования

Сравнение подсказок на основе префикса и заполнения шаблонов

Метод	GSM8K	HumanEval	Среднее
Подсказка на основе префикса	51,25	5,49	28,37
TI	56,56	18,29	37,26

TI достигает среднего улучшения на 8,89% по сравнению с методом на основе префикса, что доказывает преимущества структурированного условия.

Анализ многотокенной генерации

Метод	1 токен	2 токена	4 токена	8 токенов	16 токенов
Базовый	48,75	47,84	44,73	35,48	18,50
TI	56,56	55,50	53,90	52,69	48,60

Ключевые находки: Производительность базового метода резко падает при многотокенной генерации, тогда как TI сохраняет относительную стабильность, демонстрируя преимущества структурированного руководства.

Экспериментальные находки

Независимость от задачи: TI достигает улучшений в двух различных областях — математическом рассуждении и генерации кода
Преимущества структурирования: Заполнение шаблонов явно превосходит традиционные подсказки на основе префикса
Стабильность параллельной генерации: TI сохраняет стабильность производительности при параллельной многотокенной генерации
Эффективность руководства на основе уверенности: Адаптивный механизм DSA дополнительно повышает производительность

Связанные работы

Развитие диффузионных языковых моделей

Ранние работы: D3PM установил основы дискретной диффузии, SEDD улучшил моделирование через энтропию оценок
Исследования масштабируемости: LLaDA продемонстрировал масштабируемость DLMs на уровне 8B параметров
Оптимизация эффективности: Существующие исследования в основном сосредоточены на снижении вычислительных затрат через механизмы кеширования и многотокенную генерацию

Методы подсказок для языковых моделей

Авторегрессивные модели: Обучение с несколькими примерами GPT-3, руководство рассуждениями Chain-of-Thought
Методы заполнения: Существующие методы заполнения остаются ограниченными односторонностью
Вклад данной работы: Первая разработка специализированной двусторонней стратегии условной генерации для DLMs

Выводы и обсуждение

Основные выводы

Template Infilling успешно использует двусторонние возможности генерации DLMs, достигая значительного повышения производительности
Dynamic Segment Allocation обеспечивает гибкий механизм структурного управления
TI демонстрирует уникальные преимущества в сценариях параллельной многотокенной генерации
Метод открывает новые направления исследований в применении DLMs

Ограничения

Ограничения парадигмы обучения: Существующие модели с инструкциями по настройке по-прежнему обучаются на основе традиционной парадигмы подсказок-рассуждений, не оптимизированной для TI
Зависимость от проектирования шаблонов: Требуется ручное проектирование подходящих структур шаблонов
Ограниченный диапазон оценки: Верификация проведена только на задачах математического рассуждения и генерации кода, требуется более широкая оценка на различных задачах

Будущие направления

Интеграция в обучение: Включение TI в процесс настройки инструкций для оптимизации способностей условной генерации на этапе обучения
Автоматическое генерирование шаблонов: Исследование методов автоматического генерирования шаблонов, специфичных для задач
Верификация на большем количестве задач: Проверка эффективности TI на более широком спектре задач обработки естественного языка

Глубокая оценка

Преимущества

Высокая инновационность: Впервые разработан специализированный метод условной генерации для двусторонних возможностей генерации DLMs, преодолевающий ограничения традиционных подсказок на основе префикса
Обоснованность метода: Проектирование TI и DSA полностью использует архитектурные преимущества DLMs с прочной теоретической базой
Полнота экспериментов: Эффективность метода верифицирована через множество сравнительных экспериментов и абляционных исследований
Практическая ценность: Стабильность при многотокенной генерации обеспечивает ценность для практического применения
Ясность изложения: Четкая структура статьи, подробное описание методов, легко понять и воспроизвести

Недостатки

Ограниченный диапазон оценки: Верификация проведена только на двух типах задач, отсутствует оценка на более широком спектре задач
Зависимость от шаблонов: Требуется ручное проектирование структур шаблонов, что может ограничить универсальность метода
Недостаточный теоретический анализ: Отсутствует глубокий анализ причин повышения производительности при использовании TI
Анализ вычислительных затрат: Отсутствует подробный анализ вычислительных затрат TI по сравнению с базовыми методами
Статистическая значимость: Отсутствуют отчеты о проверке статистической значимости

Влияние

Академический вклад: Открывает новое направление исследований DLMs, переходя от оптимизации эффективности к полному раскрытию возможностей
Практическая ценность: Предоставляет метод повышения производительности "plug-and-play", не требующий дополнительного обучения
Вдохновляющее значение: Побуждает исследователей переосмыслить разработку стратегий условной генерации, адаптированных к новым архитектурам моделей
Воспроизводимость: Предоставляет подробные детали реализации, облегчая воспроизведение и улучшение результатов другими исследователями

Применимые сценарии

Задачи структурированной генерации: Особенно подходит для задач, требующих вывода с определенной структурой, таких как решение математических задач и генерация кода
Параллельная многотокенная генерация: Обладает уникальными преимуществами в сценариях, требующих ускорения вывода
Применение DLMs: Предоставляет решение для повышения производительности всех диффузионных языковых моделей
Исследовательский инструмент: Предоставляет новую экспериментальную парадигму для исследования границ возможностей DLMs

Библиография

Статья ссылается на множество важных связанных работ, включая:

Основы диффузионных моделей: Ho et al. (2020) — модели вероятности диффузии с удалением шума
Развитие DLMs: Austin et al. (2021) — D3PM, Lou et al. (2023) — SEDD, Nie et al. (2025) — LLaDA
Подсказки для языковых моделей: Brown et al. (2020) — GPT-3, Wei et al. (2022) — Chain-of-Thought
Тестовые наборы: Cobbe et al. (2021) — GSM8K, Chen et al. (2021) — HumanEval

Общая оценка: Это высококачественная исследовательская статья, предлагающая инновационный метод условной генерации для диффузионных языковых моделей. Несмотря на определенные ограничения в диапазоне оценки и теоретическом анализе, основная идея является новаторской, результаты экспериментов убедительны, и работа обеспечивает ценный вклад в исследования и применение DLMs. Данная работа, вероятно, будет способствовать развитию диффузионных языковых моделей от простой оптимизации эффективности к полному раскрытию их возможностей.