Unlocking the Potential of Diffusion Language Models through Template Infilling
Lee, Kim, Kwak
Diffusion Language Models (DLMs) have emerged as a promising alternative to Autoregressive Language Models, yet their inference strategies remain limited to prefix-based prompting inherited from the autoregressive paradigm. In this paper, we propose Template Infilling (TI), a tailored conditioning methodology for DLMs' generation process. Unlike conventional prefix prompting, TI first generates a structural template for the target response, then fills in the masked segments. To enhance the flexibility of this structural control, we introduce Dynamic Segment Allocation (DSA), which adaptively adjusts segment lengths based on generation confidence. We demonstrate the effectiveness of our approach on mathematical reasoning and code generation benchmarks, achieving consistent improvements of 17.01$\%$p over baseline. Furthermore, we show that TI provides additional advantages in multi-token generation settings, enabling effective speedup while maintaining generation quality.
academic
Раскрытие потенциала диффузионных языковых моделей через заполнение шаблонов
Диффузионные языковые модели (DLMs) появились как перспективная альтернатива авторегрессивным языковым моделям, однако их стратегии вывода остаются ограниченными подсказками на основе префиксов, унаследованными от авторегрессивной парадигмы. В данной работе предлагается заполнение шаблонов (TI) — специализированный метод условной генерации для процесса генерации DLMs. В отличие от традиционных подсказок на основе префиксов, TI сначала генерирует структурный шаблон для целевого ответа, а затем заполняет замаскированные сегменты. Для повышения гибкости структурного управления авторы вводят динамическое распределение сегментов (DSA), которое адаптивно регулирует длину сегментов на основе уверенности генерации. На тестах математического рассуждения и генерации кода метод достигает улучшения согласованности на 17,01% по сравнению с базовыми методами. Кроме того, TI обеспечивает дополнительные преимущества в условиях многотокенной генерации, достигая эффективного ускорения при сохранении качества генерации.
Диффузионные языковые модели (DLMs) генерируют текст через итеративный процесс удаления шума, что принципиально отличается от парадигмы генерации слева направо авторегрессивных языковых моделей (ALMs). DLMs способны выполнять условную генерацию для произвольных наборов позиций с двусторонним моделированием контекста.
Ограниченные стратегии вывода: Существующие исследования DLMs в основном используют методы подсказок на основе префиксов, унаследованные от авторегрессивных моделей
Недостаточное использование возможностей: Большинство исследований сосредоточены только на использовании способности DLMs к параллельной генерации нескольких токенов для снижения затрат на вывод
Несоответствие условных стратегий: Отсутствуют специализированные методы условной генерации, разработанные для двусторонних возможностей DLMs
Двусторонние возможности условной генерации DLMs открывают новые возможности для генерации текста, однако существующие методы оценки и применения не полностью раскрывают это преимущество. Авторы считают необходимым разработать новые методы условной генерации, специально разработанные для характеристик DLMs.
Предложение фреймворка Template Infilling (TI): Метод условной генерации, специально использующий двусторонние возможности генерации DLMs
Разработка алгоритма Dynamic Segment Allocation (DSA): Механизм адаптивного регулирования длины сегментов на основе уверенности
Экспериментальная верификация эффективности: Среднее улучшение производительности на 17,01% на задачах математического рассуждения и генерации кода
Преимущества многотокенной генерации: Доказательство того, что TI сохраняет стабильность производительности при параллельной генерации нескольких токенов
Установление новой парадигмы: Открытие новых направлений исследований в разработке стратегий условной генерации для DLMs
Используя двусторонние возможности условной генерации DLMs, применить структурированный шаблон для направления процесса генерации и получить высококачественный целевой ответ на основе входного контекста.
Для решения ограничений фиксированных позиций шаблона DSA динамически регулирует длину сегментов на основе уверенности.
Определение уверенности:
ci = max p(xi = v|xO, xM\{i})
v∈V
Механизм расширения сегментов:
Когда средняя уверенность сегмента Mi падает ниже порога τ, выполняется расширение путем вставки дополнительных замаскированных токенов:
Ключевые находки: Производительность базового метода резко падает при многотокенной генерации, тогда как TI сохраняет относительную стабильность, демонстрируя преимущества структурированного руководства.
Ранние работы: D3PM установил основы дискретной диффузии, SEDD улучшил моделирование через энтропию оценок
Исследования масштабируемости: LLaDA продемонстрировал масштабируемость DLMs на уровне 8B параметров
Оптимизация эффективности: Существующие исследования в основном сосредоточены на снижении вычислительных затрат через механизмы кеширования и многотокенную генерацию
Ограничения парадигмы обучения: Существующие модели с инструкциями по настройке по-прежнему обучаются на основе традиционной парадигмы подсказок-рассуждений, не оптимизированной для TI
Зависимость от проектирования шаблонов: Требуется ручное проектирование подходящих структур шаблонов
Ограниченный диапазон оценки: Верификация проведена только на задачах математического рассуждения и генерации кода, требуется более широкая оценка на различных задачах
Высокая инновационность: Впервые разработан специализированный метод условной генерации для двусторонних возможностей генерации DLMs, преодолевающий ограничения традиционных подсказок на основе префикса
Обоснованность метода: Проектирование TI и DSA полностью использует архитектурные преимущества DLMs с прочной теоретической базой
Полнота экспериментов: Эффективность метода верифицирована через множество сравнительных экспериментов и абляционных исследований
Практическая ценность: Стабильность при многотокенной генерации обеспечивает ценность для практического применения
Ясность изложения: Четкая структура статьи, подробное описание методов, легко понять и воспроизвести
Задачи структурированной генерации: Особенно подходит для задач, требующих вывода с определенной структурой, таких как решение математических задач и генерация кода
Параллельная многотокенная генерация: Обладает уникальными преимуществами в сценариях, требующих ускорения вывода
Применение DLMs: Предоставляет решение для повышения производительности всех диффузионных языковых моделей
Исследовательский инструмент: Предоставляет новую экспериментальную парадигму для исследования границ возможностей DLMs
Статья ссылается на множество важных связанных работ, включая:
Основы диффузионных моделей: Ho et al. (2020) — модели вероятности диффузии с удалением шума
Развитие DLMs: Austin et al. (2021) — D3PM, Lou et al. (2023) — SEDD, Nie et al. (2025) — LLaDA
Подсказки для языковых моделей: Brown et al. (2020) — GPT-3, Wei et al. (2022) — Chain-of-Thought
Тестовые наборы: Cobbe et al. (2021) — GSM8K, Chen et al. (2021) — HumanEval
Общая оценка: Это высококачественная исследовательская статья, предлагающая инновационный метод условной генерации для диффузионных языковых моделей. Несмотря на определенные ограничения в диапазоне оценки и теоретическом анализе, основная идея является новаторской, результаты экспериментов убедительны, и работа обеспечивает ценный вклад в исследования и применение DLMs. Данная работа, вероятно, будет способствовать развитию диффузионных языковых моделей от простой оптимизации эффективности к полному раскрытию их возможностей.