2025-11-14T10:58:11.492990

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

Zhou, Wang, Zhang et al.

In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.

academic

Предсказание следующего семантического масштаба через иерархические диффузионные языковые модели

Основная информация

ID статьи: 2510.08632
Название: Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
Авторы: Cai Zhou, Chenyu Wang, Dinghuai Zhang, Shangyuan Tong, Yifei Wang, Stephen Bates, Tommi Jaakkola
Классификация: cs.CL cs.LG
Конференция: NeurIPS 2025 (39-я конференция по системам обработки нейронной информации)
Ссылка на статью: https://arxiv.org/abs/2510.08632

Аннотация

В данной работе представлены иерархические диффузионные языковые модели (HDLM) — новый тип дискретной диффузионной модели для языкового моделирования. HDLM основана на иерархическом словаре, где низкоуровневые токены с детальной семантикой сюръективно отображаются на высокоуровневые токены с грубозернистым значением. В прямом процессе каждый токен независимо возмущается в соответствии с расписанием в высокоуровневого предка с более абстрактной семантикой, тогда как в обратном процессе модель постепенно предсказывает следующий более детальный семантический уровень. HDLM предоставляет универсальный процесс предсказания следующего семантического масштаба, зависящий от времени, для языкового моделирования. Авторы выводят замкнутое выражение для нижней границы доказательства диффузии (ELBO) и демонстрируют, что HDLM может быть гибко реализована, при этом включая существующие MDLM как частный случай.

Исследовательский контекст и мотивация

1. Проблема, которую необходимо решить

Существующие дискретные диффузионные языковые модели имеют несколько фундаментальных ограничений:

Маскированная диффузия: все маскированные токены имеют одно и то же маскированное встраивание, что не обеспечивает богатую семантику; невозможно самостоятельно исправлять уже сгенерированные токены
Равномерная диффузия: один и тот же токен действует как шум на этапе шумления, но становится значимым при декодировании, что приводит к семантической несогласованности и путанице

2. Важность проблемы

Хотя авторегрессивные языковые модели являются современным методом, их схема предсказания следующего токена принципиально ограничивает способность пересматривать ранее сгенерированные токены. Диффузионные модели привлекают внимание благодаря своей способности к постепенному удалению шума и уточнению, однако существующие дискретные диффузионные методы по-прежнему имеют значительные ограничения в языковом моделировании.

3. Ограничения существующих методов

MDLM и MD4: маскированные токены не обладают богатой семантикой и не могут самостоятельно исправляться
Равномерная дискретная диффузия: низкая производительность, семантическая несогласованность
GIDD: хотя объединяет маскирование и равномерный шум, шумные токены по-прежнему не обладают богатой семантикой и имеют ограниченную способность к самокоррекции

4. Исследовательская мотивация

Авторы предлагают максимизировать преимущества диффузионных моделей путем введения семантической иерархии для реализации генерации в произвольном порядке и постепенного самоуточнения, аналогично предсказанию следующего масштаба в визуальных авторегрессивных моделях (VAR).

Основные вклады

Предложена структура HDLM: универсальная и гибкая структура дискретного диффузионного языкового моделирования, реализуемая через предсказание следующего семантического масштаба, зависящее от времени
Установлена строгая теоретическая база: на основе структуры непрерывной цепи Маркова (CTMC) выведено замкнутое выражение ELBO для иерархической дискретной диффузии
Доказана совместимость: теоретически доказано, что MDLM является частным случаем HDLM, демонстрируя универсальность структуры
Предложены практические методы: на основе теоретических идей предложены улучшенные методы обучения и выборки
Достигнуто повышение производительности: в экспериментах по генерации текста постоянно демонстрируется более низкая валидационная и генеративная перплексия по сравнению с базовыми методами

Подробное описание метода

Определение задачи

Задача HDLM состоит в постепенном предсказании более детальных токенов через иерархическую семантическую структуру при заданном зашумленном входе до восстановления исходного словаря. Входом являются зашумленные токены на разных уровнях, выходом — распределение предсказаний на уровне слов.

Архитектура модели

1. Проектирование иерархического словаря

Уровни словаря: иерархическая структура от чистых токенов слов x к токенам кластеров c и затем к маскированным токенам m: x → c → m
Отношения отображения: низкоуровневые токены отображаются на высокоуровневые токены через сюръективную функцию c = Γx, где Γ ∈ R^{|C|×|V|}

2. Прямой процесс

Маргинальное распределение прямого процесса:

q_t(z_t|x) = Cat(z_t; α_t x + β_{t,c} c(x) + β_{t,m} m)

где β_{t,c} + β_{t,m} = β_t := 1 - α_t

3. Структура CTMC

Генератор, зависящий от времени и неоднородный:

Q_t = [α'_t/α_t I_{|V|}    -α'_t/α_t Γ^T    0]
      [0    (α'_t+β'_{t,c})/β_{t,c} I_{|C|}    -(α'_t+β'_{t,c})/β_{t,c} Ξ^T]
      [0    0    0]

4. Обратный процесс

Использует стандартный обратный процесс:

p_θ(z_s|z_t) = q_{t|s}(z_t|z_s) q_s(z_s|x_θ)/q_t(z_t|x_θ)

Технические инновации

1. Семантическая иерархическая структура

Постепенная семантика: промежуточные уровни можно рассматривать как частично декодированные токены, обеспечивающие более богатую семантику, чем одиночный маскированный токен
Гибкое декодирование: неопределенность в грубозернистой семантике позволяет большую гибкость при декодировании

2. Вывод замкнутого ELBO

Выведенная функция потерь при обучении представляет собой взвешенную комбинацию двух потерь кросс-энтропии:

L(x,x_θ,t) = E_{t,z_t}[δ_{z_t,c} w_{t,c} CE(x, (x_θ ⊙ (Γ^T Γx))/(x_θ^T Γ^T Γx)) + δ_{z_t,m} w_{t,m} CE(Γx, Γx_θ)]

3. Механизм случайного возмущения

Вводит вероятность возмущения ξ < 1, позволяя токенам слов с вероятностью 1-ξ переходить в неправильный кластер, повышая способность модели к самокоррекции.

Экспериментальная установка

Наборы данных

Основной набор данных: OpenWebText (OWT), содержащий 131B токенов обучения
Дополнительные наборы данных: LM1B (33B токенов) для дополнительной валидации
Длина контекста: 512 токенов, без упаковки предложений

Метрики оценки

Валидационная перплексия (Valid. PPL): перплексия на валидационном наборе OWT
Генеративная перплексия (Gen. PPL): оценка сгенерированных образцов с использованием GPT2-large в качестве эталонной модели
Нижестоящие задачи: ARC, BoolQ, PIQA, OpenBookQA, WinoGrande и др.

Методы сравнения

Авторегрессивные модели: GPT-2, Llama-110M
Дискретные диффузионные модели: SEDD, MDLM, GIDD+

Детали реализации

Архитектура модели: архитектура DiT, Small (170M параметров) и Base (425M параметров)
Оптимизатор: Adam (β=(0.9,0.99)), скорость обучения 5×10^{-4}
Шаги обучения: 500k шагов, размер пакета 512
Обрезка весов: обрезка весов потерь w_{t,m}, w_{t,c} до 2.0 или 10.0 для стабилизации оптимизации

Результаты экспериментов

Основные результаты

Модель	Токены обучения	Valid. PPL (↓)	Gen. PPL (↓)
MDLM-small	131B	≤27.39	163.7
GIDD+-small	131B	≤25.82	170.2
HDLM-small-64	131B	≤23.36	144.2
HDLM-small-128	131B	≤23.25	148.0
HDLM-base-128	131B	≤19.22	139.9

Ключевые выводы:

HDLM-small превосходит другие дискретные диффузионные методы как по валидационной, так и по генеративной перплексии
HDLM-base достигает перплексии 19.22, превосходя или соответствуя производительности авторегрессивных моделей

Исследования абляции

1. Влияние количества кластеров

Оптимальное количество кластеров составляет примерно 64-128 (примерно квадратный корень из размера словаря)
При n=1 восстанавливается производительность MDLM, что подтверждает теоретический анализ

2. Эффект случайного возмущения

При ξ=0.9 генеративная перплексия снижается на 51% (с 144.2 до 69.76)
При ξ=0.8 генеративная перплексия снижается на 62% (до 54.15)
Демонстрирует значительное улучшение способности к самокоррекции

3. Расписание прямого процесса

Чем больше значение γ, тем сложнее задача удаления шума на одном шаге, но фактическая производительность вывода лучше
При γ=3 достигается лучшая генеративная перплексия 135.9

Производительность нижестоящих задач

На нескольких задачах понимания HDLM-small достигает средней точности 39.62%, превосходя GIDD (38.53%), демонстрируя сильную способность к обобщению.

Связанные работы

1. Развитие дискретных диффузионных моделей

D3PM: заложила теоретическую основу дискретной диффузии
SEDD: изучение конкретных оценок как отношения маргинальных распределений
MDLM/MD4: упрощение целей обучения маскированного прямого процесса

2. Масштабирование диффузионных языковых моделей

LLaDA и Dream: демонстрация потенциала масштабирования диффузионных языковых моделей
Block Diffusion: исследование новой парадигмы авторегрессивной генерации текстовых блоков с диффузией внутри блоков

3. Преимущества данной работы по сравнению со связанными работами

Предоставляет новую процедуру шумления, концептуально простую и практически эффективную
Сохраняет способность к самокоррекции, избегая недостатков равномерного шума
Устанавливает строгую теоретическую структуру и замкнутый ELBO

Заключение и обсуждение

Основные выводы

HDLM эффективно улучшает дискретное диффузионное языковое моделирование через схему "предсказание следующего семантического масштаба"
Иерархическая семантическая структура обеспечивает более богатые промежуточные представления по сравнению с традиционным маскированием
Механизм случайного возмущения значительно повышает способность модели к самокоррекции
Теоретическая структура обладает хорошей универсальностью и масштабируемостью

Ограничения

Зависимость от качества кластеризации: в настоящее время используется предопределенная кластеризация K-means, качество которой значительно влияет на производительность
Вычислительная сложность: многоуровневая структура может увеличить вычислительные затраты на обучение и вывод
Чувствительность гиперпараметров: требуется тщательная настройка гиперпараметров, таких как обрезка весов, для стабилизации обучения

Будущие направления

Исследование более сложных методов обучения иерархической структуры (например, DeepSets)
Изучение реализации и оптимизации нескольких промежуточных уровней
Расширение структуры на языковые модели большего масштаба
Исследование приложений в многомодальных задачах

Глубокая оценка

Преимущества

Твердый теоретический вклад: предоставляет полную теоретическую структуру CTMC и строгие математические выводы
Сильная инновационность метода: впервые вводит семантическую иерархическую структуру в дискретное диффузионное языковое моделирование
Полный экспериментальный дизайн: включает комплексные исследования абляции и сравнительные эксперименты
Высокая практическая ценность: предложенные методы могут быть непосредственно применены к существующим структурам диффузионных моделей

Недостатки

Ограничение масштаба: эксперименты проводились в основном на моделях среднего и малого размера, недостаточно крупномасштабной валидации
Простой метод кластеризации: текущий метод семантической кластеризации относительно базовый, что может ограничить верхний предел производительности
Оценка качества генерации: в основном полагается на метрику перплексии, не хватает человеческой оценки и анализа разнообразия

Влияние

Академический вклад: предоставляет новое направление исследований для дискретного диффузионного языкового моделирования
Практическая ценность: метод прост в реализации и может быть распространен на практические приложения
Воспроизводимость: авторы предоставляют полную реализацию кода и подробные экспериментальные установки

Применимые сценарии

Задачи генерации текста: особенно подходит для сценариев генерации, требующих постепенного уточнения
Управляемая генерация текста: иерархическая структура облегчает реализацию управления на разных уровнях детализации
Редактирование и пересмотр текста: способность к самокоррекции делает её подходящей для задач модификации текста

Библиография

Статья цитирует важные работы в области диффузионных моделей, языкового моделирования и дискретного моделирования пространства состояний, включая ключевые базовые работы D3PM, MDLM, GIDD и классические языковые модели серии GPT и BERT.