Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
Zhou, Wang, Zhang et al.
In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.
academic
Предсказание следующего семантического масштаба через иерархические диффузионные языковые модели
В данной работе представлены иерархические диффузионные языковые модели (HDLM) — новый тип дискретной диффузионной модели для языкового моделирования. HDLM основана на иерархическом словаре, где низкоуровневые токены с детальной семантикой сюръективно отображаются на высокоуровневые токены с грубозернистым значением. В прямом процессе каждый токен независимо возмущается в соответствии с расписанием в высокоуровневого предка с более абстрактной семантикой, тогда как в обратном процессе модель постепенно предсказывает следующий более детальный семантический уровень. HDLM предоставляет универсальный процесс предсказания следующего семантического масштаба, зависящий от времени, для языкового моделирования. Авторы выводят замкнутое выражение для нижней границы доказательства диффузии (ELBO) и демонстрируют, что HDLM может быть гибко реализована, при этом включая существующие MDLM как частный случай.
Существующие дискретные диффузионные языковые модели имеют несколько фундаментальных ограничений:
Маскированная диффузия: все маскированные токены имеют одно и то же маскированное встраивание, что не обеспечивает богатую семантику; невозможно самостоятельно исправлять уже сгенерированные токены
Равномерная диффузия: один и тот же токен действует как шум на этапе шумления, но становится значимым при декодировании, что приводит к семантической несогласованности и путанице
Хотя авторегрессивные языковые модели являются современным методом, их схема предсказания следующего токена принципиально ограничивает способность пересматривать ранее сгенерированные токены. Диффузионные модели привлекают внимание благодаря своей способности к постепенному удалению шума и уточнению, однако существующие дискретные диффузионные методы по-прежнему имеют значительные ограничения в языковом моделировании.
GIDD: хотя объединяет маскирование и равномерный шум, шумные токены по-прежнему не обладают богатой семантикой и имеют ограниченную способность к самокоррекции
Авторы предлагают максимизировать преимущества диффузионных моделей путем введения семантической иерархии для реализации генерации в произвольном порядке и постепенного самоуточнения, аналогично предсказанию следующего масштаба в визуальных авторегрессивных моделях (VAR).
Предложена структура HDLM: универсальная и гибкая структура дискретного диффузионного языкового моделирования, реализуемая через предсказание следующего семантического масштаба, зависящее от времени
Установлена строгая теоретическая база: на основе структуры непрерывной цепи Маркова (CTMC) выведено замкнутое выражение ELBO для иерархической дискретной диффузии
Доказана совместимость: теоретически доказано, что MDLM является частным случаем HDLM, демонстрируя универсальность структуры
Предложены практические методы: на основе теоретических идей предложены улучшенные методы обучения и выборки
Достигнуто повышение производительности: в экспериментах по генерации текста постоянно демонстрируется более низкая валидационная и генеративная перплексия по сравнению с базовыми методами
Задача HDLM состоит в постепенном предсказании более детальных токенов через иерархическую семантическую структуру при заданном зашумленном входе до восстановления исходного словаря. Входом являются зашумленные токены на разных уровнях, выходом — распределение предсказаний на уровне слов.
Постепенная семантика: промежуточные уровни можно рассматривать как частично декодированные токены, обеспечивающие более богатую семантику, чем одиночный маскированный токен
Гибкое декодирование: неопределенность в грубозернистой семантике позволяет большую гибкость при декодировании
Вводит вероятность возмущения ξ < 1, позволяя токенам слов с вероятностью 1-ξ переходить в неправильный кластер, повышая способность модели к самокоррекции.
Зависимость от качества кластеризации: в настоящее время используется предопределенная кластеризация K-means, качество которой значительно влияет на производительность
Вычислительная сложность: многоуровневая структура может увеличить вычислительные затраты на обучение и вывод
Чувствительность гиперпараметров: требуется тщательная настройка гиперпараметров, таких как обрезка весов, для стабилизации обучения
Статья цитирует важные работы в области диффузионных моделей, языкового моделирования и дискретного моделирования пространства состояний, включая ключевые базовые работы D3PM, MDLM, GIDD и классические языковые модели серии GPT и BERT.