2025-11-15T11:28:11.649653

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

Geiping, Yang, Su

Language models with recurrent depth, also referred to as universal or looped when considering transformers, are defined by the capacity to increase their computation through the repetition of layers. Recent efforts in pretraining have demonstrated that these architectures can scale to modern language modeling tasks while exhibiting advantages in reasoning tasks. In this work, we examine the relationship between recurrent-depth models and diffusion language models. Building on their similarities, we develop a new diffusion forcing sampler for these models to accelerate generation. The sampler advances by decoding new tokens at every forward pass of the model, while the latent states of these tokens can be further refined in parallel through recurrence. Theoretically, generation with our sampler is strictly more expressive than the baseline autoregressive generation using the same time budget on modern hardware. Moreover, this sampler, based on principles from diffusion literature, can be directly applied to existing 3.5B recurrent-depth transformers without any tuning, leading to up to a 5x speedup. Consequently, our findings not only provide an efficient mechanism for parallelizing the extra computation in recurrent-depth models at inference, but also suggest that such models can be naturally viewed as strong continuous, though causal, diffusion language models.

academic

Эффективные параллельные семплеры для моделей с рекуррентной глубиной и их связь с диффузионными языковыми моделями

Основная информация

ID статьи: 2510.14961
Название: Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
Авторы: Jonas Geiping, Xinyu Yang, Guinan Su
Категория: cs.LG cs.CL
Дата публикации: 16 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.14961

Аннотация

В данной работе исследуется связь между языковыми моделями с рекуррентной глубиной (также называемыми универсальными трансформерами или циклическими трансформерами) и диффузионными языковыми моделями. Модели с рекуррентной глубиной увеличивают объём вычислений путём повторения слоёв и показывают преимущества в задачах логического вывода. На основе сходства двух классов моделей авторы разработали новый семплер диффузионного принуждения для ускорения процесса генерации. Семплер декодирует новые токены при каждом прямом проходе, одновременно оптимизируя потенциальные состояния этих токенов посредством рекуррентного параллелизма. Теоретически семплер обладает большей выразительностью, чем базовая авторегрессивная генерация при одинаковом временном бюджете. Что ещё более важно, семплер может быть непосредственно применён к существующему трансформеру с рекуррентной глубиной с параметрами 3,5B без какой-либо настройки, достигая ускорения до 5 раз.

Исследовательский контекст и мотивация

Определение проблемы

Традиционные большие языковые модели используют архитектуру нейронной сети фиксированной глубины с относительно небольшим количеством слоёв (обычно двузначное число). Хотя такой дизайн хорошо работает с точки зрения эффективности обучения и производительности на большинстве задач, он имеет ограничения при решении сложных задач, требующих многошагового логического вывода, таких как математика и программирование. С точки зрения теории сложности трансформеры фиксированной глубины принадлежат классу сложности TC0, что ограничивает их выразительную способность.

Исследовательская мотивация

Ограничения вычислительной способности: модели фиксированной глубины с трудом справляются с многошаговыми логическими цепочками, требующими концептуальных скачков
Проблемы эффективности логического вывода: хотя модели с рекуррентной глубиной обладают большей выразительностью, они генерируют медленно, так как каждая рекуррентная итерация должна выполняться последовательно
Требование параллелизации: современная архитектура GPU предоставляет возможности для параллельных вычислений, но традиционная авторегрессивная генерация не может полностью их использовать

Ограничения существующих методов

Методы цепочки мышления: требуют экстернализации внутреннего процесса логического вывода в виде небольших шагов, что увеличивает длину последовательности
Модели с рекуррентной глубиной: хотя обладают большей выразительностью, каждый рекуррентный шаг при логическом выводе должен выполняться последовательно, что приводит к медленной генерации
Традиционные методы параллелизации: такие как спекулятивное декодирование, в основном разработаны для моделей фиксированной глубины

Основные вклады

Теоретический вклад: уточнение связи между моделями с рекуррентной глубиной и диффузионными моделями путём установления теоретического моста через диффузионное принуждение и стратегии логического вывода на основе блоков или волн
Методологическое инновация: предложение семплера диффузионного принуждения, применимого к моделям с рекуррентной глубиной, реализующего параллелизацию процесса логического вывода
Экспериментальная верификация: проверка эффективности метода на модели Huginn-0125 с параметрами 3,5B, достижение ускорения примерно в 5 раз на эталонных тестах GSM8K, MATH500, HumanEval и MBPP при сохранении сопоставимой точности
Практическая ценность: семплер может быть непосредственно применён к существующим моделям с рекуррентной глубиной без переобучения или настройки

Подробное описание метода

Определение задачи

Учитывая модель с рекуррентной глубиной и входную подсказку x, целью является ускорение процесса генерации текста при сохранении качества генерации. Конкретно, необходимо либо сгенерировать больше токенов при одинаковом временном бюджете, либо сократить время генерации при одинаковом количестве токенов.

Архитектура модели

Структура модели с рекуррентной глубиной

Используемая в работе модель с рекуррентной глубиной (Huginn-0125) состоит из трёх основных компонентов:

Блок прелюдии (Prelude Block) P: проецирует встроенные входные токены в пространство потенциалов
Рекуррентный блок (Recurrent Block) R: итеративно выполняется r раз, оптимизируя вектор состояния s в пространстве потенциалов
Блок коды (Coda Block) C: обрабатывает потенциальное состояние и выдаёт распределение вероятностей для следующего токена

Математическое представление:

e = P(x)
s₀ ~ N(0, σ²I)
sᵢ = R(e, sᵢ₋₁) для i ∈ {1, ..., r}
p = C(sᵣ)

Проектирование семплера диффузионного принуждения

Основная идея заключается в применении принципа диффузионного принуждения к моделям с рекуррентной глубиной, реализуя "диагональный" параллелизм:

Параллельная генерация токенов: каждый прямой проход одновременно обрабатывает несколько позиций токенов
Итеративная оптимизация: постепенная оптимизация потенциальных состояний всех активных токенов посредством рекуррентных шагов
Динамическое замораживание: адаптивный механизм выхода на основе расстояния в пространстве потенциалов

Технические инновации

1. Механизм инъекции входных данных

Рекуррентный процесс обусловлен встроенным входом e, позволяя семплеру выполнять "коррекцию пути" при изменении условий без необходимости отбрасывать частично вычисленные состояния.

2. Совместное использование кэша KV

Различные рекуррентные глубины могут совместно использовать кэш KV, значительно снижая использование памяти. Эксперименты показывают, что модель естественным образом поддерживает совместное использование кэша KV, требуя только хранения состояния KV последней рекуррентной итерации для каждой позиции токена.

3. Адаптивная стратегия выхода

Использование нормализованного расстояния в пространстве потенциалов в качестве критерия выхода:

δᵢ = ||zᵢ - z_prev,ᵢ||₂ / ||zᵢ||₂

Когда δᵢ < ε, токен в соответствующей позиции замораживается и добавляется в кэш KV.

4. Компоненты стабилизации

Механизм импульса: добавление импульса к входному условию e: e = η·e_prev + (1-η)·P(y_current)
Инъекция шума: добавление шума на каждом шаге семплирования: z' = (1-βₜ)z + βₜ·z_noise

Экспериментальная установка

Наборы данных

GSM8K: задача математического рассуждения, использование версии CoT и 8-shot настройки
MATH500: высокосложные математические задачи
HumanEval: задача генерации кода
MBPP: задачи программирования на Python

Метрики оценки

Точность (Accuracy): показатель точности, специфичный для задачи
Скорость генерации (Tokens/Second): количество токенов, генерируемых в секунду, измеряется с использованием событий CUDA

Методы сравнения

Статическая авторегрессия (Static AR): базовый метод с различными рекуррентными шагами (r=4,8,32,64)
Авторегрессия с адаптивными вычислениями: семплер адаптивных вычислений из исходной работы
Спекулятивное декодирование: тщательно настроенный базовый метод самоспекулятивного декодирования

Детали реализации

Размер пакета: 1 (логический вывод одной последовательности)
Температура: 0,2, top-p: 0,95
Параметры по умолчанию: r'=4, ε=0,03, βₜ=0, η=0,1
Максимальный размер волнового фронта: 128
Оборудование: GPU A100-40GB

Результаты экспериментов

Основные результаты

На всех эталонных тестах семплер диффузионного принуждения достигает значительного ускорения:

Семплер	GSM8K	MATH500	HumanEval	MBPP
	Точность/т/с	Точность/т/с	Точность/т/с	Точность/т/с
Static AR (r=32)	41,77%/36,1	17,60%/6,4	22,56%/13,5	31,60%/15,3
Diff. Sampler	42,08%/157,3	18,00%/30,3	20,12%/64,9	31,00%/70,2
Относительное улучшение	+0,31/4,36×	+0,40/4,73×	-2,44/4,81×	-0,60/4,59×

Абляционные исследования

Анализ чувствительности гиперпараметров

Внутренние рекуррентные шаги r': увеличение r' повышает точность, но снижает пропускную способность, r'=4 является оптимальной точкой баланса
Порог выхода ε: меньшие значения ε повышают точность, но снижают скорость, ε=0,03 является рекомендуемой настройкой
Коэффициент шума βₜ: при меньших r', надлежащий шум (βₜ=0,2-0,3) способствует стабильности
Размер волнового фронта: 64-128 является оптимальной настройкой для GPU A100

Верификация вариантов модели

Проверка надёжности метода на различных контрольных точках модели:

SWA модель: версия с усреднением весов
Модель с математической доводкой: версия, доведённая на наборе данных MetaMath

Все варианты показывают последовательное ускорение в 4-5 раз с отклонением точности в диапазоне 0,5-1%.

Верификация теоретического анализа

Масштабирование глубины vs ширины

Эксперименты подтверждают предсказания теоретического анализа:

Фаза предзаполнения: масштабирование глубины превосходит масштабирование ширины
Фаза декодирования: семплер диффузионного принуждения достигает лучшего масштабирования ширины
Выразительность: при одинаковом временном бюджете семплер диффузии строго превосходит авторегрессивную генерацию

Связанные работы

Исследование рекуррентных моделей

Историческое развитие: эволюция от ранних RNN к универсальным трансформерам
Теоретическая основа: вычислительная способность универсальной машины Тьюринга и классы сложности
Практическое применение: преимущества в задачах алгоритмического обучения и логического вывода

Диффузионные языковые модели

Диффузия в непрерывной области: успешное применение в генерации изображений
Диффузия в дискретной области: вызовы и решения для генерации текста
Стратегии логического вывода: методы блочной диффузии и диффузионного принуждения

Технологии ускорения логического вывода

Спекулятивное декодирование: использование малой модели для черновика, большой модели для проверки
Стратегии параллелизации: компромисс между ограничениями памяти и вычислениями

Выводы и обсуждение

Основные выводы

Теоретический вклад: установление теоретической связи между моделями с рекуррентной глубиной и диффузионными моделями
Практическая ценность: достижение 5-кратного ускорения логического вывода при сохранении качества генерации
Универсальность: метод может быть непосредственно применён к существующим моделям без переобучения
Новая перспектива: модели с рекуррентной глубиной могут рассматриваться как непрерывные причинные диффузионные языковые модели

Ограничения

Ограничение пакетной обработки: текущая реализация поддерживает только логический вывод одной последовательности, пакетные сценарии требуют сложного механизма логического вывода
Эффективность FLOP: хотя повышается степень параллелизма, использование FLOP фактически увеличивается
Зависимость от оборудования: оптимальные параметры зависят от конкретной конфигурации оборудования
Требования к модели: требуется, чтобы модель удовлетворяла определённым требованиям архитектуры (инъекция входных данных, надёжная рекуррентность и т. д.)

Будущие направления

Механизм логического вывода пакетной обработки: разработка системы, поддерживающей логический вывод больших пакетов
Оптимизация архитектуры: проектирование архитектур с рекуррентной глубиной, более подходящих для семплирования диффузионного принуждения
Цели обучения: изучение применения целей развёртывания в моделировании диффузионного языка
Углубление теории: дальнейшее исследование теоретической основы моделей с рекуррентной глубиной как диффузионных моделей

Глубокая оценка

Преимущества

Сильная инновационность: первое установление связи между моделями с рекуррентной глубиной и диффузионными моделями, предоставляющее новую теоретическую перспективу
Высокая практическая ценность: достижение значительного ускорения логического вывода, применимого непосредственно к существующим моделям
Строгая теория: предоставление теоретического анализа масштабирования глубины vs ширины и доказательства сходимости
Полные эксперименты: верификация эффективности и надёжности метода на нескольких эталонных тестах и вариантах моделей

Недостатки

Ограниченная область применения: метод требует, чтобы модель удовлетворяла определённым требованиям архитектуры, что ограничивает универсальность
Недостаточная поддержка пакетной обработки: логический вывод одной последовательности ограничивает применение в производственной среде
Накладные расходы на память: хотя имеется совместное использование кэша KV, всё ещё требуется дополнительное хранилище потенциального состояния
Чувствительность параметров: несколько гиперпараметров требуют настройки для различных задач и оборудования

Влияние

Академический вклад: предоставление новой точки пересечения для исследования моделей с рекуррентной глубиной и диффузионных моделей
Инженерная ценность: предоставление новой технологической траектории для оптимизации логического вывода больших моделей
Вдохновляющее значение: возможное вдохновение дополнительных исследований по комбинированию архитектуры модели и стратегий семплирования

Применимые сценарии

Логический вывод одного пользователя: генерация текста в личных или небольших приложениях
Задачи, интенсивные по логическому выводу: задачи, требующие многошагового логического вывода, такие как математика и программирование
Среды с ограниченными ресурсами: сценарии, требующие повышения эффективности логического вывода при ограниченных вычислительных ресурсах
Исследовательские прототипы: дальнейшие исследования моделей с рекуррентной глубиной и диффузионного семплирования

Библиография

Статья ссылается на богатый объём связанных работ, включая:

Dehghani et al. (2019): исходная работа Universal Transformers
Chen et al. (2024a): метод Diffusion Forcing
Geiping et al. (2025): модель Huginn-0125 с рекуррентной глубиной
Rombach et al. (2022): диффузионные модели в пространстве потенциалов
Leviathan et al. (2023): метод спекулятивного декодирования

Общая оценка: Это высококачественная исследовательская работа, имеющая важные вклады как в теоретическую инновацию, так и в практическую ценность. Статья успешно устанавливает связь между двумя важными классами моделей и предлагает практический метод ускорения. Хотя существуют определённые ограничения, работа предоставляет ценные направления и основу для будущих исследований.