PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling
Wang, Wang, Shi
Video generation has been advancing rapidly, and diffusion transformer (DiT) based models have demonstrated remark- able capabilities. However, their practical deployment is of- ten hindered by slow inference speeds and high memory con- sumption. In this paper, we propose a novel pipelining frame- work named PipeDiT to accelerate video generation, which is equipped with three main innovations. First, we design a pipelining algorithm (PipeSP) for sequence parallelism (SP) to enable the computation of latent generation and commu- nication among multiple GPUs to be pipelined, thus reduc- ing inference latency. Second, we propose DeDiVAE to de- couple the diffusion module and the variational autoencoder (VAE) module into two GPU groups, whose executions can also be pipelined to reduce memory consumption and infer- ence latency. Third, to better utilize the GPU resources in the VAE group, we propose an attention co-processing (Aco) method to further reduce the overall video generation latency. We integrate our PipeDiT into both OpenSoraPlan and Hun- yuanVideo, two state-of-the-art open-source video generation frameworks, and conduct extensive experiments on two 8- GPU systems. Experimental results show that, under many common resolution and timestep configurations, our PipeDiT achieves 1.06x to 4.02x speedups over OpenSoraPlan and HunyuanVideo.
academic
PipeDiT: Ускорение диффузионных трансформаторов при генерации видео с использованием конвейеризации задач и развязки модели
Технология генерации видео развивается быстрыми темпами, и модели на основе диффузионных трансформаторов (DiT) демонстрируют выдающиеся возможности, однако при практическом развертывании сталкиваются с проблемами медленной скорости вывода и высокого потребления памяти. В данной статье предлагается фреймворк PipeDiT, который ускоряет генерацию видео посредством трех инноваций: (1) алгоритм PipeSP реализует конвейеризацию вычислений и коммуникации при последовательном параллелизме; (2) метод DeDiVAE развязывает модуль диффузии и декодер VAE на различные группы GPU; (3) метод совместной обработки внимания Aco оптимизирует использование GPU. Эксперименты на двух открытых фреймворках OpenSoraPlan и HunyuanVideo демонстрируют ускорение PipeDiT в диапазоне 1,06× до 4,02×.
Диффузионные трансформаторы (DiT) при генерации видео сталкиваются с двумя ключевыми узкими местами:
Высокая задержка вывода: Внутренняя последовательность обратного процесса диффузии серьезно ограничивает параллелизм
Большое потребление памяти: Этап декодирования VAE потребляет значительный объем памяти из-за увеличения масштаба до целевого разрешения и частоты кадров
Требования практичности: Сервисы генерации видео должны обрабатывать несколько одновременных запросов, эффективность вывода напрямую влияет на пользовательский опыт и стоимость обслуживания
Аппаратные ограничения: Эксперименты показывают, что при ограничении памяти GPU в 48 ГБ OpenSoraPlan не может генерировать видео с разрешением выше 1024×576×97, а HunyuanVideo ограничен 256×128×33
DistriFusion и PipeFusion разработаны для генерации изображений и не подходят для длинных последовательностей видео
Методы оптимизации для генерации видео:
Методы типа Teacache: Снижают вычисления путем повторного использования признаков временных шагов, но могут снизить качество генерации
Методы последовательного параллелизма (SP):
Ulysses: Реализует параллелизм путем разделения голов внимания, но имеет проблемы с последовательным выполнением вычислений и коммуникации, неполное использование ресурсов GPU
Ring-Attention: Поддерживает более высокую степень параллелизма, но с большими накладными расходами на коммуникацию
USP: Объединяет оба подхода, но увеличивает дополнительные накладные расходы на коммуникацию
Стратегии выгрузки:
Снижают потребление памяти путем передачи данных между CPU и GPU, но вводят значительные накладные расходы на передачу, что неэффективно
Алгоритм PipeSP: Предлагает метод конвейеризации последовательного параллелизма, который путем разделения на уровне голов внимания и немедленного инициирования коммуникации All-to-All достигает перекрытия вычислений и коммуникации, повышая использование GPU
Развязка модулей DeDiVAE: Распределяет модуль диффузии и декодер VAE на различные группы GPU, реализуя конвейеризацию параллелизма на уровне модулей, значительно снижая пиковое потребление памяти (снижение до 53,3% для OpenSoraPlan)
Совместная обработка внимания Aco: Разлагает блоки DiT на уровне зернистости на линейные проекции и вычисления внимания, позволяя GPU группе декодирования участвовать в вычислениях внимания во время простоя, дополнительно повышая общую эффективность
Системная реализация и верификация: Реализована на OpenSoraPlan (2B параметров) и HunyuanVideo (13B параметров), обширные эксперименты на системе с 8 GPU доказывают эффективность и масштабируемость метода
Коммуникация All-to-All выполняется только после завершения всех вычислений голов внимания
GPU остаются неиспользованными во время ожидания коммуникации
Дизайн PipeSP (Алгоритм 1):
Для каждой головы внимания j ∈ [0, h-1]:
1. Вычислить attention(Q[:,j,:,:], K[:,j,:,:], V[:,j,:,:])
2. Записать событие CUDA, отмечающее завершение вычисления
3. Немедленно инициировать коммуникацию All-to-All после завершения события
4. Собрать результаты
Выравнивание постобработки (решение проблемы смещения результатов):
Путем последовательного преобразования view(-1, h, n, D) → permute(0, 2, 1, 3) → view(-1, nh, D)
Отображает чередующиеся тензоры в макет, ожидаемый исходным Ulysses (head-contiguous)
Перекрытие коммуникации и вычисления: PipeSP впервые реализует эффективное скрытие коммуникации в Ulysses через конвейеризацию на уровне голов
Развязка на уровне модулей: DeDiVAE преодолевает традиционный дизайн совместного размещения, реализуя двойную оптимизацию памяти и вычисления через разделение групп GPU
Динамическое планирование ресурсов: Aco динамически использует ресурсы простаивающих GPU в зависимости от рабочей нагрузки, избегая потерь эффективности при статическом распределении
Математическая строгость: Предоставляет формальное доказательство корректности преобразования PipeSP, гарантируя, что оптимизация не изменяет результаты вычисления
Преимущество большой модели: Больший размер параметров приводит к более высоким накладным расходам на выгрузку, эффект оптимизации PipeDiT более выраженный
Примечание: Память DeDiVAE для HunyuanVideo выше, чем при выгрузке, потому что большой кодировщик текста размещен вместе с декодером VAE, что демонстрирует гибкость адаптации метода.
Эффективность PipeSP: Реализует перекрытие вычисления-коммуникации через конвейеризацию на уровне голов, улучшение задержки одного временного шага до 15%
Прорывность DeDiVAE: Развязка модулей + разделение групп GPU, снижение пиковой памяти до 53,3%, делает возможной генерацию высокого разрешения
Дополнительность Aco: Динамическое использование ресурсов компенсирует недостатки DeDiVAE при высокой нагрузке, общее ускорение 1,06-4,02×
Верификация универсальности: Эффективна на моделях с параметрами 2B (OpenSoraPlan) и 13B (HunyuanVideo)
Гарантия качества: Оптимизация не изменяет алгоритм генерации, результаты полностью совпадают с исходной реализацией
DistriFusion (Li et al. 2024b): Параллелизм на уровне патчей для генерации изображений
Teacache (Liu et al. 2025): Метод повторного использования признаков временных шагов
OpenSoraPlan (PKU-YuanGroup 2025): Открытый фреймворк генерации видео
HunyuanVideo (Kong et al. 2024): Крупномасштабная модель генерации видео
Общая оценка: Это высококачественная статья по системной оптимизации, направленная на практические проблемы вывода DiT при генерации видео. Три технических инновации хорошо интегрированы, образуя полный фреймворк оптимизации. Экспериментальный дизайн полный, результаты убедительны. Основные недостатки заключаются в зависимости от оборудования и глубине некоторых анализов. Имеет важное справочное значение для поставщиков сервисов генерации видео и исследователей системной оптимизации. Рекомендуется авторам открыть код и верифицировать долгосрочную стабильность в реальных производственных средах.