2025-11-29T21:55:19.383942

PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling

Wang, Wang, Shi

Video generation has been advancing rapidly, and diffusion transformer (DiT) based models have demonstrated remark- able capabilities. However, their practical deployment is of- ten hindered by slow inference speeds and high memory con- sumption. In this paper, we propose a novel pipelining frame- work named PipeDiT to accelerate video generation, which is equipped with three main innovations. First, we design a pipelining algorithm (PipeSP) for sequence parallelism (SP) to enable the computation of latent generation and commu- nication among multiple GPUs to be pipelined, thus reduc- ing inference latency. Second, we propose DeDiVAE to de- couple the diffusion module and the variational autoencoder (VAE) module into two GPU groups, whose executions can also be pipelined to reduce memory consumption and infer- ence latency. Third, to better utilize the GPU resources in the VAE group, we propose an attention co-processing (Aco) method to further reduce the overall video generation latency. We integrate our PipeDiT into both OpenSoraPlan and Hun- yuanVideo, two state-of-the-art open-source video generation frameworks, and conduct extensive experiments on two 8- GPU systems. Experimental results show that, under many common resolution and timestep configurations, our PipeDiT achieves 1.06x to 4.02x speedups over OpenSoraPlan and HunyuanVideo.

academic

PipeDiT: タスクパイプライニングとモデル分離によるビデオ生成の拡散トランスフォーマー加速

基本情報

論文ID: 2511.12056
タイトル: PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling
著者: Sijie Wang, Qiang Wang, Shaohuai Shi (ハルビン工業大学深圳校区)
分類: cs.CV, cs.AI, cs.DC
発表日: 2025年11月15日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2511.12056

摘要

ビデオ生成技術は急速に発展しており、拡散トランスフォーマー(DiT)ベースのモデルは優れた能力を示していますが、実際の展開では推論速度が遅く、メモリ消費が多いという問題に直面しています。本論文はPipeDiTフレームワークを提案し、3つのイノベーションを通じてビデオ生成を加速します：(1) PipeSPアルゴリズムは、シーケンス並列処理における計算と通信のパイプライン化を実現します；(2) DeDiVAE方法は、拡散モジュールとVAEデコーダを異なるGPUグループに分離します；(3) Aco注意力協調処理方法はGPU利用率を最適化します。OpenSoraPlanとHunyuanVideoの2つのオープンソースフレームワークでの実験により、PipeDiTは1.06倍から4.02倍の加速を実現しました。

研究背景と動機

コア問題

拡散トランスフォーマー(DiT)はビデオ生成において2つの主要なボトルネックに直面しています：

推論遅延が高い：逆拡散プロセスの固有の順序性により、並列性が大きく制限されます
メモリ消費が多い：VAEデコード段階では、ターゲット解像度とフレームレートへのアップサンプリングにより、大量のメモリが消費されます

問題の重要性

実用性の要求：ビデオ生成サービスは複数の並行クエリを処理する必要があり、推論効率はユーザー体験とサービスコストに直接影響します
ハードウェア制限：実験により、48GBのGPUメモリ制限下では、OpenSoraPlanは1024×576×97を超える解像度のビデオを生成できず、HunyuanVideoはさらに256×128×33に制限されることが示されています

既存方法の限界

画像生成最適化方法：

DistriFusionとPipeFusionは画像生成用に設計されており、ビデオ生成の長シーケンス特性には適用できません

ビデオ生成最適化方法：

Teacacheなどの方法：時間ステップ特徴の再利用により計算を削減しますが、生成品質を低下させる可能性があります
シーケンス並列(SP)方法：
- Ulysses：注意力ヘッドの分割により並列化を実現しますが、計算と通信の順序実行、GPU資源の不十分な利用という問題があります
- Ring-Attention：より高い並列度をサポートしますが、通信オーバーヘッドが大きいです
- USP：両者を組み合わせますが、追加の通信オーバーヘッドが増加します

オフロード戦略：

CPU-GPUデータ転送によりメモリ使用量を削減しますが、顕著な転送オーバーヘッドが発生し、効率が低下します

研究動機

OpenSoraPlanとHunyuanVideoのパフォーマンス分析(図2)から以下が明らかになります：

時間ボトルネック：拡散段階の実行時間は他の段階をはるかに上回ります
メモリボトルネック：VAEデコードのピークメモリは44GB(256×128×33解像度)に達します
リソース浪費：拡散モジュールとVAEデコーダの共置により、順序実行とメモリ浪費が発生します

コア貢献

PipeSPアルゴリズム：パイプライン化シーケンス並列方法を提案し、注意力ヘッド次元での分割と即座のAll-to-All通信トリガーにより、計算と通信の重複を実現し、GPU利用率を向上させます
DeDiVAEモジュール分離：拡散モジュールとVAEデコーダを異なるGPUグループに割り当て、モジュールレベルのパイプライン並列を実現し、ピークメモリ消費を大幅に削減します(OpenSoraPlanで最大53.3%削減)
Aco注意力協調処理：DiTブロックを線形投影と注意力計算に細粒度で分解し、デコードGPUグループがアイドル時に注意力計算に参加できるようにし、全体的な効率をさらに向上させます
システム実装と検証：OpenSoraPlan(2Bパラメータ)とHunyuanVideo(13Bパラメータ)で実装し、8-GPUシステムで広範な実験を実施し、方法の有効性とスケーラビリティを証明します

方法の詳細

タスク定義

ビデオ生成フロー：

入力：テキストプロンプト
出力：高品質ビデオ
2段階プロセス：
1. ノイズ除去段階：拡散モデルが複数の時間ステップを通じて潜在表現を反復的に最適化します
2. デコード段階：VAEデコーダが潜在表現を全解像度ビデオにアップサンプリングします

モデルアーキテクチャ

1. PipeSP：パイプライン化シーケンス並列

元のUlyssesの問題：

すべての注意力ヘッド計算が完了した後にのみ、単一のAll-to-All通信が実行されます
GPUは通信を待機している間、アイドル状態にあります

PipeSP設計(アルゴリズム1)：

各注意力ヘッド j ∈ [0, h-1] に対して:
  1. attention(Q[:,j,:,:], K[:,j,:,:], V[:,j,:,:]) を計算
  2. CUDA イベントマーカーで計算完了を記録
  3. イベント完了後、即座に All-to-All 通信をトリガー
  4. 結果を収集

後処理アライメント(結果のずれの問題を解決)：

view(-1, h, n, D) → permute(0, 2, 1, 3) → view(-1, nh, D) シーケンス変換を通じて
インターリーブされたテンソルを元のUlyssesが期待するhead-contiguous レイアウトにマッピングします

数学的正確性の証明： reshape マッピング φ_{h,n} と置換操作 π を定義し、複合マッピング Ψ = φ^{-1}{h,n} ∘ π ∘ φ{h,n} は以下を満たします：

(ΨT_mod)[b, k_orig(i,j), d] = T_mod[b, k_mod(i,j), d]

最適化後の結果が元の実装と完全に一致することを保証します。

2. DeDiVAE：拡散-VAEモジュール分離

GPUグループ化戦略：

ノイズ除去グループ：N_denoise個のGPU、拡散バックボーンネットワークを保存
デコードグループ：N_decode = N - N_denoise個のGPU、VAEデコーダを保存

最適なGPU割り当て： 1次バランス条件に基づき、両グループの実行時間を等しくして重複を最大化します：

N_decode ≈ ⌈(T_decode / (T_decode + T_denoise)) × N⌉

ここで、T_denoiseとT_decodeはそれぞれ単一GPU上のノイズ除去とデコード時間です。

マルチプロンプトパイプライン：

最初のプロンプトのデコードが2番目のプロンプトのノイズ除去と並行実行されます
共有キューを通じて潜在表現を渡し、プロデューサー-コンシューマーパターンを実現します

3. Aco：注意力協調処理

動機：ノイズ除去時間がデコード時間をはるかに上回る場合、デコードGPUグループはほとんどの時間アイドル状態にあります

細粒度分解： DiTブロックを以下に分解します：

線形投影：Q = XW_Q, K = XW_K, V = XW_V(ノイズ除去グループで実行)
注意力カーネル：Attn(Q,K,V)(デコードグループで並行実行可能)

実行フロー：

プロンプト1段階(デコードキューが空)：
1. ノイズ除去グループがQ,K,Vを計算し、P2P通信でデコードグループに送信
2. 両グループが注意力計算を並行実行
3. All-to-AllとP2P通信で結果を集約
プロンプト2段階(デコードキューが非空)：
1. ノイズ除去グループが独立して注意力計算を実行
2. デコードグループがVAEデコードを並行実行

パフォーマンス分析：理論的加速比：

S = T_baseline / T_coop = (t_L + t_A) / (t_L + t_A × N_denoise/N)

ここで、t_Lとt_Aはそれぞれ線形投影と注意力計算の時間です。

注意力ヘッドが整除できない問題への対処：

OpenSoraPlan：ヘッド次元パディングを導入して負荷均衡を確保
HunyuanVideo/Wan：USPをサポートし、UlyssesとRing-Attentionの次数を柔軟に切り替え、パディングオーバーヘッドを回避

技術的イノベーション

通信-計算重複：PipeSPは細粒度のヘッドレベルパイプラインを通じて、Ulyssesで初めて効果的な通信隠蔽を実現します
モジュールレベル分離：DeDiVAEは従来の共置設計を突破し、GPUグループ分離によりメモリと計算の二重最適化を実現します
動的リソーススケジューリング：Acoは作業負荷に応じて動的にアイドルGPUリソースを利用し、従来の静的割り当ての効率損失を回避します
数学的厳密性：PipeSP変換の形式的正確性証明を提供し、最適化が計算結果を変更しないことを保証します

実験設定

テストプラットフォーム

システム1：8× NVIDIA RTX A6000 (48GB)

CPU: Intel Xeon Platinum 8358 @2.60GHz
インターコネクト: NVLink (112.5GB/s, 4×)

システム2：8× NVIDIA L40 (48GB)

CPU: Intel Xeon Platinum 8358 @2.60GHz
インターコネクト: PCIe 4.0 (x16)

ベンチマークモデル

OpenSoraPlan v1.3.0：2Bパラメータ、Ulyssesシーケンス並列を使用
HunyuanVideo：13Bパラメータ、xDiTのUSPを統合

評価指標

単一時間ステップ遅延：PipeSPの最適化効果を測定
エンドツーエンド遅延：複数ビデオ生成の総時間、PipeDiT全体最適化効果を測定
ピークGPUメモリ：DeDiVAEのメモリ最適化効果を評価

実験設定

解像度設定：

480×352 (65/97/129フレーム)
640×352 (65/97/129フレーム)
800×592 (65/97/129フレーム)
1024×576 (65/97/129フレーム)

時間ステップ数：10, 20, 30, 40, 50

プロンプト数：10個(主実験)、その他設定は補足資料を参照

比較方法：

ベースライン：元の実装 + オフロード
PipeDiT (w/o Aco)：PipeSP + DeDiVAE
PipeDiT (w/ Aco)：完全な方法

実験結果

主要結果

エンドツーエンドパフォーマンス(表1)

OpenSoraPlan (A6000)：

最高加速：480×352×97, 10ステップ → 2.12× (227秒 → 107秒)
高解像度：1024×576×97, 50ステップ → 1.18× (2162秒 → 1832秒)
傾向：低解像度、少フレーム数、短時間ステップでより顕著な加速比

HunyuanVideo (A6000)：

最高加速：480×352×97, 10ステップ → 3.27× (540秒 → 165秒)
大規模モデルの利点：パラメータ数が多いほどオフロードオーバーヘッドが高く、PipeDiT最適化効果がより顕著
高解像度：1024×576×97, 50ステップ → 1.08× (3726秒 → 3453秒)

プラットフォーム差異：

A6000(NVLink)はL40(PCIe)と比較してより高い加速比を達成
例えば、HunyuanVideo 480×352×97, 10ステップ：A6000 3.27× vs L40 2.95×

補足資料の完全結果：

最高加速は4.02×(HunyuanVideo, 480×352×65, 10ステップ)に達します
12種類の解像度×5種類の時間ステップ設定、合計60組の実験をカバー

PipeSPの有効性(表2)

最適設定：640×352×129

OpenSoraPlan (A6000): 1.15× 加速 (2.10秒 → 1.83秒)
OpenSoraPlan (L40): 1.04× 加速 (2.44秒 → 2.34秒)

パフォーマンス特性：

中程度の解像度で最高の効果(計算と通信時間のバランス)
極低解像度：通信オーバーヘッドが利益を相殺
極高解像度：通信の割合が低下し、最適化利益が減少

メモリ最適化効果(表4)

OpenSoraPlan：

1024×576×129: ベースラインOOM → オフロード 28.3GB → DeDiVAE 28.1GB
800×592×129: ベースライン39.8GB → DeDiVAE 18.6GB (53.3%削減)
480×352×129: ベースライン26.5GB → DeDiVAE 18.0GB (32.1%削減)

HunyuanVideo：

すべての設定でベースラインがOOM
オフロード: 29.37-33.01GB (31.2-38.8%削減)
DeDiVAE: 41.44-42.12GB (12.2-13.7%削減)

注：HunyuanVideoのDeDiVAEメモリがオフロードより高いのは、大規模テキストエンコーダをVAEデコーダと共置しているためで、方法の柔軟な適応性を示しています。

アブレーション実験(表3)

コンポーネント貢献度分析(OpenSoraPlan A6000, 30ステップ)：

設定	480×352×65	640×352×129	1024×576×129
ベースライン (A)	314秒 (1×)	665秒 (1×)	1995秒 (1×)
+DeDiVAE (B)	217秒 (1.45×)	500秒 (1.33×)	2138秒 (0.93×)
+PipeSP (C)	200秒 (1.57×)	509秒 (1.31×)	1936秒 (1.03×)
+Aco (D)	261秒 (1.20×)	507秒 (1.31×)	1690秒 (1.18×)

主要な発見：

DeDiVAE：低解像度で顕著な改善、高解像度ではノイズ除去GPU削減により効果が減弱
PipeSP：OpenSoraPlanで明らかな効果(モジュール化されていない設計により、より多くの重複が可能)
Aco：高負荷タスクで顕著な改善、DeDiVAEの高解像度での不足を補完

Acoパフォーマンスヒートマップ(図5)：

PipeDiT w/ Acoとw/o Acoの遅延差を表示
高ワークロード設定でAcoが顕著な改善をもたらす

ケーススタディ

生成結果の一貫性検証(図6)：

同じプロンプト、設定、サンプリングフレームインデックス下で
PipeDiTが生成した結果は元のアルゴリズムと完全に一致
最適化が生成品質に影響しないことを証明

実験的発見

加速比とワークロードの関係：
- 低解像度 + 短時間ステップ → 最高加速(4.02×)
- 高解像度 + 長時間ステップ → 依然として改善(1.06-1.18×)
- 理由：計算時間の割合が増加し、オフロードボトルネックの相対的影響が減少
ハードウェアインターコネクトの影響：
- NVLink (A6000) vs PCIe (L40)：前者がより高い加速比を達成
- 高帯域幅インターコネクトはPipeSPの通信隠蔽効果を増幅
モデル規模の影響：
- 大規模モデル(HunyuanVideo 13B)は小規模モデル(OpenSoraPlan 2B)より多くの利益を得る
- 理由：オフロードオーバーヘッドはモデルサイズに比例
将来のトレンド適応：
- 現在のトレンド：より少ない時間ステップ + より積極的なVAE圧縮
- 予想：ノイズ除去時間の削減によりPipeDiT加速比がさらに向上
- MoEアーキテクチャ(Wan2.2など)：モデルがより大きく、オフロードがより不可能、PipeDiTの利点がより顕著

結論と議論

主要な結論

PipeSPの有効性：ヘッドレベルパイプラインにより計算-通信重複を実現、単一時間ステップ遅延を最大15%改善
DeDiVAEの革新性：モジュール分離 + GPUグループ分離、ピークメモリを最大53.3%削減し、高解像度生成を可能にする
Acoの補完性：動的リソース利用によりDeDiVAEの高負荷での不足を補完、全体加速1.06-4.02×
汎用性の検証：2B(OpenSoraPlan)と13B(HunyuanVideo)パラメータモデルで有効
品質保証：最適化は生成アルゴリズムを変更せず、出力結果は元の実装と完全に一致

限界

ハードウェア依存性：
- NVLinkプラットフォームはPCIeより効果的、インターコネクト帯域幅に敏感
- 複数GPUシステムが必要(実験では8-GPU使用)
ワークロード適応性：
- 極高解像度 + 長時間ステップでは加速比が低下(計算主導)
- Acoは低ワークロード下で追加オーバーヘッドをもたらす可能性
注意力ヘッド制約：
- USPをサポートしないモデルは整除できない場合のパディング処理が必要
- 一部GPUが冗長計算を実行する可能性
モジュール共置の柔軟性：
- HunyuanVideoはテキストエンコーダをVAEと共置する必要
- 大規模エンコーダはメモリ最適化効果の一部を相殺する可能性
マルチプロンプト依存：
- DeDiVAEパイプラインは複数の並行クエリで十分な重複を必要
- 単一プロンプトシナリオではGPUアイドルが発生する可能性

将来の方向

動的GPU割り当て：
- リアルタイムワークロードに基づいてN_denoiseとN_decodeを自適応調整
- 異なる解像度と時間ステップの最適設定を検討
より多くの並列次元への拡張：
- テンソル並列とデータ並列を組み合わせ
- より大規模なモデル(100B+パラメータ)をサポート
異種ハードウェアサポート：
- 異なるGPUタイプの混合システムに適応
- PCIeインターコネクト下の通信戦略を最適化
MoEアーキテクチャ最適化：
- Wan2.2などのMoEモデル用の専門的最適化
- エキスパートルーティングによる負荷不均衡を処理
エンドツーエンド最適化：
- テキストエンコーダ最適化を統合
- より積極的なVAE圧縮方法を探索
自動チューニングフレームワーク：
- ハードウェア設定とモデル特性に基づいて最適ハイパーパラメータを自動検索
- ユーザー展開プロセスを簡素化

深層評価

利点

イノベーション性が強い：
- PipeSPはUlyssesで初めて効果的な通信-計算パイプラインを実現
- DeDiVAEは従来の共置パラダイムを突破し、モジュールレベル分離の新しい思想を提案
- Aco動的リソーススケジューリングはシステム設計の深い思考を反映
理論的に厳密：
- PipeSP変換の形式的数学証明を提供(補足資料)
- 最適GPU割り当ては1次バランス条件の理論的導出に基づく
- Acoパフォーマンス分析は明確な加速比公式を提供
実験が充分：
- 2つのモデル(2Bと13Bパラメータ) × 2つのプラットフォーム(A6000とL40)
- 12種類の解像度 × 5種類の時間ステップ = 60組設定(完全結果)
- 詳細なアブレーション実験で各コンポーネントの貢献を分析
- 生成結果の一貫性検証で品質が損なわれないことを確認
実用価値が高い：
- 主流のオープンソースフレームワークで実装、再現と展開が容易
- メモリ消費を大幅に削減し、高解像度生成を可能に
- 1.06-4.02×加速は直接的なサービスコスト削減に転化
執筆が明確：
- 論理構造が完全で、問題分析から方法設計まで層次が明確
- 図表が豊富(フロー図、パフォーマンス図、ヒートマップ)で可読性を向上
- 補足資料は完全な実験データと理論証明を提供

不足

方法の限界：
- ハードウェア要件が高い：複数GPUシステムと高帯域幅インターコネクトが必要
- 負荷依存：単一プロンプトシナリオではパイプライン効率が低下
- スケーラビリティ：Ulyssesは注意力ヘッド数に制限、Ring-Attentionへの切り替え可能だが複雑性が増加
実験設計の欠陥：
- ユーザー研究の欠如：生成品質の主観的知覚を評価していない
- 単一指標：主に遅延とメモリに焦点、エネルギー消費、スループットなどを考慮していない
- ハードウェアカバレッジ不足：48GB GPUのみテスト、より大きいまたはより小さいメモリ設定を検証していない
分析の深さが不足：
- 通信オーバーヘッドの詳細：P2P vs All-to-Allの具体的オーバーヘッドを詳細に分析していない
- 負荷均衡：不均一な注意力ヘッド分布の影響を議論していない
- 失敗ケース：方法が不適用なシナリオを示していない
比較が包括的でない：
- 最新方法の欠如：2024-2025年の最新最適化方法と比較していない
- 単一ベースライン：オフロードのみと比較、他のメモリ最適化戦略(量子化、剪定など)を含めていない
再現性の問題：
- コード未公開：論文発表時にコードリンクを提供していない
- ハイパーパラメータの詳細：実装の詳細(イベント同期メカニズムなど)の説明が不十分

影響力

分野への貢献：

理論的貢献：モジュールレベル分離のシステム最適化新パラダイムを提案
実践的貢献：ビデオ生成サービスに実装可能な加速ソリューションを提供
啓発的意義：細粒度パイプライン思想は他の多段階生成タスクに推広可能

潜在的影響：

短期：OpenSoraPlanとHunyuanVideoコミュニティが直接採用可能
中期：商用ビデオ生成サービスのアーキテクチャ設計に影響
長期：DiT推論最適化を独立した研究方向として推進

引用見通し：

システム最適化分野：複数GPU推論最適化の重要参考資料
ビデオ生成分野：加速ベースライン方法として
予想：1-2年以内に引用数が50-100に達する

適用シナリオ

最適な適用シナリオ：

マルチユーザービデオ生成サービス：
- 並行クエリが多く、パイプライン効率が高い
- 遅延に敏感で、加速がユーザー体験を直接改善
高解像度ビデオ生成：
- メモリ制限シナリオでDeDiVAEの利点が顕著
- 非効率なオフロード戦略を置き換え
NVLink複数GPUシステム：
- 高帯域幅インターコネクトがPipeSP効果を増幅
- A100/H100などのデータセンターGPU
大規模モデル推論：
- 13B+パラメータモデル、オフロードオーバーヘッドが顕著
- MoEアーキテクチャモデル

不適用シナリオ：

単一GPU推論：方法は複数GPU並列に依存
極低解像度生成：計算時間が短く、最適化利益が小さい
単一プロンプトバッチ処理：パイプラインが十分に重複できない
PCIeインターコネクト + 低ワークロード：通信オーバーヘッドが利益を相殺する可能性

展開推奨：

ワークロード評価：並行クエリ数、解像度分布を評価
ハードウェア設定：NVLinkプラットフォームを優先選択
パラメータ調整：モデルサイズに基づいてN_denoise/N_decode比を調整
指標監視：遅延、メモリ、GPU利用率を監視

参考文献

主要な引用：

Ulysses (Jacobs et al. 2023)：DeepSpeed-Ulyssesシーケンス並列基礎方法
Ring-Attention (Li et al. 2021)：シーケンス次元分割の並列戦略
USP (Fang & Zhao 2024)：統一シーケンス並列フレームワーク
DistriFusion (Li et al. 2024b)：画像生成のパッチレベル並列
Teacache (Liu et al. 2025)：時間ステップ特徴再利用方法
OpenSoraPlan (PKU-YuanGroup 2025)：オープンソースビデオ生成フレームワーク
HunyuanVideo (Kong et al. 2024)：大規模ビデオ生成モデル

総合評価：これは高品質なシステム最適化論文で、ビデオ生成DiT推論の実際的な課題に対して革新的なソリューションを提案しています。3つの技術的イノベーションは相互に補完し、完全な最適化フレームワークを形成しています。実験設計は包括的で、結果は説得力があります。主な不足はハードウェア依存性と一部の実験分析の深さです。ビデオ生成サービスプロバイダーとシステム最適化研究者にとって重要な参考価値があります。著者がコードをオープンソース化し、実際の本番環境での長期的な安定性を検証することをお勧めします。