Video generation has been advancing rapidly, and diffusion transformer (DiT) based models have demonstrated remark- able capabilities. However, their practical deployment is of- ten hindered by slow inference speeds and high memory con- sumption. In this paper, we propose a novel pipelining frame- work named PipeDiT to accelerate video generation, which is equipped with three main innovations. First, we design a pipelining algorithm (PipeSP) for sequence parallelism (SP) to enable the computation of latent generation and commu- nication among multiple GPUs to be pipelined, thus reduc- ing inference latency. Second, we propose DeDiVAE to de- couple the diffusion module and the variational autoencoder (VAE) module into two GPU groups, whose executions can also be pipelined to reduce memory consumption and infer- ence latency. Third, to better utilize the GPU resources in the VAE group, we propose an attention co-processing (Aco) method to further reduce the overall video generation latency. We integrate our PipeDiT into both OpenSoraPlan and Hun- yuanVideo, two state-of-the-art open-source video generation frameworks, and conduct extensive experiments on two 8- GPU systems. Experimental results show that, under many common resolution and timestep configurations, our PipeDiT achieves 1.06x to 4.02x speedups over OpenSoraPlan and HunyuanVideo.
論文ID : 2511.12056タイトル : PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling著者 : Sijie Wang, Qiang Wang, Shaohuai Shi (ハルビン工業大学深圳校区)分類 : cs.CV, cs.AI, cs.DC発表日 : 2025年11月15日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2511.12056 ビデオ生成技術は急速に発展しており、拡散トランスフォーマー(DiT)ベースのモデルは優れた能力を示していますが、実際の展開では推論速度が遅く、メモリ消費が多いという問題に直面しています。本論文はPipeDiTフレームワークを提案し、3つのイノベーションを通じてビデオ生成を加速します:(1) PipeSPアルゴリズムは、シーケンス並列処理における計算と通信のパイプライン化を実現します;(2) DeDiVAE方法は、拡散モジュールとVAEデコーダを異なるGPUグループに分離します;(3) Aco注意力協調処理方法はGPU利用率を最適化します。OpenSoraPlanとHunyuanVideoの2つのオープンソースフレームワークでの実験により、PipeDiTは1.06倍から4.02倍の加速を実現しました。
拡散トランスフォーマー(DiT)はビデオ生成において2つの主要なボトルネックに直面しています:
推論遅延が高い :逆拡散プロセスの固有の順序性により、並列性が大きく制限されますメモリ消費が多い :VAEデコード段階では、ターゲット解像度とフレームレートへのアップサンプリングにより、大量のメモリが消費されます実用性の要求 :ビデオ生成サービスは複数の並行クエリを処理する必要があり、推論効率はユーザー体験とサービスコストに直接影響しますハードウェア制限 :実験により、48GBのGPUメモリ制限下では、OpenSoraPlanは1024×576×97を超える解像度のビデオを生成できず、HunyuanVideoはさらに256×128×33に制限されることが示されています画像生成最適化方法 :
DistriFusionとPipeFusionは画像生成用に設計されており、ビデオ生成の長シーケンス特性には適用できません ビデオ生成最適化方法 :
Teacacheなどの方法 :時間ステップ特徴の再利用により計算を削減しますが、生成品質を低下させる可能性がありますシーケンス並列(SP)方法 :
Ulysses :注意力ヘッドの分割により並列化を実現しますが、計算と通信の順序実行、GPU資源の不十分な利用という問題がありますRing-Attention :より高い並列度をサポートしますが、通信オーバーヘッドが大きいですUSP :両者を組み合わせますが、追加の通信オーバーヘッドが増加しますオフロード戦略 :
CPU-GPUデータ転送によりメモリ使用量を削減しますが、顕著な転送オーバーヘッドが発生し、効率が低下します OpenSoraPlanとHunyuanVideoのパフォーマンス分析(図2)から以下が明らかになります:
時間ボトルネック :拡散段階の実行時間は他の段階をはるかに上回りますメモリボトルネック :VAEデコードのピークメモリは44GB(256×128×33解像度)に達しますリソース浪費 :拡散モジュールとVAEデコーダの共置により、順序実行とメモリ浪費が発生しますPipeSPアルゴリズム :パイプライン化シーケンス並列方法を提案し、注意力ヘッド次元での分割と即座のAll-to-All通信トリガーにより、計算と通信の重複を実現し、GPU利用率を向上させますDeDiVAEモジュール分離 :拡散モジュールとVAEデコーダを異なるGPUグループに割り当て、モジュールレベルのパイプライン並列を実現し、ピークメモリ消費を大幅に削減します(OpenSoraPlanで最大53.3%削減)Aco注意力協調処理 :DiTブロックを線形投影と注意力計算に細粒度で分解し、デコードGPUグループがアイドル時に注意力計算に参加できるようにし、全体的な効率をさらに向上させますシステム実装と検証 :OpenSoraPlan(2Bパラメータ)とHunyuanVideo(13Bパラメータ)で実装し、8-GPUシステムで広範な実験を実施し、方法の有効性とスケーラビリティを証明しますビデオ生成フロー :
入力 :テキストプロンプト出力 :高品質ビデオ2段階プロセス :
ノイズ除去段階 :拡散モデルが複数の時間ステップを通じて潜在表現を反復的に最適化しますデコード段階 :VAEデコーダが潜在表現を全解像度ビデオにアップサンプリングします元のUlyssesの問題 :
すべての注意力ヘッド計算が完了した後にのみ、単一のAll-to-All通信が実行されます GPUは通信を待機している間、アイドル状態にあります PipeSP設計 (アルゴリズム1):
各注意力ヘッド j ∈ [0, h-1] に対して:
1. attention(Q[:,j,:,:], K[:,j,:,:], V[:,j,:,:]) を計算
2. CUDA イベントマーカーで計算完了を記録
3. イベント完了後、即座に All-to-All 通信をトリガー
4. 結果を収集
後処理アライメント (結果のずれの問題を解決):
view(-1, h, n, D) → permute(0, 2, 1, 3) → view(-1, nh, D) シーケンス変換を通じてインターリーブされたテンソルを元のUlyssesが期待するhead-contiguous レイアウトにマッピングします 数学的正確性の証明 :
reshape マッピング φ_{h,n} と置換操作 π を定義し、複合マッピング Ψ = φ^{-1}{h,n} ∘ π ∘ φ {h,n} は以下を満たします:
(ΨT_mod)[b, k_orig(i,j), d] = T_mod[b, k_mod(i,j), d]
最適化後の結果が元の実装と完全に一致することを保証します。
GPUグループ化戦略 :
ノイズ除去グループ :N_denoise個のGPU、拡散バックボーンネットワークを保存デコードグループ :N_decode = N - N_denoise個のGPU、VAEデコーダを保存最適なGPU割り当て :
1次バランス条件に基づき、両グループの実行時間を等しくして重複を最大化します:
N_decode ≈ ⌈(T_decode / (T_decode + T_denoise)) × N⌉
ここで、T_denoiseとT_decodeはそれぞれ単一GPU上のノイズ除去とデコード時間です。
マルチプロンプトパイプライン :
最初のプロンプトのデコードが2番目のプロンプトのノイズ除去と並行実行されます 共有キューを通じて潜在表現を渡し、プロデューサー-コンシューマーパターンを実現します 動機 :ノイズ除去時間がデコード時間をはるかに上回る場合、デコードGPUグループはほとんどの時間アイドル状態にあります
細粒度分解 :
DiTブロックを以下に分解します:
線形投影 :Q = XW_Q, K = XW_K, V = XW_V(ノイズ除去グループで実行)注意力カーネル :Attn(Q,K,V)(デコードグループで並行実行可能)実行フロー :
プロンプト1段階 (デコードキューが空):ノイズ除去グループがQ,K,Vを計算し、P2P通信でデコードグループに送信 両グループが注意力計算を並行実行 All-to-AllとP2P通信で結果を集約 プロンプト2段階 (デコードキューが非空):ノイズ除去グループが独立して注意力計算を実行 デコードグループがVAEデコードを並行実行 パフォーマンス分析 :
理論的加速比:
S = T_baseline / T_coop = (t_L + t_A) / (t_L + t_A × N_denoise/N)
ここで、t_Lとt_Aはそれぞれ線形投影と注意力計算の時間です。
注意力ヘッドが整除できない問題への対処 :
OpenSoraPlan :ヘッド次元パディングを導入して負荷均衡を確保HunyuanVideo/Wan :USPをサポートし、UlyssesとRing-Attentionの次数を柔軟に切り替え、パディングオーバーヘッドを回避通信-計算重複 :PipeSPは細粒度のヘッドレベルパイプラインを通じて、Ulyssesで初めて効果的な通信隠蔽を実現しますモジュールレベル分離 :DeDiVAEは従来の共置設計を突破し、GPUグループ分離によりメモリと計算の二重最適化を実現します動的リソーススケジューリング :Acoは作業負荷に応じて動的にアイドルGPUリソースを利用し、従来の静的割り当ての効率損失を回避します数学的厳密性 :PipeSP変換の形式的正確性証明を提供し、最適化が計算結果を変更しないことを保証しますシステム1 :8× NVIDIA RTX A6000 (48GB)
CPU: Intel Xeon Platinum 8358 @2.60GHz インターコネクト: NVLink (112.5GB/s, 4×) システム2 :8× NVIDIA L40 (48GB)
CPU: Intel Xeon Platinum 8358 @2.60GHz インターコネクト: PCIe 4.0 (x16) OpenSoraPlan v1.3.0 :2Bパラメータ、Ulyssesシーケンス並列を使用HunyuanVideo :13Bパラメータ、xDiTのUSPを統合単一時間ステップ遅延 :PipeSPの最適化効果を測定エンドツーエンド遅延 :複数ビデオ生成の総時間、PipeDiT全体最適化効果を測定ピークGPUメモリ :DeDiVAEのメモリ最適化効果を評価解像度設定 :
480×352 (65/97/129フレーム) 640×352 (65/97/129フレーム) 800×592 (65/97/129フレーム) 1024×576 (65/97/129フレーム) 時間ステップ数 :10, 20, 30, 40, 50
プロンプト数 :10個(主実験)、その他設定は補足資料を参照
比較方法 :
ベースライン:元の実装 + オフロード PipeDiT (w/o Aco):PipeSP + DeDiVAE PipeDiT (w/ Aco):完全な方法 OpenSoraPlan (A6000) :
最高加速 :480×352×97, 10ステップ → 2.12× (227秒 → 107秒)高解像度 :1024×576×97, 50ステップ → 1.18× (2162秒 → 1832秒)傾向 :低解像度、少フレーム数、短時間ステップでより顕著な加速比HunyuanVideo (A6000) :
最高加速 :480×352×97, 10ステップ → 3.27× (540秒 → 165秒)大規模モデルの利点 :パラメータ数が多いほどオフロードオーバーヘッドが高く、PipeDiT最適化効果がより顕著高解像度 :1024×576×97, 50ステップ → 1.08× (3726秒 → 3453秒)プラットフォーム差異 :
A6000(NVLink)はL40(PCIe)と比較してより高い加速比を達成 例えば、HunyuanVideo 480×352×97, 10ステップ:A6000 3.27× vs L40 2.95× 補足資料の完全結果 :
最高加速は4.02× (HunyuanVideo, 480×352×65, 10ステップ)に達します 12種類の解像度×5種類の時間ステップ設定、合計60組の実験をカバー 最適設定 :640×352×129
OpenSoraPlan (A6000): 1.15× 加速 (2.10秒 → 1.83秒) OpenSoraPlan (L40): 1.04× 加速 (2.44秒 → 2.34秒) パフォーマンス特性 :
中程度の解像度で最高の効果(計算と通信時間のバランス) 極低解像度:通信オーバーヘッドが利益を相殺 極高解像度:通信の割合が低下し、最適化利益が減少 OpenSoraPlan :
1024×576×129: ベースラインOOM → オフロード 28.3GB → DeDiVAE 28.1GB 800×592×129: ベースライン39.8GB → DeDiVAE 18.6GB (53.3%削減 ) 480×352×129: ベースライン26.5GB → DeDiVAE 18.0GB (32.1%削減) HunyuanVideo :
すべての設定でベースラインがOOM オフロード: 29.37-33.01GB (31.2-38.8%削減) DeDiVAE: 41.44-42.12GB (12.2-13.7%削減) 注 :HunyuanVideoのDeDiVAEメモリがオフロードより高いのは、大規模テキストエンコーダをVAEデコーダと共置しているためで、方法の柔軟な適応性を示しています。
コンポーネント貢献度分析 (OpenSoraPlan A6000, 30ステップ):
設定 480×352×65 640×352×129 1024×576×129 ベースライン (A) 314秒 (1×) 665秒 (1×) 1995秒 (1×) +DeDiVAE (B) 217秒 (1.45×) 500秒 (1.33×) 2138秒 (0.93×) +PipeSP (C) 200秒 (1.57×) 509秒 (1.31×) 1936秒 (1.03×) +Aco (D) 261秒 (1.20×) 507秒 (1.31×) 1690秒 (1.18×)
主要な発見 :
DeDiVAE :低解像度で顕著な改善、高解像度ではノイズ除去GPU削減により効果が減弱PipeSP :OpenSoraPlanで明らかな効果(モジュール化されていない設計により、より多くの重複が可能)Aco :高負荷タスクで顕著な改善、DeDiVAEの高解像度での不足を補完Acoパフォーマンスヒートマップ(図5) :
PipeDiT w/ Acoとw/o Acoの遅延差を表示 高ワークロード設定でAcoが顕著な改善をもたらす 生成結果の一貫性検証(図6) :
同じプロンプト、設定、サンプリングフレームインデックス下で PipeDiTが生成した結果は元のアルゴリズムと完全に一致 最適化が生成品質に影響しないことを証明 加速比とワークロードの関係 :低解像度 + 短時間ステップ → 最高加速(4.02×) 高解像度 + 長時間ステップ → 依然として改善(1.06-1.18×) 理由:計算時間の割合が増加し、オフロードボトルネックの相対的影響が減少 ハードウェアインターコネクトの影響 :NVLink (A6000) vs PCIe (L40):前者がより高い加速比を達成 高帯域幅インターコネクトはPipeSPの通信隠蔽効果を増幅 モデル規模の影響 :大規模モデル(HunyuanVideo 13B)は小規模モデル(OpenSoraPlan 2B)より多くの利益を得る 理由:オフロードオーバーヘッドはモデルサイズに比例 将来のトレンド適応 :現在のトレンド:より少ない時間ステップ + より積極的なVAE圧縮 予想:ノイズ除去時間の削減によりPipeDiT加速比がさらに向上 MoEアーキテクチャ(Wan2.2など):モデルがより大きく、オフロードがより不可能、PipeDiTの利点がより顕著 DistriFusion :
入力を複数のパッチに分割し、異なるGPUに分散 前の時間ステップの中間特徴マップを再利用してコンテキストを提供 非同期通信により通信オーバーヘッドを隠蔽 限界 :画像用に設計、ビデオの長シーケンスには不適用PipeFusion :
画像をパッチに分割し、GPU間でネットワーク層を分散 生成時のメモリ制限を解決 限界 :層級並列はビデオ生成のシーケンス特性に不適切時間ステップ削減方法 :
Teacache :隣接する時間ステップ特徴の相関性を分析し、前のステップ出力を再利用DeepCache, Delta-DiT, FORA :類似の戦略により時間ステップ数を削減限界 :生成品質の低下をもたらす可能性シーケンス並列方法 :
Ulysses (DeepSpeed) :注意力ヘッドで分割、前に3回のAll-to-All、後に1回、ただし計算と通信は順序実行Ring-Attention :シーケンスで分割、P2P通信、高並列度をサポートするがオーバーヘッドが大きいUSP (Unified SP) :両者を組み合わせ、柔軟に設定可能だが通信オーバーヘッドが増加本論文の貢献 :Ulyssesで初めて効果的な計算-通信パイプラインを実現オフロード戦略 :
HunyuanVideo, Wan, OpenSoraPlanはすべて採用 CPU-GPU動的モデル重み転送 限界 :転送オーバーヘッドが顕著で、効率が低い本論文のDeDiVAE :
モジュールレベル分離 + GPUグループ分離 オフロードオーバーヘッドを回避しながら、ピークメモリを削減 LightSeq, FlexSP, LoongServe :
長コンテキストトランスフォーマーのシーケンス並列 区別 :本論文はビデオ生成DiTの特定最適化に焦点xDiT :
DiT推論エンジン、USPを統合 本論文の貢献 :その基盤上でPipeDiTを実装し、方法の汎用性を証明PipeSPの有効性 :ヘッドレベルパイプラインにより計算-通信重複を実現、単一時間ステップ遅延を最大15%改善DeDiVAEの革新性 :モジュール分離 + GPUグループ分離、ピークメモリを最大53.3%削減し、高解像度生成を可能にするAcoの補完性 :動的リソース利用によりDeDiVAEの高負荷での不足を補完、全体加速1.06-4.02×汎用性の検証 :2B(OpenSoraPlan)と13B(HunyuanVideo)パラメータモデルで有効品質保証 :最適化は生成アルゴリズムを変更せず、出力結果は元の実装と完全に一致ハードウェア依存性 :NVLinkプラットフォームはPCIeより効果的、インターコネクト帯域幅に敏感 複数GPUシステムが必要(実験では8-GPU使用) ワークロード適応性 :極高解像度 + 長時間ステップでは加速比が低下(計算主導) Acoは低ワークロード下で追加オーバーヘッドをもたらす可能性 注意力ヘッド制約 :USPをサポートしないモデルは整除できない場合のパディング処理が必要 一部GPUが冗長計算を実行する可能性 モジュール共置の柔軟性 :HunyuanVideoはテキストエンコーダをVAEと共置する必要 大規模エンコーダはメモリ最適化効果の一部を相殺する可能性 マルチプロンプト依存 :DeDiVAEパイプラインは複数の並行クエリで十分な重複を必要 単一プロンプトシナリオではGPUアイドルが発生する可能性 動的GPU割り当て :リアルタイムワークロードに基づいてN_denoiseとN_decodeを自適応調整 異なる解像度と時間ステップの最適設定を検討 より多くの並列次元への拡張 :テンソル並列とデータ並列を組み合わせ より大規模なモデル(100B+パラメータ)をサポート 異種ハードウェアサポート :異なるGPUタイプの混合システムに適応 PCIeインターコネクト下の通信戦略を最適化 MoEアーキテクチャ最適化 :Wan2.2などのMoEモデル用の専門的最適化 エキスパートルーティングによる負荷不均衡を処理 エンドツーエンド最適化 :テキストエンコーダ最適化を統合 より積極的なVAE圧縮方法を探索 自動チューニングフレームワーク :ハードウェア設定とモデル特性に基づいて最適ハイパーパラメータを自動検索 ユーザー展開プロセスを簡素化 イノベーション性が強い :PipeSPはUlyssesで初めて効果的な通信-計算パイプラインを実現 DeDiVAEは従来の共置パラダイムを突破し、モジュールレベル分離の新しい思想を提案 Aco動的リソーススケジューリングはシステム設計の深い思考を反映 理論的に厳密 :PipeSP変換の形式的数学証明を提供(補足資料) 最適GPU割り当ては1次バランス条件の理論的導出に基づく Acoパフォーマンス分析は明確な加速比公式を提供 実験が充分 :2つのモデル(2Bと13Bパラメータ) × 2つのプラットフォーム(A6000とL40) 12種類の解像度 × 5種類の時間ステップ = 60組設定(完全結果) 詳細なアブレーション実験で各コンポーネントの貢献を分析 生成結果の一貫性検証で品質が損なわれないことを確認 実用価値が高い :主流のオープンソースフレームワークで実装、再現と展開が容易 メモリ消費を大幅に削減し、高解像度生成を可能に 1.06-4.02×加速は直接的なサービスコスト削減に転化 執筆が明確 :論理構造が完全で、問題分析から方法設計まで層次が明確 図表が豊富(フロー図、パフォーマンス図、ヒートマップ)で可読性を向上 補足資料は完全な実験データと理論証明を提供 方法の限界 :ハードウェア要件が高い :複数GPUシステムと高帯域幅インターコネクトが必要負荷依存 :単一プロンプトシナリオではパイプライン効率が低下スケーラビリティ :Ulyssesは注意力ヘッド数に制限、Ring-Attentionへの切り替え可能だが複雑性が増加実験設計の欠陥 :ユーザー研究の欠如 :生成品質の主観的知覚を評価していない単一指標 :主に遅延とメモリに焦点、エネルギー消費、スループットなどを考慮していないハードウェアカバレッジ不足 :48GB GPUのみテスト、より大きいまたはより小さいメモリ設定を検証していない分析の深さが不足 :通信オーバーヘッドの詳細 :P2P vs All-to-Allの具体的オーバーヘッドを詳細に分析していない負荷均衡 :不均一な注意力ヘッド分布の影響を議論していない失敗ケース :方法が不適用なシナリオを示していない比較が包括的でない :最新方法の欠如 :2024-2025年の最新最適化方法と比較していない単一ベースライン :オフロードのみと比較、他のメモリ最適化戦略(量子化、剪定など)を含めていない再現性の問題 :コード未公開 :論文発表時にコードリンクを提供していないハイパーパラメータの詳細 :実装の詳細(イベント同期メカニズムなど)の説明が不十分分野への貢献 :
理論的貢献 :モジュールレベル分離のシステム最適化新パラダイムを提案実践的貢献 :ビデオ生成サービスに実装可能な加速ソリューションを提供啓発的意義 :細粒度パイプライン思想は他の多段階生成タスクに推広可能潜在的影響 :
短期 :OpenSoraPlanとHunyuanVideoコミュニティが直接採用可能中期 :商用ビデオ生成サービスのアーキテクチャ設計に影響長期 :DiT推論最適化を独立した研究方向として推進引用見通し :
システム最適化分野:複数GPU推論最適化の重要参考資料 ビデオ生成分野:加速ベースライン方法として 予想:1-2年以内に引用数が50-100に達する 最適な適用シナリオ :
マルチユーザービデオ生成サービス :並行クエリが多く、パイプライン効率が高い 遅延に敏感で、加速がユーザー体験を直接改善 高解像度ビデオ生成 :メモリ制限シナリオでDeDiVAEの利点が顕著 非効率なオフロード戦略を置き換え NVLink複数GPUシステム :高帯域幅インターコネクトがPipeSP効果を増幅 A100/H100などのデータセンターGPU 大規模モデル推論 :13B+パラメータモデル、オフロードオーバーヘッドが顕著 MoEアーキテクチャモデル 不適用シナリオ :
単一GPU推論 :方法は複数GPU並列に依存極低解像度生成 :計算時間が短く、最適化利益が小さい単一プロンプトバッチ処理 :パイプラインが十分に重複できないPCIeインターコネクト + 低ワークロード :通信オーバーヘッドが利益を相殺する可能性展開推奨 :
ワークロード評価 :並行クエリ数、解像度分布を評価ハードウェア設定 :NVLinkプラットフォームを優先選択パラメータ調整 :モデルサイズに基づいてN_denoise/N_decode比を調整指標監視 :遅延、メモリ、GPU利用率を監視主要な引用 :
Ulysses (Jacobs et al. 2023) :DeepSpeed-Ulyssesシーケンス並列基礎方法Ring-Attention (Li et al. 2021) :シーケンス次元分割の並列戦略USP (Fang & Zhao 2024) :統一シーケンス並列フレームワークDistriFusion (Li et al. 2024b) :画像生成のパッチレベル並列Teacache (Liu et al. 2025) :時間ステップ特徴再利用方法OpenSoraPlan (PKU-YuanGroup 2025) :オープンソースビデオ生成フレームワークHunyuanVideo (Kong et al. 2024) :大規模ビデオ生成モデル総合評価 :これは高品質なシステム最適化論文で、ビデオ生成DiT推論の実際的な課題に対して革新的なソリューションを提案しています。3つの技術的イノベーションは相互に補完し、完全な最適化フレームワークを形成しています。実験設計は包括的で、結果は説得力があります。主な不足はハードウェア依存性と一部の実験分析の深さです。ビデオ生成サービスプロバイダーとシステム最適化研究者にとって重要な参考価値があります。著者がコードをオープンソース化し、実際の本番環境での長期的な安定性を検証することをお勧めします。