PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling
Wang, Wang, Shi
Video generation has been advancing rapidly, and diffusion transformer (DiT) based models have demonstrated remark- able capabilities. However, their practical deployment is of- ten hindered by slow inference speeds and high memory con- sumption. In this paper, we propose a novel pipelining frame- work named PipeDiT to accelerate video generation, which is equipped with three main innovations. First, we design a pipelining algorithm (PipeSP) for sequence parallelism (SP) to enable the computation of latent generation and commu- nication among multiple GPUs to be pipelined, thus reduc- ing inference latency. Second, we propose DeDiVAE to de- couple the diffusion module and the variational autoencoder (VAE) module into two GPU groups, whose executions can also be pipelined to reduce memory consumption and infer- ence latency. Third, to better utilize the GPU resources in the VAE group, we propose an attention co-processing (Aco) method to further reduce the overall video generation latency. We integrate our PipeDiT into both OpenSoraPlan and Hun- yuanVideo, two state-of-the-art open-source video generation frameworks, and conduct extensive experiments on two 8- GPU systems. Experimental results show that, under many common resolution and timestep configurations, our PipeDiT achieves 1.06x to 4.02x speedups over OpenSoraPlan and HunyuanVideo.
academic
PipeDiT: Accelerazione dei Diffusion Transformers nella Generazione Video con Task Pipelining e Model Decoupling
La tecnologia di generazione video si sta sviluppando rapidamente, e i modelli basati su Diffusion Transformers (DiT) hanno dimostrato capacità eccezionali, ma affrontano problemi di velocità di inferenza lenta e elevato consumo di memoria durante il deployment pratico. Questo articolo propone il framework PipeDiT, che accelera la generazione video attraverso tre innovazioni: (1) l'algoritmo PipeSP implementa il pipelining tra calcolo e comunicazione nel parallelismo di sequenza; (2) il metodo DeDiVAE disaccoppia il modulo di diffusione e il decoder VAE su diversi gruppi di GPU; (3) il metodo di elaborazione cooperativa dell'attenzione Aco ottimizza l'utilizzo della GPU. Gli esperimenti su OpenSoraPlan e HunyuanVideo dimostrano che PipeDiT raggiunge accelerazioni da 1.06× a 4.02×.
Necessità pratica: I servizi di generazione video devono gestire più query concorrenti, e l'efficienza di inferenza influisce direttamente sull'esperienza utente e sui costi di servizio
Limitazioni hardware: Gli esperimenti mostrano che con il vincolo di memoria GPU di 48GB, OpenSoraPlan non può generare video con risoluzione superiore a 1024×576×97, e HunyuanVideo è ancora più limitato a 256×128×33
Metodi di Ottimizzazione per Generazione di Immagini:
DistriFusion e PipeFusion sono progettati per la generazione di immagini e non sono adatti alle caratteristiche di sequenze lunghe della generazione video
Metodi di Ottimizzazione per Generazione Video:
Metodi come Teacache: Riducono il calcolo riutilizzando caratteristiche di step temporali, ma possono degradare la qualità di generazione
Metodi di Sequence Parallelism (SP):
Ulysses: Implementa il parallelismo dividendo le teste di attenzione, ma soffre di esecuzione seriale tra calcolo e comunicazione e utilizzo incompleto delle risorse GPU
Ring-Attention: Supporta un grado di parallelismo più elevato ma con elevato overhead di comunicazione
USP: Combina i due ma introduce overhead di comunicazione aggiuntivo
Strategie di Offloading:
Riducono l'occupazione di memoria attraverso il trasferimento dati CPU-GPU, ma introducono overhead di trasferimento significativo, risultando inefficiente
Algoritmo PipeSP: Propone un metodo di sequence parallelism pipelined che, attraverso il partizionamento nella dimensione delle teste di attenzione e l'attivazione immediata della comunicazione All-to-All, realizza la sovrapposizione tra calcolo e comunicazione, migliorando l'utilizzo della GPU
Disaccoppiamento del Modulo DeDiVAE: Assegna il modulo di diffusione e il decoder VAE a diversi gruppi di GPU, realizzando il parallelismo pipeline a livello di modulo e riducendo significativamente il consumo di memoria di picco (riduzione massima del 53.3% per OpenSoraPlan)
Elaborazione Cooperativa dell'Attenzione Aco: Decompone finemente i blocchi DiT in proiezioni lineari e calcolo dell'attenzione, permettendo al gruppo GPU di decodifica di partecipare al calcolo dell'attenzione durante i tempi di inattività, migliorando ulteriormente l'efficienza complessiva
Implementazione di Sistema e Verifica: Implementato su OpenSoraPlan (2B parametri) e HunyuanVideo (13B parametri), con esperimenti estesi su sistemi a 8-GPU, dimostrando l'efficacia e la scalabilità del metodo
La comunicazione All-to-All singola viene eseguita solo dopo il completamento di tutti i calcoli delle teste di attenzione
La GPU rimane inattiva durante l'attesa della comunicazione
Design di PipeSP (Algoritmo 1):
Per ogni testa di attenzione j ∈ [0, h-1]:
1. Calcola attention(Q[:,j,:,:], K[:,j,:,:], V[:,j,:,:])
2. Registra un evento CUDA per marcare il completamento del calcolo
3. Attiva immediatamente la comunicazione All-to-All dopo il completamento dell'evento
4. Raccogli i risultati
Allineamento Post-Elaborazione (Risolve il problema di disallineamento dei risultati):
Attraverso la trasformazione di sequenza view(-1, h, n, D) → permute(0, 2, 1, 3) → view(-1, nh, D)
Mappa i tensori intercalati al layout head-contiguous atteso dall'Ulysses originale
Correttezza Matematica:
Definendo la mappa reshape φ_{h,n} e l'operazione di permutazione π, la mappa composita Ψ = φ^{-1}{h,n} ∘ π ∘ φ{h,n} soddisfa:
Gruppo di Denoising: N_denoise GPU, memorizzano la rete backbone di diffusione
Gruppo di Decodifica: N_decode = N - N_denoise GPU, memorizzano il decoder VAE
Allocazione Ottimale di GPU:
Basata sulla condizione di equilibrio del primo ordine, rendendo i tempi di esecuzione dei due gruppi uguali per massimizzare la sovrapposizione:
Motivazione: Quando il tempo di denoising è molto superiore al tempo di decodifica, il gruppo GPU di decodifica rimane inattivo per la maggior parte del tempo
Decomposizione Fine-Grained:
Decompone i blocchi DiT in:
Proiezioni Lineari: Q = XW_Q, K = XW_K, V = XW_V (eseguite dal gruppo di denoising)
Kernel di Attenzione: Attn(Q,K,V) (può essere eseguito in parallelo dal gruppo di decodifica)
Flusso di Esecuzione:
Fase del Prompt 1 (coda di decodifica vuota):
Il gruppo di denoising calcola Q,K,V e li trasmette al gruppo di decodifica tramite comunicazione P2P
Entrambi i gruppi eseguono il calcolo dell'attenzione in parallelo
I risultati vengono aggregati tramite comunicazione All-to-All e P2P
Fase del Prompt 2 (coda di decodifica non vuota):
Il gruppo di denoising esegue il calcolo dell'attenzione in modo indipendente
Il gruppo di decodifica esegue la decodifica VAE in parallelo
Analisi delle Prestazioni:
Rapporto di accelerazione teorico:
Sovrapposizione Comunicazione-Calcolo: PipeSP realizza per la prima volta il pipelining efficace a livello di testa in Ulysses, nascondendo efficacemente la comunicazione
Disaccoppiamento a Livello di Modulo: DeDiVAE supera il design tradizionale di co-locazione, realizzando l'ottimizzazione duale di memoria e calcolo attraverso la separazione dei gruppi GPU
Pianificazione Dinamica delle Risorse: Aco sfrutta dinamicamente le risorse GPU inattive in base al carico di lavoro, evitando l'inefficienza dell'allocazione statica tradizionale
Rigore Matematico: Fornisce una prova formale di correttezza della trasformazione PipeSP, garantendo che l'ottimizzazione non modifichi i risultati del calcolo
Vantaggio del Modello Grande: La quantità maggiore di parametri porta a overhead di offloading più elevato, rendendo l'effetto di ottimizzazione di PipeDiT più evidente
Alta Risoluzione: 1024×576×97, 50 step → 1.08× (3726s → 3453s)
Differenze tra Piattaforme:
A6000 (NVLink) raggiunge rapporti di accelerazione più elevati rispetto a L40 (PCIe)
Ad esempio, HunyuanVideo 480×352×97, 10 step: A6000 3.27× vs L40 2.95×
800×592×129: Baseline 39.8GB → DeDiVAE 18.6GB (riduzione del 53.3%)
480×352×129: Baseline 26.5GB → DeDiVAE 18.0GB (riduzione del 32.1%)
HunyuanVideo:
Baseline OOM in tutte le configurazioni
Offloading: 29.37-33.01GB (riduzione del 31.2-38.8%)
DeDiVAE: 41.44-42.12GB (riduzione del 12.2-13.7%)
Nota: La memoria di DeDiVAE per HunyuanVideo è superiore a quella di offloading perché il grande encoder di testo è co-locato con il decoder VAE, riflettendo la flessibilità di adattamento del metodo.
Analisi del Contributo dei Componenti (OpenSoraPlan A6000, 30 step):
Configurazione
480×352×65
640×352×129
1024×576×129
Baseline (A)
314s (1×)
665s (1×)
1995s (1×)
+DeDiVAE (B)
217s (1.45×)
500s (1.33×)
2138s (0.93×)
+PipeSP (C)
200s (1.57×)
509s (1.31×)
1936s (1.03×)
+Aco (D)
261s (1.20×)
507s (1.31×)
1690s (1.18×)
Scoperte Chiave:
DeDiVAE: Fornisce miglioramenti significativi a bassa risoluzione, ma l'effetto diminuisce ad alta risoluzione a causa della riduzione delle GPU di denoising
PipeSP: L'effetto è evidente su OpenSoraPlan (il design non modulare consente più sovrapposizioni)
Aco: Il miglioramento è evidente con carichi di lavoro elevati, compensando l'insufficienza di DeDiVAE ad alta risoluzione
Mappa Termica delle Prestazioni di Aco (Figura 5):
Mostra la differenza di latenza tra PipeDiT con Aco e senza Aco
Aco porta miglioramenti significativi nelle configurazioni ad alto carico di lavoro
Efficacia di PipeSP: Realizza la sovrapposizione tra calcolo e comunicazione attraverso il pipelining a livello di testa, migliorando la latenza per step singolo fino al 15%
Innovazione di DeDiVAE: Disaccoppiamento di moduli + separazione di gruppi GPU, riduce il picco di memoria fino al 53.3%, rendendo possibile la generazione ad alta risoluzione
Complementarità di Aco: L'utilizzo dinamico delle risorse compensa l'insufficienza di DeDiVAE sotto carico elevato, con accelerazione complessiva di 1.06-4.02×
Verifica dell'Universalità: Efficace sia su modelli con 2B (OpenSoraPlan) che 13B (HunyuanVideo) parametri
Garanzia di Qualità: L'ottimizzazione non modifica l'algoritmo di generazione, i risultati in output sono completamente coerenti con l'implementazione originale
Requisiti Hardware Elevati: Richiede sistemi multi-GPU e interconnessione ad alta larghezza di banda
Dipendenza dal Carico: L'efficienza del pipelining diminuisce in scenari di singolo prompt
Scalabilità: Ulysses è limitato dal numero di teste di attenzione, anche se è possibile passare a Ring-Attention con complessità aumentata
Difetti nella Progettazione Sperimentale:
Mancanza di Ricerca Utente: Non valuta la percezione soggettiva della qualità di generazione
Metrica Singola: Si concentra principalmente su latenza e memoria, senza considerare consumo energetico, throughput, ecc.
Copertura Hardware Insufficiente: Test solo su GPU da 48GB, non verifica configurazioni di memoria più grande o più piccola
Profondità di Analisi Insufficiente:
Dettagli dell'Overhead di Comunicazione: Non analizza in dettaglio l'overhead specifico di P2P vs All-to-All
Bilanciamento del Carico: Non discute l'impatto della distribuzione non uniforme delle teste di attenzione
Casi di Fallimento: Non mostra gli scenari in cui il metodo non è applicabile
Confronto Incompleto:
Mancanza di Metodi Recenti: Non confronta con i metodi di ottimizzazione più recenti del 2024-2025
Baseline Singolo: Confronta solo con offloading, non include altre strategie di ottimizzazione della memoria (come quantizzazione, pruning)
Problemi di Riproducibilità:
Codice Non Open-Source: Al momento della pubblicazione dell'articolo, non è fornito il link al codice
Dettagli di Implementazione: Alcuni dettagli di implementazione (come il meccanismo di sincronizzazione degli eventi) non sono sufficientemente descritti
Ulysses (Jacobs et al. 2023): Metodo fondamentale di sequence parallelism di DeepSpeed-Ulysses
Ring-Attention (Li et al. 2021): Strategia di parallelismo con divisione della dimensione di sequenza
USP (Fang & Zhao 2024): Framework di sequence parallelism unificato
DistriFusion (Li et al. 2024b): Parallelismo a livello di patch per generazione di immagini
Teacache (Liu et al. 2025): Metodo di riutilizzo delle caratteristiche di step temporali
OpenSoraPlan (PKU-YuanGroup 2025): Framework open-source di generazione video
HunyuanVideo (Kong et al. 2024): Modello di generazione video su larga scala
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo dell'ottimizzazione di sistema, che affronta i problemi pratici dell'inferenza di DiT per generazione video con soluzioni innovative. Le tre innovazioni tecniche si complementano a vicenda, formando un framework di ottimizzazione completo. La progettazione sperimentale è completa e i risultati convincenti. Le principali insufficienze risiedono nella dipendenza hardware e nella profondità di analisi di alcuni esperimenti. Ha un valore di riferimento importante per i fornitori di servizi di generazione video e i ricercatori di ottimizzazione di sistema. Si raccomanda agli autori di open-sourcizzare il codice e verificare la stabilità a lungo termine in ambienti di produzione reali.