PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling
Wang, Wang, Shi
Video generation has been advancing rapidly, and diffusion transformer (DiT) based models have demonstrated remark- able capabilities. However, their practical deployment is of- ten hindered by slow inference speeds and high memory con- sumption. In this paper, we propose a novel pipelining frame- work named PipeDiT to accelerate video generation, which is equipped with three main innovations. First, we design a pipelining algorithm (PipeSP) for sequence parallelism (SP) to enable the computation of latent generation and commu- nication among multiple GPUs to be pipelined, thus reduc- ing inference latency. Second, we propose DeDiVAE to de- couple the diffusion module and the variational autoencoder (VAE) module into two GPU groups, whose executions can also be pipelined to reduce memory consumption and infer- ence latency. Third, to better utilize the GPU resources in the VAE group, we propose an attention co-processing (Aco) method to further reduce the overall video generation latency. We integrate our PipeDiT into both OpenSoraPlan and Hun- yuanVideo, two state-of-the-art open-source video generation frameworks, and conduct extensive experiments on two 8- GPU systems. Experimental results show that, under many common resolution and timestep configurations, our PipeDiT achieves 1.06x to 4.02x speedups over OpenSoraPlan and HunyuanVideo.
academic
PipeDiT: कार्य पाइपलाइनिंग और मॉडल विघटन के साथ वीडियो जनरेशन में विसरण ट्रांसफॉर्मर को त्वरित करना
वीडियो जनरेशन तकनीक तेजी से विकसित हो रही है, विसरण ट्रांसफॉर्मर (DiT) आधारित मॉडल असाधारण क्षमता प्रदर्शित करते हैं, लेकिन व्यावहारिक तैनाती में धीमी अनुमान गति और उच्च मेमोरी खपत की समस्या का सामना करते हैं। यह पेपर तीन नवाचारों के माध्यम से वीडियो जनरेशन को त्वरित करने के लिए PipeDiT फ्रेमवर्क प्रस्तावित करता है: (1) PipeSP एल्गोरिथ्म अनुक्रम समानांतरता में गणना और संचार का पाइपलाइनिंग प्राप्त करता है; (2) DeDiVAE विधि विसरण मॉड्यूल और VAE डिकोडर को विभिन्न GPU समूहों में विघटित करती है; (3) Aco ध्यान सहयोगी प्रसंस्करण विधि GPU उपयोग को अनुकूलित करती है। OpenSoraPlan और HunyuanVideo दोनों ओपन-सोर्स फ्रेमवर्क पर प्रयोग 1.06× से 4.02× का त्वरण प्रदर्शित करते हैं।
व्यावहारिक आवश्यकता: वीडियो जनरेशन सेवाओं को कई समवर्ती प्रश्नों को संभालने की आवश्यकता है, अनुमान दक्षता सीधे उपयोगकर्ता अनुभव और सेवा लागत को प्रभावित करती है
हार्डवेयर सीमाएं: प्रयोग दर्शाते हैं कि 48GB GPU मेमोरी सीमा के तहत, OpenSoraPlan 1024×576×97 रिज़ॉल्यूशन से अधिक वीडियो उत्पन्न नहीं कर सकता, HunyuanVideo 256×128×33 तक सीमित है
PipeSP एल्गोरिथ्म: पाइपलाइनिंग अनुक्रम समानांतरता विधि प्रस्तावित करता है, ध्यान सिर आयाम में विभाजन करके और तुरंत All-to-All संचार को ट्रिगर करके, गणना और संचार के ओवरलैप को प्राप्त करता है, GPU उपयोग में सुधार करता है
DeDiVAE मॉड्यूल विघटन: विसरण मॉड्यूल और VAE डिकोडर को विभिन्न GPU समूहों में आवंटित करता है, मॉड्यूल-स्तरीय पाइपलाइन समानांतरता को प्राप्त करता है, पीक मेमोरी खपत में महत्वपूर्ण कमी (OpenSoraPlan में अधिकतम 53.3% कमी)
Aco ध्यान सहयोगी प्रसंस्करण: DiT ब्लॉक को रैखिक प्रक्षेपण और ध्यान गणना में बारीकी से विघटित करता है, डिकोडिंग GPU समूह को निष्क्रिय समय में ध्यान गणना में भाग लेने देता है, समग्र दक्षता में और सुधार करता है
सिस्टम कार्यान्वयन और सत्यापन: OpenSoraPlan (2B पैरामीटर) और HunyuanVideo (13B पैरामीटर) पर कार्यान्वयन, दो 8-GPU सिस्टम पर व्यापक प्रयोग, विधि की प्रभावशीलता और स्केलेबिलिटी को प्रमाणित करता है
सभी ध्यान सिर गणना पूरी होने के बाद ही एकल All-to-All संचार निष्पादित होता है
GPU संचार की प्रतीक्षा करते समय निष्क्रिय रहता है
PipeSP डिजाइन (एल्गोरिथ्म 1):
प्रत्येक ध्यान सिर j ∈ [0, h-1] के लिए:
1. attention(Q[:,j,:,:], K[:,j,:,:], V[:,j,:,:]) की गणना करें
2. CUDA इवेंट को गणना पूर्ण के रूप में चिह्नित करें
3. इवेंट पूर्ण होने के बाद तुरंत All-to-All संचार को ट्रिगर करें
4. परिणाम एकत्र करें
पोस्ट-प्रोसेसिंग संरेखण (परिणाम विस्थापन समस्या को हल करने के लिए):
view(-1, h, n, D) → permute(0, 2, 1, 3) → view(-1, nh, D) अनुक्रम परिवर्तन के माध्यम से
इंटरलीव्ड टेंसर को मूल Ulysses द्वारा अपेक्षित head-contiguous लेआउट में मैप करता है
गणितीय सही प्रमाण:
reshape मैपिंग φ_{h,n} और क्रमचय ऑपरेशन π को परिभाषित करें, समग्र मैपिंग Ψ = φ^{-1}{h,n} ∘ π ∘ φ{h,n} संतुष्ट करता है:
संचार-गणना ओवरलैप: PipeSP head-स्तरीय बारीक-दानेदार पाइपलाइन के माध्यम से, पहली बार Ulysses में प्रभावी संचार छिपाना प्राप्त करता है
मॉड्यूल-स्तरीय विघटन: DeDiVAE पारंपरिक सह-स्थान डिजाइन को तोड़ता है, GPU समूह पृथक्करण के माध्यम से मेमोरी और गणना दोनों अनुकूलन को प्राप्त करता है
गतिशील संसाधन शेड्यूलिंग: Aco कार्य भार के अनुसार गतिशील रूप से निष्क्रिय GPU संसाधनों का उपयोग करता है, पारंपरिक स्थिर आवंटन की दक्षता हानि से बचता है
गणितीय कठोरता: PipeSP परिवर्तन का औपचारिक सही प्रमाण प्रदान करता है, यह सुनिश्चित करता है कि अनुकूलन गणना परिणाम को नहीं बदलता है
नोट: HunyuanVideo का DeDiVAE मेमोरी offloading से अधिक है क्योंकि बड़े पाठ एन्कोडर को VAE डिकोडर के साथ सह-स्थित किया जाता है, विधि की लचीली अनुकूलन क्षमता को प्रदर्शित करता है।
HunyuanVideo (Kong et al. 2024): बड़े पैमाने पर वीडियो जनरेशन मॉडल
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला सिस्टम अनुकूलन पेपर है, जो वीडियो जनरेशन DiT अनुमान की व्यावहारिक समस्याओं के लिए नवाचारी समाधान प्रस्तावित करता है। तीन तकनीकी नवाचार एक दूसरे के साथ मिलकर एक पूर्ण अनुकूलन फ्रेमवर्क बनाते हैं। प्रयोग डिजाइन व्यापक है, परिणाम विश्वसनीय हैं। मुख्य कमियां हार्डवेयर निर्भरता और कुछ प्रयोग विश्लेषण गहराई में हैं। वीडियो जनरेशन सेवा प्रदाताओं और सिस्टम अनुकूलन शोधकर्ताओं के लिए महत्वपूर्ण संदर्भ मूल्य है। लेखकों को कोड को ओपन-सोर्स करने और वास्तविक उत्पादन वातावरण में दीर्घकालिक स्थिरता को सत्यापित करने की सिफारिश की जाती है।