PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling
Wang, Wang, Shi
Video generation has been advancing rapidly, and diffusion transformer (DiT) based models have demonstrated remark- able capabilities. However, their practical deployment is of- ten hindered by slow inference speeds and high memory con- sumption. In this paper, we propose a novel pipelining frame- work named PipeDiT to accelerate video generation, which is equipped with three main innovations. First, we design a pipelining algorithm (PipeSP) for sequence parallelism (SP) to enable the computation of latent generation and commu- nication among multiple GPUs to be pipelined, thus reduc- ing inference latency. Second, we propose DeDiVAE to de- couple the diffusion module and the variational autoencoder (VAE) module into two GPU groups, whose executions can also be pipelined to reduce memory consumption and infer- ence latency. Third, to better utilize the GPU resources in the VAE group, we propose an attention co-processing (Aco) method to further reduce the overall video generation latency. We integrate our PipeDiT into both OpenSoraPlan and Hun- yuanVideo, two state-of-the-art open-source video generation frameworks, and conduct extensive experiments on two 8- GPU systems. Experimental results show that, under many common resolution and timestep configurations, our PipeDiT achieves 1.06x to 4.02x speedups over OpenSoraPlan and HunyuanVideo.
academic
PipeDiT: কাজের পাইপলাইনিং এবং মডেল ডিকাপলিং এর মাধ্যমে ভিডিও জেনারেশনে ডিফিউশন ট্রান্সফরমার ত্বরান্বিত করা
ভিডিও জেনারেশন প্রযুক্তি দ্রুত বিকশিত হচ্ছে এবং ডিফিউশন ট্রান্সফরমার (DiT) ভিত্তিক মডেলগুলি অসাধারণ ক্ষমতা প্রদর্শন করছে, কিন্তু বাস্তব স্থাপনায় ধীর অনুমান গতি এবং উচ্চ মেমরি খরচের সমস্যার সম্মুখীন হচ্ছে। এই পেপারটি তিনটি উদ্ভাবনের মাধ্যমে ভিডিও জেনারেশন ত্বরান্বিত করার জন্য PipeDiT ফ্রেমওয়ার্ক প্রস্তাব করে: (1) PipeSP অ্যালগরিদম সিকোয়েন্স প্যারালেলিজমে গণনা এবং যোগাযোগের পাইপলাইনিং বাস্তবায়ন করে; (2) DeDiVAE পদ্ধতি ডিফিউশন মডিউল এবং VAE ডিকোডারকে বিভিন্ন GPU গ্রুপে বিচ্ছিন্ন করে; (3) Aco মনোযোগ সহযোগী প্রক্রিয়াকরণ পদ্ধতি GPU ব্যবহার অপ্টিমাইজ করে। OpenSoraPlan এবং HunyuanVideo দুটি ওপেন সোর্স ফ্রেমওয়ার্কে পরীক্ষা-নিরীক্ষা দেখায় যে PipeDiT ১.০৬× থেকে ৪.০২× ত্বরণ অর্জন করে।
ব্যবহারিক প্রয়োজনীয়তা: ভিডিও জেনারেশন সেবাগুলিকে একাধিক সমসাময়িক প্রশ্নের সাথে মোকাবিলা করতে হবে, অনুমান দক্ষতা সরাসরি ব্যবহারকারীর অভিজ্ঞতা এবং সেবা খরচকে প্রভাবিত করে
হার্ডওয়্যার সীমাবদ্ধতা: পরীক্ষা-নিরীক্ষা দেখায় যে ৪৮GB GPU মেমরি সীমাবদ্ধতার অধীনে, OpenSoraPlan ১০২৪×৫৭৬×৯৭ রেজোলিউশনের বেশি ভিডিও তৈরি করতে পারে না, HunyuanVideo আরও ২৫৬×১২৮×৩৩ দ্বারা সীমাবদ্ধ
DistriFusion এবং PipeFusion ইমেজ জেনারেশনের জন্য ডিজাইন করা হয়েছে, ভিডিও জেনারেশনের দীর্ঘ সিকোয়েন্স বৈশিষ্ট্যের জন্য উপযুক্ত নয়
ভিডিও জেনারেশন অপ্টিমাইজেশন পদ্ধতি:
Teacache এবং অন্যান্য পদ্ধতি: সময়ের ধাপ বৈশিষ্ট্য পুনরায় ব্যবহার করে গণনা হ্রাস করে, কিন্তু জেনারেশন গুণমান হ্রাস করতে পারে
সিকোয়েন্স প্যারালেলিজম (SP) পদ্ধতি:
Ulysses: মনোযোগ মাথা বিভাজনের মাধ্যমে সমান্তরালতা বাস্তবায়ন করে, কিন্তু গণনা এবং যোগাযোগ সিরিয়াল সম্পাদন এবং GPU সম্পদ অপূর্ণ ব্যবহারের সমস্যা রয়েছে
Ring-Attention: উচ্চতর সমান্তরালতা সমর্থন করে কিন্তু যোগাযোগ ওভারহেড বড়
USP: উভয়কে একত্রিত করে কিন্তু অতিরিক্ত যোগাযোগ ওভারহেড যোগ করে
অফলোডিং কৌশল:
CPU-GPU ডেটা ট্রান্সফারের মাধ্যমে মেমরি খরচ হ্রাস করে, কিন্তু উল্লেখযোগ্য ট্রান্সফার ওভারহেড প্রবর্তন করে, দক্ষতা কম
PipeSP অ্যালগরিদম: পাইপলাইনযুক্ত সিকোয়েন্স প্যারালেলিজম পদ্ধতি প্রস্তাব করে, মনোযোগ মাথা মাত্রায় বিভাজন এবং অবিলম্বে All-to-All যোগাযোগ ট্রিগার করে, গণনা এবং যোগাযোগের ওভারল্যাপ অর্জন করে, GPU ব্যবহার উন্নত করে
DeDiVAE মডিউল বিচ্ছিন্নকরণ: ডিফিউশন মডিউল এবং VAE ডিকোডারকে বিভিন্ন GPU গ্রুপে বরাদ্দ করে, মডিউল-স্তরের পাইপলাইন সমান্তরালতা বাস্তবায়ন করে, শীর্ষ মেমরি খরচ উল্লেখযোগ্যভাবে হ্রাস করে (OpenSoraPlan সর্বোচ্চ ৫३.३% হ্রাস)
Aco মনোযোগ সহযোগী প্রক্রিয়াকরণ: DiT ব্লকগুলিকে রৈখিক প্রজেকশন এবং মনোযোগ গণনায় সূক্ষ্মভাবে বিচ্ছিন্ন করে, ডিকোডিং GPU গ্রুপকে নিষ্ক্রিয় থাকার সময় মনোযোগ গণনায় অংশগ্রহণ করতে দেয়, সামগ্রিক দক্ষতা আরও উন্নত করে
সিস্টেম বাস্তবায়ন এবং যাচাইকরণ: OpenSoraPlan (২B প্যারামিটার) এবং HunyuanVideo (१३B প্যারামিটার) এ বাস্তবায়িত, দুটি ৮-GPU সিস্টেমে ব্যাপক পরীক্ষা-নিরীক্ষা পরিচালিত, পদ্ধতির কার্যকারিতা এবং স্কেলেবিলিটি প্রমাণ করে
সমস্ত মনোযোগ মাথা গণনা সম্পন্ন হওয়ার পরেই একক All-to-All যোগাযোগ সম্পাদিত হয়
GPU যোগাযোগের জন্য অপেক্ষা করার সময় নিষ্ক্রিয় থাকে
PipeSP ডিজাইন (অ্যালগরিদম ১):
প্রতিটি মনোযোগ মাথার জন্য j ∈ [0, h-1]:
1. attention(Q[:,j,:,:], K[:,j,:,:], V[:,j,:,:]) গণনা করুন
2. CUDA ইভেন্ট চিহ্ন গণনা সম্পন্ন হিসাবে রেকর্ড করুন
3. ইভেন্ট সম্পন্ন হওয়ার পরে অবিলম্বে All-to-All যোগাযোগ ট্রিগার করুন
4. ফলাফল সংগ্রহ করুন
পোস্ট-প্রসেসিং সারিবদ্ধকরণ (ফলাফল মিসলাইনমেন্ট সমস্যা সমাধান):
view(-1, h, n, D) → permute(0, 2, 1, 3) → view(-1, nh, D) সিকোয়েন্স রূপান্তরের মাধ্যমে
ইন্টারলিভড টেনসরকে মূল Ulysses প্রত্যাশিত head-contiguous লেআউটে ম্যাপ করে
যোগাযোগ-গণনা ওভারল্যাপ: PipeSP সূক্ষ্ম-দানাদার head-স্তরের পাইপলাইনের মাধ্যমে, প্রথমবার Ulysses-এ কার্যকর যোগাযোগ লুকানো বাস্তবায়ন করে
মডিউল-স্তরের বিচ্ছিন্নকরণ: DeDiVAE ঐতিহ্যবাহী সহ-অবস্থান ডিজাইন অতিক্রম করে, GPU গ্রুপ বিচ্ছিন্নকরণের মাধ্যমে মেমরি এবং গণনার দ্বৈত অপ্টিমাইজেশন বাস্তবায়ন করে
গতিশীল সম্পদ সময়সূচী: Aco কর্মপ্রবাহ অনুযায়ী গতিশীলভাবে নিষ্ক্রিয় GPU সম্পদ ব্যবহার করে, ঐতিহ্যবাহী স্থির বরাদ্দের দক্ষতা হ্রাস এড়ায়
গাণিতিক কঠোরতা: PipeSP রূপান্তরের আনুষ্ঠানিক সঠিকতা প্রমাণ প্রদান করে, অপ্টিমাইজেশন গণনা ফলাফল পরিবর্তন করে না তা নিশ্চিত করে
নোট: HunyuanVideo এর DeDiVAE মেমরি অফলোডিং এর চেয়ে বেশি কারণ বড় পাঠ্য এনকোডার VAE ডিকোডারের সাথে সহ-অবস্থান করা হয়, পদ্ধতির নমনীয় অভিযোজনযোগ্যতা প্রতিফলিত করে।
HunyuanVideo (Kong et al. 2024): বড় স্কেল ভিডিও জেনারেশন মডেল
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের সিস্টেম অপ্টিমাইজেশন পেপার যা ভিডিও জেনারেশন DiT অনুমানের বাস্তব ব্যথার পয়েন্টগুলির জন্য উদ্ভাবনী সমাধান প্রস্তাব করে। তিনটি প্রযুক্তিগত উদ্ভাবন পারস্পরিকভাবে সহযোগী, একটি সম্পূর্ণ অপ্টিমাইজেশন ফ্রেমওয়ার্ক গঠন করে। পরীক্ষা ডিজাইন ব্যাপক, ফলাফল বিশ্বাসযোগ্য। প্রধান অপূর্ণতা হার্ডওয়্যার নির্ভরতা এবং কিছু পরীক্ষা বিশ্লেষণ গভীরতা। ভিডিও জেনারেশন সেবা প্রদানকারী এবং সিস্টেম অপ্টিমাইজেশন গবেষকদের জন্য গুরুত্বপূর্ণ রেফারেন্স মূল্য রয়েছে। লেখকদের কোড ওপেন সোর্স করা এবং বাস্তব উৎপাদন পরিবেশে দীর্ঘমেয়াদী স্থিতিশীলতা যাচাই করার পরামর্শ দেওয়া হয়।