2025-11-23T17:13:17.428108

Token Pruning for Caching Better: 9 Times Acceleration on Stable Diffusion for Free

Zhang, Xiao, Tang et al.

Stable Diffusion has achieved remarkable success in the field of text-to-image generation, with its powerful generative capabilities and diverse generation results making a lasting impact. However, its iterative denoising introduces high computational costs and slows generation speed, limiting broader adoption. The community has made numerous efforts to reduce this computational burden, with methods like feature caching attracting attention due to their effectiveness and simplicity. Nonetheless, simply reusing features computed at previous timesteps causes the features across adjacent timesteps to become similar, reducing the dynamics of features over time and ultimately compromising the quality of generated images. In this paper, we introduce a dynamics-aware token pruning (DaTo) approach that addresses the limitations of feature caching. DaTo selectively prunes tokens with lower dynamics, allowing only high-dynamic tokens to participate in self-attention layers, thereby extending feature dynamics across timesteps. DaTo combines feature caching with token pruning in a training-free manner, achieving both temporal and token-wise information reuse. Applied to Stable Diffusion on the ImageNet, our approach delivered a 9$\times$ speedup while reducing FID by 0.33, indicating enhanced image quality. On the COCO-30k, we observed a 7$\times$ acceleration coupled with a notable FID reduction of 2.17.

academic

कैशिंग के लिए टोकन प्रूनिंग: स्टेबल डिफ्यूजन पर 9 गुना त्वरण मुफ्त में

मूल जानकारी

पेपर ID: 2501.00375
शीर्षक: Token Pruning for Caching Better: 9× Acceleration on Stable Diffusion for Free
लेखक: Evelyn Zhang, Bang Xiao, Jiayi Tang, Qianli Ma, Chang Zou, Xuefei Ning, Xuming Hu, Linfeng Zhang
वर्गीकरण: cs.CV (कंप्यूटर विजन), cs.LG (मशीन लर्निंग)
प्रकाशन तिथि: 31 दिसंबर 2024
पेपर लिंक: https://arxiv.org/abs/2501.00375
कोड लिंक: github.com/EvelynZhang-epiclab/DaTo

सारांश

स्टेबल डिफ्यूजन पाठ-से-छवि पीढ़ी के क्षेत्र में उल्लेखनीय सफलता प्राप्त कर चुका है, लेकिन इसकी पुनरावृत्तिमूलक विनॉइजिंग तंत्र उच्च कम्प्यूटेशनल लागत और धीमी पीढ़ी गति लाता है। यद्यपि विशेषता कैशिंग जैसी विधियों को इसकी प्रभावशीलता और सरलता के लिए ध्यान मिला है, लेकिन पूर्व समय चरणों से गणना की गई विशेषताओं को सरलता से पुनः उपयोग करने से आसन्न समय चरणों की विशेषताएं समान हो जाती हैं, जिससे समय के साथ विशेषता गतिशीलता में कमी आती है और अंततः उत्पन्न छवि की गुणवत्ता प्रभावित होती है। यह पेपर विशेषता कैशिंग की सीमाओं को संबोधित करने के लिए गतिशीलता-जागरूक टोकन प्रूनिंग (DaTo) विधि प्रस्तावित करता है। DaTo चयनात्मक रूप से कम गतिशीलता वाले टोकन को प्रूने करता है, केवल उच्च गतिशीलता वाले टोकन को स्व-ध्यान परत में भाग लेने की अनुमति देता है, जिससे समय चरणों के बीच विशेषता गतिशीलता का विस्तार होता है। ImageNet पर स्टेबल डिफ्यूजन पर लागू करते समय, यह विधि 9× त्वरण प्राप्त करती है जबकि FID में 0.33 की कमी आती है; COCO-30k पर 7× त्वरण देखा गया है, FID में 2.17 की महत्वपूर्ण कमी आई है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

विसरण मॉडल जनरेटिव मॉडलिंग के क्षेत्र में महत्वपूर्ण प्रगति कर चुके हैं, जिनका व्यापक अनुप्रयोग पाठ-से-छवि पीढ़ी, वीडियो पीढ़ी और अन्य कार्यों में होता है। हालांकि, विसरण मॉडल की पुनरावृत्तिमूलक विनॉइजिंग तंत्र विशाल कम्प्यूटेशनल लागत और धीमी पीढ़ी गति का कारण बनती है, जो इसके व्यापक अनुप्रयोग को सीमित करती है।

मौजूदा विधियों की सीमाएं

विसरण मॉडल को त्वरित करने की वर्तमान विधियों में मुख्य रूप से शामिल हैं:

नमूनाकरण चरणों में कमी: DDIM जैसे तेज़ नमूनाकार
प्रत्येक चरण की कम्प्यूटेशनल लागत में कमी: ज्ञान आसवन, संरचनात्मक प्रूनिंग, परिमाणीकरण, टोकन प्रूनिंग और विशेषता कैशिंग सहित

इनमें से, विशेषता कैशिंग इसकी प्रभावशीलता और सरलता के कारण व्यापक रूप से लोकप्रिय है, जो पूर्व समय चरणों से गणना की गई विशेषताओं को संग्रहीत करता है और बाद के समय चरणों में पुनः उपयोग करता है। हालांकि, विशेषता पुनः उपयोग विभिन्न समय चरणों की विशेषताओं को समान मान रखने के लिए बाध्य करता है, जिससे समय चरणों के साथ विशेषता गतिशीलता में कमी आती है, मूल विसरण प्रक्रिया को नुकसान पहुंचता है, और इस प्रकार उत्पन्न गुणवत्ता में कमी आती है।

अनुसंधान प्रेरणा

पेपर प्रायोगिक अवलोकन के माध्यम से पाता है कि मूल स्टेबल डिफ्यूजन की तुलना में, विशेषता कैशिंग का उपयोग करने वाले मॉडल में आसन्न समय चरणों के बीच विशेषता अंतर में उल्लेखनीय कमी आती है। यह एक महत्वपूर्ण प्रश्न उठाता है: क्या विशेषता कैशिंग को निष्पादित करते समय भी सही विशेषता गतिशीलता को बनाए रखा जा सकता है?

मुख्य योगदान

गतिशीलता-जागरूक टोकन प्रूनिंग (DaTo) विधि प्रस्तावित की: विभिन्न समय चरणों में उन टोकन को प्रूने करके जिनकी गतिशीलता विशेषता कैशिंग द्वारा कम की गई है, और उन्हें उच्च गतिशीलता वाले टोकन से पुनः प्राप्त करके, विशेषता कैशिंग के कारण होने वाली पीढ़ी गुणवत्ता में कमी से बचा जाता है।
विकासवादी खोज रणनीति डिज़ाइन की: विकासवादी विधि के माध्यम से इष्टतम विशेषता कैशिंग और टोकन प्रूनिंग रणनीति खोजने का प्रस्ताव दिया, DaTo की पूरी क्षमता को मुक्त करता है।
उल्लेखनीय प्रदर्शन सुधार प्राप्त किए: स्टेबल डिफ्यूजन और SDXL पर व्यापक प्रयोग दर्शाते हैं कि प्रशिक्षण और अतिरिक्त डेटा के बिना, स्टेबल डिफ्यूजन पर 9× तक का त्वरण प्राप्त किया जा सकता है जिसमें पीढ़ी गुणवत्ता में कोई नुकसान नहीं है।

विधि विवरण

कार्य परिभाषा

इस पेपर का कार्य छवि पीढ़ी की गुणवत्ता को बनाए रखते हुए स्टेबल डिफ्यूजन मॉडल की अनुमान प्रक्रिया को महत्वपूर्ण रूप से त्वरित करना है। इनपुट पाठ प्रॉम्प्ट है, आउटपुट संबंधित उच्च-गुणवत्ता वाली छवि है, बाधा शर्त यह है कि मॉडल को पुनः प्रशिक्षित करने की आवश्यकता नहीं है।

मॉडल आर्किटेक्चर

1. गतिशीलता-जागरूक टोकन प्रूनिंग (DaTo)

आधार टोकन चयन:

समय शोर अंतर स्कोर: t-वें समय चरण के लिए, पूर्व दो आसन्न समय चरणों के आउटपुट का निरपेक्ष अंतर की गणना करें:
```
DiffScore = (1/C) * Σ|f_up_0(x_{t+2})_c - f_up_0(x_{t+1})_c|
```
पैच-आधारित टोकन चयन: छवि को s×s के गैर-अतिव्यापी पैच में विभाजित करें, प्रत्येक पैच में सर्वोच्च DiffScore वाले टोकन को आधार टोकन के रूप में चुनें।

CFG संरेखण: वर्गीकारक-मुक्त मार्गदर्शन (CFG) को संभालने के लिए, सशर्त पीढ़ी के आधार टोकन स्थान को बिना शर्त पीढ़ी में कॉपी करें:

X_base,i,j[k] = X_base,i,j[k - B/2], k ∈ {B/2, B/2+1, ..., B-1}

प्रूनिंग टोकन चयन: कोसाइन समानता के आधार पर आधार टोकन के साथ सबसे समान K टोकन को प्रूनिंग के लिए चुनें:

X_prune = arg topK max Cosine_Similarity(X_i, X_j)

प्रूनिंग टोकन पुनः प्राप्ति: प्रूने किए गए टोकन को उनके सबसे समान आधार टोकन की प्रत्यक्ष प्रतिलिपि के माध्यम से पुनः प्राप्त करें।

2. समय चरण-जागरूक विशेषता कैशिंग

खोज स्थान प्रूनिंग:

कैशिंग गहराई d को {0, 1, 1/2} तक सीमित करें
प्रूनिंग अनुपात r को {0.3, 0.4, 0.5, 0.6, 0.7} तक सीमित करें

विकासवादी खोज एल्गोरिथ्म: NSGA-II बहु-उद्देश्य अनुकूलन एल्गोरिथ्म का उपयोग करें, अनुकूलन उद्देश्यों में शामिल हैं:

अनुमान विलंबता
पीढ़ी गुणवत्ता (FID)

खोज प्रक्रिया में चयन, क्रॉसओवर, उत्परिवर्तन आदि मानक विकासवादी संचालन शामिल हैं, अंत में इष्टतम चरण-जागरूक रणनीति F(t) प्राप्त करते हैं।

तकनीकी नवाचार बिंदु

गतिशीलता पुनः प्राप्ति तंत्र: कम गतिशीलता वाले टोकन को चयनात्मक रूप से प्रूने करके और उच्च गतिशीलता वाले टोकन से पुनः प्राप्त करके, विशेषता कैशिंग द्वारा नष्ट की गई विशेषता गतिशीलता वितरण को सफलतापूर्वक पुनः प्राप्त करता है।
एकीकृत कैशिंग-प्रूनिंग ढांचा: विशेषता कैशिंग और टोकन प्रूनिंग को एक प्रशिक्षण-मुक्त ढांचे में संयोजित करता है, समय और टोकन स्तर पर सूचना पुनः उपयोग प्राप्त करता है।
अनुकूली रणनीति खोज: विभिन्न समय चरणों की विभिन्न अतिरेक विशेषताओं के लिए, इष्टतम कैशिंग गहराई और प्रूनिंग अनुपात को स्वचालित रूप से खोजने की विधि प्रस्तावित करता है।

प्रायोगिक सेटअप

डेटासेट

ImageNet-1k: 2000 512×512 छवियां उत्पन्न करें (प्रति वर्ग 2)
COCO-30k: 30000 छवियां उत्पन्न करें (प्रति कैप्शन 1)
MS COCO सत्यापन सेट: SDXL मूल्यांकन के लिए, 5k 1024×1024 छवियां उत्पन्न करें

मूल्यांकन मेट्रिक्स

FID (Fréchet Inception Distance): पीढ़ी गुणवत्ता को मापता है
CLIP Score: पाठ-छवि संरेखण का मूल्यांकन करता है
Inception Score: छवि गुणवत्ता मूल्यांकन
विलंबता और त्वरण अनुपात: दक्षता मूल्यांकन

तुलना विधियां

DDIM/DPM: तेज़ नमूनाकार
ToMeSD: टोकन विलय विधि
DeepCache: विशेषता कैशिंग विधि
DeepCache & ToMeSD: भोली संयोजन विधि

कार्यान्वयन विवरण

NSGA-II विकासवादी एल्गोरिथ्म का उपयोग करें, जनसंख्या आकार 20, 100 पीढ़ियां चलाएं
CFG स्केल: 7.5 (SD v1.5), 9.0 (SD v2), 7.0 (SDXL)
नमूनाकरण चरण: 50 चरण PLMS
एकल 4090 GPU पर परीक्षण करें

प्रायोगिक परिणाम

मुख्य परिणाम

स्टेबल डिफ्यूजन v1.5 (ImageNet):

कॉन्फ़िगरेशन e1: 9.01× त्वरण, FID 27.64 से 27.31 तक कम हुआ
सभी कॉन्फ़िगरेशन में तुलना विधियों से बेहतर

स्टेबल डिफ्यूजन v2 (ImageNet):

कॉन्फ़िगरेशन e2: 7.25× त्वरण, FID 28.20
मूल मॉडल की तुलना में FID 29.8 से 28.20 तक कम हुआ

COCO-30k डेटासेट:

SD v1.5: 7× त्वरण, FID 12.15 से 9.98 तक कम हुआ (2.17 की कमी)
SD v2: 7.25× त्वरण, FID 13.68 से 13.88 तक

SDXL (MS COCO):

2.32× त्वरण, FID 24.25 से 23.10 तक कम हुआ
DeepCache (1.75×) और DeepCache&ToMeSD (1.78×) से महत्वपूर्ण रूप से बेहतर

विलोपन प्रयोग

DiffScore की प्रभावशीलता: विभिन्न कैशिंग सेटिंग्स और प्रूनिंग अनुपातों में, DiffScore का उपयोग लगातार FID स्कोर में सुधार करता है, समय शोर अंतर स्कोर की प्रभावशीलता को साबित करता है।

CFG संरेखण का प्रभाव: प्रूनिंग अनुपात में वृद्धि के साथ, CFG संरेखण कॉन्फ़िगरेशन द्वारा लाए गए लाभ धीरे-धीरे बढ़ते हैं, उच्च प्रूनिंग अनुपात (0.7) पर FID सुधार 13 से 30 बिंदु तक भिन्न होता है।

केस विश्लेषण

दृश्य तुलना परिणाम DaTo को कई पहलुओं में उत्कृष्ट प्रदर्शन दिखाते हैं:

सामग्री निष्ठा: मूल छवि सामग्री के साथ उच्च समानता
विवरण संरक्षण: उच्च विवरण दृश्यों में सूक्ष्म बनावट को बनाए रखता है
शैली अनुकूलन: छवि-से-छवि कार्यों में सामग्री संरक्षण और शैली सटीकता को संतुलित करता है
प्रॉम्प्ट संरेखण: जटिल पाठ प्रॉम्प्ट में सभी तत्वों को सटीक रूप से उत्पन्न करता है

प्रायोगिक निष्कर्ष

विशेषता गतिशीलता पुनः प्राप्ति: DaTo विशेषता अंतर वितरण को मूल स्टेबल डिफ्यूजन के करीब सफलतापूर्वक पुनः प्राप्त करता है
विरल कोडिंग प्रभाव: उचित टोकन प्रूनिंग और विशेषता कैशिंग मुख्य विशेषताओं पर ध्यान केंद्रित करके मॉडल प्रदर्शन में सुधार कर सकते हैं
रणनीति सामान्यीकरण: SD v1.5 पर खोजी गई रणनीति SDXL और अन्य डेटासेट पर अच्छा प्रदर्शन करती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

DaTo विशेषता कैशिंग के कारण होने वाली विशेषता गतिशीलता हानि की समस्या को सफलतापूर्वक हल करता है
विकासवादी खोज द्वारा प्राप्त अनुकूली रणनीति निश्चित कॉन्फ़िगरेशन से महत्वपूर्ण रूप से बेहतर है
यह विधि कई मॉडल और डेटासेट पर उल्लेखनीय त्वरण और गुणवत्ता सुधार प्राप्त करती है

सीमाएं

खोज लागत: यद्यपि ≤20 GPU घंटे स्वीकार्य हैं, फिर भी अतिरिक्त कम्प्यूटेशनल संसाधनों की आवश्यकता है
हार्डवेयर निर्भरता: प्रदर्शन सुधार हार्डवेयर कॉन्फ़िगरेशन के अनुसार भिन्न हो सकता है
चरम सेटिंग्स में सीमाएं: बहुत अधिक प्रूनिंग अनुपात या बहुत कम कैशिंग अपडेट आवृत्ति प्रदर्शन को नुकसान पहुंचाएगी

भविष्य की दिशाएं

अनुकूली रणनीति शिक्षण: अधिक बुद्धिमान अनुकूली कैशिंग और प्रूनिंग रणनीतियां विकसित करना
अन्य आर्किटेक्चर अनुकूलन: अधिक विसरण मॉडल आर्किटेक्चर तक विस्तार करना
सैद्धांतिक विश्लेषण: विसरण मॉडल में विरल कोडिंग सिद्धांत की गहरी समझ

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: विशेषता कैशिंग की गतिशीलता हानि समस्या को व्यवस्थित रूप से हल करने वाला पहला
व्यावहारिक विधि: प्रशिक्षण-मुक्त, तैनाती और एकीकरण में आसान
पर्याप्त प्रयोग: कई मॉडल, डेटासेट पर व्यापक मूल्यांकन
सैद्धांतिक समर्थन: विरल कोडिंग के लिए सैद्धांतिक व्याख्या प्रदान करता है
ओपन सोर्स अनुकूल: पूर्ण कोड कार्यान्वयन प्रदान करता है

कमियां

अपर्याप्त सैद्धांतिक विश्लेषण: यह विधि FID में सुधार क्यों कर सकती है इसकी सैद्धांतिक व्याख्या अपेक्षाकृत सरल है
खोज एल्गोरिथ्म निर्भरता: इष्टतम रणनीति खोजने के लिए विकासवादी खोज की आवश्यकता है, उपयोग जटिलता बढ़ाता है
एकल मूल्यांकन मेट्रिक: मुख्य रूप से FID पर निर्भर, अधिक विविध गुणवत्ता मेट्रिक्स की कमी
उपयोगकर्ता अनुसंधान की कमी: पीढ़ी गुणवत्ता को सत्यापित करने के लिए मानव मूल्यांकन नहीं किया गया

प्रभाव

शैक्षणिक मूल्य: विसरण मॉडल त्वरण के लिए नई सोच और विधि प्रदान करता है
व्यावहारिक मूल्य: मौजूदा स्टेबल डिफ्यूजन मॉडल पर सीधे लागू किया जा सकता है
पुनरुत्पादनशीलता: विस्तृत कार्यान्वयन विवरण और ओपन सोर्स कोड प्रदान करता है
प्रेरणादायक: जनरेटिव मॉडल में टोकन-स्तर अनुकूलन के अनुप्रयोग के लिए उदाहरण प्रदान करता है

लागू परिदृश्य

संसाधन-सीमित वातावरण: मोबाइल उपकरण, किनारे कंप्यूटिंग परिदृश्य
वास्तविक समय अनुप्रयोग: तेजी से पीढ़ी की आवश्यकता वाले इंटरैक्टिव अनुप्रयोग
बल्क पीढ़ी: बड़े पैमाने पर छवि पीढ़ी कार्य
अनुसंधान प्रोटोटाइप: तेजी से पुनरावृत्ति की आवश्यकता वाली अनुसंधान परियोजनाएं

संदर्भ

पेपर विसरण मॉडल, टोकन कमी, कैशिंग तंत्र आदि कई संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हुए 46 संदर्भों का हवाला देता है, जो इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार और तुलना बेंचमार्क प्रदान करता है।

समग्र मूल्यांकन: यह विसरण मॉडल त्वरण की महत्वपूर्ण समस्या पर एक उच्च-गुणवत्ता वाला कंप्यूटर विजन पेपर है जो एक नवीन समाधान प्रस्तावित करता है। विधि डिजाइन चतुर है, प्रायोगिक मूल्यांकन व्यापक है, और व्यावहारिक मूल्य उत्कृष्ट है। यद्यपि सैद्धांतिक विश्लेषण की गहराई में कुछ कमी है, लेकिन इसका वास्तविक योगदान और प्रभाव मान्यता के योग्य है।