Diffusion models have emerged as a promising approach for generating high-quality, high-dimensional images. Nevertheless, these models are hindered by their high computational cost and slow inference, partly due to the quadratic computational complexity of the self-attention mechanisms with respect to input size. Various approaches have been proposed to address this drawback. One such approach focuses on reducing the number of tokens fed into the self-attention, known as token merging (ToMe). In our method, which is called cached adaptive token merging(CA-ToMe), we calculate the similarity between tokens and then merge the r proportion of the most similar tokens. However, due to the repetitive patterns observed in adjacent steps and the variation in the frequency of similarities, we aim to enhance this approach by implementing an adaptive threshold for merging tokens and adding a caching mechanism that stores similar pairs across several adjacent steps. Empirical results demonstrate that our method operates as a training-free acceleration method, achieving a speedup factor of 1.24 in the denoising process while maintaining the same FID scores compared to existing approaches.
- पेपर ID: 2501.00946
- शीर्षक: कैश्ड एडेप्टिव टोकन मर्जिंग: डिफ्यूजन मॉडल में डायनामिक टोकन रिडक्शन और रिडंडेंट कम्प्यूटेशन एलिमिनेशन
- लेखक: ओमिद सघचियान, अतियेह घ. मोगादम, अहमद निकाबादी (अमीरकबीर यूनिवर्सिटी ऑफ टेक्नोलॉजी)
- वर्गीकरण: cs.CV (कंप्यूटर विजन)
- प्रकाशन समय: 1 जनवरी 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2501.00946
- कोड लिंक: https://github.com/omidiu/ca_tome
डिफ्यूजन मॉडल उच्च गुणवत्ता वाली, उच्च-आयामी छवियों के निर्माण के लिए एक आशाजनक विधि बन गए हैं। हालांकि, ये मॉडल उच्च कम्प्यूटेशनल लागत और धीमी अनुमान गति से बाधित हैं, जो आंशिक रूप से इनपुट आकार के संबंध में स्व-ध्यान तंत्र की द्विघात कम्प्यूटेशनल जटिलता के कारण है। यह पेपर कैश्ड एडेप्टिव टोकन मर्जिंग (CA-ToMe) विधि प्रस्तावित करता है, जो टोकन के बीच समानता की गणना करके और समानता को थ्रेसहोल्ड पैरामीटर t से अधिक टोकन को मर्ज करके इस समस्या को संबोधित करता है। आसन्न चरणों में देखे गए दोहराए गए पैटर्न और समानता आवृत्ति में परिवर्तन के कारण, यह विधि एडेप्टिव थ्रेसहोल्ड को लागू करके और कैशिंग तंत्र को जोड़कर टोकन मर्जिंग विधि को बढ़ाती है। प्रायोगिक परिणाम दिखाते हैं कि यह विधि एक प्रशिक्षण-मुक्त त्वरण विधि के रूप में, डीनोइजिंग प्रक्रिया में 1.24 गुना त्वरण प्राप्त करती है, जबकि मौजूदा विधियों के समान FID स्कोर बनाए रखती है।
डिफ्यूजन मॉडल छवि निर्माण कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन गंभीर कम्प्यूटेशनल दक्षता समस्याओं का सामना करते हैं:
- उच्च कम्प्यूटेशनल लागत: स्व-ध्यान तंत्र की द्विघात जटिलता धीमी अनुमान गति का कारण बनती है
- क्रमिक डीनोइजिंग प्रक्रिया: समानांतरकरण में असमर्थ, प्रत्येक डीनोइजिंग चरण को दोहराई गई गणना की आवश्यकता होती है
- रिडंडेंट कम्प्यूटेशन: आसन्न समय चरणों के बीच बड़ी मात्रा में दोहराई गई गणना मौजूद है
- डिफ्यूजन मॉडल की उच्च विलंबता उन्हें तेजी से अनुमान की आवश्यकता वाले अनुप्रयोगों में उपयोग को सीमित करती है
- उच्च कम्प्यूटेशनल लागत मॉडल तैनाती को कठिन बनाती है, विशेष रूप से संसाधन-सीमित वातावरण में
- मौजूदा त्वरण विधियों को या तो पुनः प्रशिक्षण की आवश्यकता होती है या गुणवत्ता में महत्वपूर्ण नुकसान होता है
- नमूनाकरण चरणों को कम करने की विधियों को आमतौर पर पुनः प्रशिक्षण या जटिल संख्यात्मक सॉल्वर की आवश्यकता होती है
- टोकन प्रूनिंग विधियां सूचना हानि और प्रदर्शन में गिरावट का कारण बनती हैं
- पारंपरिक टोकन मर्जिंग (ToMe) निश्चित मर्जिंग दर का उपयोग करता है, विभिन्न समय चरणों और परतों में समानता वितरण परिवर्तन के अनुकूल नहीं हो सकता
दो मुख्य अवलोकित घटनाओं पर आधारित:
- विभिन्न समय चरणों और परतों में टोकन समानता वितरण में महत्वपूर्ण परिवर्तन
- आसन्न अनुमान चरणों के बीच टोकन जोड़े उच्च समानता प्रदर्शित करते हैं
- एडेप्टिव थ्रेसहोल्ड तंत्र प्रस्तावित करना: टोकन समानता वितरण के आधार पर मर्जिंग रणनीति को गतिशील रूप से समायोजित करना, निश्चित मर्जिंग दर को प्रतिस्थापित करना
- कैशिंग तंत्र डिजाइन करना: आसन्न चरणों के बीच समानता का लाभ उठाते हुए, दोहराई गई गणना को कम करने के लिए टोकन जोड़े को कैश करना
- प्रशिक्षण-मुक्त त्वरण लागू करना: विधि को पूर्व-प्रशिक्षित मॉडल पर सीधे लागू किया जा सकता है, पुनः प्रशिक्षण की आवश्यकता नहीं है
- बेहतर गुणवत्ता-गति व्यापार प्राप्त करना: आधारभूत ToMe विधि की तुलना में, छवि गुणवत्ता बनाए रखते हुए तेजी से अनुमान गति प्राप्त करना
इनपुट: डिफ्यूजन मॉडल डीनोइजिंग प्रक्रिया में टोकन अनुक्रम
आउटपुट: एडेप्टिव मर्जिंग और कैशिंग अनुकूलन के माध्यम से त्वरित अनुमान प्रक्रिया
बाधाएं: उत्पन्न छवि गुणवत्ता में महत्वपूर्ण गिरावट न आए
पारंपरिक ToMe विधि टोकन मर्जिंग के लिए निश्चित अनुपात r का उपयोग करती है, जबकि CA-ToMe समानता थ्रेसहोल्ड t का परिचय देता है:
मुख्य विचार:
- छवि को sx × sy के आकार के स्ट्राइड क्षेत्रों में विभाजित करना
- प्रत्येक स्ट्राइड क्षेत्र के बाएं-ऊपरी कोने के टोकन को लक्ष्य टोकन के रूप में चुनना
- स्रोत टोकन और लक्ष्य टोकन के बीच कोसाइन समानता की गणना करना
- केवल थ्रेसहोल्ड t से अधिक समानता वाले टोकन जोड़े को मर्ज करना
लाभ विश्लेषण:
- परिदृश्य A: जब अधिकांश टोकन समानता कम हो, निश्चित मर्जिंग दर असमान टोकन को मर्ज करने के लिए मजबूर करेगी, जिससे सूचना हानि होगी। एडेप्टिव थ्रेसहोल्ड केवल उच्च समानता टोकन को मर्ज करना सुनिश्चित करता है
- परिदृश्य B: जब अधिकांश टोकन अत्यधिक समान हों (जैसे डीनोइजिंग की शुरुआत में), निश्चित मर्जिंग दर मर्जिंग की मात्रा को सीमित करता है। एडेप्टिव थ्रेसहोल्ड अधिक टोकन को मर्ज करने की अनुमति देता है, दक्षता में सुधार करता है
जैकार्ड दूरी विश्लेषण के आधार पर आसन्न चरणों के बीच टोकन जोड़े की उच्च समानता की खोज:
JaccardDistance(An,An+1)=1−∣An∪An+1∣∣An∩An+1∣
जहां An nवें चरण के सभी स्रोत-लक्ष्य टोकन जोड़े का समूह है।
कार्यान्वयन रणनीति:
- चेकपॉइंट्स (checkpoints) सेट करना, केवल विशिष्ट समय चरणों में समानता मैट्रिक्स की गणना करना
- गैर-चेकपॉइंट चरणों में पहले से गणना किए गए टोकन जोड़े का पुनः उपयोग करना
- समानता मैट्रिक्स की दोहराई गई गणना ओवरहेड को महत्वपूर्ण रूप से कम करना
- गतिशील एडेप्टिविटी: समानता वितरण के आधार पर मर्जिंग रणनीति को स्वचालित रूप से समायोजित करना, निश्चित पैरामीटर की सीमाओं से बचना
- समय आयाम अनुकूलन: समय चरणों के बीच अतिरेक का लाभ उठाते हुए, कैशिंग के माध्यम से गणना को कम करना
- परत-स्तरीय चयनात्मक अनुप्रयोग: विशेष रूप से कम्प्यूटेशनल रूप से गहन U-Net शीर्ष परतों (D1 और U1) पर अनुकूलन लागू करना
- पुनः प्रशिक्षण की आवश्यकता नहीं: एक प्लग-एंड-प्ले त्वरण विधि के रूप में, मौजूदा मॉडल पर सीधे लागू किया जा सकता है
- ImageNet-1k डेटासेट: 2000 छवियों का निर्माण 512×512 रिजोल्यूशन में (प्रति वर्ग 2, कुल 1000 वर्ग)
- सत्यापन सेट: FID स्कोर की गणना के लिए 5000 ImageNet-1k सत्यापन छवियों का उपयोग
- प्रॉम्प्ट टेम्पलेट: "A high-quality photograph of a classname."
- FID (Fréchet Inception Distance): उत्पन्न छवि गुणवत्ता को मापने के लिए मुख्य मेट्रिक
- अनुमान समय: 2000 छवियों के निर्माण का औसत समय
- PSNR: पीक सिग्नल-टू-नॉइज अनुपात, पिक्सल-स्तरीय पुनर्निर्माण गुणवत्ता को मापता है
- SSIM: संरचनात्मक समानता सूचकांक, स्थानिक और संरचनात्मक सामंजस्य का मूल्यांकन करता है
- आधारभूत: मूल Stable Diffusion v1.5
- ToMe: पारंपरिक टोकन मर्जिंग विधि (r=50%)
- हार्डवेयर: Tesla V100S GPU
- डिफ्यूजन चरण: 50 चरण PLMS नमूनाकरण
- CFG स्केल: 7.5
- स्ट्राइड आकार: 2×2 निश्चित
- अनुप्रयोग परत: केवल U-Net के D1 और U1 परतों पर लागू
| मॉडल | FID | औसत समय(s) | त्वरण अनुपात |
|---|
| आधारभूत | 33.66 | 7.61±0.001 | 1.0× |
| ToMe | 34.16 | 6.39±0.006 | 1.19× |
| CA-ToMe | 34.05 | 6.09±0.001 | 1.24× |
मुख्य निष्कर्ष:
- CA-ToMe सबसे तेजी से अनुमान गति प्राप्त करता है (6.09s)
- FID स्कोर (34.05) ToMe (34.16) से बेहतर है, आधारभूत (33.66) के करीब है
- गति और गुणवत्ता के बीच सर्वोत्तम संतुलन प्राप्त किया गया है
| थ्रेसहोल्ड t | FID | औसत समय(s) | PSNR | SSIM |
|---|
| 0.4 | 35.28 | 6.07±0.007 | 27.90 | 0.191 |
| 0.5 | 35.46 | 6.07±0.004 | 27.909 | 0.208 |
| 0.6 | 35.56 | 6.10±0.005 | 27.908 | 0.218 |
| 0.7 | 34.30 | 6.23±0.002 | 27.910 | 0.234 |
| 0.8 | 33.80 | 6.58±0.004 | 27.904 | 0.239 |
| 0.9 | 33.42 | 6.92±0.003 | 27.907 | 0.238 |
अवलोकन परिणाम:
- थ्रेसहोल्ड 0.4-0.6 श्रेणी में परिवर्तन छोटा है, क्योंकि अधिकांश टोकन समानता ≥0.6 है
- थ्रेसहोल्ड 0.7 गुणवत्ता-गति के सर्वोत्तम संतुलन प्रदान करता है
- उच्च थ्रेसहोल्ड गुणवत्ता में सुधार करते हैं लेकिन गति को कम करते हैं
| कॉन्फ़िगरेशन | चेकपॉइंट सेटिंग | समय(s) | FID |
|---|
| CONFIG 1 | 0,1,2,3,5,10,15,25,35 | 6.18±0.02 | 36.14 |
| CONFIG 2 | 0,10,11,12,15,20,25,30,35,45 | 6.13±0.001 | 34.33 |
| CONFIG 3 | 0,8,11,13,20,25,30,35,45,46,47,48,49 | 6.09±0.001 | 34.05 |
CONFIG 3 सर्वोत्तम प्रदर्शन करता है, जैकार्ड दूरी विश्लेषण के अनुरूप, 8वें, 11वें, 13वें चरण और अंतिम चरणों में अधिक चेकपॉइंट सेट करता है।
विभिन्न घटकों के योगदान की तुलना के माध्यम से:
- केवल एडेप्टिव थ्रेसहोल्ड: निश्चित मर्जिंग दर की तुलना में छवि गुणवत्ता में सुधार
- केवल कैशिंग तंत्र: कम्प्यूटेशन समय में महत्वपूर्ण कमी
- संपूर्ण CA-ToMe: दोनों तकनीकों का संयोजन सर्वोत्तम प्रदर्शन प्राप्त करता है
- नमूनाकरण चरणों को कम करना:
- ज्ञान आसवन विधियां 26,51,28
- निहित नमूनाकरण 32
- उन्नत अंतर समीकरण सॉल्वर 52,33
- अधिकांश को पुनः प्रशिक्षण की आवश्यकता है
- प्रत्येक चरण में गणना को कम करना:
- परिमाणीकरण विधियां 31,36
- टोकन कमी 21,40,41,43,44
- कैशिंग तकनीकें 24,37,38,39
- प्लग-एंड-प्ले, पुनः प्रशिक्षण की आवश्यकता नहीं है
- टोकन प्रूनिंग: महत्वहीन टोकन को सीधे हटाना, संभावित सूचना हानि
- टोकन मर्जिंग: समान टोकन को मर्ज करना, सूचना पूर्णता बनाए रखना
- ToMe 21: निश्चित मर्जिंग दर का उपयोग करता है
- यह पेपर CA-ToMe: एडेप्टिव थ्रेसहोल्ड + कैशिंग तंत्र
मौजूदा कैशिंग विधियां विभिन्न घटकों को लक्षित करती हैं:
- क्रॉस-ध्यान कैशिंग 38
- U-Net एनकोडर कैशिंग 39
- उन्नत विशेषता कैशिंग 24
यह पेपर पहली बार कैशिंग को टोकन मर्जिंग की समानता गणना पर लागू करता है।
- एडेप्टिव थ्रेसहोल्ड निश्चित मर्जिंग दर की सीमाओं को प्रभावी ढंग से हल करता है, समानता वितरण के आधार पर मर्जिंग रणनीति को गतिशील रूप से समायोजित करता है
- कैशिंग तंत्र समय चरणों के बीच अतिरेक का लाभ उठाता है, दोहराई गई गणना को महत्वपूर्ण रूप से कम करता है
- CA-ToMe विधि 1.24 गुना त्वरण प्राप्त करती है, जबकि छवि गुणवत्ता को बनाए रखती है या थोड़ा सुधारती है
- प्रशिक्षण-मुक्त विशेषता विधि को अच्छी व्यावहारिकता और स्केलेबिलिटी प्रदान करती है
- थ्रेसहोल्ड पैरामीटर ट्यूनिंग: विभिन्न मॉडल और कार्यों के लिए इष्टतम थ्रेसहोल्ड को समायोजित करने की आवश्यकता है
- अनुप्रयोग श्रेणी सीमा: मुख्य रूप से U-Net आर्किटेक्चर के डिफ्यूजन मॉडल के लिए
- कैशिंग ओवरहेड: कैश किए गए टोकन जोड़े की जानकारी संग्रहीत करने के लिए अतिरिक्त मेमोरी की आवश्यकता है
- परत सीमा: केवल शीर्ष परतों पर लागू, अन्य परतों के अनुकूलन अवसर को याद कर सकता है
- स्वचालित थ्रेसहोल्ड सीखना: इष्टतम थ्रेसहोल्ड निर्धारित करने के लिए स्वचालित विधि विकसित करना
- अन्य आर्किटेक्चर में विस्तार: DiT जैसे नए डिफ्यूजन मॉडल आर्किटेक्चर के अनुकूल बनाना
- अधिक सूक्ष्म कैशिंग रणनीति: सामग्री-अनुकूली कैशिंग तंत्र के आधार पर
- हार्डवेयर अनुकूलन: विशिष्ट हार्डवेयर के लिए अनुकूलित कार्यान्वयन
- मजबूत नवाचार: एडेप्टिव विचार को टोकन मर्जिंग में पेश करना, कैशिंग तंत्र के साथ संपूर्ण समाधान बनाना
- उच्च व्यावहारिक मूल्य: प्रशिक्षण-मुक्त, प्लग-एंड-प्ले विशेषता इसे तैनाती के लिए आसान बनाती है
- व्यापक प्रयोग: व्यापक विलोपन प्रयोग और पैरामीटर विश्लेषण विधि की प्रभावशीलता का समर्थन करते हैं
- ठोस सैद्धांतिक आधार: जैकार्ड दूरी के आधार पर समानता विश्लेषण कैशिंग तंत्र के लिए सैद्धांतिक समर्थन प्रदान करता है
- अपर्याप्त सैद्धांतिक विश्लेषण: एडेप्टिव थ्रेसहोल्ड चयन के लिए सैद्धांतिक मार्गदर्शन की कमी
- सीमित प्रायोगिक श्रेणी: केवल ImageNet पर सत्यापित, अन्य डेटासेट और कार्यों के मूल्यांकन की कमी
- कम तुलना विधियां: मुख्य रूप से ToMe के साथ तुलना, अन्य त्वरण विधियों के साथ तुलना की कमी
- एकल गुणवत्ता मूल्यांकन: मुख्य रूप से FID मेट्रिक पर निर्भर, मानव मूल्यांकन और अन्य गुणवत्ता मेट्रिक्स की कमी
- शैक्षणिक योगदान: डिफ्यूजन मॉडल त्वरण के लिए नई सोच और विधि प्रदान करता है
- व्यावहारिक मूल्य: मौजूदा डिफ्यूजन मॉडल पर सीधे लागू किया जा सकता है, व्यापक अनुप्रयोग संभावनाएं हैं
- पुनरुत्पादनशीलता: संपूर्ण कोड कार्यान्वयन प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है
- प्रेरणादायक: एडेप्टिव और कैशिंग विचार अधिक संबंधित अनुसंधान को प्रेरित कर सकते हैं
- संसाधन-सीमित वातावरण: मोबाइल डिवाइस, एज कंप्यूटिंग आदि परिदृश्य
- वास्तविक समय अनुप्रयोग: तेजी से छवि निर्माण की आवश्यकता वाले इंटरैक्टिव अनुप्रयोग
- बड़े पैमाने पर तैनाती: सर्वर कम्प्यूटेशनल लागत और विलंबता को कम करना
- अनुसंधान प्रोटोटाइप: अन्य त्वरण तकनीकों के लिए आधार घटक प्रदान करना
यह पेपर 54 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:
- डिफ्यूजन मॉडल मौलिक सिद्धांत 1,2,3
- छवि निर्माण अनुप्रयोग 4,5,18,19,20
- त्वरण तकनीकें 24,25,26,27,28
- टोकन प्रसंस्करण विधियां 21,40,41,43,44
- कैशिंग तकनीकें 24,37,38,39
समग्र मूल्यांकन: यह डिफ्यूजन मॉडल त्वरण क्षेत्र में व्यावहारिक मूल्य वाला कार्य है। एडेप्टिव थ्रेसहोल्ड और कैशिंग तंत्र के चतुर संयोजन के माध्यम से, छवि गुणवत्ता को बनाए रखते हुए महत्वपूर्ण गति सुधार प्राप्त किया गया है। यद्यपि सैद्धांतिक विश्लेषण और प्रायोगिक श्रेणी में सुधार की गुंजाइश है, इसकी प्रशिक्षण-मुक्त विशेषता और अच्छे प्रायोगिक परिणाम इसे उच्च व्यावहारिक मूल्य और प्रभाव प्रदान करते हैं।