2025-11-17T17:13:12.426721

Cached Adaptive Token Merging: Dynamic Token Reduction and Redundant Computation Elimination in Diffusion Model

Saghatchian, Moghadam, Nickabadi

Diffusion models have emerged as a promising approach for generating high-quality, high-dimensional images. Nevertheless, these models are hindered by their high computational cost and slow inference, partly due to the quadratic computational complexity of the self-attention mechanisms with respect to input size. Various approaches have been proposed to address this drawback. One such approach focuses on reducing the number of tokens fed into the self-attention, known as token merging (ToMe). In our method, which is called cached adaptive token merging(CA-ToMe), we calculate the similarity between tokens and then merge the r proportion of the most similar tokens. However, due to the repetitive patterns observed in adjacent steps and the variation in the frequency of similarities, we aim to enhance this approach by implementing an adaptive threshold for merging tokens and adding a caching mechanism that stores similar pairs across several adjacent steps. Empirical results demonstrate that our method operates as a training-free acceleration method, achieving a speedup factor of 1.24 in the denoising process while maintaining the same FID scores compared to existing approaches.

academic

कैश्ड एडेप्टिव टोकन मर्जिंग: डिफ्यूजन मॉडल में डायनामिक टोकन रिडक्शन और रिडंडेंट कम्प्यूटेशन एलिमिनेशन

बेसिक जानकारी

पेपर ID: 2501.00946
शीर्षक: कैश्ड एडेप्टिव टोकन मर्जिंग: डिफ्यूजन मॉडल में डायनामिक टोकन रिडक्शन और रिडंडेंट कम्प्यूटेशन एलिमिनेशन
लेखक: ओमिद सघचियान, अतियेह घ. मोगादम, अहमद निकाबादी (अमीरकबीर यूनिवर्सिटी ऑफ टेक्नोलॉजी)
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन समय: 1 जनवरी 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2501.00946
कोड लिंक: https://github.com/omidiu/ca_tome

सारांश

डिफ्यूजन मॉडल उच्च गुणवत्ता वाली, उच्च-आयामी छवियों के निर्माण के लिए एक आशाजनक विधि बन गए हैं। हालांकि, ये मॉडल उच्च कम्प्यूटेशनल लागत और धीमी अनुमान गति से बाधित हैं, जो आंशिक रूप से इनपुट आकार के संबंध में स्व-ध्यान तंत्र की द्विघात कम्प्यूटेशनल जटिलता के कारण है। यह पेपर कैश्ड एडेप्टिव टोकन मर्जिंग (CA-ToMe) विधि प्रस्तावित करता है, जो टोकन के बीच समानता की गणना करके और समानता को थ्रेसहोल्ड पैरामीटर t से अधिक टोकन को मर्ज करके इस समस्या को संबोधित करता है। आसन्न चरणों में देखे गए दोहराए गए पैटर्न और समानता आवृत्ति में परिवर्तन के कारण, यह विधि एडेप्टिव थ्रेसहोल्ड को लागू करके और कैशिंग तंत्र को जोड़कर टोकन मर्जिंग विधि को बढ़ाती है। प्रायोगिक परिणाम दिखाते हैं कि यह विधि एक प्रशिक्षण-मुक्त त्वरण विधि के रूप में, डीनोइजिंग प्रक्रिया में 1.24 गुना त्वरण प्राप्त करती है, जबकि मौजूदा विधियों के समान FID स्कोर बनाए रखती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

डिफ्यूजन मॉडल छवि निर्माण कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन गंभीर कम्प्यूटेशनल दक्षता समस्याओं का सामना करते हैं:

उच्च कम्प्यूटेशनल लागत: स्व-ध्यान तंत्र की द्विघात जटिलता धीमी अनुमान गति का कारण बनती है
क्रमिक डीनोइजिंग प्रक्रिया: समानांतरकरण में असमर्थ, प्रत्येक डीनोइजिंग चरण को दोहराई गई गणना की आवश्यकता होती है
रिडंडेंट कम्प्यूटेशन: आसन्न समय चरणों के बीच बड़ी मात्रा में दोहराई गई गणना मौजूद है

समस्या की महत्ता

डिफ्यूजन मॉडल की उच्च विलंबता उन्हें तेजी से अनुमान की आवश्यकता वाले अनुप्रयोगों में उपयोग को सीमित करती है
उच्च कम्प्यूटेशनल लागत मॉडल तैनाती को कठिन बनाती है, विशेष रूप से संसाधन-सीमित वातावरण में
मौजूदा त्वरण विधियों को या तो पुनः प्रशिक्षण की आवश्यकता होती है या गुणवत्ता में महत्वपूर्ण नुकसान होता है

मौजूदा विधियों की सीमाएं

नमूनाकरण चरणों को कम करने की विधियों को आमतौर पर पुनः प्रशिक्षण या जटिल संख्यात्मक सॉल्वर की आवश्यकता होती है
टोकन प्रूनिंग विधियां सूचना हानि और प्रदर्शन में गिरावट का कारण बनती हैं
पारंपरिक टोकन मर्जिंग (ToMe) निश्चित मर्जिंग दर का उपयोग करता है, विभिन्न समय चरणों और परतों में समानता वितरण परिवर्तन के अनुकूल नहीं हो सकता

अनुसंधान प्रेरणा

दो मुख्य अवलोकित घटनाओं पर आधारित:

विभिन्न समय चरणों और परतों में टोकन समानता वितरण में महत्वपूर्ण परिवर्तन
आसन्न अनुमान चरणों के बीच टोकन जोड़े उच्च समानता प्रदर्शित करते हैं

मुख्य योगदान

एडेप्टिव थ्रेसहोल्ड तंत्र प्रस्तावित करना: टोकन समानता वितरण के आधार पर मर्जिंग रणनीति को गतिशील रूप से समायोजित करना, निश्चित मर्जिंग दर को प्रतिस्थापित करना
कैशिंग तंत्र डिजाइन करना: आसन्न चरणों के बीच समानता का लाभ उठाते हुए, दोहराई गई गणना को कम करने के लिए टोकन जोड़े को कैश करना
प्रशिक्षण-मुक्त त्वरण लागू करना: विधि को पूर्व-प्रशिक्षित मॉडल पर सीधे लागू किया जा सकता है, पुनः प्रशिक्षण की आवश्यकता नहीं है
बेहतर गुणवत्ता-गति व्यापार प्राप्त करना: आधारभूत ToMe विधि की तुलना में, छवि गुणवत्ता बनाए रखते हुए तेजी से अनुमान गति प्राप्त करना

विधि विवरण

कार्य परिभाषा

इनपुट: डिफ्यूजन मॉडल डीनोइजिंग प्रक्रिया में टोकन अनुक्रम आउटपुट: एडेप्टिव मर्जिंग और कैशिंग अनुकूलन के माध्यम से त्वरित अनुमान प्रक्रिया बाधाएं: उत्पन्न छवि गुणवत्ता में महत्वपूर्ण गिरावट न आए

मॉडल आर्किटेक्चर

1. एडेप्टिव टोकन मर्जिंग तंत्र

पारंपरिक ToMe विधि टोकन मर्जिंग के लिए निश्चित अनुपात r का उपयोग करती है, जबकि CA-ToMe समानता थ्रेसहोल्ड t का परिचय देता है:

मुख्य विचार:

छवि को sx × sy के आकार के स्ट्राइड क्षेत्रों में विभाजित करना
प्रत्येक स्ट्राइड क्षेत्र के बाएं-ऊपरी कोने के टोकन को लक्ष्य टोकन के रूप में चुनना
स्रोत टोकन और लक्ष्य टोकन के बीच कोसाइन समानता की गणना करना
केवल थ्रेसहोल्ड t से अधिक समानता वाले टोकन जोड़े को मर्ज करना

लाभ विश्लेषण:

परिदृश्य A: जब अधिकांश टोकन समानता कम हो, निश्चित मर्जिंग दर असमान टोकन को मर्ज करने के लिए मजबूर करेगी, जिससे सूचना हानि होगी। एडेप्टिव थ्रेसहोल्ड केवल उच्च समानता टोकन को मर्ज करना सुनिश्चित करता है
परिदृश्य B: जब अधिकांश टोकन अत्यधिक समान हों (जैसे डीनोइजिंग की शुरुआत में), निश्चित मर्जिंग दर मर्जिंग की मात्रा को सीमित करता है। एडेप्टिव थ्रेसहोल्ड अधिक टोकन को मर्ज करने की अनुमति देता है, दक्षता में सुधार करता है

2. कैशिंग तंत्र डिजाइन

जैकार्ड दूरी विश्लेषण के आधार पर आसन्न चरणों के बीच टोकन जोड़े की उच्च समानता की खोज:

$JaccardDistance(A_n, A_{n+1}) = 1 - \frac{|A_n \cap A_{n+1}|}{|A_n \cup A_{n+1}|}$

जहां An nवें चरण के सभी स्रोत-लक्ष्य टोकन जोड़े का समूह है।

कार्यान्वयन रणनीति:

चेकपॉइंट्स (checkpoints) सेट करना, केवल विशिष्ट समय चरणों में समानता मैट्रिक्स की गणना करना
गैर-चेकपॉइंट चरणों में पहले से गणना किए गए टोकन जोड़े का पुनः उपयोग करना
समानता मैट्रिक्स की दोहराई गई गणना ओवरहेड को महत्वपूर्ण रूप से कम करना

तकनीकी नवाचार बिंदु

गतिशील एडेप्टिविटी: समानता वितरण के आधार पर मर्जिंग रणनीति को स्वचालित रूप से समायोजित करना, निश्चित पैरामीटर की सीमाओं से बचना
समय आयाम अनुकूलन: समय चरणों के बीच अतिरेक का लाभ उठाते हुए, कैशिंग के माध्यम से गणना को कम करना
परत-स्तरीय चयनात्मक अनुप्रयोग: विशेष रूप से कम्प्यूटेशनल रूप से गहन U-Net शीर्ष परतों (D1 और U1) पर अनुकूलन लागू करना
पुनः प्रशिक्षण की आवश्यकता नहीं: एक प्लग-एंड-प्ले त्वरण विधि के रूप में, मौजूदा मॉडल पर सीधे लागू किया जा सकता है

प्रायोगिक सेटअप

डेटासेट

ImageNet-1k डेटासेट: 2000 छवियों का निर्माण 512×512 रिजोल्यूशन में (प्रति वर्ग 2, कुल 1000 वर्ग)
सत्यापन सेट: FID स्कोर की गणना के लिए 5000 ImageNet-1k सत्यापन छवियों का उपयोग
प्रॉम्प्ट टेम्पलेट: "A high-quality photograph of a classname."

मूल्यांकन मेट्रिक्स

FID (Fréchet Inception Distance): उत्पन्न छवि गुणवत्ता को मापने के लिए मुख्य मेट्रिक
अनुमान समय: 2000 छवियों के निर्माण का औसत समय
PSNR: पीक सिग्नल-टू-नॉइज अनुपात, पिक्सल-स्तरीय पुनर्निर्माण गुणवत्ता को मापता है
SSIM: संरचनात्मक समानता सूचकांक, स्थानिक और संरचनात्मक सामंजस्य का मूल्यांकन करता है

तुलना विधियां

आधारभूत: मूल Stable Diffusion v1.5
ToMe: पारंपरिक टोकन मर्जिंग विधि (r=50%)

कार्यान्वयन विवरण

हार्डवेयर: Tesla V100S GPU
डिफ्यूजन चरण: 50 चरण PLMS नमूनाकरण
CFG स्केल: 7.5
स्ट्राइड आकार: 2×2 निश्चित
अनुप्रयोग परत: केवल U-Net के D1 और U1 परतों पर लागू

प्रायोगिक परिणाम

मुख्य परिणाम

मॉडल	FID	औसत समय(s)	त्वरण अनुपात
आधारभूत	33.66	7.61±0.001	1.0×
ToMe	34.16	6.39±0.006	1.19×
CA-ToMe	34.05	6.09±0.001	1.24×

मुख्य निष्कर्ष:

CA-ToMe सबसे तेजी से अनुमान गति प्राप्त करता है (6.09s)
FID स्कोर (34.05) ToMe (34.16) से बेहतर है, आधारभूत (33.66) के करीब है
गति और गुणवत्ता के बीच सर्वोत्तम संतुलन प्राप्त किया गया है

थ्रेसहोल्ड पैरामीटर विश्लेषण

थ्रेसहोल्ड t	FID	औसत समय(s)	PSNR	SSIM
0.4	35.28	6.07±0.007	27.90	0.191
0.5	35.46	6.07±0.004	27.909	0.208
0.6	35.56	6.10±0.005	27.908	0.218
0.7	34.30	6.23±0.002	27.910	0.234
0.8	33.80	6.58±0.004	27.904	0.239
0.9	33.42	6.92±0.003	27.907	0.238

अवलोकन परिणाम:

थ्रेसहोल्ड 0.4-0.6 श्रेणी में परिवर्तन छोटा है, क्योंकि अधिकांश टोकन समानता ≥0.6 है
थ्रेसहोल्ड 0.7 गुणवत्ता-गति के सर्वोत्तम संतुलन प्रदान करता है
उच्च थ्रेसहोल्ड गुणवत्ता में सुधार करते हैं लेकिन गति को कम करते हैं

कैशिंग कॉन्फ़िगरेशन तुलना

कॉन्फ़िगरेशन	चेकपॉइंट सेटिंग	समय(s)	FID
CONFIG 1	0,1,2,3,5,10,15,25,35	6.18±0.02	36.14
CONFIG 2	0,10,11,12,15,20,25,30,35,45	6.13±0.001	34.33
CONFIG 3	0,8,11,13,20,25,30,35,45,46,47,48,49	6.09±0.001	34.05

CONFIG 3 सर्वोत्तम प्रदर्शन करता है, जैकार्ड दूरी विश्लेषण के अनुरूप, 8वें, 11वें, 13वें चरण और अंतिम चरणों में अधिक चेकपॉइंट सेट करता है।

विलोपन प्रयोग

विभिन्न घटकों के योगदान की तुलना के माध्यम से:

केवल एडेप्टिव थ्रेसहोल्ड: निश्चित मर्जिंग दर की तुलना में छवि गुणवत्ता में सुधार
केवल कैशिंग तंत्र: कम्प्यूटेशन समय में महत्वपूर्ण कमी
संपूर्ण CA-ToMe: दोनों तकनीकों का संयोजन सर्वोत्तम प्रदर्शन प्राप्त करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

एडेप्टिव थ्रेसहोल्ड निश्चित मर्जिंग दर की सीमाओं को प्रभावी ढंग से हल करता है, समानता वितरण के आधार पर मर्जिंग रणनीति को गतिशील रूप से समायोजित करता है
कैशिंग तंत्र समय चरणों के बीच अतिरेक का लाभ उठाता है, दोहराई गई गणना को महत्वपूर्ण रूप से कम करता है
CA-ToMe विधि 1.24 गुना त्वरण प्राप्त करती है, जबकि छवि गुणवत्ता को बनाए रखती है या थोड़ा सुधारती है
प्रशिक्षण-मुक्त विशेषता विधि को अच्छी व्यावहारिकता और स्केलेबिलिटी प्रदान करती है

सीमाएं

थ्रेसहोल्ड पैरामीटर ट्यूनिंग: विभिन्न मॉडल और कार्यों के लिए इष्टतम थ्रेसहोल्ड को समायोजित करने की आवश्यकता है
अनुप्रयोग श्रेणी सीमा: मुख्य रूप से U-Net आर्किटेक्चर के डिफ्यूजन मॉडल के लिए
कैशिंग ओवरहेड: कैश किए गए टोकन जोड़े की जानकारी संग्रहीत करने के लिए अतिरिक्त मेमोरी की आवश्यकता है
परत सीमा: केवल शीर्ष परतों पर लागू, अन्य परतों के अनुकूलन अवसर को याद कर सकता है

भविष्य की दिशाएं

स्वचालित थ्रेसहोल्ड सीखना: इष्टतम थ्रेसहोल्ड निर्धारित करने के लिए स्वचालित विधि विकसित करना
अन्य आर्किटेक्चर में विस्तार: DiT जैसे नए डिफ्यूजन मॉडल आर्किटेक्चर के अनुकूल बनाना
अधिक सूक्ष्म कैशिंग रणनीति: सामग्री-अनुकूली कैशिंग तंत्र के आधार पर
हार्डवेयर अनुकूलन: विशिष्ट हार्डवेयर के लिए अनुकूलित कार्यान्वयन

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: एडेप्टिव विचार को टोकन मर्जिंग में पेश करना, कैशिंग तंत्र के साथ संपूर्ण समाधान बनाना
उच्च व्यावहारिक मूल्य: प्रशिक्षण-मुक्त, प्लग-एंड-प्ले विशेषता इसे तैनाती के लिए आसान बनाती है
व्यापक प्रयोग: व्यापक विलोपन प्रयोग और पैरामीटर विश्लेषण विधि की प्रभावशीलता का समर्थन करते हैं
ठोस सैद्धांतिक आधार: जैकार्ड दूरी के आधार पर समानता विश्लेषण कैशिंग तंत्र के लिए सैद्धांतिक समर्थन प्रदान करता है

कमियां

अपर्याप्त सैद्धांतिक विश्लेषण: एडेप्टिव थ्रेसहोल्ड चयन के लिए सैद्धांतिक मार्गदर्शन की कमी
सीमित प्रायोगिक श्रेणी: केवल ImageNet पर सत्यापित, अन्य डेटासेट और कार्यों के मूल्यांकन की कमी
कम तुलना विधियां: मुख्य रूप से ToMe के साथ तुलना, अन्य त्वरण विधियों के साथ तुलना की कमी
एकल गुणवत्ता मूल्यांकन: मुख्य रूप से FID मेट्रिक पर निर्भर, मानव मूल्यांकन और अन्य गुणवत्ता मेट्रिक्स की कमी

प्रभाव

शैक्षणिक योगदान: डिफ्यूजन मॉडल त्वरण के लिए नई सोच और विधि प्रदान करता है
व्यावहारिक मूल्य: मौजूदा डिफ्यूजन मॉडल पर सीधे लागू किया जा सकता है, व्यापक अनुप्रयोग संभावनाएं हैं
पुनरुत्पादनशीलता: संपूर्ण कोड कार्यान्वयन प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है
प्रेरणादायक: एडेप्टिव और कैशिंग विचार अधिक संबंधित अनुसंधान को प्रेरित कर सकते हैं

अनुप्रयोग परिदृश्य

संसाधन-सीमित वातावरण: मोबाइल डिवाइस, एज कंप्यूटिंग आदि परिदृश्य
वास्तविक समय अनुप्रयोग: तेजी से छवि निर्माण की आवश्यकता वाले इंटरैक्टिव अनुप्रयोग
बड़े पैमाने पर तैनाती: सर्वर कम्प्यूटेशनल लागत और विलंबता को कम करना
अनुसंधान प्रोटोटाइप: अन्य त्वरण तकनीकों के लिए आधार घटक प्रदान करना

संदर्भ

यह पेपर 54 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से शामिल हैं:

डिफ्यूजन मॉडल मौलिक सिद्धांत 1,2,3
छवि निर्माण अनुप्रयोग 4,5,18,19,20
त्वरण तकनीकें 24,25,26,27,28
टोकन प्रसंस्करण विधियां 21,40,41,43,44
कैशिंग तकनीकें 24,37,38,39

समग्र मूल्यांकन: यह डिफ्यूजन मॉडल त्वरण क्षेत्र में व्यावहारिक मूल्य वाला कार्य है। एडेप्टिव थ्रेसहोल्ड और कैशिंग तंत्र के चतुर संयोजन के माध्यम से, छवि गुणवत्ता को बनाए रखते हुए महत्वपूर्ण गति सुधार प्राप्त किया गया है। यद्यपि सैद्धांतिक विश्लेषण और प्रायोगिक श्रेणी में सुधार की गुंजाइश है, इसकी प्रशिक्षण-मुक्त विशेषता और अच्छे प्रायोगिक परिणाम इसे उच्च व्यावहारिक मूल्य और प्रभाव प्रदान करते हैं।