2025-11-24T09:58:18.212416

Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation

Zhou, Zhu, Cui et al.
Continual Test-Time Adaptation (CTTA) aims to quickly fine-tune the model during the test phase so that it can adapt to multiple unknown downstream domain distributions without pre-acquiring downstream domain data. To this end, existing advanced CTTA methods mainly reduce the catastrophic forgetting of historical knowledge caused by irregular switching of downstream domain data by restoring the initial model or reusing historical models. However, these methods are usually accompanied by serious insufficient learning of new knowledge and interference from potentially harmful historical knowledge, resulting in severe performance degradation. To this end, we propose a class-aware domain Knowledge Fusion and Fission method for continual test-time adaptation, called KFF, which adaptively expands and merges class-aware domain knowledge in old and new domains according to the test-time data from different domains, where discriminative historical knowledge can be dynamically accumulated. Specifically, considering the huge domain gap within streaming data, a domain Knowledge FIssion (KFI) module is designed to adaptively separate new domain knowledge from a paired class-aware domain prompt pool, alleviating the impact of negative knowledge brought by old domains that are distinct from the current domain. Besides, to avoid the cumulative computation and storage overheads from continuously fissioning new knowledge, a domain Knowledge FUsion (KFU) module is further designed to merge the fissioned new knowledge into the existing knowledge pool with minimal cost, where a greedy knowledge dynamic merging strategy is designed to improve the compatibility of new and old knowledge while keeping the computational efficiency. Extensive experiments on the ImageNet-C dataset verify the effectiveness of our proposed method against other methods.
academic

वर्ग-जागरूक डोमेन ज्ञान संलयन और विखंडन सतत परीक्षण-समय अनुकूलन के लिए

मूल जानकारी

  • पेपर ID: 2510.12150
  • शीर्षक: Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation
  • लेखक: Jiahuan Zhou, Chao Zhu, Zhenyu Cui, Zichen Liu, Xu Zou, Gang Hua
  • वर्गीकरण: cs.CV (कंप्यूटर विजन)
  • प्रकाशन सम्मेलन: NeurIPS 2025 (39वां तंत्रिका सूचना प्रसंस्करण प्रणाली सम्मेलन)
  • पेपर लिंक: https://arxiv.org/abs/2510.12150

सारांश

यह पेपर सतत परीक्षण-समय अनुकूलन (CTTA) समस्या के लिए एक वर्ग-जागरूक डोमेन ज्ञान संलयन और विखंडन विधि KFF प्रस्तावित करता है। यह विधि ज्ञान विखंडन (KFI) मॉड्यूल के माध्यम से नए डोमेन ज्ञान को अनुकूल रूप से अलग करती है, ऐतिहासिक डोमेन के नकारात्मक ज्ञान हस्तक्षेप से बचती है; ज्ञान संलयन (KFU) मॉड्यूल के माध्यम से विभाजित नए ज्ञान को न्यूनतम लागत पर मौजूदा ज्ञान पूल में मिलाती है। ImageNet-C डेटासेट पर प्रयोग दर्शाते हैं कि यह विधि SOTA विधि DPCore की तुलना में 5.1% का प्रदर्शन सुधार प्रदान करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

सतत परीक्षण-समय अनुकूलन (CTTA) का उद्देश्य पूर्व-प्रशिक्षित मॉडल को परीक्षण चरण में कई अज्ञात डाउनस्ट्रीम डोमेन वितरणों के लिए तेजी से अनुकूल बनाना है, बिना पहले से डाउनस्ट्रीम डोमेन डेटा प्राप्त किए। यह पारंपरिक परीक्षण-समय अनुकूलन (TTA) की तुलना में अधिक चुनौतीपूर्ण समस्या है।

मुख्य चुनौतियाँ

  1. विनाशकारी विस्मृति: जब डोमेन डेटा अनियमित रूप से स्विच होता है, तो ऐतिहासिक ज्ञान की विनाशकारी विस्मृति होती है
  2. नए ज्ञान सीखने में कमी: मौजूदा विधियाँ ऐतिहासिक ज्ञान को बनाए रखते हुए अक्सर नए ज्ञान को पर्याप्त रूप से नहीं सीख पाती हैं
  3. हानिकारक ऐतिहासिक ज्ञान हस्तक्षेप: विभिन्न डोमेन के बीच ज्ञान संघर्ष ढाल अनुकूलन दिशा को नष्ट करता है

मौजूदा विधियों की सीमाएँ

  • नियमितकरण विधियाँ: नियमितकरण के माध्यम से ऐतिहासिक ज्ञान को बनाए रखती हैं, लेकिन नए ज्ञान सीखने को दबाती हैं
  • पैरामीटर रीसेट विधियाँ: विस्मृति से बचने के लिए प्रारंभिक मॉडल को पुनः स्थापित करती हैं, लेकिन उपयोगी ऐतिहासिक ज्ञान खो देती हैं
  • मॉडल संलयन विधियाँ: ऐतिहासिक मॉडल पैरामीटर का चयन और संलयन करती हैं, लेकिन डोमेन संघर्ष समस्या और असीमित भंडारण ओवरहेड से ग्रस्त हैं

मुख्य योगदान

  1. KFF ढांचा प्रस्तावित करना: पहला वर्ग-जागरूक डोमेन ज्ञान संलयन और विखंडन ढांचा जो गतिशील रूप से विभेदक ऐतिहासिक ज्ञान जमा कर सकता है
  2. KFI मॉड्यूल डिजाइन करना: ज्ञान विखंडन मॉड्यूल जो नए डोमेन ज्ञान को अनुकूल रूप से अलग कर सकता है, विभिन्न डोमेन के बीच नकारात्मक ज्ञान हस्तक्षेप को कम करता है
  3. KFU मॉड्यूल विकसित करना: ज्ञान संलयन मॉड्यूल जो लालची रणनीति के माध्यम से ज्ञान को मिलाता है, प्रभाव और दक्षता को संतुलित करता है
  4. SOTA प्रदर्शन प्राप्त करना: ImageNet-C पर 34.8% त्रुटि दर प्राप्त करता है, DPCore से 5.1% सुधार
  5. सैद्धांतिक विश्लेषण प्रदान करना: अच्छी तरह से अलग किए गए क्लस्टरिंग धारणा के आधार पर सैद्धांतिक गारंटी

विधि विवरण

कार्य परिभाषा

स्रोत डोमेन प्रशिक्षण डेटा DS={YS,XS}D_S = \{Y_S, X_S\} और विभिन्न डोमेन वितरण से परीक्षण डेटा स्ट्रीम DT={XT}T=1ND_T = \{X_T\}_{T=1}^N दिया गया है, मॉडल fθf_θ को परीक्षण बैच BTj={xt}t=0bB_T^j = \{x_t\}_{t=0}^b को ऑनलाइन संसाधित करने की आवश्यकता है, लक्ष्य लक्ष्य डोमेन के अनुकूल होना है जबकि ऐतिहासिक डोमेन की क्षमता को बनाए रखना है।

मॉडल आर्किटेक्चर

समग्र ढांचा

KFF ढांचे में दो मुख्य मॉड्यूल हैं:

  • ज्ञान विखंडन (KFI) मॉड्यूल: वर्ग-जागरूक डोमेन ज्ञान को गतिशील रूप से विभाजित करता है
  • ज्ञान संलयन (KFU) मॉड्यूल: विभाजित ज्ञान को मौजूदा ज्ञान पूल में मिलाता है

ज्ञान विखंडन मॉड्यूल (KFI)

वर्ग ज्ञान विखंडन:

  • कोसाइन समानता st,i=sim(y~t,yi)s_{t,i} = \text{sim}(\tilde{y}_t, y_i) का उपयोग करके छद्म लेबल और प्रस्ताव कुंजी के बीच मिलान की डिग्री का मूल्यांकन करता है
  • st,i>γcs_{t,i} > γ_c वाले उम्मीदवार प्रस्तावों का चयन करता है, भारित तरीके से उपयोग करता है:
P_t = Σ_{i=0}^{N_c} w_i P_i^c, w_i = exp(s_{t,i}/τ_c) / Σ exp(s_{t,i}/τ_c)
  • यदि कोई उम्मीदवार प्रस्ताव नहीं है, तो परीक्षण नमूने के लिए नया प्रस्ताव विभाजित करता है

डोमेन ज्ञान विखंडन:

  • परीक्षण बैच सांख्यिकीय विशेषताओं ΓTj={μ,σ}Γ_T^j = \{μ, σ\} को इनपुट कुंजी के रूप में उपयोग करता है
  • यूक्लिडियन दूरी के आधार पर उम्मीदवार प्रस्तावों का चयन करता है: di=ΓTjΓi2<γdd_i = \|Γ_T^j - Γ_i\|_2 < γ_d
  • दूरी-भारित संयोजन के माध्यम से:
P^d = Σ_{i=0}^{N_d} w_i P_i^d, w_i = exp(-d_i/τ_d) / Σ exp(-d_i/τ_d)

ज्ञान संलयन मॉड्यूल (KFU)

वर्ग ज्ञान संलयन:

  • एंट्रॉपी थ्रेशोल्ड γhγ_h का उपयोग करके प्रस्ताव पूल अपडेट को नियंत्रित करता है
  • नए विभाजित प्रस्तावों को सीधे पूल में जोड़ता है
  • संयुक्त प्रस्तावों के लिए, भार के अनुसार मूल प्रस्तावों को अपडेट करता है:
P_{c_i}^* = (1/b) Σ_{t=0}^b [w_{ti} P_t^* + (1-w_{ti}) P_i^c]
  • पूल आकार को नियंत्रित करने के लिए न्यूनतम फैले हुए वृक्ष (MST) एल्गोरिथ्म का उपयोग करके प्रस्तावों को क्लस्टर और संलयन करता है

डोमेन ज्ञान संलयन:

  • नए प्रस्तावों को डोमेन प्रस्ताव पूल में सीधे जोड़ता है
  • संयुक्त प्रस्तावों को भार के अनुसार अपडेट करता है: Pdi=wiPd+(1wi)PidP_{d_i}^* = w_i P_d^* + (1-w_i) P_i^d
  • जब पूल भर जाता है तो निकटतम पड़ोसी प्रस्ताव जोड़ी को संलयन करता है

हानि फ़ंक्शन डिजाइन

द्विस्तरीय हानि फ़ंक्शन का उपयोग करता है:

L = L_d + a·L_c

जहाँ:

  • डोमेन संरेखण हानि: Ld=μsμTj(P)2+ασsσTj(P)2L_d = \|μ_s - μ_T^j(P)\|_2 + α\|σ_s - σ_T^j(P)\|_2
  • उदाहरण-स्तर एंट्रॉपी हानि: Lc=(1/b)Σt=0bH(y^t)L_c = (1/b) Σ_{t=0}^b H(\hat{y}_t)

प्रायोगिक सेटअप

डेटासेट

  • ImageNet-to-ImageNet-C: 15 प्रकार की भ्रष्टता, अधिकतम गंभीरता स्तर 5
  • CIFAR100-to-CIFAR100-C: समान सेटअप
  • CIFAR10-to-CIFAR10-C: समान सेटअप

मूल्यांकन मेट्रिक्स

  • वर्गीकरण त्रुटि दर (%) मुख्य मेट्रिक के रूप में
  • सीखने योग्य पैरामीटर संख्या, मेमोरी उपयोग, गणना समय दक्षता मेट्रिक्स के रूप में

तुलना विधियाँ

  • TTA विधियाँ: TENT, SAR, POEM
  • CTTA विधियाँ: CoTTA, VDP, RoTTA, C-MAE, ROID, ViDA, CoLA, PALM, DPCore

कार्यान्वयन विवरण

  • बैकबोन नेटवर्क: ViT-B/16
  • अनुकूलक: AdamW, डोमेन प्रस्ताव सीखने की दर 0.1, वर्ग प्रस्ताव सीखने की दर 0.001
  • बैच आकार: 64
  • डोमेन प्रस्ताव लंबाई: 8, वर्ग प्रस्ताव लंबाई: 1
  • मुख्य हाइपरपैरामीटर: γd=25,γc=0.005,γh=2,Nd=20,Nc=100γ_d=25, γ_c=0.005, γ_h=2, N_d=20, N_c=100

प्रायोगिक परिणाम

मुख्य परिणाम

गैर-दोहराए गए डोमेन सेटअप:

  • ImageNet-C: 34.8% बनाम DPCore का 39.9%, 5.1% सुधार
  • CIFAR100-C: 22.5% बनाम DPCore का 25.1%, 2.6% सुधार
  • CIFAR10-C: 12.4% बनाम DPCore का 15.4%, 3.0% सुधार

दोहराए गए डोमेन सेटअप (10 राउंड):

  • ImageNet-C औसत त्रुटि दर: 34.5% बनाम DPCore का 44.4%, 9.9% सुधार
  • प्रदर्शन कई राउंड में स्थिर रहता है, विधि की मजबूती को सत्यापित करता है

दक्षता विश्लेषण

  • केवल 0.09M सीखने योग्य पैरामीटर (मॉडल कुल पैरामीटर का लगभग 0.1%)
  • दोहराए गए डोमेन सेटअप में, 10वें राउंड पर DPCore इस विधि के पैरामीटर का लगभग 5 गुना उपयोग करता है
  • गणना ओवरहेड DPCore के समान है, लेकिन प्रदर्शन काफी बेहतर है

विलोपन प्रयोग

प्रत्येक घटक का योगदान विश्लेषण:

  • केवल डोमेन प्रस्ताव+KFI+KFU: 39.5%
  • केवल वर्ग प्रस्ताव+KFI+KFU: 50.9%
  • दोहरा प्रस्ताव KFI के बिना+KFU: 62.9% (गंभीर प्रदर्शन गिरावट)
  • दोहरा प्रस्ताव+KFI KFU के बिना: 36.9%
  • पूर्ण विधि: 34.8%

परिणाम दर्शाते हैं कि प्रत्येक घटक अपरिहार्य है, KFI मॉड्यूल प्रदर्शन सुधार के लिए सबसे महत्वपूर्ण है।

दृश्य विश्लेषण

  • ध्यान मानचित्र विश्लेषण: यह विधि ध्यान को वर्ग-संबंधित विभेदक क्षेत्रों पर केंद्रित कर सकती है
  • t-SNE विश्लेषण: डोमेन प्रस्ताव कुंजियाँ और परीक्षण बैच सांख्यिकीय विशेषताएँ अच्छी क्लस्टरिंग अलगाव बनाती हैं
  • वर्ग वितरण विश्लेषण: वर्ग प्रस्ताव विभिन्न वर्गों को संबंधित प्रस्तावों में प्रभावी रूप से मैप कर सकते हैं

सैद्धांतिक विश्लेषण

अच्छी तरह से अलग किए गए क्लस्टरिंग धारणा

मान लीजिए कि परीक्षण बैच को विशेषता प्रतिनिधित्व के आधार पर N अच्छी तरह से अलग किए गए क्लस्टर में विभाजित किया जा सकता है, एक थ्रेशोल्ड θ मौजूद है जैसे:

∀i≠j, max_{B,B'∈C_i} d(B,B') < θ < min_{B∈C_i,B'∈C_j} d(B,B')

सैद्धांतिक गारंटी

लेम्मा A.1: KFI तंत्र सभी बैचों को समान क्लस्टर के प्रस्तावों में सही ढंग से असाइन कर सकता है लेम्मा A.2: KFU तंत्र केवल समान क्लस्टर के भीतर प्रस्तावों को संलयन करता है
प्रस्ताव A.3: KFF विधि सभी बैचों को समान क्लस्टर के प्रस्तावों में सही ढंग से असाइन कर सकती है

सैद्धांतिक विश्लेषण विधि की सही्ता की गारंटी देता है, प्रयोगों में t-SNE दृश्य सैद्धांतिक धारणा को सत्यापित करता है।

संबंधित कार्य

परीक्षण-समय अनुकूलन (TTA)

  • प्रारंभिक विधियाँ मुख्य रूप से एंट्रॉपी न्यूनीकरण, सामंजस्य अधिकतमकरण जैसे स्व-निरीक्षित हानि का उपयोग करती हैं
  • सीमाएँ: स्थिर लक्ष्य डोमेन मान लेता है, गतिशील डोमेन परिवर्तन को संभाल नहीं सकता

सतत परीक्षण-समय अनुकूलन (CTTA)

  • नियमितकरण विधियाँ: EATA, EcoTTA नियमितकरण के माध्यम से त्रुटि संचय को कम करते हैं
  • रीसेट विधियाँ: ERSK, CoTTA विनाशकारी विस्मृति से लड़ने के लिए वजन रीसेट का उपयोग करते हैं
  • प्रस्ताव सीखने की विधियाँ: VDP, SVDP, DPCore डोमेन-विशिष्ट ज्ञान सीखने के लिए कुछ पैरामीटर का उपयोग करते हैं

प्रस्ताव सीखना

  • NLP से कंप्यूटर विजन क्षेत्र तक विस्तारित
  • मौजूदा विधियाँ मुख्य रूप से डोमेन-स्तरीय ज्ञान पर ध्यान केंद्रित करती हैं, क्रॉस-डोमेन साझा वर्ग-स्तरीय जानकारी को नजरअंदाज करती हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. KFF ढांचा CTTA में डोमेन संघर्ष समस्या को प्रभावी रूप से हल करता है
  2. वर्ग-जागरूक डिजाइन क्रॉस-डोमेन साझा ज्ञान का बेहतर उपयोग कर सकता है
  3. ज्ञान विखंडन और संलयन तंत्र प्रभाव और दक्षता को संतुलित करता है
  4. कई बेंचमार्क डेटासेट पर उल्लेखनीय प्रदर्शन सुधार प्राप्त करता है

सीमाएँ

  1. स्रोत डोमेन निर्भरता: स्रोत डोमेन सांख्यिकीय जानकारी तक पहुँच की आवश्यकता है, गोपनीयता-प्रतिबंधित परिदृश्यों में चुनौती है
  2. सिंथेटिक भ्रष्टता: मुख्य रूप से कृत्रिम रूप से डिजाइन की गई भ्रष्टता पर सत्यापित, वास्तविक-विश्व वितरण बदलाव की मजबूती सत्यापन के लिए प्रतीक्षा करती है
  3. गणना ओवरहेड: हालांकि अपेक्षाकृत कुशल है, संसाधन-सीमित उपकरणों पर अभी भी चुनौती है
  4. हाइपरपैरामीटर संवेदनशीलता: विभिन्न डेटासेट के लिए मुख्य हाइपरपैरामीटर को समायोजित करने की आवश्यकता है

भविष्य की दिशाएँ

  1. स्रोत डोमेन सांख्यिकीय जानकारी के बिना अनुकूलन विधियों की खोज करना
  2. वास्तविक-विश्व डेटासेट पर विधि की मजबूती को सत्यापित करना
  3. गणना दक्षता को और अनुकूलित करना
  4. हाइपरपैरामीटर के स्व-अनुकूल समायोजन तंत्र का अध्ययन करना

गहन मूल्यांकन

शक्तियाँ

  1. मजबूत नवीनता: पहली बार वर्ग-जागरूक ज्ञान विखंडन और संलयन ढांचा प्रस्तावित करता है, महत्वपूर्ण डोमेन संघर्ष समस्या को हल करता है
  2. सैद्धांतिक समर्थन: अच्छी तरह से अलग किए गए क्लस्टरिंग धारणा के आधार पर सैद्धांतिक विश्लेषण प्रदान करता है
  3. व्यापक प्रयोग: कई डेटासेट पर व्यापक तुलनात्मक प्रयोग और विलोपन अध्ययन
  4. उत्कृष्ट दक्षता: सर्वोत्तम प्रदर्शन प्राप्त करते हुए गणना दक्षता बनाए रखता है
  5. स्पष्ट दृश्य: ध्यान मानचित्र और t-SNE आदि के माध्यम से सहज विधि व्याख्या प्रदान करता है

कमियाँ

  1. धारणा सीमाएँ: अच्छी तरह से अलग किए गए क्लस्टरिंग धारणा वास्तविक अनुप्रयोगों में हमेशा सत्य नहीं हो सकती है
  2. मूल्यांकन सीमाएँ: मुख्य रूप से सिंथेटिक भ्रष्टता डेटा पर मूल्यांकन, वास्तविक परिदृश्य सत्यापन की कमी
  3. स्रोत डोमेन निर्भरता: स्रोत डोमेन सांख्यिकीय जानकारी की आवश्यकता विधि की प्रयोज्यता को सीमित करती है
  4. हाइपरपैरामीटर जटिलता: कई हाइपरपैरामीटर शामिल हैं जिन्हें सावधानीपूर्वक ट्यून करने की आवश्यकता है

प्रभाव

  1. शैक्षणिक योगदान: CTTA क्षेत्र के लिए नई समस्या-समाधान सोच प्रदान करता है, व्यापक ध्यान आकर्षित करने की उम्मीद है
  2. व्यावहारिक मूल्य: स्वायत्त ड्राइविंग, चिकित्सा इमेजिंग आदि जैसे निरंतर अनुकूलन की आवश्यकता वाले परिदृश्यों में आवेदन संभावना है
  3. पुनरुत्पादनशीलता: लेखक कोड को ओपन-सोर्स करने का वादा करते हैं, विधि प्रचार में सहायता करता है

प्रयोज्य परिदृश्य

  • कई डोमेन परिवर्तनों के अनुकूल होने की आवश्यकता वाले कंप्यूटर विजन कार्य
  • पैरामीटर दक्षता की आवश्यकता वाले एज कंप्यूटिंग परिदृश्य
  • कुछ स्रोत डोमेन सांख्यिकीय जानकारी तक पहुँच वाले अनुप्रयोग
  • डोमेन परिवर्तन अपेक्षाकृत पूर्वानुमानित संरचित वातावरण

यह पेपर CTTA क्षेत्र में महत्वपूर्ण योगदान देता है, नवीन ज्ञान विखंडन और संलयन तंत्र के माध्यम से डोमेन संघर्ष समस्या को प्रभावी रूप से हल करता है, गणना दक्षता बनाए रखते हुए उल्लेखनीय प्रदर्शन सुधार प्राप्त करता है। हालांकि कुछ सीमाएँ हैं, लेकिन इसके मुख्य विचार और तकनीकी नवीनता संबंधित अनुसंधान के लिए मूल्यवान संदर्भ प्रदान करते हैं।