2025-11-24T09:58:18.212416

Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation

Zhou, Zhu, Cui et al.
Continual Test-Time Adaptation (CTTA) aims to quickly fine-tune the model during the test phase so that it can adapt to multiple unknown downstream domain distributions without pre-acquiring downstream domain data. To this end, existing advanced CTTA methods mainly reduce the catastrophic forgetting of historical knowledge caused by irregular switching of downstream domain data by restoring the initial model or reusing historical models. However, these methods are usually accompanied by serious insufficient learning of new knowledge and interference from potentially harmful historical knowledge, resulting in severe performance degradation. To this end, we propose a class-aware domain Knowledge Fusion and Fission method for continual test-time adaptation, called KFF, which adaptively expands and merges class-aware domain knowledge in old and new domains according to the test-time data from different domains, where discriminative historical knowledge can be dynamically accumulated. Specifically, considering the huge domain gap within streaming data, a domain Knowledge FIssion (KFI) module is designed to adaptively separate new domain knowledge from a paired class-aware domain prompt pool, alleviating the impact of negative knowledge brought by old domains that are distinct from the current domain. Besides, to avoid the cumulative computation and storage overheads from continuously fissioning new knowledge, a domain Knowledge FUsion (KFU) module is further designed to merge the fissioned new knowledge into the existing knowledge pool with minimal cost, where a greedy knowledge dynamic merging strategy is designed to improve the compatibility of new and old knowledge while keeping the computational efficiency. Extensive experiments on the ImageNet-C dataset verify the effectiveness of our proposed method against other methods.
academic

الدمج والانقسام الذكي للمعرفة حسب الفئة للتكيف المستمر في وقت الاختبار

المعلومات الأساسية

  • معرّف الورقة: 2510.12150
  • العنوان: Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation
  • المؤلفون: Jiahuan Zhou, Chao Zhu, Zhenyu Cui, Zichen Liu, Xu Zou, Gang Hua
  • التصنيف: cs.CV (رؤية الحاسوب)
  • المؤتمر: NeurIPS 2025 (المؤتمر الـ 39 للأنظمة العصبية ومعالجة المعلومات)
  • رابط الورقة: https://arxiv.org/abs/2510.12150

الملخص

تقترح هذه الورقة طريقة KFF للدمج والانقسام الذكي للمعرفة حسب الفئة لمعالجة مشكلة التكيف المستمر في وقت الاختبار (CTTA). تعمل الطريقة على فصل معرفة المجال الجديدة بشكل تكيفي من خلال وحدة انقسام المعرفة (KFI)، مما يتجنب التأثير السلبي للمعرفة من المجالات السابقة؛ وتدمج المعرفة المنقسمة الجديدة بأقل تكلفة في مجموعة المعرفة الموجودة من خلال وحدة دمج المعرفة (KFU). تُظهر التجارب على مجموعة بيانات ImageNet-C تحسناً بنسبة 5.1% مقارنة بطريقة SOTA الحالية DPCore.

خلفية البحث والدافع

تعريف المشكلة

يهدف التكيف المستمر في وقت الاختبار (CTTA) إلى تمكين النموذج المُدرب مسبقاً من التكيف السريع مع عدة مجالات نهائية مجهولة في مرحلة الاختبار، دون الحاجة إلى الحصول على بيانات المجال النهائي مسبقاً. وهذه مشكلة أكثر تحدياً من التكيف التقليدي في وقت الاختبار (TTA).

التحديات الأساسية

  1. النسيان الكارثي: عند التبديل غير المنتظم بين بيانات المجالات، يحدث نسيان كارثي للمعرفة السابقة
  2. عدم كفاية تعلم المعرفة الجديدة: الطرق الموجودة غالباً ما تفشل في تعلم المعرفة الجديدة بشكل كافٍ مع الحفاظ على المعرفة السابقة
  3. التأثير السلبي للمعرفة التاريخية الضارة: التضارب بين المعرفة في المجالات المختلفة يفسد اتجاه تحسين التدرج

قيود الطرق الموجودة

  • طرق التنظيم: تحافظ على المعرفة السابقة من خلال التنظيم، لكنها تثبط تعلم المعرفة الجديدة
  • طرق إعادة تعيين المعاملات: تتجنب النسيان بواسطة استعادة النموذج الأولي، لكنها تفقد المعرفة التاريخية المفيدة
  • طرق دمج النماذج: تختار وتدمج معاملات النماذج التاريخية، لكنها تعاني من مشاكل تضارب المجالات والتكاليف التخزينية المتزايدة بلا حد

المساهمات الأساسية

  1. اقتراح إطار عمل KFF: أول إطار عمل للدمج والانقسام الذكي للمعرفة حسب الفئة، قادر على تراكم المعرفة التاريخية التمييزية بشكل ديناميكي
  2. تصميم وحدة KFI: وحدة انقسام المعرفة التي تفصل معرفة المجال الجديدة بشكل تكيفي، مما يقلل التأثير السلبي للمعرفة بين المجالات المختلفة
  3. تطوير وحدة KFU: وحدة دمج المعرفة التي تدمج المعرفة باستخدام استراتيجية جشعة، مما يوازن بين الفعالية والكفاءة
  4. تحقيق أداء SOTA: الوصول إلى معدل خطأ 34.8% على ImageNet-C، بتحسن 5.1% عن DPCore
  5. توفير تحليل نظري: ضمانات نظرية بناءً على فرضية التجميع الجيد الفصل

شرح الطريقة

تعريف المهمة

بالنظر إلى بيانات التدريب من المجال المصدر DS={YS,XS}D_S = \{Y_S, X_S\} وتدفق بيانات الاختبار من توزيعات مجالات مختلفة DT={XT}T=1ND_T = \{X_T\}_{T=1}^N، يحتاج النموذج fθf_θ إلى معالجة دفعات الاختبار BTj={xt}t=0bB_T^j = \{x_t\}_{t=0}^b بشكل متصل، بهدف التكيف مع المجال الهدف مع الحفاظ على القدرة على المجالات التاريخية.

معمارية النموذج

الإطار العام

يتضمن إطار عمل KFF وحدتين أساسيتين:

  • وحدة انقسام المعرفة (KFI): فصل معرفة المجال الذكية حسب الفئة بشكل ديناميكي
  • وحدة دمج المعرفة (KFU): دمج المعرفة المنقسمة في مجموعة المعرفة الموجودة

وحدة انقسام المعرفة (KFI)

انقسام المعرفة حسب الفئة:

  • استخدام التشابه الكوسيني st,i=sim(y~t,yi)s_{t,i} = \text{sim}(\tilde{y}_t, y_i) لتقييم درجة المطابقة بين التسميات الكاذبة ومفاتيح التلميحات
  • اختيار التلميحات المرشحة حيث st,i>γcs_{t,i} > γ_c، واستخدامها بطريقة مرجحة:
P_t = Σ_{i=0}^{N_c} w_i P_i^c, w_i = exp(s_{t,i}/τ_c) / Σ exp(s_{t,i}/τ_c)
  • إذا لم توجد تلميحات مرشحة، يتم فصل تلميح جديد لعينة الاختبار

انقسام معرفة المجال:

  • استخدام الخصائص الإحصائية لدفعة الاختبار ΓTj={μ,σ}Γ_T^j = \{μ, σ\} كمفاتيح إدخال
  • اختيار التلميحات المرشحة بناءً على المسافة الإقليدية: di=ΓTjΓi2<γdd_i = \|Γ_T^j - Γ_i\|_2 < γ_d
  • دمج مرجح حسب المسافة:
P^d = Σ_{i=0}^{N_d} w_i P_i^d, w_i = exp(-d_i/τ_d) / Σ exp(-d_i/τ_d)

وحدة دمج المعرفة (KFU)

دمج المعرفة حسب الفئة:

  • استخدام عتبة الإنتروبيا γhγ_h للتحكم في تحديث مجموعة التلميحات
  • إضافة التلميحات المنقسمة الجديدة مباشرة إلى المجموعة
  • بالنسبة للتلميحات المدمجة، تحديث التلميحات الأصلية حسب الأوزان:
P_{c_i}^* = (1/b) Σ_{t=0}^b [w_{ti} P_t^* + (1-w_{ti}) P_i^c]
  • استخدام خوارزمية الشجرة الممتدة الصغرى (MST) لتجميع ودمج التلميحات للتحكم في حجم المجموعة

دمج معرفة المجال:

  • إضافة التلميحات الجديدة مباشرة إلى مجموعة تلميحات المجال
  • تحديث التلميحات المدمجة حسب الأوزان: Pdi=wiPd+(1wi)PidP_{d_i}^* = w_i P_d^* + (1-w_i) P_i^d
  • عند امتلاء المجموعة، دمج أزواج التلميحات الأقرب

تصميم دالة الخسارة

استخدام دالة خسارة ثنائية المستوى:

L = L_d + a·L_c

حيث:

  • خسارة محاذاة المجال: Ld=μsμTj(P)2+ασsσTj(P)2L_d = \|μ_s - μ_T^j(P)\|_2 + α\|σ_s - σ_T^j(P)\|_2
  • خسارة الإنتروبيا على مستوى المثيل: Lc=(1/b)Σt=0bH(y^t)L_c = (1/b) Σ_{t=0}^b H(\hat{y}_t)

إعداد التجارب

مجموعات البيانات

  • ImageNet-to-ImageNet-C: 15 نوع تشويه، مستوى الشدة الأقصى 5
  • CIFAR100-to-CIFAR100-C: نفس الإعداد
  • CIFAR10-to-CIFAR10-C: نفس الإعداد

مقاييس التقييم

  • معدل الخطأ في التصنيف (%) كمؤشر رئيسي
  • عدد المعاملات القابلة للتعلم واستخدام الذاكرة والوقت الحسابي كمؤشرات كفاءة

الطرق المقارنة

  • طرق TTA: TENT, SAR, POEM
  • طرق CTTA: CoTTA, VDP, RoTTA, C-MAE, ROID, ViDA, CoLA, PALM, DPCore

تفاصيل التنفيذ

  • شبكة العمود الفقري: ViT-B/16
  • محسّن: AdamW، معدل التعلم لتلميحات المجال 0.1، معدل التعلم لتلميحات الفئة 0.001
  • حجم الدفعة: 64
  • طول تلميح المجال: 8، طول تلميح الفئة: 1
  • المعاملات الرئيسية الحساسة: γd=25,γc=0.005,γh=2,Nd=20,Nc=100γ_d=25, γ_c=0.005, γ_h=2, N_d=20, N_c=100

نتائج التجارب

النتائج الرئيسية

إعداد المجالات غير المتكررة:

  • ImageNet-C: 34.8% مقابل 39.9% لـ DPCore، تحسن 5.1%
  • CIFAR100-C: 22.5% مقابل 25.1% لـ DPCore، تحسن 2.6%
  • CIFAR10-C: 12.4% مقابل 15.4% لـ DPCore، تحسن 3.0%

إعداد المجالات المتكررة (10 جولات):

  • متوسط معدل الخطأ على ImageNet-C: 34.5% مقابل 44.4% لـ DPCore، تحسن 9.9%
  • الأداء تبقى مستقرة عبر الجولات المتعددة، مما يتحقق من قوة الطريقة

تحليل الكفاءة

  • إدخال 0.09M معامل قابل للتعلم فقط (حوالي 0.1% من إجمالي معاملات النموذج)
  • في إعداد المجالات المتكررة، في الجولة 10، يستخدم DPCore حوالي 5 أضعاف معاملات هذه الطريقة
  • التكلفة الحسابية مماثلة لـ DPCore، لكن الأداء أفضل بشكل ملحوظ

تجارب الاستئصال

تحليل مساهمة كل مكون:

  • تلميحات المجال فقط + KFI + KFU: 39.5%
  • تلميحات الفئة فقط + KFI + KFU: 50.9%
  • تلميحات مزدوجة بدون KFI + KFU: 62.9% (انخفاض حاد في الأداء)
  • تلميحات مزدوجة + KFI بدون KFU: 36.9%
  • الطريقة الكاملة: 34.8%

تُظهر النتائج أن كل مكون ضروري، وأن وحدة KFI حاسمة لتحسين الأداء.

تحليل التصور

  • تحليل خرائط الانتباه: تركز الطريقة الانتباه على المناطق التمييزية ذات الصلة بالفئة
  • تحليل t-SNE: مفاتيح تلميحات المجال والخصائص الإحصائية لدفعات الاختبار تشكل فصلاً تجميعياً جيداً
  • تحليل توزيع الفئة: تلميحات الفئة تعيّن الفئات المختلفة بفعالية إلى التلميحات المقابلة

التحليل النظري

فرضية التجميع الجيد الفصل

تفترض أن دفعات الاختبار يمكن تقسيمها بشكل طبيعي إلى N تجميع جيد الفصل بناءً على تمثيل الخصائص، مع وجود عتبة θ بحيث:

∀i≠j, max_{B,B'∈C_i} d(B,B') < θ < min_{B∈C_i,B'∈C_j} d(B,B')

الضمانات النظرية

الليما A.1: آلية KFI يمكنها تعيين جميع الدفعات بشكل صحيح إلى تلميحات نفس التجميع الليما A.2: آلية KFU تدمج فقط التلميحات داخل نفس التجميع
القضية A.3: طريقة KFF يمكنها تعيين جميع الدفعات بشكل صحيح إلى تلميحات نفس التجميع

يضمن التحليل النظري صحة الطريقة، والتصور t-SNE في التجارب يتحقق من الفرضية النظرية.

الأعمال ذات الصلة

التكيف في وقت الاختبار (TTA)

  • الطرق المبكرة استخدمت بشكل أساسي خسائر التعلم الذاتي مثل تقليل الإنتروبيا وتعظيم الاتساق
  • القيود: تفترض مجال هدف ثابت، لا يمكنها التعامل مع تغيير المجال الديناميكي

التكيف المستمر في وقت الاختبار (CTTA)

  • طرق التنظيم: EATA و EcoTTA تخفف من تراكم الأخطاء من خلال التنظيم
  • طرق إعادة التعيين: ERSK و CoTTA تستخدم إعادة تعيين الأوزان لمواجهة النسيان الكارثي
  • طرق تعلم التلميحات: VDP و SVDP و DPCore تستخدم معاملات قليلة لتعلم المعرفة الخاصة بالمجال

تعلم التلميحات

  • توسيع من معالجة اللغة الطبيعية إلى مجال رؤية الحاسوب
  • الطرق الموجودة تركز بشكل أساسي على المعرفة على مستوى المجال، متجاهلة المعرفة على مستوى الفئة المشتركة عبر المجالات

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. إطار عمل KFF يحل بفعالية مشكلة تضارب المجالات في CTTA
  2. التصميم الذكي حسب الفئة يستفيد بشكل أفضل من المعرفة المشتركة عبر المجالات
  3. آلية انقسام ودمج المعرفة توازن بين الفعالية والكفاءة
  4. تحسن ملحوظ في الأداء على عدة مجموعات بيانات معيارية

القيود

  1. الاعتماد على المجال المصدر: تتطلب الوصول إلى المعلومات الإحصائية للمجال المصدر، مما يشكل تحدياً في السيناريوهات المقيدة بالخصوصية
  2. التشويه الاصطناعي: التحقق الرئيسي على التشويهات المصممة بشكل مصطنع، وتبقى قوة الطريقة على تحولات التوزيع في العالم الحقيقي قيد التحقق
  3. التكلفة الحسابية: على الرغم من الكفاءة النسبية، لا تزال تشكل تحدياً على الأجهزة محدودة الموارد
  4. حساسية المعاملات الحساسة: تتطلب ضبط المعاملات الرئيسية الحساسة لمجموعات بيانات مختلفة

الاتجاهات المستقبلية

  1. استكشاف طرق التكيف بدون معلومات إحصائية للمجال المصدر
  2. التحقق من قوة الطريقة على مجموعات البيانات في العالم الحقيقي
  3. تحسين الكفاءة الحسابية بشكل أكبر
  4. دراسة آليات الضبط التكيفي للمعاملات الحساسة

التقييم المتعمق

المميزات

  1. ابتكار قوي: أول اقتراح لإطار عمل للدمج والانقسام الذكي للمعرفة حسب الفئة، يحل مشكلة تضارب المجالات المهمة
  2. دعم نظري: توفير تحليل نظري بناءً على فرضية التجميع الجيد الفصل
  3. تجارب شاملة: إجراء مقارنات شاملة وتجارب استئصال على مجموعات بيانات متعددة
  4. كفاءة متفوقة: تحقيق أفضل أداء مع الحفاظ على الكفاءة الحسابية
  5. تصور واضح: توفير شرح بديهي للطريقة من خلال خرائط الانتباه و t-SNE

أوجه القصور

  1. قيود الفرضية: قد لا تكون فرضية التجميع الجيد الفصل صحيحة دائماً في التطبيقات العملية
  2. قيود التقييم: التقييم الرئيسي على بيانات التشويه الاصطناعي، مع نقص التحقق في السيناريوهات الحقيقية
  3. الاعتماد على المجال المصدر: الحاجة إلى معلومات إحصائية للمجال المصدر تحد من قابلية التطبيق
  4. تعقيد المعاملات الحساسة: تتضمن معاملات حساسة متعددة تتطلب ضبطاً دقيقاً

التأثير

  1. المساهمة الأكاديمية: توفير فكرة حل جديدة لمجال CTTA، من المتوقع أن تثير اهتماماً واسعاً
  2. القيمة العملية: لها إمكانية التطبيق في السيارات ذاتية القيادة والتصوير الطبي وغيرها من السيناريوهات التي تتطلب تكيفاً مستمراً
  3. قابلية الاستنساخ: التزم المؤلفون بنشر الكود، مما يسهل نشر الطريقة

السيناريوهات المناسبة

  • مهام رؤية الحاسوب التي تتطلب تكيفاً مستمراً مع تغيرات مجالات متعددة
  • سيناريوهات الحوسبة الطرفية التي لها متطلبات صارمة لكفاءة المعاملات
  • التطبيقات التي يمكنها الوصول إلى معلومات إحصائية قليلة للمجال المصدر
  • البيئات المنظمة حيث تكون تغيرات المجال نسبياً قابلة للتنبؤ

تقدم هذه الورقة مساهمة مهمة في مجال CTTA، وتحل بفعالية مشكلة تضارب المجالات من خلال آلية انقسام ودمج المعرفة المبتكرة، وتحقق تحسناً ملحوظاً في الأداء مع الحفاظ على الكفاءة الحسابية. على الرغم من وجود بعض القيود، فإن الفكرة الأساسية والابتكار التقني توفران مرجعاً قيماً للبحث ذي الصلة.