Few-Shot Class-Incremental Learning (FSCIL) challenges models to sequentially learn new classes from minimal examples without forgetting prior knowledge, a task complicated by the stability-plasticity dilemma and data scarcity. Current FSCIL methods often struggle with generalization due to their reliance on limited datasets. While diffusion models offer a path for data augmentation, their direct application can lead to semantic misalignment or ineffective guidance. This paper introduces Diffusion-Classifier Synergy (DCS), a novel framework that establishes a mutual boosting loop between diffusion model and FSCIL classifier. DCS utilizes a reward-aligned learning strategy, where a dynamic, multi-faceted reward function derived from the classifier's state directs the diffusion model. This reward system operates at two levels: the feature level ensures semantic coherence and diversity using prototype-anchored maximum mean discrepancy and dimension-wise variance matching, while the logits level promotes exploratory image generation and enhances inter-class discriminability through confidence recalibration and cross-session confusion-aware mechanisms. This co-evolutionary process, where generated images refine the classifier and an improved classifier state yields better reward signals, demonstrably achieves state-of-the-art performance on FSCIL benchmarks, significantly enhancing both knowledge retention and new class learning.
- معرّف الورقة: 2510.03608
- العنوان: Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL
- المؤلفون: Ruitao Wu, Yifan Zhao, Guangyao Chen, Jia Li
- التصنيف: cs.CV
- المؤتمر المنشور: NeurIPS 2025
- رابط الورقة: https://arxiv.org/abs/2510.03608
يشكل التعلم الإضافي للفئات القليلة الأمثلة (FSCIL) تحديًا يتطلب من النموذج التعلم المتسلسل للفئات الجديدة من عدد قليل جدًا من العينات، مع تجنب نسيان المعرفة السابقة. يتعقد هذا المهمة بسبب معضلة الاستقرار-المرونة والندرة البيانية. تواجه طرق FSCIL الحالية صعوبات في القدرة على التعميم بسبب اعتمادها على مجموعات بيانات محدودة. بينما توفر نماذج الانتشار مسارًا لتعزيز البيانات، قد يؤدي التطبيق المباشر إلى عدم محاذاة دلالية أو توجيه غير فعال. تقترح هذه الورقة إطار عمل تآزر الانتشار والمصنف (DCS)، الذي ينشئ حلقة تعزيز متبادل بين نموذج الانتشار ومصنف FSCIL. يعتمد DCS على استراتيجية التعلم المحاذي للمكافآت، حيث يوجه نموذج الانتشار من خلال دالة مكافآت ديناميكية متعددة الجوانب مشتقة من حالة المصنف. يعمل نظام المكافآت على مستويين: على مستوى الميزات من خلال الفرق المتوسط الأقصى المثبت بالنموذج الأولي ومطابقة التباين البعدي لضمان الاتساق الدلالي والتنوع؛ وعلى مستوى اللوغاريتمات من خلال إعادة معايرة الثقة وآليات الوعي بالالتباس عبر الجلسات لتعزيز توليد الصور الاستكشافية وتحسين التمييز بين الفئات. في هذه العملية المتطورة المشتركة، تحسّن الصور المولدة المصنف، وتنتج حالة المصنف المحسّنة إشارات مكافآت أفضل، محققة أداءً متقدمًا في معايير FSCIL، مع تحسين كبير في الحفاظ على المعرفة وقدرة تعلم الفئات الجديدة.
التعلم الإضافي للفئات القليلة الأمثلة (FSCIL) هو مهمة صعبة للغاية تتطلب من النموذج:
- التعلم المتسلسل: تعلم فئات جديدة من تدفق بيانات مستمر
- قيود الأمثلة القليلة: تحتوي الفئات الجديدة على عدد قليل جدًا من عينات التدريب (عادة 5-shot)
- تجنب النسيان: الحفاظ على المعرفة بالفئات المتعلمة سابقًا
- معضلة الاستقرار-المرونة: إيجاد التوازن بين تعلم معرفة جديدة والحفاظ على معرفة قديمة
- ندرة البيانات: عدد قليل جدًا من العينات للفئات الجديدة يؤدي إلى تقليل المخاطر التجريبي غير موثوق
- عدم كفاية القدرة على التعميم: تعتمد الطرق الحالية بشكل مفرط على مجموعة بيانات أولية محدودة
تعاني طرق FSCIL التقليدية من مشكلتين رئيسيتين:
- عدم المحاذاة الدلالية والتنوع غير الكافي: قد تحتوي الصور المولدة مباشرة باستخدام نموذج الانتشار على انحراف دلالي أو تنوع غير كافٍ
- غياب آلية التغذية الراجعة: عدم وجود آلية لتعديل نموذج الانتشار لمخرجاته بناءً على الحالة الحالية للمصنف
- اقتراح إطار عمل DCS: أول من يقدم حلقة تعزيز متبادل بين نموذج الانتشار ومصنف FSCIL، مع تحقيق التوليد المحاذي للمكافآت من خلال خوارزمية DAS
- تصميم مكافآت متعددة المستويات: تصميم دالة مكافآت متعددة الجوانب تعمل على مستوى الميزات ومستوى اللوغاريتمات
- مستوى الميزات: ضمان الاتساق الدلالي وتعزيز التنوع داخل الفئة
- مستوى اللوغاريتمات: توجيه توليد صور استكشافية وقابلة للتعميم داخل الفئة وتحسين التمييز بين الفئات
- أداء متقدم: تحقيق نتائج متقدمة على معايير بيانات FSCIL، مع تحسين كبير في الحفاظ على معرفة الفئات القديمة وتعلم الفئات الجديدة
يتضمن FSCIL التعلم المتسلسل من تدفق بيانات مستمر Dtrain={Dtraint}t=0T، حيث:
- تقدم كل جلسة t عينات تدريبية من مجموعة فئات جديدة غير متقاطعة Ct بصيغة (xi,yi)
- تحتوي الجلسة الأساسية (t=0) على بيانات كافية، بينما تتبع الجلسات الإضافية (t>0) صيغة N-way K-shot
- بعد التدريب على Dtraint، يجب تقييم النموذج على جميع الفئات المرئية Cseent=⋃s=0tCs
الفكرة الأساسية لـ DCS هي إنشاء تغذية راجعة ثنائية الاتجاه بين نموذج الانتشار والمصنف:
- حساب المكافآت: حساب مكونات مكافآت متعددة Ri بناءً على مخرجات المصنف σ (مع المعاملات θ) للصور المولدة x
- تحسين نموذج الانتشار:
ϕ∗=argmaxϕ∑iRi(σθ(D(x;ϕ)))
- تحسين المصنف:
θ∗=argminθLcls(σθ;x∪D(x;ϕ∗),y)
1. مكافأة الفرق المتوسط الأقصى المثبت بالنموذج الأولي (R_PAMMD)RPAMMD(xgen,Igen(c,N))=−αN21∑i=1N∑j=1Nk(zi,zj)+βN1∑i=1Nk(zi,μc)
حيث:
- الحد الأول (التنوع): يشجع الاختلاف بين الصور المولدة
- الحد الثاني (الاتساق): يضمن الاتساق الدلالي مع النموذج الأولي للفئة
- k(⋅,⋅) دالة نواة موجبة محددة، μc النموذج الأولي للفئة
2. مكافأة مطابقة التباين البعدي (R_VM)RVM(xgen,Igen(c,N))=−∑d=1D(vgend−vreald)2
الحفاظ على اتساق توزيع الميزات من خلال مطابقة التباين في كل بُعد بين الصور المولدة والحقيقية.
1. مكافأة إعادة معايرة الثقة (R_RC)RRC(xgen,yc)=log(p^(yc∣xgen;T))
حيث يتم ضبط معامل درجة الحرارة T بشكل تكيفي وفقًا لثقة المصنف الأصلية:
T(xgen)=Tbase+Tscale⋅1−1/Ncp^c(yc∣xgen)−1/Nc
2. مكافأة الوعي بالالتباس عبر الجلسات (R_CSCA)RCSCA(xgen,yc)=∑y∈Cwy(xgen)log(p^(y∣xgen;Ts))
حيث الأوزان الديناميكية:
wyt(xgen)=1+γ⋅dcos(xgen,μt)1
- آلية التغذية الراجعة الثنائية الاتجاه: أول تحقيق للتطور المشترك بين نموذج الانتشار والمصنف
- تصميم مكافآت متعددة المستويات: تحسين عملية التوليد في كل من مساحة الميزات ومساحة القرار
- ضبط درجة الحرارة التكيفي: ضبط سلاسة المكافآت ديناميكيًا بناءً على ثقة المصنف
- التوليد الواعي بالالتباس: توليد عينات صعبة بشكل استباقي لتحسين التمييز بين الفئات
- CIFAR-100: 60 فئة في الجلسة الأساسية، 40 فئة في الجلسات الإضافية (8-way 5-shot)
- miniImageNet: 60 فئة في الجلسة الأساسية، 40 فئة في الجلسات الإضافية (8-way 5-shot)
- CUB-200: 100 فئة في الجلسة الأساسية، 40 فئة في الجلسات الإضافية (10-way 5-shot)
- دقة الجلسة: أداء النموذج داخل جلسة تعلم محددة
- متوسط الدقة: متوسط دقة جميع الجلسات من الجلسة الأولية إلى الجلسة الحالية
تشمل TOPIC و CEC و FACT و TEEN و SAVC و DyCR و ALFSCIL و OrCo و ADBS وغيرها من طرق FSCIL الرائدة
- نموذج الانتشار: Stable Diffusion 3.5 Medium
- توليد الصور: 30 صورة لكل فئة في الجلسة الأساسية، 30 صورة للفئات الجديدة و10 صور للفئات القديمة في الجلسات الجديدة
- شبكة العمود الفقري: ResNet-18 (CUB-200)، ResNet-12 (miniImageNet، CIFAR-100)
- محسّن: SGD بزخم 0.9 وتحلل الأوزان 0.0005
نتائج مجموعة بيانات miniImageNet:
- متوسط دقة DCS: 68.14%
- أفضل baseline (OrCo): 66.90%
- هامش التحسن: +1.24%
نتائج مجموعة بيانات CUB-200:
- متوسط دقة DCS: 69.73%
- أفضل baseline (SAVC): 69.35%
- هامش التحسن: +0.38%
نتائج مجموعة بيانات CIFAR-100:
- متوسط دقة DCS: 66.36%
- أفضل baseline (ALFSCIL): 66.75%
تُظهر الدراسات الاستئصالية على CIFAR-100 مساهمة كل مكون:
- R_PAMMD فقط: +1.24%
- +R_VM: +1.86%
- +R_RC: +3.50%
- +R_CSCA (DCS كامل): +5.64%
تشير النتائج إلى أن مكافآت مستوى اللوغاريتمات أكثر أهمية لتحسين الأداء.
- تحسن FID: تحسن كبير في FID ودرجات CLIP من خلال مكافآت مستوى الميزات
- تحسن درجة CLIP: يحقق R_RC أفضل درجة CLIP
- التدهور الاستراتيجي: يقلل R_CSCA بشكل متعمد جودة التوليد لإنتاج عينات صعبة بالقرب من الحدود
- مزايا الكفاءة: يحقق DCS أداء التوليد واسع النطاق مع عدد قليل من الصور المولدة
- التعاون بين المكونات: جميع مكونات المكافآت تساهم بشكل إيجابي في الأداء النهائي
- الاتساق عبر مجموعات البيانات: يُظهر تصميم المكافآت اتساقًا في الأداء عبر مجموعات بيانات مختلفة
- طرق إعادة التشغيل البيانية: تخزين أو توليد بيانات المهام السابقة
- طرق توسيع الشبكة: ضبط معمارية النموذج ديناميكيًا
- طرق تنظيم المعاملات: ضبط المعاملات في بنية شبكة ثابتة
- طرق الشبكة الديناميكية: الحفاظ على علاقات مساحة الميزات من خلال ضبط بنية الشبكة
- طرق التعلم الفوقي: إدخال مفاهيم التعلم الفوقي
- طرق مساحة الميزات: تحسين قوة مساحة الميزات من خلال زيادة نسخ الفئات الافتراضية
- طرق النماذج المدربة مسبقًا: الاستفادة من نماذج الرؤية واللغة مثل CLIP
- تعزيز البيانات واسع النطاق: توليف بيانات تدريب إضافية لتحسين المصنف
- آليات شرطية: تحسين التحكم الدلالي وتنوع العينات
- التطبيقات الخاصة بالسيناريو: التعلم القليل الأمثلة أو التعلم المستمر
- نجح DCS في إنشاء آلية تآزر بين نموذج الانتشار ومصنف FSCIL
- يحل تصميم المكافآت متعددة المستويات بشكل فعال مشاكل المحاذاة الدلالية والتنوع
- حقق أداءً متقدمًا على معايير FSCIL القياسية
- الاعتماد على النماذج المدربة مسبقًا: تعتمد الأداء على نموذج انتشار عالي الجودة مدرب مسبقًا
- قيود التخصص بالمجال: قد تنخفض الأداء في المجالات المتخصصة حيث يكون تغطية بيانات التدريب للنموذج الانتشاري غير كافية
- التعقيد الحسابي: يزيد نظام المكافآت متعدد المكونات وحلقة التعزيز المتكررة من عبء الضبط والحساب
- استكشاف طرق أكثر كفاءة لحساب المكافآت
- دراسة الانطباقية في المزيد من المجالات المتخصصة
- تطوير متغيرات إطار عمل أخف وزنًا
- ابتكار قوي: أول من يقترح آلية التعزيز المتبادل بين نموذج الانتشار والمصنف، مفهوم جديد
- تصميم تقني دقيق: تصميم مكافآت متعددة المستويات شامل مع أساس نظري متين
- تجارب شاملة: تقييم شامل على مجموعات بيانات معيارية متعددة مع دراسات استئصال مفصلة
- تحسن أداء واضح: تحسن كبير في مهمة FSCIL الصعبة
- التكلفة الحسابية: تزيد عملية التوليد وحساب المكافآت المتعددة من وقت التدريب ومتطلبات الموارد
- حساسية المعاملات الفائقة: تتطلب أوزان مكونات المكافآت المتعددة ضبطًا دقيقًا
- التحقق من القابلية للتعميم غير كافٍ: التحقق الأساسي في مجال الرؤية الحاسوبية، مع عدم معرفة القابلية للتطبيق في مجالات أخرى
- تحليل نظري محدود: نقص الضمانات النظرية للتقارب والاستقرار
- القيمة الأكاديمية: توفير أفكار بحثية وطرق تقنية جديدة لمجال FSCIL
- القيمة العملية: لديها إمكانية تطبيق في سيناريوهات التعلم المستمر محدود الموارد
- قابلية التكرار: توفير تفاصيل تنفيذ وإعدادات معاملات شاملة
- أنظمة التعلم المستمر: التطبيقات العملية التي تتطلب تعلم فئات جديدة بشكل مستمر
- البيئات محدودة الموارد: السيناريوهات التي لا يمكن فيها تخزين كميات كبيرة من البيانات التاريخية
- التعلم القليل الأمثلة: تطبيقات المجال حيث تكون عينات الفئات الجديدة نادرة
تستشهد الورقة بـ 82 مرجعًا ذا صلة، تغطي التعلم الإضافي للفئات والتعلم القليل الأمثلة ونماذج الانتشار والمجالات ذات الصلة الأخرى، مما يوفر أساسًا نظريًا وتقنيًا متينًا للبحث.