2025-11-22T20:19:15.981080

Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL

Wu, Zhao, Chen et al.

Few-Shot Class-Incremental Learning (FSCIL) challenges models to sequentially learn new classes from minimal examples without forgetting prior knowledge, a task complicated by the stability-plasticity dilemma and data scarcity. Current FSCIL methods often struggle with generalization due to their reliance on limited datasets. While diffusion models offer a path for data augmentation, their direct application can lead to semantic misalignment or ineffective guidance. This paper introduces Diffusion-Classifier Synergy (DCS), a novel framework that establishes a mutual boosting loop between diffusion model and FSCIL classifier. DCS utilizes a reward-aligned learning strategy, where a dynamic, multi-faceted reward function derived from the classifier's state directs the diffusion model. This reward system operates at two levels: the feature level ensures semantic coherence and diversity using prototype-anchored maximum mean discrepancy and dimension-wise variance matching, while the logits level promotes exploratory image generation and enhances inter-class discriminability through confidence recalibration and cross-session confusion-aware mechanisms. This co-evolutionary process, where generated images refine the classifier and an improved classifier state yields better reward signals, demonstrably achieves state-of-the-art performance on FSCIL benchmarks, significantly enhancing both knowledge retention and new class learning.

academic

विसरण-वर्गीकरण समन्वय: FSCIL के लिए पारस्परिक बूस्टिंग लूप के माध्यम से पुरस्कार-संरेखित शिक्षा

मूल जानकारी

पेपर ID: 2510.03608
शीर्षक: विसरण-वर्गीकरण समन्वय: FSCIL के लिए पारस्परिक बूस्टिंग लूप के माध्यम से पुरस्कार-संरेखित शिक्षा
लेखक: रुइताओ वू, यिफान झाओ, गुआंग्याओ चेन, जिया ली
वर्गीकरण: cs.CV
प्रकाशन सम्मेलन: NeurIPS 2025
पेपर लिंक: https://arxiv.org/abs/2510.03608

सारांश

अल्प-शॉट वर्ग-वृद्धिशील शिक्षा (FSCIL) मॉडल को अत्यंत कम नमूनों से क्रमिक रूप से नई श्रेणियां सीखने की चुनौती देता है, साथ ही पूर्व ज्ञान को भूलना नहीं है। यह कार्य स्थिरता-प्लास्टिसिटी दुविधा और डेटा की कमी के कारण जटिल हो जाता है। वर्तमान FSCIL विधियां सीमित डेटासेट पर निर्भरता के कारण सामान्यीकरण क्षमता में कठिनाई का सामना करती हैं। यद्यपि विसरण मॉडल डेटा संवर्धन के लिए एक मार्ग प्रदान करते हैं, सीधा अनुप्रयोग शब्दार्थ विसंगति या अमान्य मार्गदर्शन का कारण बन सकता है। यह पेपर विसरण-वर्गीकरण समन्वय (DCS) ढांचा प्रस्तावित करता है जो विसरण मॉडल और FSCIL वर्गीकरण के बीच पारस्परिक प्रवर्धन लूप स्थापित करता है। DCS पुरस्कार-संरेखित शिक्षा रणनीति अपनाता है, जो वर्गीकरण स्थिति से उत्पन्न गतिशील बहुआयामी पुरस्कार फ़ंक्शन के माध्यम से विसरण मॉडल को निर्देशित करता है। यह पुरस्कार प्रणाली दो स्तरों पर कार्य करती है: विशेषता स्तर पर प्रोटोटाइप-एंकरड अधिकतम माध्य विसंगति और आयामी विचरण मिलान के माध्यम से शब्दार्थ सामंजस्य और विविधता सुनिश्चित करता है; लॉजिट स्तर पर आत्मविश्वास पुनः-अंशांकन और क्रॉस-सेशन भ्रम-जागरूक तंत्र के माध्यम से अन्वेषणात्मक छवि पीढ़ी को बढ़ावा देता है और वर्ग-अंतर विभेद्यता को बढ़ाता है। इस सह-विकास प्रक्रिया में, उत्पन्न छवियां वर्गीकरण को अनुकूलित करती हैं, और सुधारी गई वर्गीकरण स्थिति बेहतर पुरस्कार संकेत उत्पन्न करती है, FSCIL बेंचमार्क में अत्याधुनिक प्रदर्शन प्राप्त करती है, ज्ञान संरक्षण और नई श्रेणी सीखने की क्षमता में महत्वपूर्ण सुधार करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

अल्प-शॉट वर्ग-वृद्धिशील शिक्षा (FSCIL) एक अत्यंत चुनौतीपूर्ण कार्य है जिसके लिए मॉडल को आवश्यकता है:

क्रमिक शिक्षा: सतत डेटा प्रवाह से नई श्रेणियां सीखना
अल्प-शॉट बाधा: नई श्रेणियों में केवल कुछ प्रशिक्षण नमूने होते हैं (आमतौर पर 5-शॉट)
विस्मृति से बचना: पहले सीखी गई श्रेणियों का ज्ञान बनाए रखना

मुख्य चुनौतियां

स्थिरता-प्लास्टिसिटी दुविधा: नए ज्ञान सीखने और पुराने ज्ञान को बनाए रखने के बीच संतुलन खोजना
डेटा की कमी: नई श्रेणियों के अत्यंत कम नमूने अविश्वसनीय अनुभवजन्य जोखिम न्यूनीकरण का कारण बनते हैं
अपर्याप्त सामान्यीकरण क्षमता: मौजूदा विधियां सीमित प्रारंभिक डेटासेट पर अत्यधिक निर्भर हैं

मौजूदा विधियों की सीमाएं

पारंपरिक FSCIL विधियों में मुख्य रूप से दो समस्याएं हैं:

शब्दार्थ विसंगति और विविधता की कमी: विसरण मॉडल द्वारा सीधे उत्पन्न छवियों में शब्दार्थ विचलन या विविधता की कमी हो सकती है
प्रतिक्रिया तंत्र की कमी: विसरण मॉडल को वर्गीकरण की वर्तमान स्थिति के अनुसार अपने आउटपुट को समायोजित करने के लिए कोई तंत्र नहीं है

मुख्य योगदान

DCS ढांचा प्रस्तावित करना: विसरण मॉडल और FSCIL वर्गीकरण के बीच पारस्परिक प्रवर्धन लूप का पहला निर्माण, DAS एल्गोरिथ्म के माध्यम से पुरस्कार-संरेखित पीढ़ी को लागू करना
बहु-स्तरीय पुरस्कार डिजाइन: विशेषता स्तर और लॉजिट स्तर पर कार्य करने वाले बहुआयामी पुरस्कार फ़ंक्शन का डिजाइन
- विशेषता स्तर: शब्दार्थ सामंजस्य सुनिश्चित करना और वर्ग-अंतर विविधता को बढ़ावा देना
- लॉजिट स्तर: अन्वेषणात्मक, सामान्यीकृत वर्ग-अंतर छवियों की पीढ़ी को निर्देशित करना और वर्ग-अंतर विभेद्यता को बढ़ाना
अत्याधुनिक प्रदर्शन: FSCIL बेंचमार्क डेटासेट पर अत्याधुनिक परिणाम प्राप्त करना, पुरानी श्रेणी ज्ञान संरक्षण और नई श्रेणी सीखने में महत्वपूर्ण सुधार

विधि विवरण

कार्य परिभाषा

FSCIL सतत डेटा प्रवाह $D_{train} = \{D^t_{train}\}^T_{t=0}$ से क्रमिक रूप से सीखने में शामिल है, जहां:

प्रत्येक सेशन $t$ नई असंबंधित श्रेणियों के नमूने $(x_i, y_i)$ का एक सेट $C_t$ प्रस्तुत करता है
आधार सेशन $(t=0)$ में पर्याप्त डेटा होता है, वृद्धिशील सेशन $(t>0)$ N-way K-shot प्रारूप अपनाते हैं
मॉडल को $D^t_{train}$ पर प्रशिक्षित करने के बाद, सभी देखी गई श्रेणियों $C^t_{seen} = \bigcup^t_{s=0} C_s$ पर मूल्यांकन करने की आवश्यकता है

मॉडल आर्किटेक्चर

पारस्परिक प्रवर्धन लूप तंत्र

DCS का मूल विचार विसरण मॉडल और वर्गीकरण के बीच द्विदिशात्मक प्रतिक्रिया स्थापित करना है:

पुरस्कार गणना: वर्गीकरण $\sigma$ (पैरामीटर $\theta$ ) के आधार पर उत्पन्न छवि $x$ के आउटपुट से कई पुरस्कार घटक $R_i$ की गणना करना
विसरण मॉडल अनुकूलन: $\phi^* = \arg\max_\phi \sum_i R_i(\sigma_\theta(D(x;\phi)))$
वर्गीकरण सुधार: $\theta^* = \arg\min_\theta L_{cls}(\sigma_\theta; x \cup D(x;\phi^*), y)$

विशेषता स्तर पुरस्कार डिजाइन

1. प्रोटोटाइप-एंकरड अधिकतम माध्य विसंगति पुरस्कार (R_PAMMD) $R_{PAMMD}(x_{gen}, I^{(c,N)}_{gen}) = -\alpha \frac{1}{N^2}\sum_{i=1}^N\sum_{j=1}^N k(z_i,z_j) + \beta \frac{1}{N}\sum_{i=1}^N k(z_i,\mu_c)$

जहां:

पहला पद (विविधता): उत्पन्न छवियों के बीच अंतर को प्रोत्साहित करता है
दूसरा पद (सामंजस्य): वर्ग प्रोटोटाइप के साथ शब्दार्थ सामंजस्य सुनिश्चित करता है
$k(\cdot,\cdot)$ सकारात्मक निश्चित कर्नेल फ़ंक्शन है, $\mu_c$ वर्ग प्रोटोटाइप है

2. आयामी विचरण मिलान पुरस्कार (R_VM) $R_{VM}(x_{gen}, I^{(c,N)}_{gen}) = -\sum_{d=1}^D (v^d_{gen} - v^d_{real})^2$

उत्पन्न छवियों और वास्तविक छवियों के बीच प्रत्येक आयाम पर विचरण को मिलाकर विशेषता वितरण की सामंजस्य बनाए रखना।

लॉजिट स्तर पुरस्कार डिजाइन

1. पुनः-अंशांकित आत्मविश्वास पुरस्कार (R_RC) $R_{RC}(x_{gen}, y_c) = \log(\hat{p}(y_c|x_{gen};T))$

जहां तापमान पैरामीटर $T$ वर्गीकरण के मूल आत्मविश्वास के अनुसार स्वचालित रूप से समायोजित होता है: $T(x_{gen}) = T_{base} + T_{scale} \cdot \frac{\hat{p}_c(y_c|x_{gen}) - 1/N_c}{1 - 1/N_c}$

2. क्रॉस-सेशन भ्रम-जागरूक पुरस्कार (R_CSCA) $R_{CSCA}(x_{gen}, y_c) = \sum_{y \in C} w_y(x_{gen}) \log(\hat{p}(y|x_{gen};T_s))$

जहां गतिशील वजन: $w_{y_t}(x_{gen}) = \frac{1}{1 + \gamma \cdot d_{cos}(x_{gen}, \mu_t)}$

तकनीकी नवाचार बिंदु

द्विदिशात्मक प्रतिक्रिया तंत्र: विसरण मॉडल और वर्गीकरण के सह-विकास को पहली बार लागू करना
बहु-स्तरीय पुरस्कार डिजाइन: विशेषता और निर्णय स्थान दोनों में पीढ़ी प्रक्रिया को अनुकूलित करना
स्वचालित तापमान समायोजन: वर्गीकरण आत्मविश्वास के आधार पर पुरस्कार चिकनाई को गतिशील रूप से समायोजित करना
भ्रम-जागरूक पीढ़ी: वर्ग-अंतर विभेद्यता को बढ़ाने के लिए सक्रिय रूप से कठिन नमूने उत्पन्न करना

प्रायोगिक सेटअप

डेटासेट

CIFAR-100: आधार सेशन 60 वर्ग, वृद्धिशील सेशन 40 वर्ग (8-way 5-shot)
miniImageNet: आधार सेशन 60 वर्ग, वृद्धिशील सेशन 40 वर्ग (8-way 5-shot)
CUB-200: आधार सेशन 100 वर्ग, वृद्धिशील सेशन 40 वर्ग (10-way 5-shot)

मूल्यांकन मेट्रिक्स

सेशन सटीकता: विशिष्ट शिक्षण सेशन के भीतर मॉडल प्रदर्शन
औसत सटीकता: प्रारंभिक से वर्तमान सेशन तक सभी सेशन सटीकता का माध्य

तुलना विधियां

TOPIC, CEC, FACT, TEEN, SAVC, DyCR, ALFSCIL, OrCo, ADBS आदि मुख्यधारा FSCIL विधियां शामिल हैं

कार्यान्वयन विवरण

विसरण मॉडल: Stable Diffusion 3.5 Medium
छवि पीढ़ी: आधार सेशन प्रति वर्ग 30 छवियां, नए सेशन नई श्रेणी 30 छवियां/पुरानी श्रेणी 10 छवियां
बैकबोन नेटवर्क: ResNet-18 (CUB-200), ResNet-12 (miniImageNet, CIFAR-100)
ऑप्टिमाइज़र: SGD, गति 0.9, वजन क्षय 0.0005

प्रायोगिक परिणाम

मुख्य परिणाम

miniImageNet डेटासेट परिणाम:

DCS औसत सटीकता: 68.14%
सर्वश्रेष्ठ आधारभूत (OrCo): 66.90%
सुधार का परिमाण: +1.24%

CUB-200 डेटासेट परिणाम:

DCS औसत सटीकता: 69.73%
सर्वश्रेष्ठ आधारभूत (SAVC): 69.35%
सुधार का परिमाण: +0.38%

CIFAR-100 डेटासेट परिणाम:

DCS औसत सटीकता: 66.36%
सर्वश्रेष्ठ आधारभूत (ALFSCIL): 66.75%

विलोपन प्रयोग

CIFAR-100 पर विलोपन अध्ययन विभिन्न घटकों के योगदान को दर्शाता है:

केवल R_PAMMD: +1.24%
+R_VM: +1.86%
+R_RC: +3.50%
+R_CSCA (पूर्ण DCS): +5.64%

परिणाम दर्शाते हैं कि लॉजिट स्तर पुरस्कार प्रदर्शन सुधार के लिए अधिक महत्वपूर्ण हैं।

पीढ़ी गुणवत्ता विश्लेषण

FID सुधार: विशेषता स्तर पुरस्कार FID और CLIP स्कोर में महत्वपूर्ण सुधार करते हैं
CLIP स्कोर वृद्धि: R_RC सर्वश्रेष्ठ CLIP स्कोर प्राप्त करता है
रणनीतिक गुणवत्ता में कमी: R_CSCA सीमा के पास कठिन नमूने उत्पन्न करने के लिए जानबूझकर पीढ़ी गुणवत्ता को कम करता है

प्रायोगिक निष्कर्ष

दक्षता लाभ: DCS कम उत्पन्न छवियों के साथ बड़े पैमाने पर पीढ़ी का प्रदर्शन प्राप्त करता है
घटक सहयोग: सभी पुरस्कार घटक अंतिम प्रदर्शन में सकारात्मक योगदान देते हैं
क्रॉस-डेटासेट सामंजस्य: पुरस्कार डिजाइन विभिन्न डेटासेट पर सामंजस्यपूर्ण प्रदर्शन करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

DCS विसरण मॉडल और FSCIL वर्गीकरण के बीच सह-विकास तंत्र को सफलतापूर्वक स्थापित करता है
बहु-स्तरीय पुरस्कार डिजाइन शब्दार्थ संरेखण और विविधता समस्याओं को प्रभावी ढंग से हल करता है
मानक FSCIL बेंचमार्क पर अत्याधुनिक प्रदर्शन प्राप्त किया गया है

सीमाएं

पूर्व-प्रशिक्षित मॉडल पर निर्भरता: प्रदर्शन उच्च-गुणवत्ता पूर्व-प्रशिक्षित विसरण मॉडल पर निर्भर है
डोमेन विशेषज्ञता सीमा: विसरण मॉडल प्रशिक्षण डेटा कवरेज अपर्याप्त विशेषज्ञ क्षेत्रों में प्रदर्शन में कमी हो सकती है
कम्प्यूटेशनल जटिलता: बहु-घटक पुरस्कार प्रणाली और पुनरावृत्त प्रवर्धन लूप ट्यूनिंग और कम्प्यूटेशनल बोझ को बढ़ाते हैं

भविष्य की दिशाएं

अधिक कुशल पुरस्कार गणना विधियों की खोज करना
अधिक विशेषज्ञ क्षेत्रों में प्रयोज्यता का अनुसंधान करना
अधिक हल्के-फुल्के ढांचे के वेरिएंट विकसित करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: विसरण मॉडल और वर्गीकरण के पारस्परिक प्रवर्धन तंत्र का पहला प्रस्ताव, अवधारणा नई है
उत्कृष्ट तकनीकी डिजाइन: बहु-स्तरीय पुरस्कार डिजाइन व्यापक विचार के साथ, सैद्धांतिक आधार दृढ़ है
व्यापक प्रयोग: कई मानक डेटासेट पर व्यापक मूल्यांकन, विस्तृत विलोपन अध्ययन सहित
स्पष्ट प्रदर्शन सुधार: चुनौतीपूर्ण FSCIL कार्य पर महत्वपूर्ण सुधार

कमियां

कम्प्यूटेशनल ओवरहेड: पीढ़ी प्रक्रिया और बहु-पुरस्कार गणना प्रशिक्षण समय और संसाधन आवश्यकताओं को बढ़ाते हैं
हाइपरपैरामीटर संवेदनशीलता: कई पुरस्कार घटकों के वजन को सावधानीपूर्वक ट्यून करने की आवश्यकता है
सामान्यीकरण सत्यापन अपर्याप्त: मुख्य रूप से कंप्यूटर दृष्टि क्षेत्र में सत्यापित, अन्य क्षेत्रों में प्रयोज्यता अज्ञात है
सीमित सैद्धांतिक विश्लेषण: अभिसरण और स्थिरता के लिए सैद्धांतिक गारंटी की कमी है

प्रभाव

शैक्षणिक मूल्य: FSCIL क्षेत्र के लिए नए अनुसंधान विचार और तकनीकी पथ प्रदान करता है
व्यावहारिक मूल्य: संसाधन-सीमित सतत शिक्षा परिदृश्यों में अनुप्रयोग क्षमता है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और हाइपरपैरामीटर सेटिंग प्रदान करता है

लागू परिदृश्य

सतत शिक्षा प्रणाली: नई श्रेणियां सीखने की आवश्यकता वाले व्यावहारिक अनुप्रयोग
संसाधन-सीमित वातावरण: बड़ी मात्रा में ऐतिहासिक डेटा संग्रहीत नहीं कर सकने वाले परिदृश्य
अल्प-शॉट शिक्षा: नई श्रेणी नमूने दुर्लभ होने वाले डोमेन अनुप्रयोग

संदर्भ

पेपर ने 82 संबंधित संदर्भों का हवाला दिया है, जो वर्ग वृद्धिशील शिक्षा, अल्प-शॉट शिक्षा, विसरण मॉडल और अन्य संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो अनुसंधान के लिए एक दृढ़ सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करते हैं।