2025-11-22T20:19:15.981080

Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL

Wu, Zhao, Chen et al.

Few-Shot Class-Incremental Learning (FSCIL) challenges models to sequentially learn new classes from minimal examples without forgetting prior knowledge, a task complicated by the stability-plasticity dilemma and data scarcity. Current FSCIL methods often struggle with generalization due to their reliance on limited datasets. While diffusion models offer a path for data augmentation, their direct application can lead to semantic misalignment or ineffective guidance. This paper introduces Diffusion-Classifier Synergy (DCS), a novel framework that establishes a mutual boosting loop between diffusion model and FSCIL classifier. DCS utilizes a reward-aligned learning strategy, where a dynamic, multi-faceted reward function derived from the classifier's state directs the diffusion model. This reward system operates at two levels: the feature level ensures semantic coherence and diversity using prototype-anchored maximum mean discrepancy and dimension-wise variance matching, while the logits level promotes exploratory image generation and enhances inter-class discriminability through confidence recalibration and cross-session confusion-aware mechanisms. This co-evolutionary process, where generated images refine the classifier and an improved classifier state yields better reward signals, demonstrably achieves state-of-the-art performance on FSCIL benchmarks, significantly enhancing both knowledge retention and new class learning.

academic

ডিফিউশন-ক্লাসিফায়ার সিনার্জি: FSCIL এর জন্য পুরস্কার-সংযুক্ত শিক্ষা পারস্পরিক বৃদ্ধি লুপের মাধ্যমে

মৌলিক তথ্য

পেপার আইডি: 2510.03608
শিরোনাম: ডিফিউশন-ক্লাসিফায়ার সিনার্জি: FSCIL এর জন্য পুরস্কার-সংযুক্ত শিক্ষা পারস্পরিক বৃদ্ধি লুপের মাধ্যমে
লেখক: রুইতাও উ, ইফান ঝাও, গুয়াংইয়াও চেন, জিয়া লি
বিভাগ: cs.CV
প্রকাশনা সম্মেলন: NeurIPS 2025
পেপার লিংক: https://arxiv.org/abs/2510.03608

সারসংক্ষেপ

ফিউ-শট ক্লাস-ইনক্রিমেন্টাল লার্নিং (FSCIL) মডেলকে অত্যন্ত সীমিত নমুনা থেকে ক্রমান্বয়ে নতুন শ্রেণী শিখতে চ্যালেঞ্জ করে, একই সাথে পূর্ববর্তী জ্ঞান ভুলে না যাওয়া। এই কাজটি স্থিতিশীলতা-প্লাস্টিসিটি দ্বন্দ্ব এবং ডেটা স্বল্পতার কারণে জটিল হয়ে ওঠে। বর্তমান FSCIL পদ্ধতিগুলি সীমিত ডেটাসেটের উপর নির্ভরতার কারণে সাধারণীকরণ ক্ষমতায় অসুবিধার সম্মুখীন হয়। যদিও ডিফিউশন মডেলগুলি ডেটা বর্ধনের জন্য একটি পথ প্রদান করে, সরাসরি প্রয়োগ শব্দার্থগত ভুলত্ব বা অকার্যকর নির্দেশনার দিকে পরিচালিত করতে পারে। এই পেপারটি ডিফিউশন-ক্লাসিফায়ার সিনার্জি (DCS) ফ্রেমওয়ার্ক প্রস্তাব করে, যা ডিফিউশন মডেল এবং FSCIL ক্লাসিফায়ারের মধ্যে পারস্পরিক প্রচার লুপ স্থাপন করে। DCS পুরস্কার-সংযুক্ত শিক্ষা কৌশল গ্রহণ করে, যা ক্লাসিফায়ার অবস্থা থেকে উদ্ভূত গতিশীল বহুমুখী পুরস্কার ফাংশন দ্বারা ডিফিউশন মডেলকে পরিচালিত করে। এই পুরস্কার সিস্টেম দুটি স্তরে কাজ করে: বৈশিষ্ট্য স্তরে প্রোটোটাইপ অ্যাঙ্করিং সর্বাধিক গড় পার্থক্য এবং মাত্রা বৈচিত্র্য ম্যাচিং এর মাধ্যমে শব্দার্থগত সামঞ্জস্য এবং বৈচিত্র্য নিশ্চিত করে; লজিট স্তরে আত্মবিশ্বাস পুনঃক্যালিব্রেশন এবং ক্রস-সেশন বিভ্রান্তি-সচেতন প্রক্রিয়ার মাধ্যমে অন্বেষণমূলক ছবি প্রজন্ম প্রচার করে এবং শ্রেণী-মধ্যে পার্থক্যশীলতা বৃদ্ধি করে। এই সহ-বিবর্তন প্রক্রিয়ায়, উত্পাদিত ছবিগুলি ক্লাসিফায়ারকে অপ্টিমাইজ করে, উন্নত ক্লাসিফায়ার অবস্থা আরও ভাল পুরস্কার সংকেত তৈরি করে, FSCIL বেঞ্চমার্ক পরীক্ষায় অত্যাধুনিক কর্মক্ষমতা অর্জন করে, জ্ঞান সংরক্ষণ এবং নতুন শ্রেণী শিক্ষার ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

ফিউ-শট ক্লাস-ইনক্রিমেন্টাল লার্নিং (FSCIL) একটি অত্যন্ত চ্যালেঞ্জিং কাজ যা মডেলকে প্রয়োজন করে:

ক্রমান্বয়ে শিক্ষা: ক্রমাগত ডেটা প্রবাহ থেকে নতুন শ্রেণী শিখুন
সীমিত নমুনা সীমাবদ্ধতা: নতুন শ্রেণীগুলির কেবল সীমিত প্রশিক্ষণ নমুনা রয়েছে (সাধারণত 5-শট)
বিস্মৃতি এড়ান: পূর্বে শেখা শ্রেণীগুলির জ্ঞান বজায় রাখুন

মূল চ্যালেঞ্জ

স্থিতিশীলতা-প্লাস্টিসিটি দ্বন্দ্ব: নতুন জ্ঞান শিক্ষা এবং পুরানো জ্ঞান সংরক্ষণের মধ্যে ভারসাম্য খুঁজুন
ডেটা স্বল্পতা: নতুন শ্রেণীর অত্যন্ত সীমিত নমুনা অবিশ্বাস্য অভিজ্ঞতামূলক ঝুঁকি ন্যূনতমকরণের দিকে পরিচালিত করে
অপর্যাপ্ত সাধারণীকরণ ক্ষমতা: বিদ্যমান পদ্ধতিগুলি সীমিত প্রাথমিক ডেটাসেটের উপর অত্যধিক নির্ভর করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

ঐতিহ্যবাহী FSCIL পদ্ধতিগুলি প্রধানত দুটি সমস্যা উপস্থাপন করে:

শব্দার্থগত ভুলত্ব এবং অপর্যাপ্ত বৈচিত্র্য: ডিফিউশন মডেল দ্বারা সরাসরি উত্পাদিত ছবিগুলি শব্দার্থগত বিচ্যুতি বা অপর্যাপ্ত বৈচিত্র্য থাকতে পারে
প্রতিক্রিয়া প্রক্রিয়া অনুপস্থিত: ডিফিউশন মডেলের জন্য ক্লাসিফায়ারের বর্তমান অবস্থার উপর ভিত্তি করে আউটপুট সামঞ্জস্য করার প্রক্রিয়া অনুপস্থিত

মূল অবদান

DCS ফ্রেমওয়ার্ক প্রস্তাব: ডিফিউশন মডেল এবং FSCIL ক্লাসিফায়ারের মধ্যে পারস্পরিক প্রচার লুপের প্রথম সৃষ্টি, DAS অ্যালগরিদমের মাধ্যমে পুরস্কার-সংযুক্ত প্রজন্ম বাস্তবায়ন
বহু-স্তরীয় পুরস্কার ডিজাইন: বৈশিষ্ট্য স্তর এবং লজিট স্তরে কাজ করে এমন বহুমুখী পুরস্কার ফাংশন ডিজাইন করা
- বৈশিষ্ট্য স্তর: শব্দার্থগত সামঞ্জস্য নিশ্চিত করুন এবং শ্রেণী-মধ্যে বৈচিত্র্য প্রচার করুন
- লজিট স্তর: অন্বেষণমূলক, সাধারণীকৃত শ্রেণী-মধ্যে ছবি প্রজন্ম পরিচালনা করুন এবং শ্রেণী-মধ্যে পার্থক্যশীলতা বৃদ্ধি করুন
অত্যাধুনিক কর্মক্ষমতা: FSCIL বেঞ্চমার্ক ডেটাসেটে অত্যাধুনিক ফলাফল অর্জন করুন, পুরানো শ্রেণী জ্ঞান সংরক্ষণ এবং নতুন শ্রেণী শিক্ষা উল্লেখযোগ্যভাবে উন্নত করুন

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

FSCIL ক্রমাগত ডেটা প্রবাহ $D_{train} = \{D^t_{train}\}^T_{t=0}$ থেকে ক্রমান্বয়ে শিক্ষা জড়িত, যেখানে:

প্রতিটি সেশন $t$ নতুন অসংযুক্ত শ্রেণী সেট $C_t$ এর প্রশিক্ষণ নমুনা $(x_i, y_i)$ প্রবর্তন করে
বেস সেশন $(t=0)$ পর্যাপ্ত ডেটা রয়েছে, বৃদ্ধিমূলক সেশন $(t>0)$ N-way K-shot ফর্ম্যাট গ্রহণ করে
মডেল $D^t_{train}$ এ প্রশিক্ষণের পরে, সমস্ত দেখা শ্রেণী $C^t_{seen} = \bigcup^t_{s=0} C_s$ এ মূল্যায়ন করা প্রয়োজন

মডেল আর্কিটেকচার

পারস্পরিক প্রচার লুপ প্রক্রিয়া

DCS এর মূল ধারণা হল ডিফিউশন মডেল এবং ক্লাসিফায়ারের মধ্যে দ্বিমুখী প্রতিক্রিয়া স্থাপন করা:

পুরস্কার গণনা: ক্লাসিফায়ার $\sigma$ (প্যারামিটার $\theta$ ) এর উত্পাদিত ছবি $x$ এর আউটপুটের উপর ভিত্তি করে একাধিক পুরস্কার উপাদান $R_i$ গণনা করুন
ডিফিউশন মডেল অপ্টিমাইজেশন: $\phi^* = \arg\max_\phi \sum_i R_i(\sigma_\theta(D(x;\phi)))$
ক্লাসিফায়ার উন্নতি: $\theta^* = \arg\min_\theta L_{cls}(\sigma_\theta; x \cup D(x;\phi^*), y)$

বৈশিষ্ট্য স্তরের পুরস্কার ডিজাইন

1. প্রোটোটাইপ অ্যাঙ্করিং সর্বাধিক গড় পার্থক্য পুরস্কার (R_PAMMD) $R_{PAMMD}(x_{gen}, I^{(c,N)}_{gen}) = -\alpha \frac{1}{N^2}\sum_{i=1}^N\sum_{j=1}^N k(z_i,z_j) + \beta \frac{1}{N}\sum_{i=1}^N k(z_i,\mu_c)$

যেখানে:

প্রথম পদ (বৈচিত্র্য): উত্পাদিত ছবিগুলির মধ্যে পার্থক্য উৎসাহিত করুন
দ্বিতীয় পদ (সামঞ্জস্য): শ্রেণী প্রোটোটাইপের সাথে শব্দার্থগত সামঞ্জস্য নিশ্চিত করুন
$k(\cdot,\cdot)$ ইতিবাচক নির্দিষ্ট কার্নেল ফাংশন, $\mu_c$ শ্রেণী প্রোটোটাইপ

2. মাত্রা বৈচিত্র্য ম্যাচিং পুরস্কার (R_VM) $R_{VM}(x_{gen}, I^{(c,N)}_{gen}) = -\sum_{d=1}^D (v^d_{gen} - v^d_{real})^2$

উত্পাদিত ছবি এবং বাস্তব ছবির প্রতিটি মাত্রায় বৈচিত্র্য ম্যাচ করে বৈশিষ্ট্য বিতরণের সামঞ্জস্য বজায় রাখুন।

লজিট স্তরের পুরস্কার ডিজাইন

1. পুনঃক্যালিব্রেশন আত্মবিশ্বাস পুরস্কার (R_RC) $R_{RC}(x_{gen}, y_c) = \log(\hat{p}(y_c|x_{gen};T))$

যেখানে তাপমাত্রা প্যারামিটার $T$ ক্লাসিফায়ারের মূল আত্মবিশ্বাসের উপর ভিত্তি করে স্ব-অভিযোজিত: $T(x_{gen}) = T_{base} + T_{scale} \cdot \frac{\hat{p}_c(y_c|x_{gen}) - 1/N_c}{1 - 1/N_c}$

2. ক্রস-সেশন বিভ্রান্তি-সচেতন পুরস্কার (R_CSCA) $R_{CSCA}(x_{gen}, y_c) = \sum_{y \in C} w_y(x_{gen}) \log(\hat{p}(y|x_{gen};T_s))$

যেখানে গতিশীল ওজন: $w_{y_t}(x_{gen}) = \frac{1}{1 + \gamma \cdot d_{cos}(x_{gen}, \mu_t)}$

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

দ্বিমুখী প্রতিক্রিয়া প্রক্রিয়া: ডিফিউশন মডেল এবং ক্লাসিফায়ারের সহ-বিবর্তন প্রথমবার বাস্তবায়ন করুন
বহু-স্তরীয় পুরস্কার ডিজাইন: বৈশিষ্ট্য এবং সিদ্ধান্ত স্থানে একযোগে প্রজন্ম প্রক্রিয়া অপ্টিমাইজ করুন
স্ব-অভিযোজিত তাপমাত্রা সমন্বয়: ক্লাসিফায়ারের আত্মবিশ্বাসের উপর ভিত্তি করে পুরস্কার মসৃণতা গতিশীলভাবে সামঞ্জস্য করুন
বিভ্রান্তি-সচেতন প্রজন্ম: শ্রেণী-মধ্যে পার্থক্যশীলতা উন্নত করতে সক্রিয়ভাবে কঠিন নমুনা তৈরি করুন

পরীক্ষামূলক সেটআপ

ডেটাসেট

CIFAR-100: বেস সেশন 60 শ্রেণী, বৃদ্ধিমূলক সেশন 40 শ্রেণী (8-way 5-shot)
miniImageNet: বেস সেশন 60 শ্রেণী, বৃদ্ধিমূলক সেশন 40 শ্রেণী (8-way 5-shot)
CUB-200: বেস সেশন 100 শ্রেণী, বৃদ্ধিমূলক সেশন 40 শ্রেণী (10-way 5-shot)

মূল্যায়ন মেট্রিক্স

সেশন নির্ভুলতা: নির্দিষ্ট শিক্ষা সেশনের মধ্যে মডেল কর্মক্ষমতা
গড় নির্ভুলতা: প্রাথমিক থেকে বর্তমান সেশন পর্যন্ত সমস্ত সেশন নির্ভুলতার গড়

তুলনা পদ্ধতি

TOPIC, CEC, FACT, TEEN, SAVC, DyCR, ALFSCIL, OrCo, ADBS এবং অন্যান্য প্রধান FSCIL পদ্ধতি অন্তর্ভুক্ত

বাস্তবায়ন বিবরণ

ডিফিউশন মডেল: Stable Diffusion 3.5 Medium
ছবি প্রজন্ম: বেস সেশন প্রতি শ্রেণী 30টি, নতুন সেশন নতুন শ্রেণী 30টি/পুরানো শ্রেণী 10টি
ব্যাকবোন নেটওয়ার্ক: ResNet-18 (CUB-200), ResNet-12 (miniImageNet, CIFAR-100)
অপ্টিমাইজার: SGD, গতিবেগ 0.9, ওজন ক্ষয় 0.0005

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

miniImageNet ডেটাসেট ফলাফল:

DCS গড় নির্ভুলতা: 68.14%
সেরা baseline (OrCo): 66.90%
উন্নতির পরিমাণ: +1.24%

CUB-200 ডেটাসেট ফলাফল:

DCS গড় নির্ভুলতা: 69.73%
সেরা baseline (SAVC): 69.35%
উন্নতির পরিমাণ: +0.38%

CIFAR-100 ডেটাসেট ফলাফল:

DCS গড় নির্ভুলতা: 66.36%
সেরা baseline (ALFSCIL): 66.75%

বিচ্ছিন্নকরণ পরীক্ষা

CIFAR-100 এ বিচ্ছিন্নকরণ গবেষণা প্রতিটি উপাদানের অবদান দেখায়:

শুধুমাত্র R_PAMMD: +1.24%
+R_VM: +1.86%
+R_RC: +3.50%
+R_CSCA (সম্পূর্ণ DCS): +5.64%

ফলাফল নির্দেশ করে যে লজিট স্তরের পুরস্কার কর্মক্ষমতা উন্নতির জন্য আরও গুরুত্বপূর্ণ।

প্রজন্ম গুণমান বিশ্লেষণ

FID উন্নতি: বৈশিষ্ট্য স্তরের পুরস্কার উল্লেখযোগ্যভাবে FID এবং CLIP স্কোর উন্নত করে
CLIP স্কোর বৃদ্ধি: R_RC সেরা CLIP স্কোর অর্জন করে
কৌশলগত হ্রাস: R_CSCA সীমানার কাছাকাছি কঠিন নমুনা তৈরি করতে ইচ্ছাকৃতভাবে প্রজন্ম গুণমান হ্রাস করে

পরীক্ষামূলক অনুসন্ধান

দক্ষতা সুবিধা: DCS সীমিত উত্পাদিত ছবিতে বড় আকারের প্রজন্মের কর্মক্ষমতা অর্জন করে
উপাদান সহযোগিতা: সমস্ত পুরস্কার উপাদান চূড়ান্ত কর্মক্ষমতায় ইতিবাচক অবদান রাখে
ক্রস-ডেটাসেট সামঞ্জস্য: পুরস্কার ডিজাইন বিভিন্ন ডেটাসেটে সামঞ্জস্যপূর্ণভাবে কাজ করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

DCS সফলভাবে ডিফিউশন মডেল এবং FSCIL ক্লাসিফায়ারের মধ্যে সহযোগিতা প্রক্রিয়া স্থাপন করেছে
বহু-স্তরীয় পুরস্কার ডিজাইন শব্দার্থগত সংযোগ এবং বৈচিত্র্য সমস্যা কার্যকরভাবে সমাধান করে
মান FSCIL বেঞ্চমার্কে অত্যাধুনিক কর্মক্ষমতা অর্জন করেছে

সীমাবদ্ধতা

প্রাক-প্রশিক্ষিত মডেলের উপর নির্ভরতা: কর্মক্ষমতা উচ্চ-মানের প্রাক-প্রশিক্ষিত ডিফিউশন মডেলের উপর নির্ভর করে
ডোমেন বিশেষীকরণ সীমাবদ্ধতা: ডিফিউশন মডেল প্রশিক্ষণ ডেটা কভারেজ অপর্যাপ্ত বিশেষায়িত ক্ষেত্রে কর্মক্ষমতা হ্রাস পেতে পারে
গণনা জটিলতা: বহু-উপাদান পুরস্কার সিস্টেম এবং পুনরাবৃত্তিমূলক প্রচার লুপ সুর এবং গণনা বোঝা বৃদ্ধি করে

ভবিষ্যত দিকনির্দেশনা

আরও দক্ষ পুরস্কার গণনা পদ্ধতি অন্বেষণ করুন
আরও বেশি বিশেষায়িত ক্ষেত্রে প্রযোজ্যতা গবেষণা করুন
আরও হালকা ফ্রেমওয়ার্ক ভেরিয়েন্ট বিকাশ করুন

গভীর মূল্যায়ন

সুবিধা

শক্তিশালী উদ্ভাবনী: ডিফিউশন মডেল এবং ক্লাসিফায়ারের মধ্যে পারস্পরিক প্রচার প্রক্রিয়া প্রথমবার প্রস্তাব করা, ধারণা উদ্ভাবনী
চমৎকার প্রযুক্তিগত ডিজাইন: বহু-স্তরীয় পুরস্কার ডিজাইন সুচিন্তিত, তাত্ত্বিক ভিত্তি দৃঢ়
ব্যাপক পরীক্ষা: একাধিক মান ডেটাসেটে সম্পূর্ণ মূল্যায়ন, বিস্তারিত বিচ্ছিন্নকরণ গবেষণা অন্তর্ভুক্ত
স্পষ্ট কর্মক্ষমতা উন্নতি: চ্যালেঞ্জিং FSCIL কাজে উল্লেখযোগ্য উন্নতি অর্জন করা

অপূর্ণতা

গণনা ওভারহেড: প্রজন্ম প্রক্রিয়া এবং বহু-পুরস্কার গণনা প্রশিক্ষণ সময় এবং সম্পদ প্রয়োজন বৃদ্ধি করে
হাইপারপ্যারামিটার সংবেদনশীলতা: বহু পুরস্কার উপাদানের ওজন সাবধানে সুর প্রয়োজন
অপর্যাপ্ত সাধারণীকরণ যাচাইকরণ: প্রধানত কম্পিউটার দৃষ্টিভঙ্গি ক্ষেত্রে যাচাই করা, অন্যান্য ক্ষেত্রের প্রযোজ্যতা অজানা
সীমিত তাত্ত্বিক বিশ্লেষণ: সংমিশ্রণ এবং স্থিতিশীলতার জন্য তাত্ত্বিক গ্যারান্টি অনুপস্থিত

প্রভাব

একাডেমিক মূল্য: FSCIL ক্ষেত্রে নতুন গবেষণা চিন্তাভাবনা এবং প্রযুক্তিগত পথ প্রদান করে
ব্যবহারিক মূল্য: সম্পদ-সীমিত ক্রমাগত শিক্ষা পরিস্থিতিতে প্রয়োগের সম্ভাবনা রয়েছে
পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং হাইপারপ্যারামিটার সেটিং প্রদান করা

প্রযোজ্য পরিস্থিতি

ক্রমাগত শিক্ষা সিস্টেম: ক্রমাগত নতুন শ্রেণী শিখতে হবে এমন ব্যবহারিক প্রয়োগ
সম্পদ-সীমিত পরিবেশ: বড় পরিমাণ ঐতিহ্যবাহী ডেটা সংরক্ষণ করতে পারে না এমন পরিস্থিতি
সীমিত নমুনা শিক্ষা: নতুন শ্রেণী নমুনা বিরল এমন ডোমেন প্রয়োগ

রেফারেন্স

পেপারটি 82টি সম্পর্কিত রেফারেন্স উদ্ধৃত করেছে, যা শ্রেণী বৃদ্ধিমূলক শিক্ষা, সীমিত নমুনা শিক্ষা, ডিফিউশন মডেল এবং অন্যান্য একাধিক সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সহায়তা প্রদান করে।