Few-Shot Class-Incremental Learning (FSCIL) challenges models to sequentially learn new classes from minimal examples without forgetting prior knowledge, a task complicated by the stability-plasticity dilemma and data scarcity. Current FSCIL methods often struggle with generalization due to their reliance on limited datasets. While diffusion models offer a path for data augmentation, their direct application can lead to semantic misalignment or ineffective guidance. This paper introduces Diffusion-Classifier Synergy (DCS), a novel framework that establishes a mutual boosting loop between diffusion model and FSCIL classifier. DCS utilizes a reward-aligned learning strategy, where a dynamic, multi-faceted reward function derived from the classifier's state directs the diffusion model. This reward system operates at two levels: the feature level ensures semantic coherence and diversity using prototype-anchored maximum mean discrepancy and dimension-wise variance matching, while the logits level promotes exploratory image generation and enhances inter-class discriminability through confidence recalibration and cross-session confusion-aware mechanisms. This co-evolutionary process, where generated images refine the classifier and an improved classifier state yields better reward signals, demonstrably achieves state-of-the-art performance on FSCIL benchmarks, significantly enhancing both knowledge retention and new class learning.
- পেপার আইডি: 2510.03608
- শিরোনাম: ডিফিউশন-ক্লাসিফায়ার সিনার্জি: FSCIL এর জন্য পুরস্কার-সংযুক্ত শিক্ষা পারস্পরিক বৃদ্ধি লুপের মাধ্যমে
- লেখক: রুইতাও উ, ইফান ঝাও, গুয়াংইয়াও চেন, জিয়া লি
- বিভাগ: cs.CV
- প্রকাশনা সম্মেলন: NeurIPS 2025
- পেপার লিংক: https://arxiv.org/abs/2510.03608
ফিউ-শট ক্লাস-ইনক্রিমেন্টাল লার্নিং (FSCIL) মডেলকে অত্যন্ত সীমিত নমুনা থেকে ক্রমান্বয়ে নতুন শ্রেণী শিখতে চ্যালেঞ্জ করে, একই সাথে পূর্ববর্তী জ্ঞান ভুলে না যাওয়া। এই কাজটি স্থিতিশীলতা-প্লাস্টিসিটি দ্বন্দ্ব এবং ডেটা স্বল্পতার কারণে জটিল হয়ে ওঠে। বর্তমান FSCIL পদ্ধতিগুলি সীমিত ডেটাসেটের উপর নির্ভরতার কারণে সাধারণীকরণ ক্ষমতায় অসুবিধার সম্মুখীন হয়। যদিও ডিফিউশন মডেলগুলি ডেটা বর্ধনের জন্য একটি পথ প্রদান করে, সরাসরি প্রয়োগ শব্দার্থগত ভুলত্ব বা অকার্যকর নির্দেশনার দিকে পরিচালিত করতে পারে। এই পেপারটি ডিফিউশন-ক্লাসিফায়ার সিনার্জি (DCS) ফ্রেমওয়ার্ক প্রস্তাব করে, যা ডিফিউশন মডেল এবং FSCIL ক্লাসিফায়ারের মধ্যে পারস্পরিক প্রচার লুপ স্থাপন করে। DCS পুরস্কার-সংযুক্ত শিক্ষা কৌশল গ্রহণ করে, যা ক্লাসিফায়ার অবস্থা থেকে উদ্ভূত গতিশীল বহুমুখী পুরস্কার ফাংশন দ্বারা ডিফিউশন মডেলকে পরিচালিত করে। এই পুরস্কার সিস্টেম দুটি স্তরে কাজ করে: বৈশিষ্ট্য স্তরে প্রোটোটাইপ অ্যাঙ্করিং সর্বাধিক গড় পার্থক্য এবং মাত্রা বৈচিত্র্য ম্যাচিং এর মাধ্যমে শব্দার্থগত সামঞ্জস্য এবং বৈচিত্র্য নিশ্চিত করে; লজিট স্তরে আত্মবিশ্বাস পুনঃক্যালিব্রেশন এবং ক্রস-সেশন বিভ্রান্তি-সচেতন প্রক্রিয়ার মাধ্যমে অন্বেষণমূলক ছবি প্রজন্ম প্রচার করে এবং শ্রেণী-মধ্যে পার্থক্যশীলতা বৃদ্ধি করে। এই সহ-বিবর্তন প্রক্রিয়ায়, উত্পাদিত ছবিগুলি ক্লাসিফায়ারকে অপ্টিমাইজ করে, উন্নত ক্লাসিফায়ার অবস্থা আরও ভাল পুরস্কার সংকেত তৈরি করে, FSCIL বেঞ্চমার্ক পরীক্ষায় অত্যাধুনিক কর্মক্ষমতা অর্জন করে, জ্ঞান সংরক্ষণ এবং নতুন শ্রেণী শিক্ষার ক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে।
ফিউ-শট ক্লাস-ইনক্রিমেন্টাল লার্নিং (FSCIL) একটি অত্যন্ত চ্যালেঞ্জিং কাজ যা মডেলকে প্রয়োজন করে:
- ক্রমান্বয়ে শিক্ষা: ক্রমাগত ডেটা প্রবাহ থেকে নতুন শ্রেণী শিখুন
- সীমিত নমুনা সীমাবদ্ধতা: নতুন শ্রেণীগুলির কেবল সীমিত প্রশিক্ষণ নমুনা রয়েছে (সাধারণত 5-শট)
- বিস্মৃতি এড়ান: পূর্বে শেখা শ্রেণীগুলির জ্ঞান বজায় রাখুন
- স্থিতিশীলতা-প্লাস্টিসিটি দ্বন্দ্ব: নতুন জ্ঞান শিক্ষা এবং পুরানো জ্ঞান সংরক্ষণের মধ্যে ভারসাম্য খুঁজুন
- ডেটা স্বল্পতা: নতুন শ্রেণীর অত্যন্ত সীমিত নমুনা অবিশ্বাস্য অভিজ্ঞতামূলক ঝুঁকি ন্যূনতমকরণের দিকে পরিচালিত করে
- অপর্যাপ্ত সাধারণীকরণ ক্ষমতা: বিদ্যমান পদ্ধতিগুলি সীমিত প্রাথমিক ডেটাসেটের উপর অত্যধিক নির্ভর করে
ঐতিহ্যবাহী FSCIL পদ্ধতিগুলি প্রধানত দুটি সমস্যা উপস্থাপন করে:
- শব্দার্থগত ভুলত্ব এবং অপর্যাপ্ত বৈচিত্র্য: ডিফিউশন মডেল দ্বারা সরাসরি উত্পাদিত ছবিগুলি শব্দার্থগত বিচ্যুতি বা অপর্যাপ্ত বৈচিত্র্য থাকতে পারে
- প্রতিক্রিয়া প্রক্রিয়া অনুপস্থিত: ডিফিউশন মডেলের জন্য ক্লাসিফায়ারের বর্তমান অবস্থার উপর ভিত্তি করে আউটপুট সামঞ্জস্য করার প্রক্রিয়া অনুপস্থিত
- DCS ফ্রেমওয়ার্ক প্রস্তাব: ডিফিউশন মডেল এবং FSCIL ক্লাসিফায়ারের মধ্যে পারস্পরিক প্রচার লুপের প্রথম সৃষ্টি, DAS অ্যালগরিদমের মাধ্যমে পুরস্কার-সংযুক্ত প্রজন্ম বাস্তবায়ন
- বহু-স্তরীয় পুরস্কার ডিজাইন: বৈশিষ্ট্য স্তর এবং লজিট স্তরে কাজ করে এমন বহুমুখী পুরস্কার ফাংশন ডিজাইন করা
- বৈশিষ্ট্য স্তর: শব্দার্থগত সামঞ্জস্য নিশ্চিত করুন এবং শ্রেণী-মধ্যে বৈচিত্র্য প্রচার করুন
- লজিট স্তর: অন্বেষণমূলক, সাধারণীকৃত শ্রেণী-মধ্যে ছবি প্রজন্ম পরিচালনা করুন এবং শ্রেণী-মধ্যে পার্থক্যশীলতা বৃদ্ধি করুন
- অত্যাধুনিক কর্মক্ষমতা: FSCIL বেঞ্চমার্ক ডেটাসেটে অত্যাধুনিক ফলাফল অর্জন করুন, পুরানো শ্রেণী জ্ঞান সংরক্ষণ এবং নতুন শ্রেণী শিক্ষা উল্লেখযোগ্যভাবে উন্নত করুন
FSCIL ক্রমাগত ডেটা প্রবাহ Dtrain={Dtraint}t=0T থেকে ক্রমান্বয়ে শিক্ষা জড়িত, যেখানে:
- প্রতিটি সেশন t নতুন অসংযুক্ত শ্রেণী সেট Ct এর প্রশিক্ষণ নমুনা (xi,yi) প্রবর্তন করে
- বেস সেশন (t=0) পর্যাপ্ত ডেটা রয়েছে, বৃদ্ধিমূলক সেশন (t>0) N-way K-shot ফর্ম্যাট গ্রহণ করে
- মডেল Dtraint এ প্রশিক্ষণের পরে, সমস্ত দেখা শ্রেণী Cseent=⋃s=0tCs এ মূল্যায়ন করা প্রয়োজন
DCS এর মূল ধারণা হল ডিফিউশন মডেল এবং ক্লাসিফায়ারের মধ্যে দ্বিমুখী প্রতিক্রিয়া স্থাপন করা:
- পুরস্কার গণনা: ক্লাসিফায়ার σ (প্যারামিটার θ) এর উত্পাদিত ছবি x এর আউটপুটের উপর ভিত্তি করে একাধিক পুরস্কার উপাদান Ri গণনা করুন
- ডিফিউশন মডেল অপ্টিমাইজেশন:
ϕ∗=argmaxϕ∑iRi(σθ(D(x;ϕ)))
- ক্লাসিফায়ার উন্নতি:
θ∗=argminθLcls(σθ;x∪D(x;ϕ∗),y)
1. প্রোটোটাইপ অ্যাঙ্করিং সর্বাধিক গড় পার্থক্য পুরস্কার (R_PAMMD)RPAMMD(xgen,Igen(c,N))=−αN21∑i=1N∑j=1Nk(zi,zj)+βN1∑i=1Nk(zi,μc)
যেখানে:
- প্রথম পদ (বৈচিত্র্য): উত্পাদিত ছবিগুলির মধ্যে পার্থক্য উৎসাহিত করুন
- দ্বিতীয় পদ (সামঞ্জস্য): শ্রেণী প্রোটোটাইপের সাথে শব্দার্থগত সামঞ্জস্য নিশ্চিত করুন
- k(⋅,⋅) ইতিবাচক নির্দিষ্ট কার্নেল ফাংশন, μc শ্রেণী প্রোটোটাইপ
2. মাত্রা বৈচিত্র্য ম্যাচিং পুরস্কার (R_VM)RVM(xgen,Igen(c,N))=−∑d=1D(vgend−vreald)2
উত্পাদিত ছবি এবং বাস্তব ছবির প্রতিটি মাত্রায় বৈচিত্র্য ম্যাচ করে বৈশিষ্ট্য বিতরণের সামঞ্জস্য বজায় রাখুন।
1. পুনঃক্যালিব্রেশন আত্মবিশ্বাস পুরস্কার (R_RC)RRC(xgen,yc)=log(p^(yc∣xgen;T))
যেখানে তাপমাত্রা প্যারামিটার T ক্লাসিফায়ারের মূল আত্মবিশ্বাসের উপর ভিত্তি করে স্ব-অভিযোজিত:
T(xgen)=Tbase+Tscale⋅1−1/Ncp^c(yc∣xgen)−1/Nc
2. ক্রস-সেশন বিভ্রান্তি-সচেতন পুরস্কার (R_CSCA)RCSCA(xgen,yc)=∑y∈Cwy(xgen)log(p^(y∣xgen;Ts))
যেখানে গতিশীল ওজন:
wyt(xgen)=1+γ⋅dcos(xgen,μt)1
- দ্বিমুখী প্রতিক্রিয়া প্রক্রিয়া: ডিফিউশন মডেল এবং ক্লাসিফায়ারের সহ-বিবর্তন প্রথমবার বাস্তবায়ন করুন
- বহু-স্তরীয় পুরস্কার ডিজাইন: বৈশিষ্ট্য এবং সিদ্ধান্ত স্থানে একযোগে প্রজন্ম প্রক্রিয়া অপ্টিমাইজ করুন
- স্ব-অভিযোজিত তাপমাত্রা সমন্বয়: ক্লাসিফায়ারের আত্মবিশ্বাসের উপর ভিত্তি করে পুরস্কার মসৃণতা গতিশীলভাবে সামঞ্জস্য করুন
- বিভ্রান্তি-সচেতন প্রজন্ম: শ্রেণী-মধ্যে পার্থক্যশীলতা উন্নত করতে সক্রিয়ভাবে কঠিন নমুনা তৈরি করুন
- CIFAR-100: বেস সেশন 60 শ্রেণী, বৃদ্ধিমূলক সেশন 40 শ্রেণী (8-way 5-shot)
- miniImageNet: বেস সেশন 60 শ্রেণী, বৃদ্ধিমূলক সেশন 40 শ্রেণী (8-way 5-shot)
- CUB-200: বেস সেশন 100 শ্রেণী, বৃদ্ধিমূলক সেশন 40 শ্রেণী (10-way 5-shot)
- সেশন নির্ভুলতা: নির্দিষ্ট শিক্ষা সেশনের মধ্যে মডেল কর্মক্ষমতা
- গড় নির্ভুলতা: প্রাথমিক থেকে বর্তমান সেশন পর্যন্ত সমস্ত সেশন নির্ভুলতার গড়
TOPIC, CEC, FACT, TEEN, SAVC, DyCR, ALFSCIL, OrCo, ADBS এবং অন্যান্য প্রধান FSCIL পদ্ধতি অন্তর্ভুক্ত
- ডিফিউশন মডেল: Stable Diffusion 3.5 Medium
- ছবি প্রজন্ম: বেস সেশন প্রতি শ্রেণী 30টি, নতুন সেশন নতুন শ্রেণী 30টি/পুরানো শ্রেণী 10টি
- ব্যাকবোন নেটওয়ার্ক: ResNet-18 (CUB-200), ResNet-12 (miniImageNet, CIFAR-100)
- অপ্টিমাইজার: SGD, গতিবেগ 0.9, ওজন ক্ষয় 0.0005
miniImageNet ডেটাসেট ফলাফল:
- DCS গড় নির্ভুলতা: 68.14%
- সেরা baseline (OrCo): 66.90%
- উন্নতির পরিমাণ: +1.24%
CUB-200 ডেটাসেট ফলাফল:
- DCS গড় নির্ভুলতা: 69.73%
- সেরা baseline (SAVC): 69.35%
- উন্নতির পরিমাণ: +0.38%
CIFAR-100 ডেটাসেট ফলাফল:
- DCS গড় নির্ভুলতা: 66.36%
- সেরা baseline (ALFSCIL): 66.75%
CIFAR-100 এ বিচ্ছিন্নকরণ গবেষণা প্রতিটি উপাদানের অবদান দেখায়:
- শুধুমাত্র R_PAMMD: +1.24%
- +R_VM: +1.86%
- +R_RC: +3.50%
- +R_CSCA (সম্পূর্ণ DCS): +5.64%
ফলাফল নির্দেশ করে যে লজিট স্তরের পুরস্কার কর্মক্ষমতা উন্নতির জন্য আরও গুরুত্বপূর্ণ।
- FID উন্নতি: বৈশিষ্ট্য স্তরের পুরস্কার উল্লেখযোগ্যভাবে FID এবং CLIP স্কোর উন্নত করে
- CLIP স্কোর বৃদ্ধি: R_RC সেরা CLIP স্কোর অর্জন করে
- কৌশলগত হ্রাস: R_CSCA সীমানার কাছাকাছি কঠিন নমুনা তৈরি করতে ইচ্ছাকৃতভাবে প্রজন্ম গুণমান হ্রাস করে
- দক্ষতা সুবিধা: DCS সীমিত উত্পাদিত ছবিতে বড় আকারের প্রজন্মের কর্মক্ষমতা অর্জন করে
- উপাদান সহযোগিতা: সমস্ত পুরস্কার উপাদান চূড়ান্ত কর্মক্ষমতায় ইতিবাচক অবদান রাখে
- ক্রস-ডেটাসেট সামঞ্জস্য: পুরস্কার ডিজাইন বিভিন্ন ডেটাসেটে সামঞ্জস্যপূর্ণভাবে কাজ করে
- ডেটা পুনরাবৃত্তি পদ্ধতি: পূর্ববর্তী কাজের ডেটা সংরক্ষণ বা প্রজন্ম
- নেটওয়ার্ক সম্প্রসারণ পদ্ধতি: মডেল আর্কিটেকচার গতিশীলভাবে সামঞ্জস্য করুন
- প্যারামিটার নিয়মিতকরণ পদ্ধতি: নির্দিষ্ট নেটওয়ার্ক কাঠামোর অধীনে প্যারামিটার সামঞ্জস্য করুন
- গতিশীল নেটওয়ার্ক পদ্ধতি: নেটওয়ার্ক কাঠামো সামঞ্জস্য করে বৈশিষ্ট্য স্থান সম্পর্ক বজায় রাখুন
- মেটা-শিক্ষা পদ্ধতি: মেটা-শিক্ষা ধারণা প্রবর্তন করুন
- বৈশিষ্ট্য স্থান পদ্ধতি: ভার্চুয়াল শ্রেণী উদাহরণের মাধ্যমে বৈশিষ্ট্য স্থান শক্তিশালীতা বৃদ্ধি করুন
- প্রাক-প্রশিক্ষিত মডেল পদ্ধতি: CLIP এর মতো দৃষ্টি-ভাষা মডেল ব্যবহার করুন
- বড় আকারের ডেটা বর্ধন: শ্রেণীবিভাগকারী উন্নত করতে সংশ্লেষিত অতিরিক্ত প্রশিক্ষণ ডেটা
- শর্তাধীন প্রক্রিয়া: শব্দার্থগত নিয়ন্ত্রণ এবং নমুনা বৈচিত্র্য বৃদ্ধি করুন
- নির্দিষ্ট পরিস্থিতি প্রয়োগ: সীমিত নমুনা শিক্ষা বা ক্রমাগত শিক্ষা
- DCS সফলভাবে ডিফিউশন মডেল এবং FSCIL ক্লাসিফায়ারের মধ্যে সহযোগিতা প্রক্রিয়া স্থাপন করেছে
- বহু-স্তরীয় পুরস্কার ডিজাইন শব্দার্থগত সংযোগ এবং বৈচিত্র্য সমস্যা কার্যকরভাবে সমাধান করে
- মান FSCIL বেঞ্চমার্কে অত্যাধুনিক কর্মক্ষমতা অর্জন করেছে
- প্রাক-প্রশিক্ষিত মডেলের উপর নির্ভরতা: কর্মক্ষমতা উচ্চ-মানের প্রাক-প্রশিক্ষিত ডিফিউশন মডেলের উপর নির্ভর করে
- ডোমেন বিশেষীকরণ সীমাবদ্ধতা: ডিফিউশন মডেল প্রশিক্ষণ ডেটা কভারেজ অপর্যাপ্ত বিশেষায়িত ক্ষেত্রে কর্মক্ষমতা হ্রাস পেতে পারে
- গণনা জটিলতা: বহু-উপাদান পুরস্কার সিস্টেম এবং পুনরাবৃত্তিমূলক প্রচার লুপ সুর এবং গণনা বোঝা বৃদ্ধি করে
- আরও দক্ষ পুরস্কার গণনা পদ্ধতি অন্বেষণ করুন
- আরও বেশি বিশেষায়িত ক্ষেত্রে প্রযোজ্যতা গবেষণা করুন
- আরও হালকা ফ্রেমওয়ার্ক ভেরিয়েন্ট বিকাশ করুন
- শক্তিশালী উদ্ভাবনী: ডিফিউশন মডেল এবং ক্লাসিফায়ারের মধ্যে পারস্পরিক প্রচার প্রক্রিয়া প্রথমবার প্রস্তাব করা, ধারণা উদ্ভাবনী
- চমৎকার প্রযুক্তিগত ডিজাইন: বহু-স্তরীয় পুরস্কার ডিজাইন সুচিন্তিত, তাত্ত্বিক ভিত্তি দৃঢ়
- ব্যাপক পরীক্ষা: একাধিক মান ডেটাসেটে সম্পূর্ণ মূল্যায়ন, বিস্তারিত বিচ্ছিন্নকরণ গবেষণা অন্তর্ভুক্ত
- স্পষ্ট কর্মক্ষমতা উন্নতি: চ্যালেঞ্জিং FSCIL কাজে উল্লেখযোগ্য উন্নতি অর্জন করা
- গণনা ওভারহেড: প্রজন্ম প্রক্রিয়া এবং বহু-পুরস্কার গণনা প্রশিক্ষণ সময় এবং সম্পদ প্রয়োজন বৃদ্ধি করে
- হাইপারপ্যারামিটার সংবেদনশীলতা: বহু পুরস্কার উপাদানের ওজন সাবধানে সুর প্রয়োজন
- অপর্যাপ্ত সাধারণীকরণ যাচাইকরণ: প্রধানত কম্পিউটার দৃষ্টিভঙ্গি ক্ষেত্রে যাচাই করা, অন্যান্য ক্ষেত্রের প্রযোজ্যতা অজানা
- সীমিত তাত্ত্বিক বিশ্লেষণ: সংমিশ্রণ এবং স্থিতিশীলতার জন্য তাত্ত্বিক গ্যারান্টি অনুপস্থিত
- একাডেমিক মূল্য: FSCIL ক্ষেত্রে নতুন গবেষণা চিন্তাভাবনা এবং প্রযুক্তিগত পথ প্রদান করে
- ব্যবহারিক মূল্য: সম্পদ-সীমিত ক্রমাগত শিক্ষা পরিস্থিতিতে প্রয়োগের সম্ভাবনা রয়েছে
- পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং হাইপারপ্যারামিটার সেটিং প্রদান করা
- ক্রমাগত শিক্ষা সিস্টেম: ক্রমাগত নতুন শ্রেণী শিখতে হবে এমন ব্যবহারিক প্রয়োগ
- সম্পদ-সীমিত পরিবেশ: বড় পরিমাণ ঐতিহ্যবাহী ডেটা সংরক্ষণ করতে পারে না এমন পরিস্থিতি
- সীমিত নমুনা শিক্ষা: নতুন শ্রেণী নমুনা বিরল এমন ডোমেন প্রয়োগ
পেপারটি 82টি সম্পর্কিত রেফারেন্স উদ্ধৃত করেছে, যা শ্রেণী বৃদ্ধিমূলক শিক্ষা, সীমিত নমুনা শিক্ষা, ডিফিউশন মডেল এবং অন্যান্য একাধিক সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সহায়তা প্রদান করে।