Few-Shot Class-Incremental Learning (FSCIL) challenges models to sequentially learn new classes from minimal examples without forgetting prior knowledge, a task complicated by the stability-plasticity dilemma and data scarcity. Current FSCIL methods often struggle with generalization due to their reliance on limited datasets. While diffusion models offer a path for data augmentation, their direct application can lead to semantic misalignment or ineffective guidance. This paper introduces Diffusion-Classifier Synergy (DCS), a novel framework that establishes a mutual boosting loop between diffusion model and FSCIL classifier. DCS utilizes a reward-aligned learning strategy, where a dynamic, multi-faceted reward function derived from the classifier's state directs the diffusion model. This reward system operates at two levels: the feature level ensures semantic coherence and diversity using prototype-anchored maximum mean discrepancy and dimension-wise variance matching, while the logits level promotes exploratory image generation and enhances inter-class discriminability through confidence recalibration and cross-session confusion-aware mechanisms. This co-evolutionary process, where generated images refine the classifier and an improved classifier state yields better reward signals, demonstrably achieves state-of-the-art performance on FSCIL benchmarks, significantly enhancing both knowledge retention and new class learning.
- Papier-ID: 2510.03608
- Titel: Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL
- Autoren: Ruitao Wu, Yifan Zhao, Guangyao Chen, Jia Li
- Klassifizierung: cs.CV
- Veröffentlichungskonferenz: NeurIPS 2025
- Papierlink: https://arxiv.org/abs/2510.03608
Few-Shot Class-Incremental Learning (FSCIL) stellt das Modell vor die Herausforderung, neue Klassen sequenziell aus extrem wenigen Stichproben zu erlernen, während gleichzeitig vorheriges Wissen bewahrt wird. Diese Aufgabe wird durch das Stabilitäts-Plastizitäts-Dilemma und Datenmangel kompliziert. Aktuelle FSCIL-Methoden haben aufgrund ihrer Abhängigkeit von begrenzten Datensätzen Schwierigkeiten bei der Generalisierung. Obwohl Diffusionsmodelle einen Weg zur Datenerweiterung bieten, kann ihre direkte Anwendung zu semantischen Fehlausrichtungen oder unwirksamer Anleitung führen. Dieses Papier stellt das Diffusion-Classifier Synergy (DCS) Framework vor, das eine gegenseitig fördernde Schleife zwischen Diffusionsmodellen und FSCIL-Klassifikatoren etabliert. DCS nutzt eine Reward-aligned Learning-Strategie, die Diffusionsmodelle durch dynamische mehrdimensionale Reward-Funktionen anleitet, die aus dem Klassifikator-Status stammen. Das Reward-System funktioniert auf zwei Ebenen: auf der Merkmalsebene durch Prototyp-verankerte maximale Mitteldifferenz und Varianzabstimmung in Dimensionen, um semantische Konsistenz und Vielfalt zu gewährleisten; auf der Logits-Ebene durch Konfidenz-Rekalibrierung und sitzungsübergreifende Verwirrungs-bewusste Mechanismen, um explorative Bildgenerierung zu fördern und die Unterscheidbarkeit zwischen Klassen zu verbessern. In diesem Co-Evolutionsprozess optimieren generierte Bilder den Klassifikator, und der verbesserte Klassifikator-Status erzeugt bessere Reward-Signale, was zu hochmodernen Leistungen bei FSCIL-Benchmarks führt und die Fähigkeit zur Wissenssicherung und zum Erlernen neuer Klassen erheblich verbessert.
Few-Shot Class-Incremental Learning (FSCIL) ist eine äußerst anspruchsvolle Aufgabe, die vom Modell Folgendes verlangt:
- Sequenzielles Lernen: Erlernen neuer Klassen aus kontinuierlichen Datenströmen
- Few-Shot-Beschränkung: Neue Klassen haben nur wenige Trainingsmuster (typischerweise 5-Shot)
- Vermeidung von Vergessen: Bewahrung des Wissens über zuvor gelernte Klassen
- Stabilitäts-Plastizitäts-Dilemma: Gleichgewicht zwischen dem Erlernen neuen Wissens und der Bewahrung alten Wissens
- Datenmangel: Extrem wenige Stichproben neuer Klassen führen zu unzuverlässiger empirischer Risikominimierung
- Unzureichende Generalisierungsfähigkeit: Bestehende Methoden sind stark von begrenzten anfänglichen Datensätzen abhängig
Traditionelle FSCIL-Methoden haben hauptsächlich zwei Probleme:
- Semantische Fehlausrichtung und unzureichende Vielfalt: Direkt generierte Bilder von Diffusionsmodellen können semantische Abweichungen oder unzureichende Vielfalt aufweisen
- Fehlender Rückkopplungsmechanismus: Mangel an Mechanismen für Diffusionsmodelle, ihre Ausgabe basierend auf dem aktuellen Klassifikator-Status anzupassen
- Vorschlag des DCS-Frameworks: Erstmalige Etablierung einer gegenseitig fördernden Schleife zwischen Diffusionsmodellen und FSCIL-Klassifikatoren durch den DAS-Algorithmus zur Reward-aligned Generierung
- Mehrstufiges Reward-Design: Entwurf mehrdimensionaler Reward-Funktionen, die auf Merkmalsebene und Logits-Ebene funktionieren
- Merkmalsebene: Gewährleistung semantischer Konsistenz und Förderung klasseninterner Vielfalt
- Logits-Ebene: Anleitung zur Generierung explorativer, verallgemeinerbarer klasseninterner Bilder und Verbesserung der Unterscheidbarkeit zwischen Klassen
- Hochmoderne Leistung: Erreichung von State-of-the-Art-Ergebnissen auf FSCIL-Benchmark-Datensätzen mit signifikanter Verbesserung der Wissenssicherung alter Klassen und des Lernens neuer Klassen
FSCIL umfasst sequenzielles Lernen aus kontinuierlichen Datenströmen Dtrain={Dtraint}t=0T, wobei:
- Jede Sitzung t Trainingsmuster {(xi,yi)} einer neuen disjunkten Klassenmenge Ct einführt
- Die Basissitzung (t=0) ausreichend Daten hat, während inkrementelle Sitzungen (t>0) das N-way K-shot Format verwenden
- Das Modell nach dem Training auf Dtraint auf allen gesehenen Klassen Cseent=⋃s=0tCs bewertet werden muss
Die Kernidee von DCS ist die Etablierung bidirektionaler Rückkopplung zwischen Diffusionsmodellen und Klassifikatoren:
- Reward-Berechnung: Berechnung mehrerer Reward-Komponenten Ri basierend auf der Ausgabe des Klassifikators σ (Parameter θ) für generierte Bilder x
- Diffusionsmodell-Optimierung:
ϕ∗=argmaxϕ∑iRi(σθ(D(x;ϕ)))
- Klassifikator-Verbesserung:
θ∗=argminθLcls(σθ;x∪D(x;ϕ∗),y)
1. Prototyp-verankerte maximale Mitteldifferenz-Reward (R_PAMMD)RPAMMD(xgen,Igen(c,N))=−αN21∑i=1N∑j=1Nk(zi,zj)+βN1∑i=1Nk(zi,μc)
Wobei:
- Der erste Term (Vielfalt): Fördert Unterschiede zwischen generierten Bildern
- Der zweite Term (Konsistenz): Gewährleistet semantische Konsistenz mit dem Klassenprototyp
- k(⋅,⋅) ist eine positiv definite Kernfunktion, μc ist der Klassenprototyp
2. Varianzabstimmungs-Reward (R_VM)RVM(xgen,Igen(c,N))=−∑d=1D(vgend−vreald)2
Erhaltung der Konsistenz der Merkmalsverteilung durch Abgleich der Varianz generierter Bilder mit echten Bildern in jeder Dimension.
1. Rekalibrierungs-Konfidenz-Reward (R_RC)RRC(xgen,yc)=log(p^(yc∣xgen;T))
Wobei der Temperaturparameter T adaptiv basierend auf der ursprünglichen Klassifikator-Konfidenz angepasst wird:
T(xgen)=Tbase+Tscale⋅1−1/Ncp^c(yc∣xgen)−1/Nc
2. Sitzungsübergreifender Verwirrungs-bewusster Reward (R_CSCA)RCSCA(xgen,yc)=∑y∈Cwy(xgen)log(p^(y∣xgen;Ts))
Wobei die dynamische Gewichtung:
wyt(xgen)=1+γ⋅dcos(xgen,μt)1
- Bidirektionaler Rückkopplungsmechanismus: Erstmalige Realisierung der Co-Evolution von Diffusionsmodellen und Klassifikatoren
- Mehrstufiges Reward-Design: Gleichzeitige Optimierung des Generierungsprozesses in Merkmals- und Entscheidungsraum
- Adaptive Temperaturanpassung: Dynamische Anpassung der Reward-Glättung basierend auf Klassifikator-Konfidenz
- Verwirrungs-bewusste Generierung: Aktive Generierung schwieriger Stichproben zur Verbesserung der Klassenunterscheidbarkeit
- CIFAR-100: 60 Klassen in der Basissitzung, 40 Klassen in inkrementellen Sitzungen (8-way 5-shot)
- miniImageNet: 60 Klassen in der Basissitzung, 40 Klassen in inkrementellen Sitzungen (8-way 5-shot)
- CUB-200: 100 Klassen in der Basissitzung, 40 Klassen in inkrementellen Sitzungen (10-way 5-shot)
- Sitzungsgenauigkeit: Modellleistung innerhalb einer bestimmten Lernsitzung
- Durchschnittliche Genauigkeit: Durchschnitt der Genauigkeiten aller Sitzungen von der anfänglichen bis zur aktuellen Sitzung
Umfasst Mainstream-FSCIL-Methoden wie TOPIC, CEC, FACT, TEEN, SAVC, DyCR, ALFSCIL, OrCo, ADBS und andere
- Diffusionsmodell: Stable Diffusion 3.5 Medium
- Bildgenerierung: 30 Bilder pro Klasse in der Basissitzung, 30 Bilder für neue Klassen/10 Bilder für alte Klassen in neuen Sitzungen
- Backbone-Netzwerk: ResNet-18 (CUB-200), ResNet-12 (miniImageNet, CIFAR-100)
- Optimierer: SGD, Momentum 0,9, Gewichtszerfall 0,0005
miniImageNet-Datensatz-Ergebnisse:
- DCS durchschnittliche Genauigkeit: 68,14%
- Beste Baseline (OrCo): 66,90%
- Verbesserungsspanne: +1,24%
CUB-200-Datensatz-Ergebnisse:
- DCS durchschnittliche Genauigkeit: 69,73%
- Beste Baseline (SAVC): 69,35%
- Verbesserungsspanne: +0,38%
CIFAR-100-Datensatz-Ergebnisse:
- DCS durchschnittliche Genauigkeit: 66,36%
- Beste Baseline (ALFSCIL): 66,75%
Ablationsstudien auf CIFAR-100 zeigen die Beiträge jeder Komponente:
- Nur R_PAMMD: +1,24%
- +R_VM: +1,86%
- +R_RC: +3,50%
- +R_CSCA (vollständiges DCS): +5,64%
Die Ergebnisse zeigen, dass Rewards auf Logits-Ebene für die Leistungsverbesserung kritischer sind.
- FID-Verbesserung: Rewards auf Merkmalsebene verbessern FID und CLIP-Scores erheblich
- CLIP-Score-Verbesserung: R_RC erreicht die besten CLIP-Scores
- Strategische Qualitätsreduzierung: R_CSCA reduziert absichtlich die Generierungsqualität, um schwierige Stichproben nahe der Entscheidungsgrenze zu erzeugen
- Effizienzvorteile: DCS erreicht die Leistung großflächiger Generierung mit wenigen generierten Bildern
- Komponenten-Synergie: Alle Reward-Komponenten tragen positiv zur endgültigen Leistung bei
- Datensatzübergreifende Konsistenz: Das Reward-Design zeigt konsistente Leistung über verschiedene Datensätze
- Datenwiedergabemethoden: Speicherung oder Generierung vorheriger Aufgabendaten
- Netzwerk-Erweiterungsmethoden: Dynamische Anpassung der Modellarchitektur
- Parameterregularisierungsmethoden: Parameteranpassung bei fester Netzwerkstruktur
- Dynamische Netzwerkmethoden: Wartung von Merkmalsraum-Beziehungen durch Netzwerk-Strukturanpassung
- Meta-Learning-Methoden: Einführung von Meta-Learning-Konzepten
- Merkmalsraum-Methoden: Verbesserung der Merkmalsraum-Robustheit durch virtuelle Klasseninstanzen
- Vortrainierte Modell-Methoden: Nutzung von Modellen wie CLIP
- Großflächige Datenerweiterung: Synthese zusätzlicher Trainingsdaten zur Verbesserung des Klassifikators
- Bedingte Mechanismen: Verbesserung der semantischen Kontrolle und Stichprobenvielfalt
- Szenariospezifische Anwendungen: Few-Shot Learning oder kontinuierliches Lernen
- DCS etabliert erfolgreich einen Synergismechanismus zwischen Diffusionsmodellen und FSCIL-Klassifikatoren
- Das mehrstufige Reward-Design löst effektiv Probleme der semantischen Ausrichtung und Vielfalt
- Hochmoderne Leistung auf Standard-FSCIL-Benchmarks wurde erreicht
- Abhängigkeit von vortrainierten Modellen: Die Leistung hängt von hochwertigen vortrainierten Diffusionsmodellen ab
- Domänenspezifische Einschränkungen: Die Leistung kann in Fachbereichen mit unzureichender Abdeckung durch Diffusionsmodell-Trainingsdaten sinken
- Rechenkomplexität: Das mehrkomponen-Reward-System und die iterative Förderungsschleife erhöhen Abstimmungs- und Rechenaufwand
- Erforschung effizienterer Reward-Berechnungsmethoden
- Untersuchung der Anwendbarkeit in mehr Fachbereichen
- Entwicklung leichtgewichtigerer Framework-Varianten
- Starke Innovativität: Erstmalige Vorschlag eines gegenseitig fördernden Mechanismus zwischen Diffusionsmodellen und Klassifikatoren mit neuartigem Konzept
- Sorgfältiges technisches Design: Mehrstufiges Reward-Design mit umfassender Überlegung und solider theoretischer Grundlage
- Umfassende Experimente: Vollständige Bewertung auf mehreren Standard-Datensätzen mit detaillierten Ablationsstudien
- Deutliche Leistungsverbesserung: Signifikante Verbesserungen bei der anspruchsvollen FSCIL-Aufgabe
- Rechenlast: Der Generierungsprozess und die mehrfachen Reward-Berechnungen erhöhen Trainingszeit und Ressourcenbedarf
- Hyperparameter-Sensitivität: Die Gewichte mehrerer Reward-Komponenten erfordern sorgfältige Abstimmung
- Unzureichende Generalisierungsvalidierung: Hauptsächlich im Bereich Computer Vision validiert, Anwendbarkeit in anderen Bereichen unbekannt
- Begrenzte theoretische Analyse: Mangel an theoretischen Garantien für Konvergenz und Stabilität
- Akademischer Wert: Bietet neue Forschungsideen und technische Wege für das FSCIL-Feld
- Praktischer Wert: Hat Anwendungspotenzial in kontinuierlichen Lernszenarien mit begrenzten Ressourcen
- Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Hyperparameter-Einstellungen
- Kontinuierliche Lernsysteme: Praktische Anwendungen, die ständig neue Klassen erlernen müssen
- Ressourcenbegrenzte Umgebungen: Szenarien, in denen große Mengen historischer Daten nicht gespeichert werden können
- Few-Shot Learning: Domänenanwendungen, in denen Stichproben neuer Klassen selten sind
Das Papier zitiert 82 verwandte Arbeiten, die wichtige Arbeiten in mehreren verwandten Bereichen wie klasseninkrementielles Lernen, Few-Shot Learning und Diffusionsmodelle abdecken und eine solide theoretische Grundlage und technische Unterstützung für die Forschung bieten.