Few-Shot Class-Incremental Learning (FSCIL) challenges models to sequentially learn new classes from minimal examples without forgetting prior knowledge, a task complicated by the stability-plasticity dilemma and data scarcity. Current FSCIL methods often struggle with generalization due to their reliance on limited datasets. While diffusion models offer a path for data augmentation, their direct application can lead to semantic misalignment or ineffective guidance. This paper introduces Diffusion-Classifier Synergy (DCS), a novel framework that establishes a mutual boosting loop between diffusion model and FSCIL classifier. DCS utilizes a reward-aligned learning strategy, where a dynamic, multi-faceted reward function derived from the classifier's state directs the diffusion model. This reward system operates at two levels: the feature level ensures semantic coherence and diversity using prototype-anchored maximum mean discrepancy and dimension-wise variance matching, while the logits level promotes exploratory image generation and enhances inter-class discriminability through confidence recalibration and cross-session confusion-aware mechanisms. This co-evolutionary process, where generated images refine the classifier and an improved classifier state yields better reward signals, demonstrably achieves state-of-the-art performance on FSCIL benchmarks, significantly enhancing both knowledge retention and new class learning.
- ID de l'article: 2510.03608
- Titre: Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL
- Auteurs: Ruitao Wu, Yifan Zhao, Guangyao Chen, Jia Li
- Classification: cs.CV
- Conférence de publication: NeurIPS 2025
- Lien de l'article: https://arxiv.org/abs/2510.03608
L'Apprentissage Incrémental de Classe Peu-Fourni (FSCIL) pose le défi d'apprendre séquentiellement de nouvelles classes à partir d'un nombre extrêmement limité d'échantillons, tout en préservant les connaissances antérieures. Cette tâche est compliquée par le dilemme stabilité-plasticité et la rareté des données. Les méthodes FSCIL actuelles éprouvent des difficultés de généralisation en raison de leur dépendance à des ensembles de données limités. Bien que les modèles de diffusion offrent une voie pour l'augmentation de données, leur application directe peut entraîner un désalignement sémantique ou des orientations inefficaces. Cet article propose le cadre de Synergie Diffusion-Classificateur (DCS), qui établit une boucle de renforcement mutuel entre le modèle de diffusion et le classificateur FSCIL. DCS adopte une stratégie d'apprentissage alignée sur les récompenses, guidant le modèle de diffusion par une fonction de récompense multifacette dynamique dérivée de l'état du classificateur. Ce système de récompense fonctionne à deux niveaux : au niveau des caractéristiques, il assure la cohérence sémantique et la diversité par l'ancrage de prototype avec écart moyen maximal et appariement de variance dimensionnelle ; au niveau des logits, il favorise la génération d'images exploratoires et améliore la discriminabilité inter-classe par recalibrage de confiance et mécanismes de conscience de confusion inter-sessions. Dans ce processus de coévolution, les images générées optimisent le classificateur, et l'état amélioré du classificateur produit de meilleurs signaux de récompense, atteignant des performances de pointe sur les benchmarks FSCIL avec des améliorations significatives dans la rétention des connaissances et l'apprentissage de nouvelles classes.
L'Apprentissage Incrémental de Classe Peu-Fourni (FSCIL) est une tâche extrêmement exigeante qui nécessite que le modèle :
- Apprentissage séquentiel: Apprendre de nouvelles classes à partir d'un flux de données continu
- Contrainte peu-fournie: Les nouvelles classes ne disposent que d'un nombre limité d'échantillons d'entraînement (généralement 5-shot)
- Éviter l'oubli: Préserver les connaissances des classes précédemment apprises
- Dilemme stabilité-plasticité: Trouver un équilibre entre l'apprentissage de nouvelles connaissances et la préservation des anciennes
- Rareté des données: Les échantillons extrêmement limités des nouvelles classes entraînent une minimisation empirique du risque peu fiable
- Capacité de généralisation insuffisante: Les méthodes existantes dépendent excessivement d'ensembles de données initiaux limités
Les méthodes FSCIL traditionnelles présentent deux problèmes principaux :
- Désalignement sémantique et diversité insuffisante: Les images générées directement par le modèle de diffusion peuvent présenter des écarts sémantiques ou une diversité insuffisante
- Absence de mécanisme de rétroaction: Manque de mécanisme permettant au modèle de diffusion d'ajuster ses résultats en fonction de l'état actuel du classificateur
- Proposition du cadre DCS: Première boucle de renforcement mutuel entre le modèle de diffusion et le classificateur FSCIL, réalisée via l'algorithme DAS pour la génération alignée sur les récompenses
- Conception de récompenses multi-niveaux: Conception d'une fonction de récompense multifacette opérant aux niveaux des caractéristiques et des logits
- Niveau des caractéristiques: Assurer la cohérence sémantique et promouvoir la diversité intra-classe
- Niveau des logits: Guider la génération d'images exploratoires et généralisables intra-classe tout en améliorant la discriminabilité inter-classe
- Performance de pointe: Résultats de l'état de l'art sur les ensembles de données de référence FSCIL, avec des améliorations significatives dans la rétention des connaissances des anciennes classes et l'apprentissage des nouvelles classes
FSCIL implique l'apprentissage séquentiel à partir d'un flux de données continu Dtrain={Dtraint}t=0T, où :
- Chaque session t introduit des échantillons d'entraînement d'un nouvel ensemble de classes disjointes Ct sous la forme (xi,yi)
- La session de base (t=0) dispose de données suffisantes, tandis que les sessions incrémentielles (t>0) adoptent le format N-way K-shot
- Après l'entraînement sur Dtraint, le modèle doit être évalué sur toutes les classes vues Cseent=⋃s=0tCs
L'idée centrale de DCS est d'établir une rétroaction bidirectionnelle entre le modèle de diffusion et le classificateur :
- Calcul des récompenses: Calcul de multiples composantes de récompense Ri basées sur la sortie du classificateur σ (paramètres θ) pour l'image générée x
- Optimisation du modèle de diffusion:
ϕ∗=argmaxϕ∑iRi(σθ(D(x;ϕ)))
- Amélioration du classificateur:
θ∗=argminθLcls(σθ;x∪D(x;ϕ∗),y)
1. Récompense d'Écart Moyen Maximal Ancré par Prototype (R_PAMMD)RPAMMD(xgen,Igen(c,N))=−αN21∑i=1N∑j=1Nk(zi,zj)+βN1∑i=1Nk(zi,μc)
Où :
- Le premier terme (diversité): Encourage la différenciation entre les images générées
- Le deuxième terme (cohérence): Assure la cohérence sémantique avec le prototype de classe
- k(⋅,⋅) est une fonction noyau définie positive, μc est le prototype de classe
2. Récompense d'Appariement de Variance Dimensionnelle (R_VM)RVM(xgen,Igen(c,N))=−∑d=1D(vgend−vreald)2
Maintient la cohérence de la distribution des caractéristiques en appariement les variances des images générées et réelles sur chaque dimension.
1. Récompense de Recalibrage de Confiance (R_RC)RRC(xgen,yc)=log(p^(yc∣xgen;T))
Où le paramètre de température T s'ajuste de manière adaptative selon la confiance brute du classificateur :
T(xgen)=Tbase+Tscale⋅1−1/Ncp^c(yc∣xgen)−1/Nc
2. Récompense de Conscience de Confusion Inter-Sessions (R_CSCA)RCSCA(xgen,yc)=∑y∈Cwy(xgen)log(p^(y∣xgen;Ts))
Où les poids dynamiques :
wyt(xgen)=1+γ⋅dcos(xgen,μt)1
- Mécanisme de rétroaction bidirectionnelle: Première réalisation de la coévolution entre le modèle de diffusion et le classificateur
- Conception de récompenses multi-niveaux: Optimisation simultanée du processus de génération dans l'espace des caractéristiques et de décision
- Ajustement de température adaptative: Ajustement dynamique de la douceur des récompenses selon la confiance du classificateur
- Génération consciente de la confusion: Génération proactive d'échantillons difficiles pour améliorer la discriminabilité inter-classe
- CIFAR-100: 60 classes en session de base, 40 classes en sessions incrémentielles (8-way 5-shot)
- miniImageNet: 60 classes en session de base, 40 classes en sessions incrémentielles (8-way 5-shot)
- CUB-200: 100 classes en session de base, 40 classes en sessions incrémentielles (10-way 5-shot)
- Précision par session: Performance du modèle au sein d'une session d'apprentissage spécifique
- Précision moyenne: Moyenne des précisions de toutes les sessions de la session initiale à la session actuelle
Incluent TOPIC, CEC, FACT, TEEN, SAVC, DyCR, ALFSCIL, OrCo, ADBS et autres méthodes FSCIL dominantes
- Modèle de diffusion: Stable Diffusion 3.5 Medium
- Génération d'images: 30 images par classe en session de base, 30 images pour les nouvelles classes et 10 images pour les anciennes classes en nouvelles sessions
- Réseau de base: ResNet-18 (CUB-200), ResNet-12 (miniImageNet, CIFAR-100)
- Optimiseur: SGD, momentum 0.9, décroissance de poids 0.0005
Résultats sur miniImageNet:
- Précision moyenne DCS: 68.14%
- Meilleure baseline (OrCo): 66.90%
- Amélioration: +1.24%
Résultats sur CUB-200:
- Précision moyenne DCS: 69.73%
- Meilleure baseline (SAVC): 69.35%
- Amélioration: +0.38%
Résultats sur CIFAR-100:
- Précision moyenne DCS: 66.36%
- Meilleure baseline (ALFSCIL): 66.75%
Les études d'ablation sur CIFAR-100 montrent les contributions de chaque composante :
- R_PAMMD uniquement: +1.24%
- +R_VM: +1.86%
- +R_RC: +3.50%
- +R_CSCA (DCS complet): +5.64%
Les résultats indiquent que les récompenses au niveau des logits sont plus critiques pour l'amélioration des performances.
- Amélioration FID: Les récompenses au niveau des caractéristiques améliorent significativement les scores FID et CLIP
- Amélioration du score CLIP: R_RC obtient le meilleur score CLIP
- Dégradation stratégique: R_CSCA réduit intentionnellement la qualité de génération pour produire des échantillons difficiles près de la frontière
- Avantage d'efficacité: DCS atteint les performances de génération à grande échelle avec peu d'images générées
- Synergie des composantes: Tous les composants de récompense contribuent positivement à la performance finale
- Cohérence inter-ensembles: La conception des récompenses montre une performance cohérente sur différents ensembles de données
- Méthodes de relecture de données: Stockage ou génération de données de tâches antérieures
- Méthodes d'extension de réseau: Ajustement dynamique de l'architecture du modèle
- Méthodes de régularisation de paramètres: Ajustement des paramètres avec structure de réseau fixe
- Méthodes de réseau dynamique: Maintenance des relations d'espace de caractéristiques par ajustement de structure de réseau
- Méthodes d'apprentissage méta: Introduction de concepts d'apprentissage méta
- Méthodes d'espace de caractéristiques: Amélioration de la robustesse de l'espace de caractéristiques par instances de classe virtuelle
- Méthodes de modèles pré-entraînés: Utilisation de modèles vision-langage comme CLIP
- Augmentation de données à grande échelle: Synthèse de données d'entraînement supplémentaires pour améliorer le classificateur
- Mécanismes conditionnels: Amélioration du contrôle sémantique et de la diversité des échantillons
- Applications spécifiques: Apprentissage peu-fourni ou apprentissage continu
- DCS établit avec succès un mécanisme de synergie entre le modèle de diffusion et le classificateur FSCIL
- La conception de récompenses multi-niveaux résout efficacement les problèmes d'alignement sémantique et de diversité
- Atteint des performances de pointe sur les benchmarks FSCIL standards
- Dépendance aux modèles pré-entraînés: Les performances dépendent de modèles de diffusion pré-entraînés de haute qualité
- Limitations de spécialisation de domaine: Les performances peuvent diminuer dans les domaines spécialisés où la couverture des données d'entraînement du modèle de diffusion est insuffisante
- Complexité computationnelle: Le système de récompenses multi-composantes et la boucle de renforcement itérative augmentent la charge d'ajustement et de calcul
- Explorer des méthodes de calcul de récompenses plus efficaces
- Étudier l'applicabilité dans davantage de domaines spécialisés
- Développer des variantes de cadre plus légères
- Innovation forte: Première proposition d'un mécanisme de renforcement mutuel entre le modèle de diffusion et le classificateur, concept novateur
- Conception technique raffinée: La conception de récompenses multi-niveaux est bien pensée avec des fondations théoriques solides
- Expériences complètes: Évaluation complète sur plusieurs ensembles de données standards avec études d'ablation détaillées
- Amélioration de performance notable: Améliorations significatives sur la tâche exigeante de FSCIL
- Surcharge computationnelle: Le processus de génération et le calcul de récompenses multiples augmentent le temps d'entraînement et les besoins en ressources
- Sensibilité aux hyperparamètres: Les poids des multiples composantes de récompense nécessitent un ajustement minutieux
- Vérification de généralisation insuffisante: Principalement validée dans le domaine de la vision par ordinateur, l'applicabilité à d'autres domaines reste inconnue
- Analyse théorique limitée: Absence de garanties théoriques sur la convergence et la stabilité
- Valeur académique: Fournit de nouvelles perspectives et voies techniques pour le domaine FSCIL
- Valeur pratique: Potentiel d'application dans les scénarios d'apprentissage continu avec ressources limitées
- Reproductibilité: Fourniture de détails d'implémentation détaillés et de paramètres d'hyperparamètres
- Systèmes d'apprentissage continu: Applications pratiques nécessitant l'apprentissage continu de nouvelles classes
- Environnements aux ressources limitées: Scénarios où le stockage de grandes quantités de données historiques n'est pas possible
- Apprentissage peu-fourni: Applications de domaine où les échantillons de nouvelles classes sont rares
L'article cite 82 références pertinentes, couvrant plusieurs domaines connexes incluant l'apprentissage incrémental de classe, l'apprentissage peu-fourni, et les modèles de diffusion, fournissant une base théorique solide et un soutien technique pour la recherche.