Few-Shot Class-Incremental Learning (FSCIL) challenges models to sequentially learn new classes from minimal examples without forgetting prior knowledge, a task complicated by the stability-plasticity dilemma and data scarcity. Current FSCIL methods often struggle with generalization due to their reliance on limited datasets. While diffusion models offer a path for data augmentation, their direct application can lead to semantic misalignment or ineffective guidance. This paper introduces Diffusion-Classifier Synergy (DCS), a novel framework that establishes a mutual boosting loop between diffusion model and FSCIL classifier. DCS utilizes a reward-aligned learning strategy, where a dynamic, multi-faceted reward function derived from the classifier's state directs the diffusion model. This reward system operates at two levels: the feature level ensures semantic coherence and diversity using prototype-anchored maximum mean discrepancy and dimension-wise variance matching, while the logits level promotes exploratory image generation and enhances inter-class discriminability through confidence recalibration and cross-session confusion-aware mechanisms. This co-evolutionary process, where generated images refine the classifier and an improved classifier state yields better reward signals, demonstrably achieves state-of-the-art performance on FSCIL benchmarks, significantly enhancing both knowledge retention and new class learning.
- ID Articolo: 2510.03608
- Titolo: Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL
- Autori: Ruitao Wu, Yifan Zhao, Guangyao Chen, Jia Li
- Classificazione: cs.CV
- Conferenza di Pubblicazione: NeurIPS 2025
- Link Articolo: https://arxiv.org/abs/2510.03608
L'Apprendimento Incrementale di Classi Poche (FSCIL) rappresenta una sfida nel far apprendere ai modelli nuove classi da campioni estremamente limitati in modo sequenziale, mantenendo al contempo la conoscenza precedente. Questo compito è complicato dal dilemma stabilità-plasticità e dalla scarsità di dati. I metodi FSCIL attuali presentano difficoltà nella capacità di generalizzazione a causa della dipendenza da insiemi di dati limitati. Sebbene i modelli di diffusione offrano un percorso per l'aumento dei dati, l'applicazione diretta può portare a disallineamento semantico o guida inefficace. Questo articolo propone il framework Diffusion-Classifier Synergy (DCS), che stabilisce un ciclo di mutuo potenziamento tra modelli di diffusione e classificatori FSCIL. DCS adotta una strategia di apprendimento allineato ai premi, guidando il modello di diffusione attraverso una funzione di premio dinamica e multifaccettata derivata dallo stato del classificatore. Il sistema di premio opera su due livelli: a livello di caratteristiche, attraverso l'ancoraggio prototipico della massima differenza media e l'abbinamento della varianza dimensionale, garantisce coerenza semantica e diversità; a livello di logit, attraverso la ricalibratura della confidenza e meccanismi consapevoli della confusione tra sessioni, promuove la generazione di immagini esplorative e migliora la distinguibilità tra classi. Questo processo di co-evoluzione, in cui le immagini generate ottimizzano il classificatore e lo stato del classificatore migliorato produce segnali di premio migliori, raggiunge prestazioni all'avanguardia nei benchmark FSCIL, migliorando significativamente la conservazione della conoscenza e la capacità di apprendimento di nuove classi.
L'Apprendimento Incrementale di Classi Poche (FSCIL) è un compito estremamente impegnativo che richiede al modello di:
- Apprendimento Sequenziale: Imparare nuove classi da flussi di dati continui
- Vincolo di Pochi Campioni: Le nuove classi hanno solo pochi campioni di addestramento (tipicamente 5-shot)
- Evitare l'Oblio: Mantenere la conoscenza delle classi precedentemente apprese
- Dilemma Stabilità-Plasticità: Trovare l'equilibrio tra l'apprendimento di nuove conoscenze e il mantenimento di quelle vecchie
- Scarsità di Dati: I pochi campioni delle nuove classi portano a una minimizzazione inaffidabile del rischio empirico
- Capacità di Generalizzazione Insufficiente: I metodi esistenti dipendono eccessivamente da insiemi di dati iniziali limitati
I metodi FSCIL tradizionali presentano principalmente due problemi:
- Disallineamento Semantico e Diversità Insufficiente: L'uso diretto di immagini generate da modelli di diffusione può presentare deviazioni semantiche o diversità insufficiente
- Mancanza di Meccanismo di Retroazione: Manca un meccanismo per il modello di diffusione di adattare l'output in base allo stato attuale del classificatore
- Propone il Framework DCS: Introduce per la prima volta un ciclo di mutuo potenziamento tra modelli di diffusione e classificatori FSCIL, implementando la generazione allineata ai premi tramite l'algoritmo DAS
- Progettazione di Premi Multilivello: Progetta una funzione di premio multifaccettata che opera a livello di caratteristiche e logit
- Livello di caratteristiche: Garantisce coerenza semantica e promuove diversità intra-classe
- Livello di logit: Guida la generazione di immagini intra-classe esplorative e generalizzabili e migliora la distinguibilità tra classi
- Prestazioni all'Avanguardia: Raggiunge risultati state-of-the-art sui dataset di benchmark FSCIL, migliorando significativamente la conservazione della conoscenza delle classi vecchie e l'apprendimento delle nuove classi
FSCIL comporta l'apprendimento sequenziale da un flusso di dati continuo Dtrain={Dtraint}t=0T, dove:
- Ogni sessione t introduce campioni di addestramento di un nuovo insieme di classi disgiunte Ct nella forma (xi,yi)
- La sessione di base (t=0) dispone di dati sufficienti, mentre le sessioni incrementali (t>0) seguono il formato N-way K-shot
- Dopo l'addestramento su Dtraint, il modello deve essere valutato su tutte le classi viste Cseent=⋃s=0tCs
L'idea centrale di DCS è stabilire una retroazione bidirezionale tra il modello di diffusione e il classificatore:
- Calcolo del Premio: Calcola più componenti di premio Ri basati sull'output del classificatore σ (parametri θ) per l'immagine generata x
- Ottimizzazione del Modello di Diffusione:
ϕ∗=argmaxϕ∑iRi(σθ(D(x;ϕ)))
- Miglioramento del Classificatore:
θ∗=argminθLcls(σθ;x∪D(x;ϕ∗),y)
1. Premio di Ancoraggio Prototipico della Massima Differenza Media (R_PAMMD)RPAMMD(xgen,Igen(c,N))=−αN21∑i=1N∑j=1Nk(zi,zj)+βN1∑i=1Nk(zi,μc)
Dove:
- Il primo termine (diversità): Incoraggia la differenza tra le immagini generate
- Il secondo termine (coerenza): Garantisce la coerenza semantica con il prototipo di classe
- k(⋅,⋅) è una funzione kernel definita positiva, μc è il prototipo di classe
2. Premio di Abbinamento della Varianza Dimensionale (R_VM)RVM(xgen,Igen(c,N))=−∑d=1D(vgend−vreald)2
Mantiene la coerenza della distribuzione delle caratteristiche abbinando la varianza delle immagini generate con quelle reali in ogni dimensione.
1. Premio di Ricalibratura della Confidenza (R_RC)RRC(xgen,yc)=log(p^(yc∣xgen;T))
Dove il parametro di temperatura T si adatta dinamicamente in base alla confidenza grezza del classificatore:
T(xgen)=Tbase+Tscale⋅1−1/Ncp^c(yc∣xgen)−1/Nc
2. Premio Consapevole della Confusione tra Sessioni (R_CSCA)RCSCA(xgen,yc)=∑y∈Cwy(xgen)log(p^(y∣xgen;Ts))
Dove il peso dinamico è:
wyt(xgen)=1+γ⋅dcos(xgen,μt)1
- Meccanismo di Retroazione Bidirezionale: Implementa per la prima volta la co-evoluzione tra il modello di diffusione e il classificatore
- Progettazione di Premi Multilivello: Ottimizza il processo di generazione contemporaneamente nello spazio delle caratteristiche e dello spazio decisionale
- Regolazione Adattiva della Temperatura: Adatta dinamicamente la levigatezza del premio in base alla confidenza del classificatore
- Generazione Consapevole della Confusione: Genera attivamente campioni difficili per migliorare la distinguibilità tra classi
- CIFAR-100: 60 classi nella sessione di base, 40 classi nelle sessioni incrementali (8-way 5-shot)
- miniImageNet: 60 classi nella sessione di base, 40 classi nelle sessioni incrementali (8-way 5-shot)
- CUB-200: 100 classi nella sessione di base, 40 classi nelle sessioni incrementali (10-way 5-shot)
- Accuratezza della Sessione: Prestazioni del modello all'interno di una sessione di apprendimento specifica
- Accuratezza Media: Media dell'accuratezza di tutte le sessioni dalla sessione iniziale a quella attuale
Include metodi FSCIL mainstream come TOPIC, CEC, FACT, TEEN, SAVC, DyCR, ALFSCIL, OrCo, ADBS, ecc.
- Modello di Diffusione: Stable Diffusion 3.5 Medium
- Generazione di Immagini: 30 immagini per classe nella sessione di base, 30 immagini per nuove classi e 10 immagini per classi vecchie nelle nuove sessioni
- Rete Backbone: ResNet-18 (CUB-200), ResNet-12 (miniImageNet, CIFAR-100)
- Ottimizzatore: SGD, momentum 0.9, weight decay 0.0005
Risultati sul Dataset miniImageNet:
- Accuratezza media DCS: 68.14%
- Miglior baseline (OrCo): 66.90%
- Incremento: +1.24%
Risultati sul Dataset CUB-200:
- Accuratezza media DCS: 69.73%
- Miglior baseline (SAVC): 69.35%
- Incremento: +0.38%
Risultati sul Dataset CIFAR-100:
- Accuratezza media DCS: 66.36%
- Miglior baseline (ALFSCIL): 66.75%
La ricerca di ablazione su CIFAR-100 mostra il contributo di ogni componente:
- Solo R_PAMMD: +1.24%
- +R_VM: +1.86%
- +R_RC: +3.50%
- +R_CSCA (DCS completo): +5.64%
I risultati indicano che i premi a livello di logit sono più critici per il miglioramento delle prestazioni.
- Miglioramento FID: I premi a livello di caratteristiche migliorano significativamente i punteggi FID e CLIP
- Aumento del Punteggio CLIP: R_RC ottiene il miglior punteggio CLIP
- Degradazione Strategica: R_CSCA intenzionalmente riduce la qualità della generazione per produrre campioni difficili vicino al confine
- Vantaggio di Efficienza: DCS raggiunge le prestazioni della generazione su larga scala con poche immagini generate
- Sinergia dei Componenti: Tutti i componenti del premio contribuiscono positivamente alle prestazioni finali
- Coerenza tra Dataset: La progettazione del premio mostra prestazioni coerenti su diversi dataset
- Metodi di Riproduzione dei Dati: Archiviazione o generazione di dati di compiti precedenti
- Metodi di Espansione della Rete: Adattamento dinamico dell'architettura del modello
- Metodi di Regolarizzazione dei Parametri: Adattamento dei parametri con struttura di rete fissa
- Metodi di Rete Dinamica: Mantenimento delle relazioni dello spazio delle caratteristiche attraverso l'adattamento della struttura della rete
- Metodi di Meta-Apprendimento: Introduzione di concetti di meta-apprendimento
- Metodi dello Spazio delle Caratteristiche: Miglioramento della robustezza dello spazio delle caratteristiche attraverso istanze di classi virtuali
- Metodi di Modelli Pre-Addestrati: Utilizzo di modelli visione-linguaggio come CLIP
- Aumento dei Dati su Larga Scala: Sintesi di dati di addestramento aggiuntivi per migliorare il classificatore
- Meccanismi Condizionali: Miglioramento del controllo semantico e della diversità dei campioni
- Applicazioni Specifiche per Scenario: Apprendimento con pochi campioni o apprendimento continuo
- DCS stabilisce con successo un meccanismo di sinergia tra il modello di diffusione e il classificatore FSCIL
- La progettazione di premi multilivello risolve efficacemente i problemi di allineamento semantico e diversità
- Raggiunge prestazioni all'avanguardia sui benchmark FSCIL standard
- Dipendenza da Modelli Pre-Addestrati: Le prestazioni dipendono da modelli di diffusione pre-addestrati di alta qualità
- Limitazioni di Specializzazione del Dominio: Le prestazioni potrebbero diminuire in domini specializzati dove la copertura dei dati di addestramento del modello di diffusione è insufficiente
- Complessità Computazionale: Il sistema di premi multi-componente e il ciclo di potenziamento iterativo aumentano l'onere dell'ottimizzazione e della computazione
- Esplorare metodi di calcolo dei premi più efficienti
- Ricercare l'applicabilità in più domini specializzati
- Sviluppare varianti di framework più leggere
- Forte Innovatività: Introduce per la prima volta un meccanismo di mutuo potenziamento tra il modello di diffusione e il classificatore, concetto innovativo
- Progettazione Tecnica Raffinata: La progettazione di premi multilivello è ben considerata con fondamenta teoriche solide
- Sperimentazione Completa: Valutazione completa su più dataset standard, inclusi studi di ablazione dettagliati
- Miglioramento Significativo delle Prestazioni: Raggiunge miglioramenti significativi nel compito impegnativo di FSCIL
- Sovraccarico Computazionale: Il processo di generazione e il calcolo di premi multipli aumentano il tempo di addestramento e i requisiti di risorse
- Sensibilità ai Iperparametri: I pesi di più componenti di premio richiedono un'attenta ottimizzazione
- Validazione della Generalizzabilità Insufficiente: Principalmente validato nel dominio della visione artificiale, l'applicabilità in altri domini rimane sconosciuta
- Analisi Teorica Limitata: Manca la garanzia teorica sulla convergenza e la stabilità
- Valore Accademico: Fornisce nuovi percorsi di ricerca e approcci tecnici al campo FSCIL
- Valore Pratico: Ha potenziale applicativo in scenari di apprendimento continuo con risorse limitate
- Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni di iperparametri
- Sistemi di Apprendimento Continuo: Applicazioni pratiche che richiedono l'apprendimento continuo di nuove classi
- Ambienti con Risorse Limitate: Scenari in cui non è possibile archiviare grandi quantità di dati storici
- Apprendimento con Pochi Campioni: Applicazioni di dominio dove i campioni delle nuove classi sono scarsi
L'articolo cita 82 articoli correlati, coprendo più domini rilevanti come apprendimento incrementale di classi, apprendimento con pochi campioni, modelli di diffusione, fornendo una base teorica solida e supporto tecnico per la ricerca.