Few-Shot Class-Incremental Learning (FSCIL) challenges models to sequentially learn new classes from minimal examples without forgetting prior knowledge, a task complicated by the stability-plasticity dilemma and data scarcity. Current FSCIL methods often struggle with generalization due to their reliance on limited datasets. While diffusion models offer a path for data augmentation, their direct application can lead to semantic misalignment or ineffective guidance. This paper introduces Diffusion-Classifier Synergy (DCS), a novel framework that establishes a mutual boosting loop between diffusion model and FSCIL classifier. DCS utilizes a reward-aligned learning strategy, where a dynamic, multi-faceted reward function derived from the classifier's state directs the diffusion model. This reward system operates at two levels: the feature level ensures semantic coherence and diversity using prototype-anchored maximum mean discrepancy and dimension-wise variance matching, while the logits level promotes exploratory image generation and enhances inter-class discriminability through confidence recalibration and cross-session confusion-aware mechanisms. This co-evolutionary process, where generated images refine the classifier and an improved classifier state yields better reward signals, demonstrably achieves state-of-the-art performance on FSCIL benchmarks, significantly enhancing both knowledge retention and new class learning.
- ID del Artículo: 2510.03608
- Título: Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL
- Autores: Ruitao Wu, Yifan Zhao, Guangyao Chen, Jia Li
- Clasificación: cs.CV
- Conferencia de Publicación: NeurIPS 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.03608
El Aprendizaje Incremental de Clases Pocas (Few-Shot Class-Incremental Learning, FSCIL) desafía al modelo a aprender secuencialmente nuevas clases a partir de muestras extremadamente limitadas, mientras se evita el olvido del conocimiento previo. Esta tarea se complica por el dilema estabilidad-plasticidad y la escasez de datos. Los métodos FSCIL actuales enfrentan dificultades en capacidad de generalización debido a su dependencia de conjuntos de datos limitados. Aunque los modelos de difusión ofrecen un camino para el aumento de datos, la aplicación directa puede conducir a desalineación semántica o guía ineficaz. Este artículo propone el marco de Sinergia Difusión-Clasificador (DCS), que establece un bucle de refuerzo mutuo entre el modelo de difusión y el clasificador FSCIL. DCS adopta una estrategia de aprendizaje alineado por recompensa, guiando el modelo de difusión mediante una función de recompensa multifacética dinámica derivada del estado del clasificador. El sistema de recompensa opera en dos niveles: a nivel de características, mediante diferencia máxima de medias anclada en prototipos y coincidencia de varianza dimensional, asegura consistencia semántica y diversidad; a nivel de logits, mediante recalibración de confianza y mecanismo consciente de confusión entre sesiones, promueve generación de imágenes exploratorias y mejora la distinguibilidad entre clases. En este proceso de coevolución, las imágenes generadas optimizan el clasificador, y el estado mejorado del clasificador produce señales de recompensa superiores, logrando rendimiento de última generación en puntos de referencia FSCIL, mejorando significativamente la retención de conocimiento y la capacidad de aprendizaje de nuevas clases.
El Aprendizaje Incremental de Clases Pocas (FSCIL) es una tarea extremadamente desafiante que requiere que el modelo:
- Aprendizaje Secuencial: Aprender nuevas clases a partir de flujos de datos continuos
- Restricción de Pocas Muestras: Las nuevas clases tienen solo un pequeño número de muestras de entrenamiento (típicamente 5-shot)
- Evitar el Olvido: Mantener el conocimiento de las clases aprendidas previamente
- Dilema Estabilidad-Plasticidad: Encontrar equilibrio entre aprender nuevo conocimiento y mantener conocimiento antiguo
- Escasez de Datos: Las muestras extremadamente limitadas de nuevas clases conducen a minimización de riesgo empírico poco confiable
- Capacidad de Generalización Insuficiente: Los métodos existentes dependen excesivamente del conjunto de datos inicial limitado
Los métodos FSCIL tradicionales presentan principalmente dos problemas:
- Desalineación Semántica e Insuficiencia de Diversidad: Las imágenes generadas directamente por modelos de difusión pueden presentar desviación semántica o diversidad insuficiente
- Falta de Mecanismo de Retroalimentación: Carencia de mecanismo para que el modelo de difusión ajuste su salida según el estado actual del clasificador
- Propuesta del Marco DCS: Primer bucle de refuerzo mutuo entre modelo de difusión y clasificador FSCIL, implementando generación alineada por recompensa mediante algoritmo DAS
- Diseño de Recompensa Multinivel: Diseño de función de recompensa multifacética que opera a nivel de características y logits
- Nivel de características: Asegura consistencia semántica y promueve diversidad intraclase
- Nivel de logits: Guía generación de imágenes exploratorias y generalizables dentro de clases, mejorando distinguibilidad entre clases
- Rendimiento de Última Generación: Logra resultados state-of-the-art en conjuntos de datos de referencia FSCIL, mejorando significativamente la retención de conocimiento de clases antiguas y el aprendizaje de nuevas clases
FSCIL implica aprendizaje secuencial a partir de flujo de datos continuo Dtrain={Dtraint}t=0T, donde:
- Cada sesión t introduce muestras de entrenamiento de nuevo conjunto de clases disjuntas Ct con pares (xi,yi)
- La sesión base (t=0) tiene datos suficientes, sesiones incrementales (t>0) adoptan formato N-way K-shot
- Después del entrenamiento en Dtraint, el modelo debe evaluarse en todas las clases vistas Cseent=⋃s=0tCs
La idea central de DCS es establecer retroalimentación bidireccional entre el modelo de difusión y el clasificador:
- Cálculo de Recompensa: Calcular múltiples componentes de recompensa Ri basados en la salida del clasificador σ (parámetros θ) para imagen generada x
- Optimización del Modelo de Difusión:
ϕ∗=argmaxϕ∑iRi(σθ(D(x;ϕ)))
- Mejora del Clasificador:
θ∗=argminθLcls(σθ;x∪D(x;ϕ∗),y)
1. Recompensa de Diferencia Máxima de Medias Anclada en Prototipos (R_PAMMD)RPAMMD(xgen,Igen(c,N))=−αN21∑i=1N∑j=1Nk(zi,zj)+βN1∑i=1Nk(zi,μc)
Donde:
- Primer término (diversidad): Fomenta diferencias entre imágenes generadas
- Segundo término (consistencia): Asegura consistencia semántica con prototipo de clase
- k(⋅,⋅) es función kernel positiva definida, μc es prototipo de clase
2. Recompensa de Coincidencia de Varianza Dimensional (R_VM)RVM(xgen,Igen(c,N))=−∑d=1D(vgend−vreald)2
Mantiene consistencia de distribución de características coincidiendo varianza de imágenes generadas con imágenes reales en cada dimensión.
1. Recompensa de Recalibración de Confianza (R_RC)RRC(xgen,yc)=log(p^(yc∣xgen;T))
Donde parámetro de temperatura T se ajusta adaptativamente según confianza original del clasificador:
T(xgen)=Tbase+Tscale⋅1−1/Ncp^c(yc∣xgen)−1/Nc
2. Recompensa Consciente de Confusión Entre Sesiones (R_CSCA)RCSCA(xgen,yc)=∑y∈Cwy(xgen)log(p^(y∣xgen;Ts))
Donde peso dinámico:
wyt(xgen)=1+γ⋅dcos(xgen,μt)1
- Mecanismo de Retroalimentación Bidireccional: Primera implementación de coevolución sinérgica entre modelo de difusión y clasificador
- Diseño de Recompensa Multinivel: Optimización simultánea en espacio de características y decisión
- Ajuste de Temperatura Adaptativo: Ajusta dinámicamente suavidad de recompensa según confianza del clasificador
- Generación Consciente de Confusión: Genera activamente muestras difíciles para mejorar distinguibilidad entre clases
- CIFAR-100: 60 clases en sesión base, 40 clases en sesión incremental (8-way 5-shot)
- miniImageNet: 60 clases en sesión base, 40 clases en sesión incremental (8-way 5-shot)
- CUB-200: 100 clases en sesión base, 40 clases en sesión incremental (10-way 5-shot)
- Precisión de Sesión: Rendimiento del modelo dentro de sesión de aprendizaje específica
- Precisión Promedio: Media de precisiones de todas las sesiones desde inicial hasta actual
Incluye métodos FSCIL principales como TOPIC, CEC, FACT, TEEN, SAVC, DyCR, ALFSCIL, OrCo, ADBS, etc.
- Modelo de Difusión: Stable Diffusion 3.5 Medium
- Generación de Imágenes: 30 imágenes por clase en sesión base, 30 para nuevas clases/10 para clases antiguas en nuevas sesiones
- Red Troncal: ResNet-18 (CUB-200), ResNet-12 (miniImageNet, CIFAR-100)
- Optimizador: SGD, momento 0.9, decaimiento de peso 0.0005
Resultados en Conjunto de Datos miniImageNet:
- Precisión promedio DCS: 68.14%
- Mejor baseline (OrCo): 66.90%
- Mejora: +1.24%
Resultados en Conjunto de Datos CUB-200:
- Precisión promedio DCS: 69.73%
- Mejor baseline (SAVC): 69.35%
- Mejora: +0.38%
Resultados en Conjunto de Datos CIFAR-100:
- Precisión promedio DCS: 66.36%
- Mejor baseline (ALFSCIL): 66.75%
Investigación de ablación en CIFAR-100 mostrando contribución de cada componente:
- Solo R_PAMMD: +1.24%
- +R_VM: +1.86%
- +R_RC: +3.50%
- +R_CSCA (DCS completo): +5.64%
Los resultados demuestran que recompensas a nivel de logits son más críticas para mejora de rendimiento.
- Mejora FID: Recompensas a nivel de características mejoran significativamente FID y puntuación CLIP
- Mejora de Puntuación CLIP: R_RC obtiene mejor puntuación CLIP
- Degradación Estratégica: R_CSCA degrada intencionalmente calidad de generación para producir muestras difíciles cerca del límite
- Ventaja de Eficiencia: DCS logra rendimiento de generación a gran escala con pocas imágenes generadas
- Sinergia de Componentes: Todos los componentes de recompensa contribuyen positivamente al rendimiento final
- Consistencia Entre Conjuntos de Datos: Diseño de recompensa muestra rendimiento consistente en diferentes conjuntos de datos
- Métodos de Reproducción de Datos: Almacenar o generar datos de tareas previas
- Métodos de Expansión de Red: Ajustar dinámicamente arquitectura del modelo
- Métodos de Regularización de Parámetros: Ajustar parámetros en estructura de red fija
- Métodos de Red Dinámica: Mantener relaciones de espacio de características ajustando estructura de red
- Métodos de Metaaprendizaje: Introducir conceptos de metaaprendizaje
- Métodos de Espacio de Características: Mejorar robustez de espacio de características mediante instancias de clase virtual
- Métodos de Modelo Preentrenado: Utilizar modelos visión-lenguaje como CLIP
- Aumento de Datos a Gran Escala: Sintetizar datos de entrenamiento adicionales para mejorar clasificador
- Mecanismos Condicionales: Mejorar control semántico y diversidad de muestras
- Aplicaciones Específicas: Aprendizaje pocas muestras o aprendizaje continuo
- DCS establece exitosamente mecanismo sinérgico entre modelo de difusión y clasificador FSCIL
- Diseño de recompensa multinivel resuelve efectivamente alineación semántica y problemas de diversidad
- Logra rendimiento de última generación en puntos de referencia FSCIL estándar
- Dependencia de Modelo Preentrenado: Rendimiento depende de modelo de difusión preentrenado de alta calidad
- Restricción de Especialización de Dominio: Rendimiento puede disminuir en dominios especializados con cobertura insuficiente de datos de entrenamiento de difusión
- Complejidad Computacional: Sistema de recompensa multicomponente y bucle de refuerzo iterativo aumentan carga de ajuste fino y computación
- Explorar métodos de cálculo de recompensa más eficientes
- Investigar aplicabilidad en más dominios especializados
- Desarrollar variantes de marco más ligeras
- Innovación Fuerte: Primer mecanismo de refuerzo mutuo entre modelo de difusión y clasificador, concepto novedoso
- Diseño Técnico Refinado: Diseño de recompensa multinivel bien considerado, base teórica sólida
- Experimentación Completa: Evaluación exhaustiva en múltiples conjuntos de datos estándar, incluyendo estudios de ablación detallados
- Mejora de Rendimiento Significativa: Logra mejoras notables en tarea desafiante FSCIL
- Costo Computacional: Proceso de generación y cálculo de recompensas múltiples aumentan tiempo de entrenamiento y requisitos de recursos
- Sensibilidad de Hiperparámetros: Múltiples componentes de recompensa requieren ajuste cuidadoso de pesos
- Validación de Generalización Insuficiente: Validación principalmente en dominio visión por computadora, aplicabilidad en otros dominios desconocida
- Análisis Teórico Limitado: Carencia de garantías teóricas sobre convergencia y estabilidad
- Valor Académico: Proporciona nuevas ideas de investigación y caminos técnicos para campo FSCIL
- Valor Práctico: Tiene potencial de aplicación en escenarios de aprendizaje continuo con recursos limitados
- Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros
- Sistemas de Aprendizaje Continuo: Aplicaciones prácticas que requieren aprender continuamente nuevas clases
- Entornos con Recursos Limitados: Escenarios donde no se pueden almacenar grandes cantidades de datos históricos
- Aprendizaje Pocas Muestras: Aplicaciones de dominio donde muestras de nuevas clases son escasas
El artículo cita 82 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo aprendizaje incremental de clases, aprendizaje pocas muestras, modelos de difusión, etc., proporcionando base teórica sólida y apoyo técnico para la investigación.