2025-11-22T20:19:15.981080

Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL

Wu, Zhao, Chen et al.

Few-Shot Class-Incremental Learning (FSCIL) challenges models to sequentially learn new classes from minimal examples without forgetting prior knowledge, a task complicated by the stability-plasticity dilemma and data scarcity. Current FSCIL methods often struggle with generalization due to their reliance on limited datasets. While diffusion models offer a path for data augmentation, their direct application can lead to semantic misalignment or ineffective guidance. This paper introduces Diffusion-Classifier Synergy (DCS), a novel framework that establishes a mutual boosting loop between diffusion model and FSCIL classifier. DCS utilizes a reward-aligned learning strategy, where a dynamic, multi-faceted reward function derived from the classifier's state directs the diffusion model. This reward system operates at two levels: the feature level ensures semantic coherence and diversity using prototype-anchored maximum mean discrepancy and dimension-wise variance matching, while the logits level promotes exploratory image generation and enhances inter-class discriminability through confidence recalibration and cross-session confusion-aware mechanisms. This co-evolutionary process, where generated images refine the classifier and an improved classifier state yields better reward signals, demonstrably achieves state-of-the-art performance on FSCIL benchmarks, significantly enhancing both knowledge retention and new class learning.

academic

Sinergia Difusión-Clasificador: Aprendizaje Alineado por Recompensa mediante Bucle de Refuerzo Mutuo para FSCIL

Información Básica

ID del Artículo: 2510.03608
Título: Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL
Autores: Ruitao Wu, Yifan Zhao, Guangyao Chen, Jia Li
Clasificación: cs.CV
Conferencia de Publicación: NeurIPS 2025
Enlace del Artículo: https://arxiv.org/abs/2510.03608

Resumen

El Aprendizaje Incremental de Clases Pocas (Few-Shot Class-Incremental Learning, FSCIL) desafía al modelo a aprender secuencialmente nuevas clases a partir de muestras extremadamente limitadas, mientras se evita el olvido del conocimiento previo. Esta tarea se complica por el dilema estabilidad-plasticidad y la escasez de datos. Los métodos FSCIL actuales enfrentan dificultades en capacidad de generalización debido a su dependencia de conjuntos de datos limitados. Aunque los modelos de difusión ofrecen un camino para el aumento de datos, la aplicación directa puede conducir a desalineación semántica o guía ineficaz. Este artículo propone el marco de Sinergia Difusión-Clasificador (DCS), que establece un bucle de refuerzo mutuo entre el modelo de difusión y el clasificador FSCIL. DCS adopta una estrategia de aprendizaje alineado por recompensa, guiando el modelo de difusión mediante una función de recompensa multifacética dinámica derivada del estado del clasificador. El sistema de recompensa opera en dos niveles: a nivel de características, mediante diferencia máxima de medias anclada en prototipos y coincidencia de varianza dimensional, asegura consistencia semántica y diversidad; a nivel de logits, mediante recalibración de confianza y mecanismo consciente de confusión entre sesiones, promueve generación de imágenes exploratorias y mejora la distinguibilidad entre clases. En este proceso de coevolución, las imágenes generadas optimizan el clasificador, y el estado mejorado del clasificador produce señales de recompensa superiores, logrando rendimiento de última generación en puntos de referencia FSCIL, mejorando significativamente la retención de conocimiento y la capacidad de aprendizaje de nuevas clases.

Contexto de Investigación y Motivación

Definición del Problema

El Aprendizaje Incremental de Clases Pocas (FSCIL) es una tarea extremadamente desafiante que requiere que el modelo:

Aprendizaje Secuencial: Aprender nuevas clases a partir de flujos de datos continuos
Restricción de Pocas Muestras: Las nuevas clases tienen solo un pequeño número de muestras de entrenamiento (típicamente 5-shot)
Evitar el Olvido: Mantener el conocimiento de las clases aprendidas previamente

Desafíos Centrales

Dilema Estabilidad-Plasticidad: Encontrar equilibrio entre aprender nuevo conocimiento y mantener conocimiento antiguo
Escasez de Datos: Las muestras extremadamente limitadas de nuevas clases conducen a minimización de riesgo empírico poco confiable
Capacidad de Generalización Insuficiente: Los métodos existentes dependen excesivamente del conjunto de datos inicial limitado

Limitaciones de Métodos Existentes

Los métodos FSCIL tradicionales presentan principalmente dos problemas:

Desalineación Semántica e Insuficiencia de Diversidad: Las imágenes generadas directamente por modelos de difusión pueden presentar desviación semántica o diversidad insuficiente
Falta de Mecanismo de Retroalimentación: Carencia de mecanismo para que el modelo de difusión ajuste su salida según el estado actual del clasificador

Contribuciones Principales

Propuesta del Marco DCS: Primer bucle de refuerzo mutuo entre modelo de difusión y clasificador FSCIL, implementando generación alineada por recompensa mediante algoritmo DAS
Diseño de Recompensa Multinivel: Diseño de función de recompensa multifacética que opera a nivel de características y logits
- Nivel de características: Asegura consistencia semántica y promueve diversidad intraclase
- Nivel de logits: Guía generación de imágenes exploratorias y generalizables dentro de clases, mejorando distinguibilidad entre clases
Rendimiento de Última Generación: Logra resultados state-of-the-art en conjuntos de datos de referencia FSCIL, mejorando significativamente la retención de conocimiento de clases antiguas y el aprendizaje de nuevas clases

Explicación Detallada del Método

Definición de Tarea

FSCIL implica aprendizaje secuencial a partir de flujo de datos continuo $D_{train} = \{D^t_{train}\}^T_{t=0}$ , donde:

Cada sesión $t$ introduce muestras de entrenamiento de nuevo conjunto de clases disjuntas $C_t$ con pares $(x_i, y_i)$
La sesión base $(t=0)$ tiene datos suficientes, sesiones incrementales $(t>0)$ adoptan formato N-way K-shot
Después del entrenamiento en $D^t_{train}$ , el modelo debe evaluarse en todas las clases vistas $C^t_{seen} = \bigcup^t_{s=0} C_s$

Arquitectura del Modelo

Mecanismo de Bucle de Refuerzo Mutuo

La idea central de DCS es establecer retroalimentación bidireccional entre el modelo de difusión y el clasificador:

Cálculo de Recompensa: Calcular múltiples componentes de recompensa $R_i$ basados en la salida del clasificador $\sigma$ (parámetros $\theta$ ) para imagen generada $x$
Optimización del Modelo de Difusión: $\phi^* = \arg\max_\phi \sum_i R_i(\sigma_\theta(D(x;\phi)))$
Mejora del Clasificador: $\theta^* = \arg\min_\theta L_{cls}(\sigma_\theta; x \cup D(x;\phi^*), y)$

Diseño de Recompensa a Nivel de Características

1. Recompensa de Diferencia Máxima de Medias Anclada en Prototipos (R_PAMMD) $R_{PAMMD}(x_{gen}, I^{(c,N)}_{gen}) = -\alpha \frac{1}{N^2}\sum_{i=1}^N\sum_{j=1}^N k(z_i,z_j) + \beta \frac{1}{N}\sum_{i=1}^N k(z_i,\mu_c)$

Donde:

Primer término (diversidad): Fomenta diferencias entre imágenes generadas
Segundo término (consistencia): Asegura consistencia semántica con prototipo de clase
$k(\cdot,\cdot)$ es función kernel positiva definida, $\mu_c$ es prototipo de clase

2. Recompensa de Coincidencia de Varianza Dimensional (R_VM) $R_{VM}(x_{gen}, I^{(c,N)}_{gen}) = -\sum_{d=1}^D (v^d_{gen} - v^d_{real})^2$

Mantiene consistencia de distribución de características coincidiendo varianza de imágenes generadas con imágenes reales en cada dimensión.

Diseño de Recompensa a Nivel de Logits

1. Recompensa de Recalibración de Confianza (R_RC) $R_{RC}(x_{gen}, y_c) = \log(\hat{p}(y_c|x_{gen};T))$

Donde parámetro de temperatura $T$ se ajusta adaptativamente según confianza original del clasificador: $T(x_{gen}) = T_{base} + T_{scale} \cdot \frac{\hat{p}_c(y_c|x_{gen}) - 1/N_c}{1 - 1/N_c}$

2. Recompensa Consciente de Confusión Entre Sesiones (R_CSCA) $R_{CSCA}(x_{gen}, y_c) = \sum_{y \in C} w_y(x_{gen}) \log(\hat{p}(y|x_{gen};T_s))$

Donde peso dinámico: $w_{y_t}(x_{gen}) = \frac{1}{1 + \gamma \cdot d_{cos}(x_{gen}, \mu_t)}$

Puntos de Innovación Técnica

Mecanismo de Retroalimentación Bidireccional: Primera implementación de coevolución sinérgica entre modelo de difusión y clasificador
Diseño de Recompensa Multinivel: Optimización simultánea en espacio de características y decisión
Ajuste de Temperatura Adaptativo: Ajusta dinámicamente suavidad de recompensa según confianza del clasificador
Generación Consciente de Confusión: Genera activamente muestras difíciles para mejorar distinguibilidad entre clases

Configuración Experimental

Conjuntos de Datos

CIFAR-100: 60 clases en sesión base, 40 clases en sesión incremental (8-way 5-shot)
miniImageNet: 60 clases en sesión base, 40 clases en sesión incremental (8-way 5-shot)
CUB-200: 100 clases en sesión base, 40 clases en sesión incremental (10-way 5-shot)

Métricas de Evaluación

Precisión de Sesión: Rendimiento del modelo dentro de sesión de aprendizaje específica
Precisión Promedio: Media de precisiones de todas las sesiones desde inicial hasta actual

Métodos de Comparación

Incluye métodos FSCIL principales como TOPIC, CEC, FACT, TEEN, SAVC, DyCR, ALFSCIL, OrCo, ADBS, etc.

Detalles de Implementación

Modelo de Difusión: Stable Diffusion 3.5 Medium
Generación de Imágenes: 30 imágenes por clase en sesión base, 30 para nuevas clases/10 para clases antiguas en nuevas sesiones
Red Troncal: ResNet-18 (CUB-200), ResNet-12 (miniImageNet, CIFAR-100)
Optimizador: SGD, momento 0.9, decaimiento de peso 0.0005

Resultados Experimentales

Resultados Principales

Resultados en Conjunto de Datos miniImageNet:

Precisión promedio DCS: 68.14%
Mejor baseline (OrCo): 66.90%
Mejora: +1.24%

Resultados en Conjunto de Datos CUB-200:

Precisión promedio DCS: 69.73%
Mejor baseline (SAVC): 69.35%
Mejora: +0.38%

Resultados en Conjunto de Datos CIFAR-100:

Precisión promedio DCS: 66.36%
Mejor baseline (ALFSCIL): 66.75%

Estudios de Ablación

Investigación de ablación en CIFAR-100 mostrando contribución de cada componente:

Solo R_PAMMD: +1.24%
+R_VM: +1.86%
+R_RC: +3.50%
+R_CSCA (DCS completo): +5.64%

Los resultados demuestran que recompensas a nivel de logits son más críticas para mejora de rendimiento.

Análisis de Calidad de Generación

Mejora FID: Recompensas a nivel de características mejoran significativamente FID y puntuación CLIP
Mejora de Puntuación CLIP: R_RC obtiene mejor puntuación CLIP
Degradación Estratégica: R_CSCA degrada intencionalmente calidad de generación para producir muestras difíciles cerca del límite

Hallazgos Experimentales

Ventaja de Eficiencia: DCS logra rendimiento de generación a gran escala con pocas imágenes generadas
Sinergia de Componentes: Todos los componentes de recompensa contribuyen positivamente al rendimiento final
Consistencia Entre Conjuntos de Datos: Diseño de recompensa muestra rendimiento consistente en diferentes conjuntos de datos

Trabajo Relacionado

Aprendizaje Incremental de Clases

Métodos de Reproducción de Datos: Almacenar o generar datos de tareas previas
Métodos de Expansión de Red: Ajustar dinámicamente arquitectura del modelo
Métodos de Regularización de Parámetros: Ajustar parámetros en estructura de red fija

Aprendizaje Incremental de Clases Pocas

Métodos de Red Dinámica: Mantener relaciones de espacio de características ajustando estructura de red
Métodos de Metaaprendizaje: Introducir conceptos de metaaprendizaje
Métodos de Espacio de Características: Mejorar robustez de espacio de características mediante instancias de clase virtual
Métodos de Modelo Preentrenado: Utilizar modelos visión-lenguaje como CLIP

Modelos de Difusión para Clasificación de Imágenes

Aumento de Datos a Gran Escala: Sintetizar datos de entrenamiento adicionales para mejorar clasificador
Mecanismos Condicionales: Mejorar control semántico y diversidad de muestras
Aplicaciones Específicas: Aprendizaje pocas muestras o aprendizaje continuo

Conclusiones y Discusión

Conclusiones Principales

DCS establece exitosamente mecanismo sinérgico entre modelo de difusión y clasificador FSCIL
Diseño de recompensa multinivel resuelve efectivamente alineación semántica y problemas de diversidad
Logra rendimiento de última generación en puntos de referencia FSCIL estándar

Limitaciones

Dependencia de Modelo Preentrenado: Rendimiento depende de modelo de difusión preentrenado de alta calidad
Restricción de Especialización de Dominio: Rendimiento puede disminuir en dominios especializados con cobertura insuficiente de datos de entrenamiento de difusión
Complejidad Computacional: Sistema de recompensa multicomponente y bucle de refuerzo iterativo aumentan carga de ajuste fino y computación

Direcciones Futuras

Explorar métodos de cálculo de recompensa más eficientes
Investigar aplicabilidad en más dominios especializados
Desarrollar variantes de marco más ligeras

Evaluación Profunda

Ventajas

Innovación Fuerte: Primer mecanismo de refuerzo mutuo entre modelo de difusión y clasificador, concepto novedoso
Diseño Técnico Refinado: Diseño de recompensa multinivel bien considerado, base teórica sólida
Experimentación Completa: Evaluación exhaustiva en múltiples conjuntos de datos estándar, incluyendo estudios de ablación detallados
Mejora de Rendimiento Significativa: Logra mejoras notables en tarea desafiante FSCIL

Insuficiencias

Costo Computacional: Proceso de generación y cálculo de recompensas múltiples aumentan tiempo de entrenamiento y requisitos de recursos
Sensibilidad de Hiperparámetros: Múltiples componentes de recompensa requieren ajuste cuidadoso de pesos
Validación de Generalización Insuficiente: Validación principalmente en dominio visión por computadora, aplicabilidad en otros dominios desconocida
Análisis Teórico Limitado: Carencia de garantías teóricas sobre convergencia y estabilidad

Impacto

Valor Académico: Proporciona nuevas ideas de investigación y caminos técnicos para campo FSCIL
Valor Práctico: Tiene potencial de aplicación en escenarios de aprendizaje continuo con recursos limitados
Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros

Escenarios Aplicables

Sistemas de Aprendizaje Continuo: Aplicaciones prácticas que requieren aprender continuamente nuevas clases
Entornos con Recursos Limitados: Escenarios donde no se pueden almacenar grandes cantidades de datos históricos
Aprendizaje Pocas Muestras: Aplicaciones de dominio donde muestras de nuevas clases son escasas

Referencias

El artículo cita 82 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo aprendizaje incremental de clases, aprendizaje pocas muestras, modelos de difusión, etc., proporcionando base teórica sólida y apoyo técnico para la investigación.