2025-11-22T20:19:15.981080

Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL

Wu, Zhao, Chen et al.
Few-Shot Class-Incremental Learning (FSCIL) challenges models to sequentially learn new classes from minimal examples without forgetting prior knowledge, a task complicated by the stability-plasticity dilemma and data scarcity. Current FSCIL methods often struggle with generalization due to their reliance on limited datasets. While diffusion models offer a path for data augmentation, their direct application can lead to semantic misalignment or ineffective guidance. This paper introduces Diffusion-Classifier Synergy (DCS), a novel framework that establishes a mutual boosting loop between diffusion model and FSCIL classifier. DCS utilizes a reward-aligned learning strategy, where a dynamic, multi-faceted reward function derived from the classifier's state directs the diffusion model. This reward system operates at two levels: the feature level ensures semantic coherence and diversity using prototype-anchored maximum mean discrepancy and dimension-wise variance matching, while the logits level promotes exploratory image generation and enhances inter-class discriminability through confidence recalibration and cross-session confusion-aware mechanisms. This co-evolutionary process, where generated images refine the classifier and an improved classifier state yields better reward signals, demonstrably achieves state-of-the-art performance on FSCIL benchmarks, significantly enhancing both knowledge retention and new class learning.
academic

Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL

基本信息

  • 论文ID: 2510.03608
  • 标题: Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL
  • 作者: Ruitao Wu, Yifan Zhao, Guangyao Chen, Jia Li
  • 分类: cs.CV
  • 发表会议: NeurIPS 2025
  • 论文链接: https://arxiv.org/abs/2510.03608

摘要

Few-Shot Class-Incremental Learning (FSCIL) 挑战模型从极少样本中顺序学习新类别,同时不遗忘先前知识,这一任务因稳定性-可塑性困境和数据稀缺而变得复杂。当前FSCIL方法由于依赖有限数据集而在泛化能力上存在困难。虽然扩散模型为数据增强提供了路径,但直接应用可能导致语义错位或无效指导。本文提出了扩散-分类器协同(DCS)框架,在扩散模型和FSCIL分类器之间建立互相促进循环。DCS采用奖励对齐学习策略,通过源自分类器状态的动态多面奖励函数指导扩散模型。该奖励系统在两个层面运作:特征层面通过原型锚定最大均值差异和维度方差匹配确保语义一致性和多样性;logits层面通过置信度重校准和跨会话混淆感知机制促进探索性图像生成并增强类间可区分性。这种共同进化过程中,生成图像优化分类器,改进的分类器状态产生更好的奖励信号,在FSCIL基准测试中取得最先进性能,显著提升知识保持和新类学习能力。

研究背景与动机

问题定义

Few-Shot Class-Incremental Learning (FSCIL) 是一个极具挑战性的任务,要求模型:

  1. 顺序学习: 从连续的数据流中学习新类别
  2. 少样本约束: 新类别仅有少量训练样本(通常5-shot)
  3. 避免遗忘: 保持对先前学习类别的知识

核心挑战

  1. 稳定性-可塑性困境: 在学习新知识和保持旧知识之间找到平衡
  2. 数据稀缺: 新类别的极少样本导致不可靠的经验风险最小化
  3. 泛化能力不足: 现有方法过度依赖有限的初始数据集

现有方法局限性

传统FSCIL方法主要存在两个问题:

  1. 语义错位和多样性不足: 直接使用扩散模型生成的图像可能存在语义偏差或多样性不足
  2. 反馈机制缺失: 缺乏扩散模型根据分类器当前状态调整输出的机制

核心贡献

  1. 提出DCS框架: 首创扩散模型与FSCIL分类器间的互相促进循环,通过DAS算法实现奖励对齐生成
  2. 多层次奖励设计: 设计了在特征层面和logits层面运作的多面奖励函数
    • 特征层面:确保语义一致性和促进类内多样性
    • Logits层面:指导生成探索性、泛化的类内图像并增强类间可区分性
  3. 最先进性能: 在FSCIL基准数据集上取得state-of-the-art结果,显著改善旧类知识保持和新类学习效果

方法详解

任务定义

FSCIL涉及从连续数据流 Dtrain={Dtraint}t=0TD_{train} = \{D^t_{train}\}^T_{t=0} 中顺序学习,其中:

  • 每个会话 tt 引入新的不相交类别集合 CtC_t 的训练样本 (xi,yi)(x_i, y_i)
  • 基础会话 (t=0)(t=0) 有充足数据,增量会话 (t>0)(t>0) 采用N-way K-shot格式
  • 模型在 DtraintD^t_{train} 上训练后,需在所有已见类别 Cseent=s=0tCsC^t_{seen} = \bigcup^t_{s=0} C_s 上评估

模型架构

互相促进循环机制

DCS的核心思想是建立扩散模型和分类器间的双向反馈:

  1. 奖励计算: 基于分类器 σ\sigma (参数 θ\theta) 对生成图像 xx 的输出计算多个奖励组件 RiR_i
  2. 扩散模型优化: ϕ=argmaxϕiRi(σθ(D(x;ϕ)))\phi^* = \arg\max_\phi \sum_i R_i(\sigma_\theta(D(x;\phi)))
  3. 分类器改进: θ=argminθLcls(σθ;xD(x;ϕ),y)\theta^* = \arg\min_\theta L_{cls}(\sigma_\theta; x \cup D(x;\phi^*), y)

特征层面奖励设计

1. 原型锚定最大均值差异奖励 (R_PAMMD)RPAMMD(xgen,Igen(c,N))=α1N2i=1Nj=1Nk(zi,zj)+β1Ni=1Nk(zi,μc)R_{PAMMD}(x_{gen}, I^{(c,N)}_{gen}) = -\alpha \frac{1}{N^2}\sum_{i=1}^N\sum_{j=1}^N k(z_i,z_j) + \beta \frac{1}{N}\sum_{i=1}^N k(z_i,\mu_c)

其中:

  • 第一项(多样性):鼓励生成图像间的差异性
  • 第二项(一致性):确保与类原型的语义一致性
  • k(,)k(\cdot,\cdot) 为正定核函数,μc\mu_c 为类原型

2. 维度方差匹配奖励 (R_VM)RVM(xgen,Igen(c,N))=d=1D(vgendvreald)2R_{VM}(x_{gen}, I^{(c,N)}_{gen}) = -\sum_{d=1}^D (v^d_{gen} - v^d_{real})^2

通过匹配生成图像与真实图像在各维度上的方差来保持特征分布的一致性。

Logits层面奖励设计

1. 重校准置信度奖励 (R_RC)RRC(xgen,yc)=log(p^(ycxgen;T))R_{RC}(x_{gen}, y_c) = \log(\hat{p}(y_c|x_{gen};T))

其中温度参数 TT 根据分类器原始置信度自适应调整: T(xgen)=Tbase+Tscalep^c(ycxgen)1/Nc11/NcT(x_{gen}) = T_{base} + T_{scale} \cdot \frac{\hat{p}_c(y_c|x_{gen}) - 1/N_c}{1 - 1/N_c}

2. 跨会话混淆感知奖励 (R_CSCA)RCSCA(xgen,yc)=yCwy(xgen)log(p^(yxgen;Ts))R_{CSCA}(x_{gen}, y_c) = \sum_{y \in C} w_y(x_{gen}) \log(\hat{p}(y|x_{gen};T_s))

其中动态权重: wyt(xgen)=11+γdcos(xgen,μt)w_{y_t}(x_{gen}) = \frac{1}{1 + \gamma \cdot d_{cos}(x_{gen}, \mu_t)}

技术创新点

  1. 双向反馈机制: 首次实现扩散模型与分类器的协同进化
  2. 多层次奖励设计: 同时在特征和决策空间优化生成过程
  3. 自适应温度调节: 根据分类器置信度动态调整奖励平滑度
  4. 混淆感知生成: 主动生成困难样本以提升类间区分度

实验设置

数据集

  • CIFAR-100: 基础会话60类,增量会话40类(8-way 5-shot)
  • miniImageNet: 基础会话60类,增量会话40类(8-way 5-shot)
  • CUB-200: 基础会话100类,增量会话40类(10-way 5-shot)

评价指标

  • 会话准确率: 特定学习会话内的模型性能
  • 平均准确率: 从初始到当前会话的所有会话准确率均值

对比方法

包括TOPIC、CEC、FACT、TEEN、SAVC、DyCR、ALFSCIL、OrCo、ADBS等主流FSCIL方法

实现细节

  • 扩散模型: Stable Diffusion 3.5 Medium
  • 图像生成: 基础会话每类30张,新会话新类30张/旧类10张
  • 骨干网络: ResNet-18 (CUB-200), ResNet-12 (miniImageNet, CIFAR-100)
  • 优化器: SGD,动量0.9,权重衰减0.0005

实验结果

主要结果

miniImageNet数据集结果:

  • DCS平均准确率: 68.14%
  • 最佳baseline (OrCo): 66.90%
  • 提升幅度: +1.24%

CUB-200数据集结果:

  • DCS平均准确率: 69.73%
  • 最佳baseline (SAVC): 69.35%
  • 提升幅度: +0.38%

CIFAR-100数据集结果:

  • DCS平均准确率: 66.36%
  • 最佳baseline (ALFSCIL): 66.75%

消融实验

在CIFAR-100上的消融研究显示各组件贡献:

  • 仅R_PAMMD: +1.24%
  • +R_VM: +1.86%
  • +R_RC: +3.50%
  • +R_CSCA (完整DCS): +5.64%

结果表明logits层面奖励对性能提升更为关键。

生成质量分析

  • FID改善: 特征层面奖励显著改善FID和CLIP分数
  • CLIP分数提升: R_RC获得最佳CLIP分数
  • 策略性降质: R_CSCA故意降低生成质量以产生边界附近的困难样本

实验发现

  1. 效率优势: DCS在少量生成图像下达到大规模生成的性能
  2. 组件协同: 所有奖励组件都对最终性能有正向贡献
  3. 跨数据集一致性: 奖励设计在不同数据集上表现一致

相关工作

类增量学习

  • 数据重放方法: 存储或生成先前任务数据
  • 网络扩展方法: 动态调整模型架构
  • 参数正则化方法: 在固定网络结构下调整参数

少样本类增量学习

  • 动态网络方法: 通过调整网络结构维护特征空间关系
  • 元学习方法: 引入元学习概念
  • 特征空间方法: 通过虚拟类实例增强特征空间鲁棒性
  • 预训练模型方法: 利用CLIP等视觉-语言模型

扩散模型用于图像分类

  • 大规模数据增强: 合成额外训练数据改善分类器
  • 条件机制: 增强语义控制和样本多样性
  • 特定场景应用: 少样本学习或持续学习

结论与讨论

主要结论

  1. DCS成功建立了扩散模型与FSCIL分类器间的协同机制
  2. 多层次奖励设计有效解决了语义对齐和多样性问题
  3. 在标准FSCIL基准上取得了最先进的性能表现

局限性

  1. 依赖预训练模型: 性能依赖于高质量预训练扩散模型
  2. 领域特化限制: 在扩散模型训练数据覆盖不足的专业领域效果可能下降
  3. 计算复杂度: 多组件奖励系统和迭代促进循环增加了调优和计算负担

未来方向

  1. 探索更高效的奖励计算方法
  2. 研究在更多专业领域的适用性
  3. 开发更轻量级的框架变体

深度评价

优点

  1. 创新性强: 首次提出扩散模型与分类器的互相促进机制,概念新颖
  2. 技术设计精良: 多层次奖励设计考虑周全,理论基础扎实
  3. 实验充分: 在多个标准数据集上进行了全面评估,包含详细的消融研究
  4. 性能提升明显: 在challenging的FSCIL任务上取得显著改进

不足

  1. 计算开销: 生成过程和多重奖励计算增加了训练时间和资源需求
  2. 超参数敏感: 多个奖励组件的权重需要仔细调优
  3. 泛化性验证不足: 主要在计算机视觉领域验证,其他领域适用性未知
  4. 理论分析有限: 缺乏对收敛性和稳定性的理论保证

影响力

  1. 学术价值: 为FSCIL领域提供了新的研究思路和技术路径
  2. 实用价值: 在资源受限的持续学习场景中具有应用潜力
  3. 可复现性: 提供了详细的实现细节和超参数设置

适用场景

  1. 持续学习系统: 需要不断学习新类别的实际应用
  2. 资源受限环境: 无法存储大量历史数据的场景
  3. 少样本学习: 新类别样本稀少的领域应用

参考文献

论文引用了82篇相关文献,涵盖了类增量学习、少样本学习、扩散模型等多个相关领域的重要工作,为研究提供了坚实的理论基础和技术支撑。