Continual learning the ability of a neural network to learn multiple sequential tasks without catastrophic forgetting remains a central challenge in developing adaptive artificial intelligence systems. While deep learning models achieve state-of-the-art performance across domains, they remain limited by overfitting and forgetting. This paper introduces Cluster-Aware Replay (CAR), a hybrid continual learning framework that integrates a small, class-balanced replay buffer with a regularization term based on Inter-Cluster Fitness (ICF) in the feature space. The ICF loss penalizes overlapping feature representations between new and previously learned tasks, encouraging geometric separation in the latent space and reducing interference. Using the standard five-task Split CIFAR-10 benchmark with a ResNet-18 backbone, initial experiments demonstrate that CAR better preserves earlier task performance compared to fine-tuning alone. These findings are preliminary but highlight feature-space regularization as a promising direction for mitigating catastrophic forgetting.
论文ID : 2510.07648标题 : Continual Learning for Adaptive AI Systems作者 : Md Hasibul Amin, Tamzid Tanvi Alam分类 : cs.LG (Machine Learning)发表时间 : 2025年10月12日 (arXiv v2)论文链接 : https://arxiv.org/abs/2510.07648 持续学习——神经网络在不发生灾难性遗忘的情况下学习多个连续任务的能力——仍然是开发自适应人工智能系统的核心挑战。虽然深度学习模型在各个领域都达到了最先进的性能,但它们仍然受到过拟合和遗忘的限制。本文介绍了聚类感知重放(CAR),这是一个混合持续学习框架,它将小型、类平衡的重放缓冲区与基于特征空间中聚类间适应度(ICF)的正则化项相结合。ICF损失惩罚新任务和先前学习任务之间重叠的特征表示,鼓励潜在空间中的几何分离并减少干扰。
本研究旨在解决神经网络中的灾难性遗忘 问题,即当模型学习新任务时,会快速丢失之前学习的知识。这与生物智能形成鲜明对比,人类大脑能够持续学习而不遗忘先前的技能。
实际应用需求 :现实世界的AI系统需要在不同时间点学习新任务,如推荐系统需要适应用户偏好变化资源效率 :重新训练整个模型代价昂贵,持续学习能够实现增量更新生物启发 :模拟人脑的学习机制是人工智能发展的重要方向正则化方法 :如EWC虽然内存高效,但在任务差异较大时会限制可塑性重放方法 :虽然有效但存在内存和隐私问题参数隔离 :如Progressive Networks能保证不遗忘但会导致模型规模快速增长特征空间方法 :相对较少被探索,存在发展空间作者认为现有方法主要关注参数或输出层面的约束,而对模型内部特征空间的几何结构关注不足。通过显式控制任务间特征空间的分离,可能是缓解灾难性遗忘的有效途径。
提出CAR框架 :结合小型重放缓冲区和特征空间正则化的混合方法设计ICF损失 :基于聚类间适应度的新颖正则化项,促进任务间特征分离几何约束创新 :强调特征空间几何结构而非仅关注参数正则化实验验证 :在Split CIFAR-10基准上验证了方法的有效性开辟新方向 :为特征空间感知的持续学习研究提供了新思路给定任务序列 T = ( T 1 , . . . , T N ) T = (T_1, ..., T_N) T = ( T 1 , ... , T N ) ,目标是使模型在学习任务 T N T_N T N 后,仍能在所有先前任务 T i T_i T i (其中 i < N i < N i < N ) 上保持良好性能。
网络结构 :
采用ResNet-18作为骨干网络 特征提取器:f θ ( ⋅ ) f_θ(·) f θ ( ⋅ ) (到全局平均池化层) 分类器:c φ ( ⋅ ) c_φ(·) c φ ( ⋅ ) (最终全连接层) 对于输入 x x x ,嵌入为 z = f θ ( x ) z = f_θ(x) z = f θ ( x ) ,logits为 y = c φ ( z ) y = c_φ(z) y = c φ ( z ) 质心计算 :
在任务 T k T_k T k 训练完成后,为每个类别 c c c 计算质心:
μ c = 1 ∣ D c ∣ ∑ x i ∈ D c f θ ( x i ) ∥ f θ ( x i ) ∥ 2 \mu_c = \frac{1}{|D_c|} \sum_{x_i \in D_c} \frac{f_θ(x_i)}{\|f_θ(x_i)\|_2} μ c = ∣ D c ∣ 1 ∑ x i ∈ D c ∥ f θ ( x i ) ∥ 2 f θ ( x i )
ICF损失 :
在训练任务 T k + 1 T_{k+1} T k + 1 时,对每个样本 x j x_j x j 鼓励其与所有先前学习的类别质心分离:
L I C F = − ∑ c ∈ C p r e v ∥ f θ ( x j ) ∥ f θ ( x j ) ∥ 2 − μ c ∥ 2 L_{ICF} = -\sum_{c \in C_{prev}} \left\|\frac{f_θ(x_j)}{\|f_θ(x_j)\|_2} - \mu_c\right\|_2 L I CF = − ∑ c ∈ C p re v ∥ f θ ( x j ) ∥ 2 f θ ( x j ) − μ c 2
其中 C p r e v C_{prev} C p re v 表示先前任务的类别集合。
总体损失 :
L t o t a l = L C E + λ ⋅ L I C F L_{total} = L_{CE} + λ · L_{ICF} L t o t a l = L CE + λ ⋅ L I CF
其中 L C E L_{CE} L CE 是在当前任务样本和重放样本上计算的交叉熵损失,λ λ λ 是平衡可塑性和稳定性的超参数。
特征空间几何约束 :不同于传统方法关注参数或logits,CAR直接在特征空间施加几何约束归一化距离度量 :使用L2归一化的特征向量计算距离,确保度量的一致性质心驱动的分离 :通过最大化与先前任务质心的距离来实现任务间分离混合策略 :结合重放和正则化的优势,相互补强Split CIFAR-10 :标准的5任务设置,每个任务包含2个类别划分方式 :Task 1: classes 0-1, Task 2: classes 2-3, ..., Task 5: classes 8-9骨干网络 :ResNet-18,从零开始训练优化器 :Adam,学习率0.001训练设置 :每个任务20个epoch,批大小32重放缓冲区 :每类20个样本平均准确率 :所有任务完成后在各任务上的平均准确率任务特定准确率 :分析各个任务的保持情况遗忘程度 :任务峰值准确率与最终准确率的差值Fine-tuning :简单微调基线EWC :弹性权重巩固iCaRL :增量分类器和表示学习SCR :对比重放方法性能对比 (Split CIFAR-10平均准确率):
Fine-tuning: 20-25% EWC: 35-45% iCaRL: 65-75% SCR: >80% CAR : 39.8%任务特定表现 :
任务完成后 T1 T2 T3 T4 T5 平均 Task 1 57 - - - - 57.0 Task 2 50 67 - - - 58.5 Task 3 28 10 72 - - 36.7 Task 4 12 12 40 70 - 33.5 Task 5 12 12 40 65 70 39.8
早期保持效果好 :Task 2完成后,Task 1准确率仅下降7个百分点(57%→50%)复杂度增加时退化 :Task 3后出现显著下降,表明当前正则化权重λ可能不足优于简单基线 :明显优于fine-tuning,但与成熟的重放方法仍有差距方法 平均准确率 Fine-tuning (无重放, λ=0) 22.0% 仅重放 (λ=0) 28.5% 仅ICF (无重放) 25.9% CAR (重放+ICF) 51.1%
分析 :ICF损失确实为重放方法提供了额外的改进,验证了特征空间正则化的有效性。
各任务的遗忘程度(峰值准确率 - 最终准确率):
Task 1: 45个百分点 Task 2: 55个百分点 Task 3: 32个百分点 Task 4: 5个百分点 显示出明显的时间梯度效应,越早的任务遗忘越严重。
正则化方法 :EWC:基于Fisher信息矩阵的重要性估计 SI:在线测量参数对损失变化的贡献 知识蒸馏:通过匹配logits保持先前功能 重放方法 :选择性重放:改进样本选择策略 iCaRL:维护类别样本进行增量学习 GEM:梯度投影避免增加过去样本的损失 生成重放 :使用GANs/VAEs合成伪样本 减少显式存储需求但增加训练复杂性 参数隔离 :Progressive Networks:为每个任务分配独立容量 PackNet:迭代剪枝和分配权重 本文与Liu等人的质心距离蒸馏和Gu等人的线性可分性保持工作相关,但CAR通过显式最大化聚类间分离提供了不同的视角。
特征空间正则化有效 :ICF损失能够减少早期任务的遗忘混合方法优势 :结合重放和特征约束比单独使用更有效需要自适应调节 :随着任务复杂度增加,需要动态调整正则化强度几何视角有前景 :从特征空间几何角度解决持续学习问题具有潜力性能差距 :与最先进的方法(如SCR)仍有显著差距超参数敏感 :λ的选择对性能影响较大,需要更好的自适应机制扩展性问题 :仅在相对简单的Split CIFAR-10上验证,需要更大规模验证理论分析不足 :缺乏对ICF损失收敛性和最优性的理论保证系统性超参数调优 :开发自适应λ调节机制距离感知目标 :探索更复杂的距离度量和分离目标扩展到更大数据集 :在CIFAR-100、ImageNet等数据集上验证理论基础 :建立特征空间分离与遗忘缓解的理论联系创新视角 :从特征空间几何角度切入持续学习问题,提供了新的思路方法简洁 :ICF损失设计简单直观,易于理解和实现实验设计合理 :包含了适当的消融实验和对比分析诚实报告 :作者坦诚地承认这是初步结果,需要进一步改进性能有限 :在标准基准上的表现不够突出,与SOTA方法差距较大实验规模小 :仅在Split CIFAR-10上验证,缺乏更广泛的实验理论深度不足 :缺乏对方法有效性的深入理论分析超参数依赖 :方法对λ的选择较为敏感,实用性受限学术贡献 :为持续学习领域提供了新的研究方向实用价值 :当前阶段实用价值有限,需要进一步改进可复现性 :方法描述清晰,实现相对简单启发性 :为后续研究提供了有价值的思路资源受限环境 :重放缓冲区较小的场景任务相似性高 :特征空间分离效果更明显的任务研究原型 :作为特征空间正则化研究的起点教学用途 :概念清晰,适合用于教学演示论文引用了持续学习领域的重要工作,包括:
Kirkpatrick et al. (2017): EWC方法 Rebuffi et al. (2017): iCaRL方法 Lopez-Paz & Ranzato (2017): GEM方法 Liu et al. (2023): 质心距离蒸馏 Gu et al. (2023): 线性可分性保持 总体评价 :这是一篇探索性的研究工作,提出了从特征空间几何角度解决持续学习问题的新思路。虽然当前的实验结果还不够突出,但为该领域提供了有价值的研究方向。作者诚实地承认了方法的局限性,并提出了明确的改进方向,体现了良好的学术态度。