2025-11-24T09:58:18.212416

Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation

Zhou, Zhu, Cui et al.
Continual Test-Time Adaptation (CTTA) aims to quickly fine-tune the model during the test phase so that it can adapt to multiple unknown downstream domain distributions without pre-acquiring downstream domain data. To this end, existing advanced CTTA methods mainly reduce the catastrophic forgetting of historical knowledge caused by irregular switching of downstream domain data by restoring the initial model or reusing historical models. However, these methods are usually accompanied by serious insufficient learning of new knowledge and interference from potentially harmful historical knowledge, resulting in severe performance degradation. To this end, we propose a class-aware domain Knowledge Fusion and Fission method for continual test-time adaptation, called KFF, which adaptively expands and merges class-aware domain knowledge in old and new domains according to the test-time data from different domains, where discriminative historical knowledge can be dynamically accumulated. Specifically, considering the huge domain gap within streaming data, a domain Knowledge FIssion (KFI) module is designed to adaptively separate new domain knowledge from a paired class-aware domain prompt pool, alleviating the impact of negative knowledge brought by old domains that are distinct from the current domain. Besides, to avoid the cumulative computation and storage overheads from continuously fissioning new knowledge, a domain Knowledge FUsion (KFU) module is further designed to merge the fissioned new knowledge into the existing knowledge pool with minimal cost, where a greedy knowledge dynamic merging strategy is designed to improve the compatibility of new and old knowledge while keeping the computational efficiency. Extensive experiments on the ImageNet-C dataset verify the effectiveness of our proposed method against other methods.
academic

Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation

基本信息

  • 论文ID: 2510.12150
  • 标题: Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation
  • 作者: Jiahuan Zhou, Chao Zhu, Zhenyu Cui, Zichen Liu, Xu Zou, Gang Hua
  • 分类: cs.CV (Computer Vision)
  • 发表会议: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
  • 论文链接: https://arxiv.org/abs/2510.12150

摘要

本文针对持续测试时适应(CTTA)问题,提出了一种类别感知的域知识融合与分裂方法KFF。该方法通过知识分裂(KFI)模块自适应分离新域知识,避免历史域的负面知识干扰;通过知识融合(KFU)模块将分裂的新知识以最小代价合并到现有知识池中。在ImageNet-C数据集上的实验表明,该方法相比SOTA方法DPCore提升了5.1%的性能。

研究背景与动机

问题定义

持续测试时适应(CTTA)旨在让预训练模型在测试阶段快速适应多个未知的下游域分布,而无需预先获取下游域数据。这是一个比传统测试时适应(TTA)更具挑战性的问题。

核心挑战

  1. 灾难性遗忘:当域数据不规律切换时,会导致历史知识的灾难性遗忘
  2. 新知识学习不足:现有方法在保持历史知识的同时,往往无法充分学习新知识
  3. 有害历史知识干扰:不同域之间的知识冲突会破坏梯度优化方向

现有方法局限性

  • 正则化方法:通过正则化保持历史知识,但会抑制新知识学习
  • 参数重置方法:通过恢复初始模型避免遗忘,但丢失有用的历史知识
  • 模型融合方法:选择和融合历史模型参数,但存在域冲突问题和无限增长的存储开销

核心贡献

  1. 提出KFF框架:首个类别感知的域知识融合与分裂框架,能够动态积累判别性历史知识
  2. 设计KFI模块:知识分裂模块能够自适应分离新域知识,减少不同域间的负面知识干扰
  3. 开发KFU模块:知识融合模块通过贪心策略合并知识,平衡效果与效率
  4. 取得SOTA性能:在ImageNet-C上达到34.8%错误率,比DPCore提升5.1%
  5. 提供理论分析:基于良分离聚类假设的理论保证

方法详解

任务定义

给定源域训练数据 DS={YS,XS}D_S = \{Y_S, X_S\} 和来自不同域分布的测试数据流 DT={XT}T=1ND_T = \{X_T\}_{T=1}^N,模型 fθf_θ 需要在线处理测试批次 BTj={xt}t=0bB_T^j = \{x_t\}_{t=0}^b,目标是适应目标域同时保持对历史域的能力。

模型架构

整体框架

KFF框架包含两个核心模块:

  • 知识分裂(KFI)模块:动态分裂类别感知域知识
  • 知识融合(KFU)模块:合并分裂知识到现有知识池

知识分裂模块(KFI)

类别知识分裂

  • 使用余弦相似度 st,i=sim(y~t,yi)s_{t,i} = \text{sim}(\tilde{y}_t, y_i) 评估伪标签与提示键的匹配度
  • 选择 st,i>γcs_{t,i} > γ_c 的候选提示,通过加权方式使用:
P_t = Σ_{i=0}^{N_c} w_i P_i^c, w_i = exp(s_{t,i}/τ_c) / Σ exp(s_{t,i}/τ_c)
  • 若无候选提示,则为测试样本分裂新提示

域知识分裂

  • 使用测试批次统计特征 ΓTj={μ,σ}Γ_T^j = \{μ, σ\} 作为输入键
  • 基于欧氏距离选择候选提示:di=ΓTjΓi2<γdd_i = \|Γ_T^j - Γ_i\|_2 < γ_d
  • 通过距离加权合并:
P^d = Σ_{i=0}^{N_d} w_i P_i^d, w_i = exp(-d_i/τ_d) / Σ exp(-d_i/τ_d)

知识融合模块(KFU)

类别知识融合

  • 使用熵阈值 γhγ_h 控制提示池更新
  • 对于新分裂的提示直接添加到池中
  • 对于组合提示,按权重更新原提示:
P_{c_i}^* = (1/b) Σ_{t=0}^b [w_{ti} P_t^* + (1-w_{ti}) P_i^c]
  • 使用最小生成树(MST)算法聚类并融合提示以控制池大小

域知识融合

  • 新提示直接添加到域提示池
  • 组合提示按权重更新:Pdi=wiPd+(1wi)PidP_{d_i}^* = w_i P_d^* + (1-w_i) P_i^d
  • 当池满时融合最近邻提示对

损失函数设计

采用双层损失函数:

L = L_d + a·L_c

其中:

  • 域对齐损失:Ld=μsμTj(P)2+ασsσTj(P)2L_d = \|μ_s - μ_T^j(P)\|_2 + α\|σ_s - σ_T^j(P)\|_2
  • 实例级熵损失:Lc=(1/b)Σt=0bH(y^t)L_c = (1/b) Σ_{t=0}^b H(\hat{y}_t)

实验设置

数据集

  • ImageNet-to-ImageNet-C:15种腐蚀类型,最高严重程度级别5
  • CIFAR100-to-CIFAR100-C:同样设置
  • CIFAR10-to-CIFAR10-C:同样设置

评价指标

  • 分类错误率(%)作为主要指标
  • 可学习参数数量、内存使用、计算时间作为效率指标

对比方法

  • TTA方法:TENT, SAR, POEM
  • CTTA方法:CoTTA, VDP, RoTTA, C-MAE, ROID, ViDA, CoLA, PALM, DPCore

实现细节

  • 骨干网络:ViT-B/16
  • 优化器:AdamW,域提示学习率0.1,类别提示学习率0.001
  • 批大小:64
  • 域提示长度:8,类别提示长度:1
  • 关键超参数:γd=25,γc=0.005,γh=2,Nd=20,Nc=100γ_d=25, γ_c=0.005, γ_h=2, N_d=20, N_c=100

实验结果

主要结果

非重复域设置

  • ImageNet-C:34.8% vs DPCore的39.9%,提升5.1%
  • CIFAR100-C:22.5% vs DPCore的25.1%,提升2.6%
  • CIFAR10-C:12.4% vs DPCore的15.4%,提升3.0%

重复域设置(10轮):

  • ImageNet-C平均错误率:34.5% vs DPCore的44.4%,提升9.9%
  • 性能在多轮中保持稳定,验证了方法的鲁棒性

效率分析

  • 仅引入0.09M可学习参数(约占模型总参数的0.1%)
  • 在重复域设置中,第10轮时DPCore使用约5倍于本方法的参数
  • 计算开销与DPCore相当,但性能显著更优

消融实验

各组件贡献分析:

  • 仅域提示+KFI+KFU:39.5%
  • 仅类别提示+KFI+KFU:50.9%
  • 双提示无KFI+KFU:62.9%(性能严重下降)
  • 双提示+KFI无KFU:36.9%
  • 完整方法:34.8%

结果表明每个组件都不可或缺,KFI模块对性能提升最为关键。

可视化分析

  • 注意力图分析:本方法能将注意力集中在与类别相关的判别区域
  • t-SNE分析:域提示键与测试批次统计特征形成良好的聚类分离
  • 类别分布分析:类别提示能有效映射不同类别到对应提示

理论分析

良分离聚类假设

假设测试批次可基于特征表示自然划分为N个良分离的聚类,存在阈值θ使得:

∀i≠j, max_{B,B'∈C_i} d(B,B') < θ < min_{B∈C_i,B'∈C_j} d(B,B')

理论保证

引理A.1:KFI机制能正确将所有批次分配到同聚类的提示 引理A.2:KFU机制仅融合同聚类内的提示
命题A.3:KFF方法能将所有批次正确分配到同聚类的提示

理论分析保证了方法的正确性,实验中的t-SNE可视化验证了理论假设。

相关工作

测试时适应(TTA)

  • 早期方法主要使用熵最小化、一致性最大化等自监督损失
  • 局限性:假设静态目标域,无法处理动态域变化

持续测试时适应(CTTA)

  • 正则化方法:EATA、EcoTTA通过正则化缓解错误积累
  • 重置方法:ERSK、CoTTA使用权重重置对抗灾难性遗忘
  • 提示学习方法:VDP、SVDP、DPCore利用少量参数学习域特定知识

提示学习

  • 从NLP扩展到计算视觉领域
  • 现有方法主要关注域级知识,忽略跨域共享的类别级信息

结论与讨论

主要结论

  1. KFF框架有效解决了CTTA中的域冲突问题
  2. 类别感知设计能更好地利用跨域共享知识
  3. 知识分裂与融合机制平衡了效果与效率
  4. 在多个基准数据集上取得显著性能提升

局限性

  1. 源域依赖:需要访问源域统计信息,在隐私受限场景下存在挑战
  2. 合成腐蚀:主要在人工设计的腐蚀上验证,真实世界分布偏移的鲁棒性有待验证
  3. 计算开销:虽然相对高效,但在资源受限设备上仍存在挑战
  4. 超参数敏感性:需要针对不同数据集调整关键超参数

未来方向

  1. 探索无源域统计信息的适应方法
  2. 在真实世界数据集上验证方法鲁棒性
  3. 进一步优化计算效率
  4. 研究超参数的自适应调整机制

深度评价

优点

  1. 创新性强:首次提出类别感知的知识分裂与融合框架,解决了重要的域冲突问题
  2. 理论支撑:提供了基于良分离聚类假设的理论分析
  3. 实验充分:在多个数据集上进行了全面的对比实验和消融研究
  4. 效率优越:在取得最佳性能的同时保持了计算效率
  5. 可视化清晰:通过注意力图和t-SNE等提供了直观的方法解释

不足

  1. 假设局限:良分离聚类假设在实际应用中可能不总是成立
  2. 评估局限:主要在合成腐蚀数据上评估,缺乏真实场景验证
  3. 源域依赖:需要源域统计信息限制了方法的适用性
  4. 超参数复杂:涉及多个超参数需要仔细调优

影响力

  1. 学术贡献:为CTTA领域提供了新的解决思路,预期引起广泛关注
  2. 实用价值:在自动驾驶、医疗影像等需要持续适应的场景有应用潜力
  3. 可复现性:作者承诺开源代码,有利于方法推广

适用场景

  • 需要持续适应多个域变化的计算视觉任务
  • 对参数效率有要求的边缘计算场景
  • 能够访问少量源域统计信息的应用
  • 域变化相对可预测的结构化环境

本论文在CTTA领域做出了重要贡献,通过创新的知识分裂与融合机制有效解决了域冲突问题,在保持计算效率的同时取得了显著的性能提升。尽管存在一些局限性,但其核心思想和技术创新为相关研究提供了有价值的参考。