2025-11-24T09:58:18.212416

Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation

Zhou, Zhu, Cui et al.
Continual Test-Time Adaptation (CTTA) aims to quickly fine-tune the model during the test phase so that it can adapt to multiple unknown downstream domain distributions without pre-acquiring downstream domain data. To this end, existing advanced CTTA methods mainly reduce the catastrophic forgetting of historical knowledge caused by irregular switching of downstream domain data by restoring the initial model or reusing historical models. However, these methods are usually accompanied by serious insufficient learning of new knowledge and interference from potentially harmful historical knowledge, resulting in severe performance degradation. To this end, we propose a class-aware domain Knowledge Fusion and Fission method for continual test-time adaptation, called KFF, which adaptively expands and merges class-aware domain knowledge in old and new domains according to the test-time data from different domains, where discriminative historical knowledge can be dynamically accumulated. Specifically, considering the huge domain gap within streaming data, a domain Knowledge FIssion (KFI) module is designed to adaptively separate new domain knowledge from a paired class-aware domain prompt pool, alleviating the impact of negative knowledge brought by old domains that are distinct from the current domain. Besides, to avoid the cumulative computation and storage overheads from continuously fissioning new knowledge, a domain Knowledge FUsion (KFU) module is further designed to merge the fissioned new knowledge into the existing knowledge pool with minimal cost, where a greedy knowledge dynamic merging strategy is designed to improve the compatibility of new and old knowledge while keeping the computational efficiency. Extensive experiments on the ImageNet-C dataset verify the effectiveness of our proposed method against other methods.
academic

クラス認識型ドメイン知識融合・分裂による継続的テスト時適応

基本情報

  • 論文ID: 2510.12150
  • タイトル: Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation
  • 著者: Jiahuan Zhou, Chao Zhu, Zhenyu Cui, Zichen Liu, Xu Zou, Gang Hua
  • 分類: cs.CV(コンピュータビジョン)
  • 発表会議: NeurIPS 2025(第39回ニューラル情報処理システム会議)
  • 論文リンク: https://arxiv.org/abs/2510.12150

要約

本論文は継続的テスト時適応(CTTA)問題に対して、クラス認識型ドメイン知識融合・分裂方法KFFを提案する。本方法は知識分裂(KFI)モジュールを通じて新規ドメイン知識を適応的に分離し、履歴ドメインの負の知識干渉を回避する。また知識融合(KFU)モジュールにより、分裂された新知識を最小コストで既存知識プールに統合する。ImageNet-Cデータセット上の実験により、本方法はSOTA手法DPCoreと比較して5.1%の性能向上を達成した。

研究背景と動機

問題定義

継続的テスト時適応(CTTA)は、事前学習済みモデルがテスト段階で複数の未知下流ドメイン分布に迅速に適応することを目的とする。これは従来のテスト時適応(TTA)よりも挑戦的な問題である。

核心的課題

  1. 破滅的忘却:ドメインデータが不規則に切り替わる際、履歴知識の破滅的忘却が発生する
  2. 新知識学習の不足:既存手法は履歴知識を保持しながら、新知識を十分に学習できない
  3. 有害な履歴知識干渉:異なるドメイン間の知識競合が勾配最適化方向を破壊する

既存手法の限界

  • 正則化手法:正則化により履歴知識を保持するが、新知識学習を抑制する
  • パラメータリセット手法:初期モデルの復元により忘却を回避するが、有用な履歴知識を喪失する
  • モデル融合手法:履歴モデルパラメータを選択・融合するが、ドメイン競合問題と無限増加するストレージオーバーヘッドが存在する

核心的貢献

  1. KFFフレームワークの提案:動的に判別的履歴知識を蓄積できる初のクラス認識型ドメイン知識融合・分裂フレームワーク
  2. KFIモジュールの設計:新規ドメイン知識を適応的に分離し、異なるドメイン間の負の知識干渉を低減する知識分裂モジュール
  3. KFUモジュールの開発:貪欲戦略により知識を統合し、効果と効率のバランスを取る知識融合モジュール
  4. SOTA性能の達成:ImageNet-Cで34.8%のエラー率を達成し、DPCoreから5.1%の向上
  5. 理論分析の提供:良好分離クラスタリング仮説に基づく理論的保証

方法の詳細

タスク定義

ソースドメイン訓練データ DS={YS,XS}D_S = \{Y_S, X_S\} と異なるドメイン分布からのテストデータストリーム DT={XT}T=1ND_T = \{X_T\}_{T=1}^N が与えられた場合、モデル fθf_θ はテストバッチ BTj={xt}t=0bB_T^j = \{x_t\}_{t=0}^b をオンラインで処理する必要があり、目標は目標ドメインに適応しながら履歴ドメインへの能力を保持することである。

モデルアーキテクチャ

全体フレームワーク

KFFフレームワークは2つの核心モジュールで構成される:

  • 知識分裂(KFI)モジュール:動的にクラス認識型ドメイン知識を分裂
  • 知識融合(KFU)モジュール:分裂知識を既存知識プールに統合

知識分裂モジュール(KFI)

クラス知識分裂

  • コサイン類似度 st,i=sim(y~t,yi)s_{t,i} = \text{sim}(\tilde{y}_t, y_i) を使用して疑似ラベルとプロンプトキーの一致度を評価
  • st,i>γcs_{t,i} > γ_c の候補プロンプトを選択し、加重方式で使用:
P_t = Σ_{i=0}^{N_c} w_i P_i^c, w_i = exp(s_{t,i}/τ_c) / Σ exp(s_{t,i}/τ_c)
  • 候補プロンプトがない場合、テストサンプル用に新規プロンプトを分裂

ドメイン知識分裂

  • テストバッチ統計特徴 ΓTj={μ,σ}Γ_T^j = \{μ, σ\} を入力キーとして使用
  • ユークリッド距離に基づいて候補プロンプトを選択:di=ΓTjΓi2<γdd_i = \|Γ_T^j - Γ_i\|_2 < γ_d
  • 距離加重統合により:
P^d = Σ_{i=0}^{N_d} w_i P_i^d, w_i = exp(-d_i/τ_d) / Σ exp(-d_i/τ_d)

知識融合モジュール(KFU)

クラス知識融合

  • エントロピー閾値 γhγ_h を使用してプロンプトプール更新を制御
  • 新規分裂プロンプトはプールに直接追加
  • 統合プロンプトについては、重みに従って元のプロンプトを更新:
P_{c_i}^* = (1/b) Σ_{t=0}^b [w_{ti} P_t^* + (1-w_{ti}) P_i^c]
  • 最小全域木(MST)アルゴリズムを使用してプロンプトをクラスタリング・融合し、プールサイズを制御

ドメイン知識融合

  • 新規プロンプトはドメインプロンプトプールに直接追加
  • 統合プロンプトは重みに従って更新:Pdi=wiPd+(1wi)PidP_{d_i}^* = w_i P_d^* + (1-w_i) P_i^d
  • プールが満杯の場合、最近傍プロンプト対を融合

損失関数設計

二層損失関数を採用:

L = L_d + a·L_c

ここで:

  • ドメイン整列損失:Ld=μsμTj(P)2+ασsσTj(P)2L_d = \|μ_s - μ_T^j(P)\|_2 + α\|σ_s - σ_T^j(P)\|_2
  • インスタンスレベルエントロピー損失:Lc=(1/b)Σt=0bH(y^t)L_c = (1/b) Σ_{t=0}^b H(\hat{y}_t)

実験設定

データセット

  • ImageNet-to-ImageNet-C:15種類の腐蝕タイプ、最高重大度レベル5
  • CIFAR100-to-CIFAR100-C:同様の設定
  • CIFAR10-to-CIFAR10-C:同様の設定

評価指標

  • 分類エラー率(%)を主要指標とする
  • 学習可能パラメータ数、メモリ使用量、計算時間を効率指標とする

比較手法

  • TTA手法:TENT、SAR、POEM
  • CTTA手法:CoTTA、VDP、RoTTA、C-MAE、ROID、ViDA、CoLA、PALM、DPCore

実装詳細

  • バックボーンネットワーク:ViT-B/16
  • オプティマイザ:AdamW、ドメインプロンプト学習率0.1、クラスプロンプト学習率0.001
  • バッチサイズ:64
  • ドメインプロンプト長:8、クラスプロンプト長:1
  • 主要ハイパーパラメータ:γd=25,γc=0.005,γh=2,Nd=20,Nc=100γ_d=25, γ_c=0.005, γ_h=2, N_d=20, N_c=100

実験結果

主要結果

非反復ドメイン設定

  • ImageNet-C:34.8% vs DPCoreの39.9%、5.1%向上
  • CIFAR100-C:22.5% vs DPCoreの25.1%、2.6%向上
  • CIFAR10-C:12.4% vs DPCoreの15.4%、3.0%向上

反復ドメイン設定(10ラウンド):

  • ImageNet-C平均エラー率:34.5% vs DPCoreの44.4%、9.9%向上
  • 複数ラウンドにおいて性能が安定を保持し、方法の堅牢性を検証

効率分析

  • わずか0.09Mの学習可能パラメータを導入(モデル全体パラメータの約0.1%)
  • 反復ドメイン設定において、第10ラウンド時DPCoreは本方法の約5倍のパラメータを使用
  • 計算オーバーヘッドはDPCoreと同等だが、性能は著しく優れている

アブレーション実験

各コンポーネント貢献度分析:

  • ドメインプロンプトのみ+KFI+KFU:39.5%
  • クラスプロンプトのみ+KFI+KFU:50.9%
  • 双プロンプト、KFIなし+KFU:62.9%(性能が著しく低下)
  • 双プロンプト+KFI、KFUなし:36.9%
  • 完全な方法:34.8%

結果は各コンポーネントが不可欠であり、KFIモジュールが性能向上に最も重要であることを示す。

可視化分析

  • 注意力図分析:本方法は注意力をクラス関連の判別領域に集中させることができる
  • t-SNE分析:ドメインプロンプトキーとテストバッチ統計特徴が良好なクラスタリング分離を形成
  • クラス分布分析:クラスプロンプトは異なるクラスを対応するプロンプトに効果的にマッピング

理論分析

良好分離クラスタリング仮説

テストバッチが特徴表現に基づいてN個の良好分離クラスタに自然に分割可能であり、閾値θが存在して以下を満たすと仮定:

∀i≠j, max_{B,B'∈C_i} d(B,B') < θ < min_{B∈C_i,B'∈C_j} d(B,B')

理論的保証

補題A.1:KFIメカニズムはすべてのバッチを同一クラスタのプロンプトに正しく割り当てることができる 補題A.2:KFUメカニズムは同一クラスタ内のプロンプトのみを融合する
命題A.3:KFF方法はすべてのバッチを同一クラスタのプロンプトに正しく割り当てることができる

理論分析は方法の正確性を保証し、実験中のt-SNE可視化は理論仮説を検証する。

関連研究

テスト時適応(TTA)

  • 初期手法は主にエントロピー最小化、一貫性最大化などの自己教師あり損失を使用
  • 限界:静的目標ドメインを仮定し、動的ドメイン変化に対応できない

継続的テスト時適応(CTTA)

  • 正則化手法:EATA、EcoTTAは正則化により誤り蓄積を緩和
  • リセット手法:ERSK、CoTTAは重みリセットを使用して破滅的忘却に対抗
  • プロンプト学習手法:VDP、SVDP、DPCoreは少数パラメータを利用してドメイン固有知識を学習

プロンプト学習

  • NLPから計算視覚分野へ拡張
  • 既存手法は主にドメインレベル知識に焦点を当て、ドメイン間共有クラス情報を無視

結論と考察

主要結論

  1. KFFフレームワークはCTTAのドメイン競合問題を効果的に解決する
  2. クラス認識型設計はドメイン間共有知識をより良く活用できる
  3. 知識分裂・融合メカニズムは効果と効率のバランスを取る
  4. 複数のベンチマークデータセット上で著しい性能向上を達成

限界

  1. ソースドメイン依存:ソースドメイン統計情報へのアクセスが必要であり、プライバシー制限シナリオで課題がある
  2. 合成腐蝕:主に人工設計腐蝕上で検証され、実世界分布シフトの堅牢性は検証が必要
  3. 計算オーバーヘッド:相対的に効率的だが、リソース制限デバイス上では依然課題がある
  4. ハイパーパラメータ感度:異なるデータセットに対して主要ハイパーパラメータの調整が必要

今後の方向性

  1. ソースドメイン統計情報なしの適応方法の探索
  2. 実世界データセット上での方法堅牢性の検証
  3. 計算効率のさらなる最適化
  4. ハイパーパラメータの自適応調整メカニズムの研究

深度評価

利点

  1. 革新性が高い:クラス認識型知識分裂・融合フレームワークを初めて提案し、重要なドメイン競合問題を解決
  2. 理論的支援:良好分離クラスタリング仮説に基づく理論分析を提供
  3. 実験が充分:複数データセット上での包括的な比較実験とアブレーション研究を実施
  4. 効率が優れている:最高性能を達成しながら計算効率を保持
  5. 可視化が明確:注意力図とt-SNEなどにより直感的な方法説明を提供

不足

  1. 仮説の限界:良好分離クラスタリング仮説は実際の応用では常に成立しない可能性
  2. 評価の限界:主に合成腐蝕データ上で評価され、実世界シナリオの検証が不足
  3. ソースドメイン依存:ソースドメイン統計情報が必要であり、方法の適用性を制限
  4. ハイパーパラメータの複雑性:複数のハイパーパラメータが慎重な調整を必要とする

影響力

  1. 学術的貢献:CTTA分野に新しい解決思路を提供し、広範な関心を引き起こすと予想
  2. 実用的価値:自動運転、医療画像など継続的適応が必要なシナリオで応用可能性
  3. 再現性:著者がコード公開を約束し、方法推進に有利
  4. 適用シナリオ:複数ドメイン変化への継続的適応が必要なコンピュータビジョンタスク、エッジコンピューティングシナリオでのパラメータ効率要件、少量のソースドメイン統計情報にアクセス可能なアプリケーション、ドメイン変化が比較的予測可能な構造化環境

本論文はCTTA分野で重要な貢献を行い、革新的な知識分裂・融合メカニズムを通じてドメイン競合問題を効果的に解決し、計算効率を保持しながら著しい性能向上を達成した。いくつかの限界が存在するが、その核心的思想と技術革新は関連研究に価値ある参考を提供する。