2025-11-24T09:58:18.212416

Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation

Zhou, Zhu, Cui et al.
Continual Test-Time Adaptation (CTTA) aims to quickly fine-tune the model during the test phase so that it can adapt to multiple unknown downstream domain distributions without pre-acquiring downstream domain data. To this end, existing advanced CTTA methods mainly reduce the catastrophic forgetting of historical knowledge caused by irregular switching of downstream domain data by restoring the initial model or reusing historical models. However, these methods are usually accompanied by serious insufficient learning of new knowledge and interference from potentially harmful historical knowledge, resulting in severe performance degradation. To this end, we propose a class-aware domain Knowledge Fusion and Fission method for continual test-time adaptation, called KFF, which adaptively expands and merges class-aware domain knowledge in old and new domains according to the test-time data from different domains, where discriminative historical knowledge can be dynamically accumulated. Specifically, considering the huge domain gap within streaming data, a domain Knowledge FIssion (KFI) module is designed to adaptively separate new domain knowledge from a paired class-aware domain prompt pool, alleviating the impact of negative knowledge brought by old domains that are distinct from the current domain. Besides, to avoid the cumulative computation and storage overheads from continuously fissioning new knowledge, a domain Knowledge FUsion (KFU) module is further designed to merge the fissioned new knowledge into the existing knowledge pool with minimal cost, where a greedy knowledge dynamic merging strategy is designed to improve the compatibility of new and old knowledge while keeping the computational efficiency. Extensive experiments on the ImageNet-C dataset verify the effectiveness of our proposed method against other methods.
academic

클래스 인식 도메인 지식 융합 및 분열을 통한 지속적 테스트 시간 적응

기본 정보

  • 논문 ID: 2510.12150
  • 제목: Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation
  • 저자: Jiahuan Zhou, Chao Zhu, Zhenyu Cui, Zichen Liu, Xu Zou, Gang Hua
  • 분류: cs.CV (컴퓨터 비전)
  • 발표 학회: NeurIPS 2025 (제39회 신경정보처리시스템 학회)
  • 논문 링크: https://arxiv.org/abs/2510.12150

초록

본 논문은 지속적 테스트 시간 적응(CTTA) 문제를 해결하기 위해 클래스 인식 도메인 지식 융합 및 분열 방법 KFF를 제안한다. 이 방법은 지식 분열(KFI) 모듈을 통해 새로운 도메인 지식을 적응적으로 분리하여 과거 도메인의 부정적 지식 간섭을 방지하고, 지식 융합(KFU) 모듈을 통해 분열된 새로운 지식을 최소 비용으로 기존 지식 풀에 병합한다. ImageNet-C 데이터셋 실험 결과, 본 방법은 SOTA 방법인 DPCore 대비 5.1%의 성능 향상을 달성했다.

연구 배경 및 동기

문제 정의

지속적 테스트 시간 적응(CTTA)은 사전 학습된 모델이 테스트 단계에서 미리 획득하지 않은 여러 개의 미지 하위 도메인 분포에 빠르게 적응하도록 하는 것을 목표로 한다. 이는 기존의 테스트 시간 적응(TTA)보다 훨씬 더 도전적인 문제이다.

핵심 과제

  1. 재앙적 망각: 도메인 데이터가 불규칙하게 전환될 때 과거 지식의 재앙적 망각이 발생한다
  2. 새로운 지식 학습 부족: 기존 방법은 과거 지식을 유지하면서도 새로운 지식을 충분히 학습하지 못한다
  3. 해로운 과거 지식 간섭: 서로 다른 도메인 간의 지식 충돌은 그래디언트 최적화 방향을 훼손한다

기존 방법의 한계

  • 정규화 방법: 정규화를 통해 과거 지식을 유지하지만 새로운 지식 학습을 억제한다
  • 매개변수 재설정 방법: 초기 모델 복원을 통해 망각을 방지하지만 유용한 과거 지식을 손실한다
  • 모델 융합 방법: 과거 모델 매개변수를 선택하고 융합하지만 도메인 충돌 문제와 무한 증가하는 저장 오버헤드가 존재한다

핵심 기여

  1. KFF 프레임워크 제안: 동적으로 판별적 과거 지식을 축적할 수 있는 첫 번째 클래스 인식 도메인 지식 융합 및 분열 프레임워크
  2. KFI 모듈 설계: 새로운 도메인 지식을 적응적으로 분리하여 서로 다른 도메인 간의 부정적 지식 간섭을 감소시키는 지식 분열 모듈
  3. KFU 모듈 개발: 탐욕적 전략을 통해 지식을 병합하여 효과와 효율성의 균형을 맞추는 지식 융합 모듈
  4. SOTA 성능 달성: ImageNet-C에서 34.8% 오류율을 달성하여 DPCore 대비 5.1% 향상
  5. 이론적 분석 제공: 양호한 분리 클러스터링 가정에 기반한 이론적 보장

방법 상세 설명

작업 정의

소스 도메인 학습 데이터 DS={YS,XS}D_S = \{Y_S, X_S\}와 서로 다른 도메인 분포로부터의 테스트 데이터 스트림 DT={XT}T=1ND_T = \{X_T\}_{T=1}^N이 주어졌을 때, 모델 fθf_θ는 온라인으로 테스트 배치 BTj={xt}t=0bB_T^j = \{x_t\}_{t=0}^b를 처리해야 하며, 목표는 목표 도메인에 적응하면서 과거 도메인에 대한 능력을 유지하는 것이다.

모델 아키텍처

전체 프레임워크

KFF 프레임워크는 두 개의 핵심 모듈을 포함한다:

  • 지식 분열(KFI) 모듈: 동적으로 클래스 인식 도메인 지식을 분열
  • 지식 융합(KFU) 모듈: 분열된 지식을 기존 지식 풀에 병합

지식 분열 모듈(KFI)

클래스 지식 분열:

  • 코사인 유사도 st,i=sim(y~t,yi)s_{t,i} = \text{sim}(\tilde{y}_t, y_i)를 사용하여 의사 레이블과 프롬프트 키의 일치도를 평가
  • st,i>γcs_{t,i} > γ_c인 후보 프롬프트를 선택하고 가중치 방식으로 사용:
P_t = Σ_{i=0}^{N_c} w_i P_i^c, w_i = exp(s_{t,i}/τ_c) / Σ exp(s_{t,i}/τ_c)
  • 후보 프롬프트가 없으면 테스트 샘플에 대해 새로운 프롬프트를 분열

도메인 지식 분열:

  • 테스트 배치 통계 특성 ΓTj={μ,σ}Γ_T^j = \{μ, σ\}을 입력 키로 사용
  • 유클리드 거리를 기반으로 후보 프롬프트 선택: di=ΓTjΓi2<γdd_i = \|Γ_T^j - Γ_i\|_2 < γ_d
  • 거리 가중 병합을 통해:
P^d = Σ_{i=0}^{N_d} w_i P_i^d, w_i = exp(-d_i/τ_d) / Σ exp(-d_i/τ_d)

지식 융합 모듈(KFU)

클래스 지식 융합:

  • 엔트로피 임계값 γhγ_h를 사용하여 프롬프트 풀 업데이트 제어
  • 새로 분열된 프롬프트는 풀에 직접 추가
  • 결합 프롬프트의 경우 가중치에 따라 원본 프롬프트 업데이트:
P_{c_i}^* = (1/b) Σ_{t=0}^b [w_{ti} P_t^* + (1-w_{ti}) P_i^c]
  • 최소 생성 트리(MST) 알고리즘을 사용하여 프롬프트를 클러스터링하고 풀 크기 제어

도메인 지식 융합:

  • 새 프롬프트는 도메인 프롬프트 풀에 직접 추가
  • 결합 프롬프트는 가중치에 따라 업데이트: Pdi=wiPd+(1wi)PidP_{d_i}^* = w_i P_d^* + (1-w_i) P_i^d
  • 풀이 가득 찼을 때 가장 가까운 이웃 프롬프트 쌍을 융합

손실 함수 설계

이중 계층 손실 함수를 채택:

L = L_d + a·L_c

여기서:

  • 도메인 정렬 손실: Ld=μsμTj(P)2+ασsσTj(P)2L_d = \|μ_s - μ_T^j(P)\|_2 + α\|σ_s - σ_T^j(P)\|_2
  • 인스턴스 수준 엔트로피 손실: Lc=(1/b)Σt=0bH(y^t)L_c = (1/b) Σ_{t=0}^b H(\hat{y}_t)

실험 설정

데이터셋

  • ImageNet-to-ImageNet-C: 15가지 손상 유형, 최고 심각도 수준 5
  • CIFAR100-to-CIFAR100-C: 동일한 설정
  • CIFAR10-to-CIFAR10-C: 동일한 설정

평가 지표

  • 분류 오류율(%)을 주요 지표로 사용
  • 학습 가능한 매개변수 수, 메모리 사용량, 계산 시간을 효율성 지표로 사용

비교 방법

  • TTA 방법: TENT, SAR, POEM
  • CTTA 방법: CoTTA, VDP, RoTTA, C-MAE, ROID, ViDA, CoLA, PALM, DPCore

구현 세부사항

  • 백본 네트워크: ViT-B/16
  • 최적화기: AdamW, 도메인 프롬프트 학습률 0.1, 클래스 프롬프트 학습률 0.001
  • 배치 크기: 64
  • 도메인 프롬프트 길이: 8, 클래스 프롬프트 길이: 1
  • 주요 하이퍼매개변수: γd=25,γc=0.005,γh=2,Nd=20,Nc=100γ_d=25, γ_c=0.005, γ_h=2, N_d=20, N_c=100

실험 결과

주요 결과

비반복 도메인 설정:

  • ImageNet-C: 34.8% vs DPCore의 39.9%, 5.1% 향상
  • CIFAR100-C: 22.5% vs DPCore의 25.1%, 2.6% 향상
  • CIFAR10-C: 12.4% vs DPCore의 15.4%, 3.0% 향상

반복 도메인 설정(10라운드):

  • ImageNet-C 평균 오류율: 34.5% vs DPCore의 44.4%, 9.9% 향상
  • 성능이 여러 라운드에서 안정적으로 유지되어 방법의 견고성을 검증

효율성 분석

  • 0.09M의 학습 가능한 매개변수만 도입(모델 전체 매개변수의 약 0.1%)
  • 반복 도메인 설정에서 10라운드 시 DPCore는 본 방법의 약 5배 매개변수 사용
  • 계산 오버헤드는 DPCore와 동등하지만 성능은 현저히 우수

소거 실험

각 구성 요소의 기여도 분석:

  • 도메인 프롬프트만 + KFI + KFU: 39.5%
  • 클래스 프롬프트만 + KFI + KFU: 50.9%
  • 이중 프롬프트 KFI 없음 + KFU: 62.9%(성능 심각한 저하)
  • 이중 프롬프트 + KFI KFU 없음: 36.9%
  • 완전한 방법: 34.8%

결과는 각 구성 요소가 필수적이며 KFI 모듈이 성능 향상에 가장 중요함을 보여준다.

시각화 분석

  • 주의 지도 분석: 본 방법은 클래스 관련 판별 영역에 주의를 집중시킬 수 있다
  • t-SNE 분석: 도메인 프롬프트 키와 테스트 배치 통계 특성이 양호한 클러스터 분리를 형성
  • 클래스 분포 분석: 클래스 프롬프트는 서로 다른 클래스를 해당 프롬프트에 효과적으로 매핑

이론적 분석

양호한 분리 클러스터링 가정

테스트 배치가 특성 표현을 기반으로 N개의 양호하게 분리된 클러스터로 자연스럽게 분할될 수 있으며, 다음을 만족하는 임계값 θ가 존재한다고 가정:

∀i≠j, max_{B,B'∈C_i} d(B,B') < θ < min_{B∈C_i,B'∈C_j} d(B,B')

이론적 보장

보조정리 A.1: KFI 메커니즘은 모든 배치를 동일 클러스터의 프롬프트에 올바르게 할당할 수 있다 보조정리 A.2: KFU 메커니즘은 동일 클러스터 내의 프롬프트만 융합한다 명제 A.3: KFF 방법은 모든 배치를 동일 클러스터의 프롬프트에 올바르게 할당할 수 있다

이론적 분석은 방법의 정확성을 보장하며, 실험의 t-SNE 시각화는 이론적 가정을 검증한다.

관련 연구

테스트 시간 적응(TTA)

  • 초기 방법은 주로 엔트로피 최소화, 일관성 최대화 등의 자기 감독 손실을 사용
  • 한계: 정적 목표 도메인을 가정하며 동적 도메인 변화를 처리할 수 없다

지속적 테스트 시간 적응(CTTA)

  • 정규화 방법: EATA, EcoTTA는 정규화를 통해 오류 축적 완화
  • 재설정 방법: ERSK, CoTTA는 가중치 재설정을 사용하여 재앙적 망각에 대항
  • 프롬프트 학습 방법: VDP, SVDP, DPCore는 소수의 매개변수를 사용하여 도메인 특정 지식 학습

프롬프트 학습

  • NLP에서 컴퓨터 비전 분야로 확장
  • 기존 방법은 주로 도메인 수준 지식에 초점을 맞추고 도메인 간 공유 클래스 수준 정보를 무시

결론 및 논의

주요 결론

  1. KFF 프레임워크는 CTTA의 도메인 충돌 문제를 효과적으로 해결한다
  2. 클래스 인식 설계는 도메인 간 공유 지식을 더 잘 활용할 수 있다
  3. 지식 분열 및 융합 메커니즘은 효과와 효율성의 균형을 맞춘다
  4. 여러 벤치마크 데이터셋에서 현저한 성능 향상을 달성한다

한계

  1. 소스 도메인 의존성: 소스 도메인 통계 정보에 접근이 필요하며, 개인정보 보호가 제한된 시나리오에서 도전 과제가 있다
  2. 합성 손상: 주로 인공 설계 손상에서 검증되며, 실제 세계 분포 편이에 대한 견고성은 추가 검증이 필요하다
  3. 계산 오버헤드: 상대적으로 효율적이지만 리소스 제한 장치에서는 여전히 도전 과제가 있다
  4. 하이퍼매개변수 민감성: 서로 다른 데이터셋에 대해 주요 하이퍼매개변수를 조정해야 한다

향후 방향

  1. 소스 도메인 통계 정보 없이 적응하는 방법 탐색
  2. 실제 세계 데이터셋에서 방법의 견고성 검증
  3. 계산 효율성 추가 최적화
  4. 하이퍼매개변수의 적응적 조정 메커니즘 연구

심층 평가

장점

  1. 높은 혁신성: 클래스 인식 지식 분열 및 융합 프레임워크를 처음 제안하여 중요한 도메인 충돌 문제 해결
  2. 이론적 지원: 양호한 분리 클러스터링 가정에 기반한 이론적 분석 제공
  3. 충분한 실험: 여러 데이터셋에서 포괄적인 비교 실험 및 소거 연구 수행
  4. 우수한 효율성: 최고 성능을 달성하면서 계산 효율성 유지
  5. 명확한 시각화: 주의 지도 및 t-SNE 등을 통해 직관적인 방법 설명 제공

부족한 점

  1. 가정의 한계: 양호한 분리 클러스터링 가정이 실제 응용에서 항상 성립하지 않을 수 있다
  2. 평가의 한계: 주로 합성 손상 데이터에서 평가되며 실제 시나리오 검증 부족
  3. 소스 도메인 의존성: 소스 도메인 통계 정보 필요로 방법의 적용성 제한
  4. 하이퍼매개변수 복잡성: 여러 하이퍼매개변수가 포함되어 신중한 조정 필요

영향력

  1. 학술적 기여: CTTA 분야에 새로운 해결 방안을 제공하여 광범위한 관심 예상
  2. 실용적 가치: 자율주행, 의료 영상 등 지속적 적응이 필요한 시나리오에 응용 가능
  3. 재현성: 저자가 코드 공개를 약속하여 방법 보급에 유리

적용 시나리오

  • 여러 도메인 변화에 지속적으로 적응해야 하는 컴퓨터 비전 작업
  • 매개변수 효율성이 요구되는 엣지 컴퓨팅 시나리오
  • 소량의 소스 도메인 통계 정보에 접근 가능한 응용
  • 도메인 변화가 상대적으로 예측 가능한 구조화된 환경

본 논문은 CTTA 분야에서 중요한 기여를 하였으며, 혁신적인 지식 분열 및 융합 메커니즘을 통해 도메인 충돌 문제를 효과적으로 해결하고, 계산 효율성을 유지하면서 현저한 성능 향상을 달성했다. 일부 한계가 있지만, 핵심 아이디어와 기술적 혁신은 관련 연구에 가치 있는 참고를 제공한다.