2025-11-24T09:58:18.212416

Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation

Zhou, Zhu, Cui et al.
Continual Test-Time Adaptation (CTTA) aims to quickly fine-tune the model during the test phase so that it can adapt to multiple unknown downstream domain distributions without pre-acquiring downstream domain data. To this end, existing advanced CTTA methods mainly reduce the catastrophic forgetting of historical knowledge caused by irregular switching of downstream domain data by restoring the initial model or reusing historical models. However, these methods are usually accompanied by serious insufficient learning of new knowledge and interference from potentially harmful historical knowledge, resulting in severe performance degradation. To this end, we propose a class-aware domain Knowledge Fusion and Fission method for continual test-time adaptation, called KFF, which adaptively expands and merges class-aware domain knowledge in old and new domains according to the test-time data from different domains, where discriminative historical knowledge can be dynamically accumulated. Specifically, considering the huge domain gap within streaming data, a domain Knowledge FIssion (KFI) module is designed to adaptively separate new domain knowledge from a paired class-aware domain prompt pool, alleviating the impact of negative knowledge brought by old domains that are distinct from the current domain. Besides, to avoid the cumulative computation and storage overheads from continuously fissioning new knowledge, a domain Knowledge FUsion (KFU) module is further designed to merge the fissioned new knowledge into the existing knowledge pool with minimal cost, where a greedy knowledge dynamic merging strategy is designed to improve the compatibility of new and old knowledge while keeping the computational efficiency. Extensive experiments on the ImageNet-C dataset verify the effectiveness of our proposed method against other methods.
academic

Класс-ориентированное слияние и разделение знаний о домене для непрерывной адаптации на этапе тестирования

Основная информация

  • ID статьи: 2510.12150
  • Название: Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation
  • Авторы: Jiahuan Zhou, Chao Zhu, Zhenyu Cui, Zichen Liu, Xu Zou, Gang Hua
  • Категория: cs.CV (Компьютерное зрение)
  • Конференция: NeurIPS 2025 (39-я конференция по системам обработки нейронной информации)
  • Ссылка на статью: https://arxiv.org/abs/2510.12150

Аннотация

В данной работе предлагается метод KFF (класс-ориентированного слияния и разделения знаний) для решения задачи непрерывной адаптации на этапе тестирования (CTTA). Метод использует модуль разделения знаний (KFI) для адаптивного отделения новых знаний о домене, избегая негативного влияния исторических знаний; модуль слияния знаний (KFU) объединяет разделённые новые знания с существующим хранилищем знаний с минимальными затратами. Экспериментальные результаты на наборе данных ImageNet-C показывают улучшение производительности на 5,1% по сравнению с методом SOTA DPCore.

Исследовательский контекст и мотивация

Определение проблемы

Непрерывная адаптация на этапе тестирования (CTTA) направлена на быструю адаптацию предварительно обученной модели к нескольким неизвестным распределениям нижестоящих доменов на этапе тестирования без предварительного доступа к данным этих доменов. Это более сложная задача по сравнению с традиционной адаптацией на этапе тестирования (TTA).

Основные вызовы

  1. Катастрофическое забывание: При нерегулярном переключении между доменами происходит катастрофическое забывание исторических знаний
  2. Недостаточное обучение новым знаниям: Существующие методы часто не могут полностью усвоить новые знания при сохранении исторических знаний
  3. Помехи от вредоносных исторических знаний: Конфликты знаний между различными доменами нарушают направление оптимизации градиента

Ограничения существующих методов

  • Методы регуляризации: Сохраняют исторические знания через регуляризацию, но подавляют обучение новым знаниям
  • Методы сброса параметров: Избегают забывания путём восстановления исходной модели, но теряют полезные исторические знания
  • Методы слияния моделей: Выбирают и объединяют исторические параметры модели, но сталкиваются с проблемами конфликта доменов и неограниченным ростом затрат на хранение

Основные вклады

  1. Предложена структура KFF: Первая класс-ориентированная структура слияния и разделения знаний о домене, способная динамически накапливать дискриминативные исторические знания
  2. Разработан модуль KFI: Модуль разделения знаний адаптивно отделяет новые знания о домене, снижая негативное влияние между различными доменами
  3. Разработан модуль KFU: Модуль слияния знаний объединяет знания с использованием жадной стратегии, балансируя эффективность и производительность
  4. Достигнута производительность SOTA: Достигнута частота ошибок 34,8% на ImageNet-C, улучшение на 5,1% по сравнению с DPCore
  5. Предоставлен теоретический анализ: Теоретические гарантии на основе гипотезы хорошо разделённой кластеризации

Подробное описание метода

Определение задачи

Учитывая исходные данные домена DS={YS,XS}D_S = \{Y_S, X_S\} и поток тестовых данных из различных распределений доменов DT={XT}T=1ND_T = \{X_T\}_{T=1}^N, модель fθf_θ должна обрабатывать тестовые пакеты BTj={xt}t=0bB_T^j = \{x_t\}_{t=0}^b в режиме онлайн с целью адаптации к целевому домену при сохранении способности работать с историческими доменами.

Архитектура модели

Общая структура

Структура KFF содержит два основных модуля:

  • Модуль разделения знаний (KFI): Динамическое разделение класс-ориентированных знаний о домене
  • Модуль слияния знаний (KFU): Объединение разделённых знаний с существующим хранилищем знаний

Модуль разделения знаний (KFI)

Разделение знаний о классах:

  • Использует косинусное сходство st,i=sim(y~t,yi)s_{t,i} = \text{sim}(\tilde{y}_t, y_i) для оценки соответствия между псевдометками и ключами подсказок
  • Выбирает кандидатов подсказок с st,i>γcs_{t,i} > γ_c, используя взвешенный способ:
P_t = Σ_{i=0}^{N_c} w_i P_i^c, w_i = exp(s_{t,i}/τ_c) / Σ exp(s_{t,i}/τ_c)
  • При отсутствии кандидатов подсказок разделяет новую подсказку для тестового образца

Разделение знаний о домене:

  • Использует статистические характеристики тестового пакета ΓTj={μ,σ}Γ_T^j = \{μ, σ\} в качестве входных ключей
  • Выбирает кандидатов подсказок на основе евклидова расстояния: di=ΓTjΓi2<γdd_i = \|Γ_T^j - Γ_i\|_2 < γ_d
  • Объединяет через взвешивание по расстоянию:
P^d = Σ_{i=0}^{N_d} w_i P_i^d, w_i = exp(-d_i/τ_d) / Σ exp(-d_i/τ_d)

Модуль слияния знаний (KFU)

Слияние знаний о классах:

  • Использует пороговое значение энтропии γhγ_h для управления обновлением хранилища подсказок
  • Новые разделённые подсказки добавляются непосредственно в хранилище
  • Для комбинированных подсказок обновляет исходные подсказки по весам:
P_{c_i}^* = (1/b) Σ_{t=0}^b [w_{ti} P_t^* + (1-w_{ti}) P_i^c]
  • Использует алгоритм минимального остовного дерева (MST) для кластеризации и слияния подсказок с целью контроля размера хранилища

Слияние знаний о домене:

  • Новые подсказки добавляются непосредственно в хранилище подсказок о домене
  • Комбинированные подсказки обновляются по весам: Pdi=wiPd+(1wi)PidP_{d_i}^* = w_i P_d^* + (1-w_i) P_i^d
  • При заполнении хранилища объединяет пары ближайших соседей подсказок

Проектирование функции потерь

Используется двухуровневая функция потерь:

L = L_d + a·L_c

где:

  • Потери выравнивания домена: Ld=μsμTj(P)2+ασsσTj(P)2L_d = \|μ_s - μ_T^j(P)\|_2 + α\|σ_s - σ_T^j(P)\|_2
  • Потери энтропии на уровне экземпляра: Lc=(1/b)Σt=0bH(y^t)L_c = (1/b) Σ_{t=0}^b H(\hat{y}_t)

Экспериментальная установка

Наборы данных

  • ImageNet-to-ImageNet-C: 15 типов искажений, максимальный уровень серьёзности 5
  • CIFAR100-to-CIFAR100-C: Аналогичная установка
  • CIFAR10-to-CIFAR10-C: Аналогичная установка

Метрики оценки

  • Частота ошибок классификации (%) как основная метрика
  • Количество обучаемых параметров, использование памяти, время вычисления как метрики эффективности

Методы сравнения

  • Методы TTA: TENT, SAR, POEM
  • Методы CTTA: CoTTA, VDP, RoTTA, C-MAE, ROID, ViDA, CoLA, PALM, DPCore

Детали реализации

  • Базовая сеть: ViT-B/16
  • Оптимизатор: AdamW, скорость обучения подсказок о домене 0,1, скорость обучения подсказок о классах 0,001
  • Размер пакета: 64
  • Длина подсказки о домене: 8, длина подсказки о классе: 1
  • Ключевые гиперпараметры: γd=25,γc=0.005,γh=2,Nd=20,Nc=100γ_d=25, γ_c=0.005, γ_h=2, N_d=20, N_c=100

Экспериментальные результаты

Основные результаты

Установка без повторяющихся доменов:

  • ImageNet-C: 34,8% против 39,9% DPCore, улучшение на 5,1%
  • CIFAR100-C: 22,5% против 25,1% DPCore, улучшение на 2,6%
  • CIFAR10-C: 12,4% против 15,4% DPCore, улучшение на 3,0%

Установка с повторяющимися доменами (10 раундов):

  • Средняя частота ошибок ImageNet-C: 34,5% против 44,4% DPCore, улучшение на 9,9%
  • Производительность остаётся стабильной на протяжении нескольких раундов, что подтверждает надёжность метода

Анализ эффективности

  • Вводит только 0,09M обучаемых параметров (примерно 0,1% от общего количества параметров модели)
  • В установке с повторяющимися доменами на 10-м раунде DPCore использует примерно в 5 раз больше параметров, чем предложенный метод
  • Вычислительные затраты сравнимы с DPCore, но производительность значительно выше

Абляционные исследования

Анализ вклада каждого компонента:

  • Только подсказки о домене + KFI + KFU: 39,5%
  • Только подсказки о классах + KFI + KFU: 50,9%
  • Двойные подсказки без KFI + KFU: 62,9% (серьёзное снижение производительности)
  • Двойные подсказки + KFI без KFU: 36,9%
  • Полный метод: 34,8%

Результаты показывают, что каждый компонент незаменим, а модуль KFI наиболее критичен для повышения производительности.

Визуальный анализ

  • Анализ карт внимания: Метод может сосредоточить внимание на дискриминативных областях, связанных с классом
  • Анализ t-SNE: Ключи подсказок о домене и статистические характеристики тестовых пакетов образуют хорошо разделённые кластеры
  • Анализ распределения классов: Подсказки о классах эффективно отображают различные классы на соответствующие подсказки

Теоретический анализ

Гипотеза хорошо разделённой кластеризации

Предполагается, что тестовые пакеты могут быть естественным образом разделены на N хорошо разделённых кластеров на основе представления признаков, существует пороговое значение θ такое, что:

∀i≠j, max_{B,B'∈C_i} d(B,B') < θ < min_{B∈C_i,B'∈C_j} d(B,B')

Теоретические гарантии

Лемма A.1: Механизм KFI может правильно назначить все пакеты подсказкам одного кластера Лемма A.2: Механизм KFU объединяет только подсказки внутри одного кластера
Предложение A.3: Метод KFF может правильно назначить все пакеты подсказкам одного кластера

Теоретический анализ гарантирует корректность метода, а визуализация t-SNE в экспериментах подтверждает теоретические предположения.

Связанные работы

Адаптация на этапе тестирования (TTA)

  • Ранние методы в основном используют самоконтролируемые потери, такие как минимизация энтропии и максимизация согласованности
  • Ограничения: предполагают статический целевой домен, не могут обрабатывать динамические изменения доменов

Непрерывная адаптация на этапе тестирования (CTTA)

  • Методы регуляризации: EATA, EcoTTA смягчают накопление ошибок через регуляризацию
  • Методы сброса: ERSK, CoTTA используют сброс весов для противодействия катастрофическому забыванию
  • Методы обучения подсказкам: VDP, SVDP, DPCore используют небольшое количество параметров для обучения знаниям, специфичным для домена

Обучение подсказкам

  • Расширение от обработки естественного языка к компьютерному зрению
  • Существующие методы в основном сосредоточены на знаниях уровня домена, игнорируя информацию уровня класса, общую для нескольких доменов

Заключение и обсуждение

Основные выводы

  1. Структура KFF эффективно решает проблему конфликта доменов в CTTA
  2. Класс-ориентированное проектирование лучше использует общие знания между доменами
  3. Механизм разделения и слияния знаний балансирует производительность и эффективность
  4. Достигнуты значительные улучшения производительности на нескольких эталонных наборах данных

Ограничения

  1. Зависимость от исходного домена: Требует доступа к статистической информации исходного домена, что представляет вызов в сценариях с ограничениями конфиденциальности
  2. Синтетические искажения: Основная проверка проводится на искусственно разработанных искажениях, надёжность при реальных сдвигах распределения требует проверки
  3. Вычислительные затраты: Хотя относительно эффективен, всё ещё представляет вызов на устройствах с ограниченными ресурсами
  4. Чувствительность гиперпараметров: Требует тщательной настройки ключевых гиперпараметров для различных наборов данных

Направления будущих исследований

  1. Исследование методов адаптации без статистической информации исходного домена
  2. Проверка надёжности метода на наборах данных реального мира
  3. Дальнейшая оптимизация вычислительной эффективности
  4. Исследование механизмов адаптивной настройки гиперпараметров

Глубокая оценка

Преимущества

  1. Высокая инновационность: Впервые предложена класс-ориентированная структура разделения и слияния знаний, решающая важную проблему конфликта доменов
  2. Теоретическая поддержка: Предоставлен теоретический анализ на основе гипотезы хорошо разделённой кластеризации
  3. Полные эксперименты: Проведены комплексные сравнительные эксперименты и абляционные исследования на нескольких наборах данных
  4. Превосходная эффективность: Достигнута лучшая производительность при сохранении вычислительной эффективности
  5. Ясная визуализация: Предоставлены интуитивные объяснения метода через карты внимания, t-SNE и другие визуализации

Недостатки

  1. Ограничения гипотезы: Гипотеза хорошо разделённой кластеризации может не всегда выполняться в практических приложениях
  2. Ограничения оценки: Основная оценка проводится на синтетических искажениях, отсутствует проверка на реальных сценариях
  3. Зависимость от исходного домена: Требование статистической информации исходного домена ограничивает применимость метода
  4. Сложность гиперпараметров: Включает несколько гиперпараметров, требующих тщательной настройки

Влияние

  1. Академический вклад: Предоставляет новый подход к решению задач в области CTTA, ожидается широкое внимание
  2. Практическая ценность: Имеет потенциал применения в сценариях, требующих непрерывной адаптации к изменениям доменов, таких как автономное вождение и медицинская визуализация
  3. Воспроизводимость: Авторы обещают открыть исходный код, что способствует распространению метода

Применимые сценарии

  • Задачи компьютерного зрения, требующие непрерывной адаптации к изменениям нескольких доменов
  • Сценарии граничных вычислений с требованиями к эффективности параметров
  • Приложения, имеющие доступ к ограниченной статистической информации исходного домена
  • Структурированные окружающие среды с относительно предсказуемыми изменениями доменов

Данная статья вносит значительный вклад в область CTTA, эффективно решая проблему конфликта доменов через инновационный механизм разделения и слияния знаний, достигая значительного повышения производительности при сохранении вычислительной эффективности. Несмотря на некоторые ограничения, её основные идеи и технические инновации предоставляют ценные ориентиры для связанных исследований.