2025-11-24T09:58:18.212416

Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation

Zhou, Zhu, Cui et al.

Continual Test-Time Adaptation (CTTA) aims to quickly fine-tune the model during the test phase so that it can adapt to multiple unknown downstream domain distributions without pre-acquiring downstream domain data. To this end, existing advanced CTTA methods mainly reduce the catastrophic forgetting of historical knowledge caused by irregular switching of downstream domain data by restoring the initial model or reusing historical models. However, these methods are usually accompanied by serious insufficient learning of new knowledge and interference from potentially harmful historical knowledge, resulting in severe performance degradation. To this end, we propose a class-aware domain Knowledge Fusion and Fission method for continual test-time adaptation, called KFF, which adaptively expands and merges class-aware domain knowledge in old and new domains according to the test-time data from different domains, where discriminative historical knowledge can be dynamically accumulated. Specifically, considering the huge domain gap within streaming data, a domain Knowledge FIssion (KFI) module is designed to adaptively separate new domain knowledge from a paired class-aware domain prompt pool, alleviating the impact of negative knowledge brought by old domains that are distinct from the current domain. Besides, to avoid the cumulative computation and storage overheads from continuously fissioning new knowledge, a domain Knowledge FUsion (KFU) module is further designed to merge the fissioned new knowledge into the existing knowledge pool with minimal cost, where a greedy knowledge dynamic merging strategy is designed to improve the compatibility of new and old knowledge while keeping the computational efficiency. Extensive experiments on the ImageNet-C dataset verify the effectiveness of our proposed method against other methods.

academic

Klassenabhängige Domänenwissensfusion und -fission für kontinuierliche Test-Zeit-Anpassung

Grundinformationen

Paper-ID: 2510.12150
Titel: Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation
Autoren: Jiahuan Zhou, Chao Zhu, Zhenyu Cui, Zichen Liu, Xu Zou, Gang Hua
Klassifizierung: cs.CV (Computervision)
Veröffentlichungskonferenz: NeurIPS 2025 (39. Konferenz über Neural Information Processing Systems)
Paper-Link: https://arxiv.org/abs/2510.12150

Zusammenfassung

Dieses Paper präsentiert KFF, eine klassenabhängige Domänenwissensfusions- und Fissionsmethode zur Lösung des Problems der kontinuierlichen Test-Zeit-Anpassung (CTTA). Die Methode trennt adaptiv neues Domänenwissen durch das Knowledge Fission (KFI) Modul und vermeidet dabei negative Wissensstörungen aus historischen Domänen. Das Knowledge Fusion (KFU) Modul integriert das getrennte neue Wissen mit minimalen Kosten in den bestehenden Wissenspool. Experimente auf dem ImageNet-C-Datensatz zeigen eine Leistungsverbesserung von 5,1% gegenüber der SOTA-Methode DPCore.

Forschungshintergrund und Motivation

Problemdefinition

Die kontinuierliche Test-Zeit-Anpassung (CTTA) zielt darauf ab, dass vortrainierte Modelle während der Testphase schnell an mehrere unbekannte nachgelagerte Domänenverteilungen angepasst werden können, ohne dass nachgelagerte Domänendaten im Voraus verfügbar sind. Dies ist ein anspruchsvolleres Problem als die traditionelle Test-Zeit-Anpassung (TTA).

Kernherausforderungen

Katastrophales Vergessen: Wenn Domänendaten unregelmäßig wechseln, führt dies zum katastrophalen Vergessen historischen Wissens
Unzureichendes Lernen neuen Wissens: Bestehende Methoden können neues Wissen oft nicht ausreichend lernen, während sie historisches Wissen bewahren
Störung durch schädliches historisches Wissen: Wissenskonflikte zwischen verschiedenen Domänen beeinträchtigen die Richtung der Gradientenoptimierung

Einschränkungen bestehender Methoden

Regularisierungsmethoden: Bewahren historisches Wissen durch Regularisierung, unterdrücken aber das Lernen neuen Wissens
Parameterrücksetz-Methoden: Vermeiden Vergessen durch Wiederherstellung des Anfangsmodells, verlieren aber nützliches historisches Wissen
Modellverschmelzungsmethoden: Wählen und verschmelzen historische Modellparameter, weisen aber Domänenkonflikte und unbegrenzten Speicheraufwand auf

Kernbeiträge

Vorschlag des KFF-Rahmens: Erstes klassenabhängiges Domänenwissensfusions- und Fissionssystem, das diskriminatives historisches Wissen dynamisch akkumuliert
Design des KFI-Moduls: Wissensfissionsmodul, das neues Domänenwissen adaptiv trennt und negative Wissensstörungen zwischen Domänen reduziert
Entwicklung des KFU-Moduls: Wissensfusionsmodul, das Wissen durch eine Greedy-Strategie verschmilzt und Effektivität mit Effizienz ausgleicht
Erreichung von SOTA-Leistung: 34,8% Fehlerrate auf ImageNet-C, Verbesserung um 5,1% gegenüber DPCore
Theoretische Analyse: Theoretische Garantien basierend auf der Annahme gut separierter Cluster

Methodische Details

Aufgabendefinition

Gegeben sind Quelldomänendaten $D_S = \{Y_S, X_S\}$ und ein Teststrom aus verschiedenen Domänenverteilungen $D_T = \{X_T\}_{T=1}^N$ . Das Modell $f_θ$ muss Test-Batches $B_T^j = \{x_t\}_{t=0}^b$ online verarbeiten mit dem Ziel, sich an die Zieldomäne anzupassen und gleichzeitig die Fähigkeit für historische Domänen zu bewahren.

Modellarchitektur

Gesamtrahmen

Das KFF-Framework enthält zwei Kernmodule:

Knowledge Fission (KFI) Modul: Dynamische Trennung klassenabhängigen Domänenwissens
Knowledge Fusion (KFU) Modul: Verschmelzung von Trennungswissen in den bestehenden Wissenspool

Knowledge Fission Modul (KFI)

Klassenweise Wissensfission:

Verwendet Kosinusähnlichkeit $s_{t,i} = \text{sim}(\tilde{y}_t, y_i)$ zur Bewertung der Übereinstimmung zwischen Pseudolabels und Hinweisschlüsseln
Wählt Kandidatenhinweise mit $s_{t,i} > γ_c$ durch gewichtete Verwendung:

P_t = Σ_{i=0}^{N_c} w_i P_i^c, w_i = exp(s_{t,i}/τ_c) / Σ exp(s_{t,i}/τ_c)

Wenn keine Kandidatenhinweise vorhanden sind, wird ein neuer Hinweis für die Testprobe getrennt

Domänenweise Wissensfission:

Verwendet Testbatch-Statistikmerkmale $Γ_T^j = \{μ, σ\}$ als Eingabeschlüssel
Wählt Kandidatenhinweise basierend auf euklidischer Distanz: $d_i = \|Γ_T^j - Γ_i\|_2 < γ_d$
Verschmilzt durch distanzgewichtete Kombination:

P^d = Σ_{i=0}^{N_d} w_i P_i^d, w_i = exp(-d_i/τ_d) / Σ exp(-d_i/τ_d)

Knowledge Fusion Modul (KFU)

Klassenweise Wissensfusion:

Verwendet Entropie-Schwellenwert $γ_h$ zur Kontrolle der Hinweispool-Aktualisierung
Neu getrennte Hinweise werden direkt zum Pool hinzugefügt
Für kombinierte Hinweise werden ursprüngliche Hinweise nach Gewicht aktualisiert:

P_{c_i}^* = (1/b) Σ_{t=0}^b [w_{ti} P_t^* + (1-w_{ti}) P_i^c]

Verwendet Minimum Spanning Tree (MST) Algorithmus zum Clustern und Verschmelzen von Hinweisen zur Poolgrößenkontrolle

Domänenweise Wissensfusion:

Neue Hinweise werden direkt zum Domänenhinweispool hinzugefügt
Kombinierte Hinweise werden nach Gewicht aktualisiert: $P_{d_i}^* = w_i P_d^* + (1-w_i) P_i^d$
Wenn der Pool voll ist, werden nächste Nachbarn-Hinweispaare verschmolzen

Verlustfunktionsdesign

Verwendet eine zweischichtige Verlustfunktion:

L = L_d + a·L_c

wobei:

Domänen-Alignment-Verlust: $L_d = \|μ_s - μ_T^j(P)\|_2 + α\|σ_s - σ_T^j(P)\|_2$
Instanz-Level-Entropie-Verlust: $L_c = (1/b) Σ_{t=0}^b H(\hat{y}_t)$

Experimentelle Einrichtung

Datensätze

ImageNet-to-ImageNet-C: 15 Korruptionstypen, maximale Schweregrad-Stufe 5
CIFAR100-to-CIFAR100-C: Gleiche Einrichtung
CIFAR10-to-CIFAR10-C: Gleiche Einrichtung

Bewertungsmetriken

Klassifizierungsfehlerrate (%) als Hauptmetrik
Anzahl lernbarer Parameter, Speichernutzung, Rechenzeit als Effizienzmetriken

Vergleichsmethoden

TTA-Methoden: TENT, SAR, POEM
CTTA-Methoden: CoTTA, VDP, RoTTA, C-MAE, ROID, ViDA, CoLA, PALM, DPCore

Implementierungsdetails

Backbone-Netzwerk: ViT-B/16
Optimierer: AdamW, Domänenhinweis-Lernrate 0,1, Klassenhinweis-Lernrate 0,001
Batch-Größe: 64
Domänenhinweis-Länge: 8, Klassenhinweis-Länge: 1
Kritische Hyperparameter: $γ_d=25, γ_c=0.005, γ_h=2, N_d=20, N_c=100$

Experimentelle Ergebnisse

Hauptergebnisse

Nicht-wiederholte Domänen-Einstellung:

ImageNet-C: 34,8% vs. DPCore 39,9%, Verbesserung 5,1%
CIFAR100-C: 22,5% vs. DPCore 25,1%, Verbesserung 2,6%
CIFAR10-C: 12,4% vs. DPCore 15,4%, Verbesserung 3,0%

Wiederholte Domänen-Einstellung (10 Runden):

ImageNet-C durchschnittliche Fehlerrate: 34,5% vs. DPCore 44,4%, Verbesserung 9,9%
Leistung bleibt über mehrere Runden stabil, validiert die Robustheit der Methode

Effizienzanalyse

Führt nur 0,09M lernbare Parameter ein (ca. 0,1% der Gesamtmodellparameter)
In der wiederholten Domänen-Einstellung verwendet DPCore in Runde 10 etwa 5-mal mehr Parameter als diese Methode
Rechenaufwand vergleichbar mit DPCore, aber deutlich bessere Leistung

Ablationsstudien

Analyse des Beitrags jeder Komponente:

Nur Domänenhinweise + KFI + KFU: 39,5%
Nur Klassenhinweise + KFI + KFU: 50,9%
Doppelte Hinweise ohne KFI + KFU: 62,9% (erheblicher Leistungsabfall)
Doppelte Hinweise + KFI ohne KFU: 36,9%
Vollständige Methode: 34,8%

Die Ergebnisse zeigen, dass jede Komponente unverzichtbar ist und das KFI-Modul für die Leistungsverbesserung am kritischsten ist.

Visualisierungsanalyse

Aufmerksamkeitskarten-Analyse: Die Methode konzentriert die Aufmerksamkeit auf diskriminative Bereiche, die mit Klassen zusammenhängen
t-SNE-Analyse: Domänenhinweisschlüssel und Testbatch-Statistikmerkmale bilden gute Cluster-Separationen
Klassenverteilungsanalyse: Klassenhinweise können verschiedene Klassen effektiv auf entsprechende Hinweise abbilden

Theoretische Analyse

Annahme gut separierter Cluster

Angenommen, Testbatches können basierend auf Merkmalsdarstellung natürlich in N gut separierte Cluster unterteilt werden, wobei ein Schwellenwert θ existiert, so dass:

∀i≠j, max_{B,B'∈C_i} d(B,B') < θ < min_{B∈C_i,B'∈C_j} d(B,B')

Theoretische Garantien

Lemma A.1: Der KFI-Mechanismus kann alle Batches korrekt Hinweisen desselben Clusters zuordnen Lemma A.2: Der KFU-Mechanismus verschmilzt nur Hinweise innerhalb desselben Clusters Proposition A.3: Die KFF-Methode kann alle Batches korrekt Hinweisen desselben Clusters zuordnen

Die theoretische Analyse garantiert die Korrektheit der Methode, und die t-SNE-Visualisierung in Experimenten validiert die theoretischen Annahmen.

Fazit und Diskussion

Hauptschlussfolgerungen

Das KFF-Framework löst effektiv das Domänenkonflukt-Problem in CTTA
Das klassenabhängige Design nutzt über Domänen hinweg geteiltes Wissen besser
Der Wissensfissions- und Fusionsmechanismus gleicht Effektivität und Effizienz aus
Erreicht signifikante Leistungsverbesserungen auf mehreren Benchmark-Datensätzen

Einschränkungen

Quelldomänen-Abhängigkeit: Erfordert Zugriff auf Quelldomänen-Statistiken, stellt Herausforderungen in datenschutzgeschützten Szenarien dar
Synthetische Korruptionen: Hauptsächlich auf künstlich gestalteten Korruptionen validiert, Robustheit gegenüber echten Verteilungsverschiebungen muss noch überprüft werden
Rechenaufwand: Obwohl relativ effizient, stellt dies auf ressourcenbeschränkten Geräten eine Herausforderung dar
Hyperparameter-Empfindlichkeit: Erfordert Anpassung kritischer Hyperparameter für verschiedene Datensätze

Zukünftige Richtungen

Erforschung von Anpassungsmethoden ohne Quelldomänen-Statistiken
Validierung der Methoden-Robustheit auf echten Datensätzen
Weitere Optimierung der Recheneffizienz
Untersuchung von Mechanismen zur adaptiven Hyperparameter-Anpassung

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erstes Vorschlag eines klassenabhängigen Wissensfissions- und Fusionsrahmens, der das wichtige Domänenkonflukt-Problem löst
Theoretische Unterstützung: Bietet theoretische Analyse basierend auf der Annahme gut separierter Cluster
Umfangreiche Experimente: Umfassende Vergleichsexperimente und Ablationsstudien auf mehreren Datensätzen
Überlegene Effizienz: Erreicht beste Leistung bei Beibehaltung von Recheneffizienz
Klare Visualisierung: Bietet intuitive Methodenerklärungen durch Aufmerksamkeitskarten und t-SNE

Mängel

Annahme-Einschränkungen: Die Annahme gut separierter Cluster gilt möglicherweise nicht immer in praktischen Anwendungen
Bewertungs-Einschränkungen: Hauptsächlich auf synthetischen Korruptionsdaten bewertet, fehlt Validierung in echten Szenarien
Quelldomänen-Abhängigkeit: Die Anforderung von Quelldomänen-Statistiken begrenzt die Anwendbarkeit der Methode
Hyperparameter-Komplexität: Beinhaltet mehrere Hyperparameter, die sorgfältig abgestimmt werden müssen

Auswirkungen

Akademischer Beitrag: Bietet neue Lösungsansätze für das CTTA-Feld, erwartet breite Aufmerksamkeit
Praktischer Wert: Hat Anwendungspotenzial in Szenarien wie autonomes Fahren und medizinische Bildgebung, die kontinuierliche Anpassung erfordern
Reproduzierbarkeit: Autoren verpflichten sich zur Veröffentlichung des Codes, förderlich für Methodenverbreitung

Anwendungsszenarien

Computervisions-Aufgaben, die kontinuierliche Anpassung an mehrere Domänenwechsel erfordern
Edge-Computing-Szenarien mit Anforderungen an Parametereffizienz
Anwendungen mit Zugriff auf begrenzte Quelldomänen-Statistiken
Strukturierte Umgebungen mit relativ vorhersehbaren Domänenwechseln

Dieses Paper leistet wichtige Beiträge im CTTA-Bereich. Durch innovative Wissensfissions- und Fusionsmechanismen löst es effektiv das Domänenkonflukt-Problem und erreicht signifikante Leistungsverbesserungen bei Beibehaltung von Recheneffizienz. Trotz einiger Einschränkungen bieten seine Kernideen und technischen Innovationen wertvolle Referenzen für verwandte Forschungen.