2025-11-24T09:58:18.212416

Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation

Zhou, Zhu, Cui et al.
Continual Test-Time Adaptation (CTTA) aims to quickly fine-tune the model during the test phase so that it can adapt to multiple unknown downstream domain distributions without pre-acquiring downstream domain data. To this end, existing advanced CTTA methods mainly reduce the catastrophic forgetting of historical knowledge caused by irregular switching of downstream domain data by restoring the initial model or reusing historical models. However, these methods are usually accompanied by serious insufficient learning of new knowledge and interference from potentially harmful historical knowledge, resulting in severe performance degradation. To this end, we propose a class-aware domain Knowledge Fusion and Fission method for continual test-time adaptation, called KFF, which adaptively expands and merges class-aware domain knowledge in old and new domains according to the test-time data from different domains, where discriminative historical knowledge can be dynamically accumulated. Specifically, considering the huge domain gap within streaming data, a domain Knowledge FIssion (KFI) module is designed to adaptively separate new domain knowledge from a paired class-aware domain prompt pool, alleviating the impact of negative knowledge brought by old domains that are distinct from the current domain. Besides, to avoid the cumulative computation and storage overheads from continuously fissioning new knowledge, a domain Knowledge FUsion (KFU) module is further designed to merge the fissioned new knowledge into the existing knowledge pool with minimal cost, where a greedy knowledge dynamic merging strategy is designed to improve the compatibility of new and old knowledge while keeping the computational efficiency. Extensive experiments on the ImageNet-C dataset verify the effectiveness of our proposed method against other methods.
academic

Klassenabhängige Domänenwissensfusion und -fission für kontinuierliche Test-Zeit-Anpassung

Grundinformationen

  • Paper-ID: 2510.12150
  • Titel: Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation
  • Autoren: Jiahuan Zhou, Chao Zhu, Zhenyu Cui, Zichen Liu, Xu Zou, Gang Hua
  • Klassifizierung: cs.CV (Computervision)
  • Veröffentlichungskonferenz: NeurIPS 2025 (39. Konferenz über Neural Information Processing Systems)
  • Paper-Link: https://arxiv.org/abs/2510.12150

Zusammenfassung

Dieses Paper präsentiert KFF, eine klassenabhängige Domänenwissensfusions- und Fissionsmethode zur Lösung des Problems der kontinuierlichen Test-Zeit-Anpassung (CTTA). Die Methode trennt adaptiv neues Domänenwissen durch das Knowledge Fission (KFI) Modul und vermeidet dabei negative Wissensstörungen aus historischen Domänen. Das Knowledge Fusion (KFU) Modul integriert das getrennte neue Wissen mit minimalen Kosten in den bestehenden Wissenspool. Experimente auf dem ImageNet-C-Datensatz zeigen eine Leistungsverbesserung von 5,1% gegenüber der SOTA-Methode DPCore.

Forschungshintergrund und Motivation

Problemdefinition

Die kontinuierliche Test-Zeit-Anpassung (CTTA) zielt darauf ab, dass vortrainierte Modelle während der Testphase schnell an mehrere unbekannte nachgelagerte Domänenverteilungen angepasst werden können, ohne dass nachgelagerte Domänendaten im Voraus verfügbar sind. Dies ist ein anspruchsvolleres Problem als die traditionelle Test-Zeit-Anpassung (TTA).

Kernherausforderungen

  1. Katastrophales Vergessen: Wenn Domänendaten unregelmäßig wechseln, führt dies zum katastrophalen Vergessen historischen Wissens
  2. Unzureichendes Lernen neuen Wissens: Bestehende Methoden können neues Wissen oft nicht ausreichend lernen, während sie historisches Wissen bewahren
  3. Störung durch schädliches historisches Wissen: Wissenskonflikte zwischen verschiedenen Domänen beeinträchtigen die Richtung der Gradientenoptimierung

Einschränkungen bestehender Methoden

  • Regularisierungsmethoden: Bewahren historisches Wissen durch Regularisierung, unterdrücken aber das Lernen neuen Wissens
  • Parameterrücksetz-Methoden: Vermeiden Vergessen durch Wiederherstellung des Anfangsmodells, verlieren aber nützliches historisches Wissen
  • Modellverschmelzungsmethoden: Wählen und verschmelzen historische Modellparameter, weisen aber Domänenkonflikte und unbegrenzten Speicheraufwand auf

Kernbeiträge

  1. Vorschlag des KFF-Rahmens: Erstes klassenabhängiges Domänenwissensfusions- und Fissionssystem, das diskriminatives historisches Wissen dynamisch akkumuliert
  2. Design des KFI-Moduls: Wissensfissionsmodul, das neues Domänenwissen adaptiv trennt und negative Wissensstörungen zwischen Domänen reduziert
  3. Entwicklung des KFU-Moduls: Wissensfusionsmodul, das Wissen durch eine Greedy-Strategie verschmilzt und Effektivität mit Effizienz ausgleicht
  4. Erreichung von SOTA-Leistung: 34,8% Fehlerrate auf ImageNet-C, Verbesserung um 5,1% gegenüber DPCore
  5. Theoretische Analyse: Theoretische Garantien basierend auf der Annahme gut separierter Cluster

Methodische Details

Aufgabendefinition

Gegeben sind Quelldomänendaten DS={YS,XS}D_S = \{Y_S, X_S\} und ein Teststrom aus verschiedenen Domänenverteilungen DT={XT}T=1ND_T = \{X_T\}_{T=1}^N. Das Modell fθf_θ muss Test-Batches BTj={xt}t=0bB_T^j = \{x_t\}_{t=0}^b online verarbeiten mit dem Ziel, sich an die Zieldomäne anzupassen und gleichzeitig die Fähigkeit für historische Domänen zu bewahren.

Modellarchitektur

Gesamtrahmen

Das KFF-Framework enthält zwei Kernmodule:

  • Knowledge Fission (KFI) Modul: Dynamische Trennung klassenabhängigen Domänenwissens
  • Knowledge Fusion (KFU) Modul: Verschmelzung von Trennungswissen in den bestehenden Wissenspool

Knowledge Fission Modul (KFI)

Klassenweise Wissensfission:

  • Verwendet Kosinusähnlichkeit st,i=sim(y~t,yi)s_{t,i} = \text{sim}(\tilde{y}_t, y_i) zur Bewertung der Übereinstimmung zwischen Pseudolabels und Hinweisschlüsseln
  • Wählt Kandidatenhinweise mit st,i>γcs_{t,i} > γ_c durch gewichtete Verwendung:
P_t = Σ_{i=0}^{N_c} w_i P_i^c, w_i = exp(s_{t,i}/τ_c) / Σ exp(s_{t,i}/τ_c)
  • Wenn keine Kandidatenhinweise vorhanden sind, wird ein neuer Hinweis für die Testprobe getrennt

Domänenweise Wissensfission:

  • Verwendet Testbatch-Statistikmerkmale ΓTj={μ,σ}Γ_T^j = \{μ, σ\} als Eingabeschlüssel
  • Wählt Kandidatenhinweise basierend auf euklidischer Distanz: di=ΓTjΓi2<γdd_i = \|Γ_T^j - Γ_i\|_2 < γ_d
  • Verschmilzt durch distanzgewichtete Kombination:
P^d = Σ_{i=0}^{N_d} w_i P_i^d, w_i = exp(-d_i/τ_d) / Σ exp(-d_i/τ_d)

Knowledge Fusion Modul (KFU)

Klassenweise Wissensfusion:

  • Verwendet Entropie-Schwellenwert γhγ_h zur Kontrolle der Hinweispool-Aktualisierung
  • Neu getrennte Hinweise werden direkt zum Pool hinzugefügt
  • Für kombinierte Hinweise werden ursprüngliche Hinweise nach Gewicht aktualisiert:
P_{c_i}^* = (1/b) Σ_{t=0}^b [w_{ti} P_t^* + (1-w_{ti}) P_i^c]
  • Verwendet Minimum Spanning Tree (MST) Algorithmus zum Clustern und Verschmelzen von Hinweisen zur Poolgrößenkontrolle

Domänenweise Wissensfusion:

  • Neue Hinweise werden direkt zum Domänenhinweispool hinzugefügt
  • Kombinierte Hinweise werden nach Gewicht aktualisiert: Pdi=wiPd+(1wi)PidP_{d_i}^* = w_i P_d^* + (1-w_i) P_i^d
  • Wenn der Pool voll ist, werden nächste Nachbarn-Hinweispaare verschmolzen

Verlustfunktionsdesign

Verwendet eine zweischichtige Verlustfunktion:

L = L_d + a·L_c

wobei:

  • Domänen-Alignment-Verlust: Ld=μsμTj(P)2+ασsσTj(P)2L_d = \|μ_s - μ_T^j(P)\|_2 + α\|σ_s - σ_T^j(P)\|_2
  • Instanz-Level-Entropie-Verlust: Lc=(1/b)Σt=0bH(y^t)L_c = (1/b) Σ_{t=0}^b H(\hat{y}_t)

Experimentelle Einrichtung

Datensätze

  • ImageNet-to-ImageNet-C: 15 Korruptionstypen, maximale Schweregrad-Stufe 5
  • CIFAR100-to-CIFAR100-C: Gleiche Einrichtung
  • CIFAR10-to-CIFAR10-C: Gleiche Einrichtung

Bewertungsmetriken

  • Klassifizierungsfehlerrate (%) als Hauptmetrik
  • Anzahl lernbarer Parameter, Speichernutzung, Rechenzeit als Effizienzmetriken

Vergleichsmethoden

  • TTA-Methoden: TENT, SAR, POEM
  • CTTA-Methoden: CoTTA, VDP, RoTTA, C-MAE, ROID, ViDA, CoLA, PALM, DPCore

Implementierungsdetails

  • Backbone-Netzwerk: ViT-B/16
  • Optimierer: AdamW, Domänenhinweis-Lernrate 0,1, Klassenhinweis-Lernrate 0,001
  • Batch-Größe: 64
  • Domänenhinweis-Länge: 8, Klassenhinweis-Länge: 1
  • Kritische Hyperparameter: γd=25,γc=0.005,γh=2,Nd=20,Nc=100γ_d=25, γ_c=0.005, γ_h=2, N_d=20, N_c=100

Experimentelle Ergebnisse

Hauptergebnisse

Nicht-wiederholte Domänen-Einstellung:

  • ImageNet-C: 34,8% vs. DPCore 39,9%, Verbesserung 5,1%
  • CIFAR100-C: 22,5% vs. DPCore 25,1%, Verbesserung 2,6%
  • CIFAR10-C: 12,4% vs. DPCore 15,4%, Verbesserung 3,0%

Wiederholte Domänen-Einstellung (10 Runden):

  • ImageNet-C durchschnittliche Fehlerrate: 34,5% vs. DPCore 44,4%, Verbesserung 9,9%
  • Leistung bleibt über mehrere Runden stabil, validiert die Robustheit der Methode

Effizienzanalyse

  • Führt nur 0,09M lernbare Parameter ein (ca. 0,1% der Gesamtmodellparameter)
  • In der wiederholten Domänen-Einstellung verwendet DPCore in Runde 10 etwa 5-mal mehr Parameter als diese Methode
  • Rechenaufwand vergleichbar mit DPCore, aber deutlich bessere Leistung

Ablationsstudien

Analyse des Beitrags jeder Komponente:

  • Nur Domänenhinweise + KFI + KFU: 39,5%
  • Nur Klassenhinweise + KFI + KFU: 50,9%
  • Doppelte Hinweise ohne KFI + KFU: 62,9% (erheblicher Leistungsabfall)
  • Doppelte Hinweise + KFI ohne KFU: 36,9%
  • Vollständige Methode: 34,8%

Die Ergebnisse zeigen, dass jede Komponente unverzichtbar ist und das KFI-Modul für die Leistungsverbesserung am kritischsten ist.

Visualisierungsanalyse

  • Aufmerksamkeitskarten-Analyse: Die Methode konzentriert die Aufmerksamkeit auf diskriminative Bereiche, die mit Klassen zusammenhängen
  • t-SNE-Analyse: Domänenhinweisschlüssel und Testbatch-Statistikmerkmale bilden gute Cluster-Separationen
  • Klassenverteilungsanalyse: Klassenhinweise können verschiedene Klassen effektiv auf entsprechende Hinweise abbilden

Theoretische Analyse

Annahme gut separierter Cluster

Angenommen, Testbatches können basierend auf Merkmalsdarstellung natürlich in N gut separierte Cluster unterteilt werden, wobei ein Schwellenwert θ existiert, so dass:

∀i≠j, max_{B,B'∈C_i} d(B,B') < θ < min_{B∈C_i,B'∈C_j} d(B,B')

Theoretische Garantien

Lemma A.1: Der KFI-Mechanismus kann alle Batches korrekt Hinweisen desselben Clusters zuordnen Lemma A.2: Der KFU-Mechanismus verschmilzt nur Hinweise innerhalb desselben Clusters Proposition A.3: Die KFF-Methode kann alle Batches korrekt Hinweisen desselben Clusters zuordnen

Die theoretische Analyse garantiert die Korrektheit der Methode, und die t-SNE-Visualisierung in Experimenten validiert die theoretischen Annahmen.

Verwandte Arbeiten

Test-Zeit-Anpassung (TTA)

  • Frühe Methoden verwenden hauptsächlich selbstüberwachte Verluste wie Entropie-Minimierung und Konsistenz-Maximierung
  • Einschränkungen: Gehen von statischen Zieldomänen aus, können dynamische Domänenwechsel nicht verarbeiten

Kontinuierliche Test-Zeit-Anpassung (CTTA)

  • Regularisierungsmethoden: EATA, EcoTTA lindern Fehlerakkumulation durch Regularisierung
  • Rücksetz-Methoden: ERSK, CoTTA verwenden Gewichtsrücksetzung gegen katastrophales Vergessen
  • Hinweis-Lern-Methoden: VDP, SVDP, DPCore nutzen wenige Parameter zum Lernen domänenspezifischen Wissens

Hinweis-Lernen

  • Erweiterung von NLP auf Computervision
  • Bestehende Methoden konzentrieren sich hauptsächlich auf domänenebenes Wissen und ignorieren klassenebenes Wissen, das über Domänen hinweg geteilt wird

Fazit und Diskussion

Hauptschlussfolgerungen

  1. Das KFF-Framework löst effektiv das Domänenkonflukt-Problem in CTTA
  2. Das klassenabhängige Design nutzt über Domänen hinweg geteiltes Wissen besser
  3. Der Wissensfissions- und Fusionsmechanismus gleicht Effektivität und Effizienz aus
  4. Erreicht signifikante Leistungsverbesserungen auf mehreren Benchmark-Datensätzen

Einschränkungen

  1. Quelldomänen-Abhängigkeit: Erfordert Zugriff auf Quelldomänen-Statistiken, stellt Herausforderungen in datenschutzgeschützten Szenarien dar
  2. Synthetische Korruptionen: Hauptsächlich auf künstlich gestalteten Korruptionen validiert, Robustheit gegenüber echten Verteilungsverschiebungen muss noch überprüft werden
  3. Rechenaufwand: Obwohl relativ effizient, stellt dies auf ressourcenbeschränkten Geräten eine Herausforderung dar
  4. Hyperparameter-Empfindlichkeit: Erfordert Anpassung kritischer Hyperparameter für verschiedene Datensätze

Zukünftige Richtungen

  1. Erforschung von Anpassungsmethoden ohne Quelldomänen-Statistiken
  2. Validierung der Methoden-Robustheit auf echten Datensätzen
  3. Weitere Optimierung der Recheneffizienz
  4. Untersuchung von Mechanismen zur adaptiven Hyperparameter-Anpassung

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erstes Vorschlag eines klassenabhängigen Wissensfissions- und Fusionsrahmens, der das wichtige Domänenkonflukt-Problem löst
  2. Theoretische Unterstützung: Bietet theoretische Analyse basierend auf der Annahme gut separierter Cluster
  3. Umfangreiche Experimente: Umfassende Vergleichsexperimente und Ablationsstudien auf mehreren Datensätzen
  4. Überlegene Effizienz: Erreicht beste Leistung bei Beibehaltung von Recheneffizienz
  5. Klare Visualisierung: Bietet intuitive Methodenerklärungen durch Aufmerksamkeitskarten und t-SNE

Mängel

  1. Annahme-Einschränkungen: Die Annahme gut separierter Cluster gilt möglicherweise nicht immer in praktischen Anwendungen
  2. Bewertungs-Einschränkungen: Hauptsächlich auf synthetischen Korruptionsdaten bewertet, fehlt Validierung in echten Szenarien
  3. Quelldomänen-Abhängigkeit: Die Anforderung von Quelldomänen-Statistiken begrenzt die Anwendbarkeit der Methode
  4. Hyperparameter-Komplexität: Beinhaltet mehrere Hyperparameter, die sorgfältig abgestimmt werden müssen

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Lösungsansätze für das CTTA-Feld, erwartet breite Aufmerksamkeit
  2. Praktischer Wert: Hat Anwendungspotenzial in Szenarien wie autonomes Fahren und medizinische Bildgebung, die kontinuierliche Anpassung erfordern
  3. Reproduzierbarkeit: Autoren verpflichten sich zur Veröffentlichung des Codes, förderlich für Methodenverbreitung

Anwendungsszenarien

  • Computervisions-Aufgaben, die kontinuierliche Anpassung an mehrere Domänenwechsel erfordern
  • Edge-Computing-Szenarien mit Anforderungen an Parametereffizienz
  • Anwendungen mit Zugriff auf begrenzte Quelldomänen-Statistiken
  • Strukturierte Umgebungen mit relativ vorhersehbaren Domänenwechseln

Dieses Paper leistet wichtige Beiträge im CTTA-Bereich. Durch innovative Wissensfissions- und Fusionsmechanismen löst es effektiv das Domänenkonflukt-Problem und erreicht signifikante Leistungsverbesserungen bei Beibehaltung von Recheneffizienz. Trotz einiger Einschränkungen bieten seine Kernideen und technischen Innovationen wertvolle Referenzen für verwandte Forschungen.