2025-11-25T00:34:17.070097

A Unified Approach Towards Active Learning and Out-of-Distribution Detection

Schmidt, Schenk, Schwinn et al.
When applying deep learning models in open-world scenarios, active learning (AL) strategies are crucial for identifying label candidates from a nearly infinite amount of unlabeled data. In this context, robust out-of-distribution (OOD) detection mechanisms are essential for handling data outside the target distribution of the application. However, current works investigate both problems separately. In this work, we introduce SISOM as the first unified solution for both AL and OOD detection. By leveraging feature space distance metrics SISOM combines the strengths of the currently independent tasks to solve both effectively. We conduct extensive experiments showing the problems arising when migrating between both tasks. In these evaluations SISOM underlined its effectiveness by achieving first place in two of the widely used OpenOOD benchmarks and second place in the remaining one. In AL, SISOM outperforms others and delivers top-1 performance in three benchmarks
academic

Ein einheitlicher Ansatz für aktives Lernen und Out-of-Distribution-Erkennung

Grundinformationen

  • Paper-ID: 2405.11337
  • Titel: A Unified Approach Towards Active Learning and Out-of-Distribution Detection
  • Autoren: Sebastian Schmidt, Leonard Schenk, Leo Schwinn, Stephan Günnemann
  • Klassifizierung: cs.CV
  • Veröffentlichungsdatum: Mai 2024 (arXiv v3: 12. Oktober 2025)
  • Paper-Link: https://arxiv.org/abs/2405.11337

Zusammenfassung

Bei der Anwendung von Deep-Learning-Modellen in offenen Szenarien sind Strategien des aktiven Lernens (AL) entscheidend, um aus großen Mengen ungelabelter Daten Kandidaten für die Beschriftung zu identifizieren. In diesem Kontext ist ein robuster Mechanismus zur Erkennung von Out-of-Distribution-Daten (OOD) erforderlich, um mit Daten umzugehen, die außerhalb der Zielverteilung der Anwendung liegen. Bisherige Arbeiten untersuchen diese beiden Probleme jedoch separat. Dieses Paper stellt SISOM als erste einheitliche Lösung für AL und OOD-Erkennung vor. Durch die Nutzung von Distanzmetriken im Merkmalsraum kombiniert SISOM die Vorteile der derzeit unabhängigen Aufgaben, um beide Probleme effektiv zu lösen. In der OpenOOD-Benchmark erreicht SISOM einen ersten Platz und zwei Top-3-Platzierungen bei nahen OOD-Daten sowie Spitzenleistungen bei AL-Aufgaben.

Forschungshintergrund und Motivation

Problemdefinition

  1. Herausforderungen beim aktiven Lernen: Großskalige Deep-Learning-Modelle erfordern große Mengen an annotierten Daten, aber die Annotationskosten sind hoch und erfordern eine intelligente Auswahl der wertvollsten Proben zur Annotation
  2. Bedarf an OOD-Erkennung: Bei der praktischen Bereitstellung von Modellen werden Daten außerhalb der Trainingsverteilung angetroffen, weshalb ein zuverlässiger OOD-Erkennungsmechanismus erforderlich ist
  3. Einschränkungen der separaten Behandlung: Bestehende Methoden behandeln AL und OOD-Erkennung als unabhängige Aufgaben, was zu widersprüchlichen Designzielen und erhöhter Systemkomplexität führt

Forschungsmotivation

  • Anforderungen praktischer Anwendungen: Roboter, autonomes Fahren und andere praktische Anwendungen erfordern die gleichzeitige Bewältigung von Markierungseffizienz und Out-of-Distribution-Datenproblemen
  • Entdeckung von Aufgabenbeziehungen: Die Autoren beobachten, dass nahe OOD-Daten und ungelabelte AL-Kandidaten im latenten Raum überlappen und mehrdeutig sind
  • Vorteile eines einheitlichen Ansatzes: Eine einheitliche Behandlung kann den Overhead separater Designphasen eliminieren und widersprüchliche Designziele vermeiden

Zentrale Erkenntnisse

Das Paper zeigt durch UMAP-Visualisierung, dass nahe OOD-Daten und ungelabelte AL-Kandidaten im Merkmalsraum ähnliche Positionen einnehmen und dazu neigen, zwischen bestehenden Clustern oder in der Nähe von Entscheidungsgrenzen zu liegen. Dies bietet eine theoretische Grundlage für einen einheitlichen Ansatz.

Kernbeiträge

  1. Erste einheitliche Methode: Vorstellung von SISOM als erste speziell für die gleichzeitige Lösung von AL und OOD-Erkennung konzipierte Methode
  2. Merkmalsraum-Analysetechnik: Einführung von Analysen des latenten Raums zur Optimierung von Verfeinerungsschleifen des Merkmalsraums nach dem Training
  3. Selbstausgleichender Fusionsmechanismus: Vorschlag einer selbstausgleichenden Fusionsmethode für Unsicherheits- und Diversitätsmessungen
  4. Überlegene experimentelle Leistung: Überlegene Leistung gegen hochspezialisierte State-of-the-Art-Methoden in gängigen Bild-AL- und OOD-Benchmarks

Methodische Details

Aufgabendefinition

Aktives Lernen: Ausgehend von einem initialen gelabelten Pool L und ungelabeltem Pool U wählt das Modell f durch eine Abfragestrategie Q(x,f) neue Proben A zur Annotation aus, mit dem Ziel, die beste Leistung mit minimalen Annotationen zu erreichen.

OOD-Erkennung: Gegeben ein Modell f, das auf der Verteilung Ω trainiert wurde, wird bestimmt, ob eine Testprobe x̃ aus der In-Distribution (InD) oder Out-of-Distribution (OOD) stammt:

G(x,f)={InDwenn S(x;f)λOODwenn S(x;f)<λG(x, f) = \begin{cases} \text{InD} & \text{wenn } S(x; f) \geq \lambda \\ \text{OOD} & \text{wenn } S(x; f) < \lambda \end{cases}

SISOM-Methodenarchitektur

SISOM besteht aus fünf Kernkomponenten:

1. Coverage (Abdeckung)

Konstruktion einer informationsreichen Merkmalsraumdarstellung durch Verkettung mehrerer Netzwerkschichten: z=h1(x)hj(x)hn(x)z = h_1(x) \oplus \cdots \oplus h_j(x) \oplus \cdots \oplus h_n(x)

2. Feature Enhancement (Merkmalsverstärkung)

Verwendung von KL-Divergenz-Gradienten-gewichteten Merkmalen: g=DKL(uf(x))zg = \frac{\partial D_{KL}(u||f(x))}{\partial z}z~=σ(zg)\tilde{z} = \sigma(z \odot g)

wobei u eine Gleichverteilung ist und ⊙ das Hadamard-Produkt darstellt.

3. Distance Ratio (Distanzverhältnis)

Definition von Intra-Klassen- und Inter-Klassendistanzen: din(z~)=minzZL(c=c)z~z~2d_{in}(\tilde{z}) = \min_{z' \in Z_L(c'=c)} ||\tilde{z} - \tilde{z}'||_2dout(z~)=minzZL(cc)z~z~2d_{out}(\tilde{z}) = \min_{z' \in Z_L(c' \neq c)} ||\tilde{z} - \tilde{z}'||_2

SISOM-Bewertung: r(x)=dindoutr(x) = \frac{d_{in}}{d_{out}}

4. Feature Space Analysis (Merkmalsraumanalyse)

Berechnung des durchschnittlichen Distanzverhältnisses als Proxy für die Trennbarkeit des Merkmalsraums: ravg=1LzLdin(σ(zg))dout(σ(zg))r_{avg} = \frac{1}{|L|} \sum_{z \in L} \frac{d_{in}(\sigma(z \odot g))}{d_{out}(\sigma(z \odot g))}

Adaptive Fusion von Unsicherheit und Diversität: r^i=min(ravg,1)Ei+max(1ravg,0)ri\hat{r}_i = \min(r_{avg}, 1) \cdot E_i + \max(1 - r_{avg}, 0) \cdot r_i

5. Sigmoid Steepness (Sigmoid-Steilheit)

Optimierung des Steilheitsparameters α der Sigmoid-Funktion jeder Schicht zur Verbesserung der Merkmalsraumtrennbarkeit: αopt=argminαravg(α)\alpha_{opt} = \arg\min_\alpha r_{avg}(\alpha)

Technische Innovationen

  1. Einheitliche Metrik-Gestaltung: Das Distanzverhältnis erfasst gleichzeitig AL- und OOD-Erkennungsanforderungen
  2. Adaptive Fusion: Automatische Ausbalancierung von Unsicherheit und Diversität basierend auf der Qualität des Merkmalsraums
  3. Multi-Layer-Merkmalintegration: Nutzung von Informationen aus mehreren Netzwerkschichten zur Verbesserung der Darstellungsfähigkeit
  4. Gradienten-Gewichtung: Hervorhebung wichtiger Neuronen durch KL-Divergenz-Gradienten

Experimentelle Einrichtung

Datensätze

Aktives Lernen:

  • CIFAR-10/100: Abfragegröße q=1000/2000
  • SVHN: Abfragegröße q=500
  • Verwendung von ResNet18/34-Architekturen

OOD-Erkennung:

  • Einhaltung der OpenOOD-Benchmark-Einstellungen
  • CIFAR-10: Nahe OOD (CIFAR-100, Tiny ImageNet), Ferne OOD (MNIST, SVHN usw.)
  • CIFAR-100: Nahe OOD (CIFAR-10, Tiny ImageNet), Ferne OOD (MNIST, SVHN usw.)
  • ImageNet-1k: Nahe OOD (SSB-hard, NINCO), Ferne OOD (iNaturalist usw.)

Bewertungsmetriken

  • Aktives Lernen: Klassifizierungsgenauigkeit in Abhängigkeit vom Prozentsatz der gelabelten Daten
  • OOD-Erkennung: AUROC (Area Under ROC Curve)

Vergleichsmethoden

Baselines für aktives Lernen:

  • CoreSet, Badge, Learning Loss, CoreGCN
  • Semi-supervised-Einstellung: TypiClust, ProbCover, PT4AL

Baselines für OOD-Erkennung:

  • NAC, KNN, MSP, Energy, ReAct, SCALE und 17 weitere Methoden

Experimentelle Ergebnisse

Hauptergebnisse

Leistung beim aktiven Lernen

  • CIFAR-10: SISOM und SISOMe übertreffen andere Methoden in allen Auswahlzyklen
  • CIFAR-100: Erreicht höchste Leistung in späteren Auswahlschritten
  • Semi-supervised-Einstellung: SISOM profitiert erheblich von Vortraining und übertrifft PT4AL

OOD-Erkennungsleistung

DatensatzSISOMeSISOMBeste Baseline
CIFAR-10 (nahe OOD)91,7691,4091,13
CIFAR-100 (nahe OOD)81,1079,4281,31
ImageNet (nahe OOD)78,5977,3395,22

Gesamtranking: SISOMe erreicht in allen drei Benchmarks Top-3-Platzierungen mit insgesamt Platz 1.

Ablationsstudien

  1. Optimale Sigmoid-Steilheit: Verbessert die Leistung auf CIFAR-100 und ImageNet
  2. Reduzierte Teilmengenauswahl: Erhebliche Verbesserung der Inferenzgeschwindigkeit mit leicht verbesserter Leistung
  3. Effekt der Merkmalsverstärkung: KL-Divergenz-Gradienten-Gewichtung verbessert die Merkmalsraumtrennbarkeit erheblich

Laufzeitanalyse

MethodeSISOMSISOMeBadgeCoreSet
Zeit (Sekunden)1477±896954±12633664±66822604±1572

Mit 5%-Teilmengenauswahl wird die Laufzeit von SISOMe auf 266 Sekunden reduziert, mit leicht verbesserter Leistung.

Vollständige Lebenszyklusexperimente

Verwendung von AL-Trainingsprüfpunkten für OOD-Erkennung zeigt, dass SISOMe sowohl bei nahen als auch fernen OOD-Daten beste Leistung erreicht und die Wirksamkeit des einheitlichen Ansatzes beweist.

Verwandte Arbeiten

Aktives Lernen

  • Unsicherheitsmethoden: Monte Carlo Dropout, Ensemble-Methoden
  • Diversitätsmethoden: CoreSet, Badge und andere gradientenbasierte Methoden
  • Hybridmethoden: Kombination von Unsicherheits- und Diversitätsmethoden

OOD-Erkennung

  • Vorverarbeitungsmethoden: Datenerweiterung, gemischtes Training
  • Nachverarbeitungsmethoden: Neuronenfilterung, Gewichtsoperationen
  • Logits-basierte Methoden: Temperaturenskalierung, Energiebewertung
  • Merkmalsraummethoden: Mahalanobis-Distanz, k-nächste Nachbarn

Open-Set-Aktives Lernen

Bestehende Methoden verwenden hauptsächlich unabhängige Module für AL und OOD, dieses Paper erforscht erstmals die inneren Beziehungen zwischen den beiden Aufgaben.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Machbarkeit der Vereinheitlichung: Erstmalige Demonstration, dass AL und OOD-Erkennung durch eine einzelne Methode effektiv gelöst werden können
  2. Leistungsüberlegenheit: Erreicht oder nähert sich State-of-the-Art-Leistung bei beiden Aufgaben
  3. Praktischer Wert: Vereinfacht die Bereitstellungskomplexität in praktischen Anwendungen

Einschränkungen

  1. Rechenkomplexität: Distanzberechnungen verursachen zusätzliche Kosten, können aber durch Teilmengenauswahl gemildert werden
  2. Abhängigkeit vom Merkmalsraum: Die Methodenleistung hängt von der Trennbarkeit des Merkmalsraums ab
  3. Empfindlichkeit gegenüber Hyperparametern: Der Sigmoid-Steilheitsparameter erfordert Optimierung für verschiedene Datensätze

Zukünftige Richtungen

  1. Open-Set-Aktives Lernen: Erweiterung des einheitlichen Ansatzes auf Open-Set-AL-Szenarien
  2. Komplexe Aufgaben: Erweiterung auf komplexere Aufgaben wie Objekterkennung und semantische Segmentierung
  3. Batch-Diversifizierung: Untersuchung von Batch-Diversifizierungstechniken auf Dual-Task-Methoden

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste Vorstellung eines einheitlichen Ansatzes für AL und OOD-Erkennung mit wichtigem theoretischem und praktischem Wert
  2. Geschickte Methodengestaltung: Das Distanzverhältnis ist einfach und effektiv, der adaptive Fusionsmechanismus zeigt tiefe Einsichten
  3. Umfassende Experimente: Abdeckung mehrerer Datensätze und Baselines mit Ablationsstudien und Laufzeitanalyse
  4. Solide theoretische Grundlage: Visualisierungsanalyse offenbart innere Beziehungen zwischen den beiden Aufgaben

Mängel

  1. Unzureichende theoretische Analyse: Fehlende theoretische Garantien für Konvergenz und Generalisierungsfähigkeit
  2. Begrenzte Anwendungsbereiche: Hauptsächlich auf Bildklassifizierungsaufgaben validiert, Anwendbarkeit in anderen Bereichen unbekannt
  3. Komplexe Parameteroptimierung: Mehrere Hyperparameter erfordern Optimierung für verschiedene Datensätze, was die Praktikabilität beeinträchtigen kann

Auswirkungen

  1. Akademischer Beitrag: Eröffnet neue Forschungsrichtung für einheitliche Untersuchung von AL und OOD-Erkennung
  2. Praktischer Wert: Wichtig für praktische Anwendungen wie Roboter und autonomes Fahren
  3. Reproduzierbarkeit: Detaillierte Implementierungsdetails und Code fördern Reproduzierbarkeit und Erweiterung

Anwendungsszenarien

  1. Ressourcenbegrenzte Umgebungen: Anwendungen, die gleichzeitig Markierungseffizienz und OOD-Erkennung berücksichtigen müssen
  2. Echtzeitsysteme: Durch Teilmengenauswahl können Effizienz und Leistung erhalten bleiben
  3. Open-World-Anwendungen: Autonomes Fahren, Roboternavigation und andere Szenarien mit Verteilungsänderungen

Referenzen

Das Paper zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

  • Aktives Lernen: Settles (2010), Sener & Savarese (2018), Ash et al. (2020)
  • OOD-Erkennung: Yang et al. (2022), Liu et al. (2020), Sun et al. (2022)
  • OpenOOD-Benchmark: Yang et al. (2022), Zhang et al. (2023)

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das einen innovativen einheitlichen Ansatz zur Lösung zweier wichtiger Probleme mit umfassender experimenteller Validierung vorschlägt und wichtige Auswirkungen auf verwandte Bereiche hat. Trotz einiger Mängel in Theorie und Praktikabilität machen seine bahnbrechenden Beiträge und überlegene Leistung es zu einer wichtigen Arbeit in diesem Bereich.