When applying deep learning models in open-world scenarios, active learning (AL) strategies are crucial for identifying label candidates from a nearly infinite amount of unlabeled data. In this context, robust out-of-distribution (OOD) detection mechanisms are essential for handling data outside the target distribution of the application. However, current works investigate both problems separately. In this work, we introduce SISOM as the first unified solution for both AL and OOD detection. By leveraging feature space distance metrics SISOM combines the strengths of the currently independent tasks to solve both effectively. We conduct extensive experiments showing the problems arising when migrating between both tasks. In these evaluations SISOM underlined its effectiveness by achieving first place in two of the widely used OpenOOD benchmarks and second place in the remaining one. In AL, SISOM outperforms others and delivers top-1 performance in three benchmarks
- Paper-ID: 2405.11337
- Titel: A Unified Approach Towards Active Learning and Out-of-Distribution Detection
- Autoren: Sebastian Schmidt, Leonard Schenk, Leo Schwinn, Stephan Günnemann
- Klassifizierung: cs.CV
- Veröffentlichungsdatum: Mai 2024 (arXiv v3: 12. Oktober 2025)
- Paper-Link: https://arxiv.org/abs/2405.11337
Bei der Anwendung von Deep-Learning-Modellen in offenen Szenarien sind Strategien des aktiven Lernens (AL) entscheidend, um aus großen Mengen ungelabelter Daten Kandidaten für die Beschriftung zu identifizieren. In diesem Kontext ist ein robuster Mechanismus zur Erkennung von Out-of-Distribution-Daten (OOD) erforderlich, um mit Daten umzugehen, die außerhalb der Zielverteilung der Anwendung liegen. Bisherige Arbeiten untersuchen diese beiden Probleme jedoch separat. Dieses Paper stellt SISOM als erste einheitliche Lösung für AL und OOD-Erkennung vor. Durch die Nutzung von Distanzmetriken im Merkmalsraum kombiniert SISOM die Vorteile der derzeit unabhängigen Aufgaben, um beide Probleme effektiv zu lösen. In der OpenOOD-Benchmark erreicht SISOM einen ersten Platz und zwei Top-3-Platzierungen bei nahen OOD-Daten sowie Spitzenleistungen bei AL-Aufgaben.
- Herausforderungen beim aktiven Lernen: Großskalige Deep-Learning-Modelle erfordern große Mengen an annotierten Daten, aber die Annotationskosten sind hoch und erfordern eine intelligente Auswahl der wertvollsten Proben zur Annotation
- Bedarf an OOD-Erkennung: Bei der praktischen Bereitstellung von Modellen werden Daten außerhalb der Trainingsverteilung angetroffen, weshalb ein zuverlässiger OOD-Erkennungsmechanismus erforderlich ist
- Einschränkungen der separaten Behandlung: Bestehende Methoden behandeln AL und OOD-Erkennung als unabhängige Aufgaben, was zu widersprüchlichen Designzielen und erhöhter Systemkomplexität führt
- Anforderungen praktischer Anwendungen: Roboter, autonomes Fahren und andere praktische Anwendungen erfordern die gleichzeitige Bewältigung von Markierungseffizienz und Out-of-Distribution-Datenproblemen
- Entdeckung von Aufgabenbeziehungen: Die Autoren beobachten, dass nahe OOD-Daten und ungelabelte AL-Kandidaten im latenten Raum überlappen und mehrdeutig sind
- Vorteile eines einheitlichen Ansatzes: Eine einheitliche Behandlung kann den Overhead separater Designphasen eliminieren und widersprüchliche Designziele vermeiden
Das Paper zeigt durch UMAP-Visualisierung, dass nahe OOD-Daten und ungelabelte AL-Kandidaten im Merkmalsraum ähnliche Positionen einnehmen und dazu neigen, zwischen bestehenden Clustern oder in der Nähe von Entscheidungsgrenzen zu liegen. Dies bietet eine theoretische Grundlage für einen einheitlichen Ansatz.
- Erste einheitliche Methode: Vorstellung von SISOM als erste speziell für die gleichzeitige Lösung von AL und OOD-Erkennung konzipierte Methode
- Merkmalsraum-Analysetechnik: Einführung von Analysen des latenten Raums zur Optimierung von Verfeinerungsschleifen des Merkmalsraums nach dem Training
- Selbstausgleichender Fusionsmechanismus: Vorschlag einer selbstausgleichenden Fusionsmethode für Unsicherheits- und Diversitätsmessungen
- Überlegene experimentelle Leistung: Überlegene Leistung gegen hochspezialisierte State-of-the-Art-Methoden in gängigen Bild-AL- und OOD-Benchmarks
Aktives Lernen: Ausgehend von einem initialen gelabelten Pool L und ungelabeltem Pool U wählt das Modell f durch eine Abfragestrategie Q(x,f) neue Proben A zur Annotation aus, mit dem Ziel, die beste Leistung mit minimalen Annotationen zu erreichen.
OOD-Erkennung: Gegeben ein Modell f, das auf der Verteilung Ω trainiert wurde, wird bestimmt, ob eine Testprobe x̃ aus der In-Distribution (InD) oder Out-of-Distribution (OOD) stammt:
G(x,f)={InDOODwenn S(x;f)≥λwenn S(x;f)<λ
SISOM besteht aus fünf Kernkomponenten:
Konstruktion einer informationsreichen Merkmalsraumdarstellung durch Verkettung mehrerer Netzwerkschichten:
z=h1(x)⊕⋯⊕hj(x)⊕⋯⊕hn(x)
Verwendung von KL-Divergenz-Gradienten-gewichteten Merkmalen:
g=∂z∂DKL(u∣∣f(x))z~=σ(z⊙g)
wobei u eine Gleichverteilung ist und ⊙ das Hadamard-Produkt darstellt.
Definition von Intra-Klassen- und Inter-Klassendistanzen:
din(z~)=minz′∈ZL(c′=c)∣∣z~−z~′∣∣2dout(z~)=minz′∈ZL(c′=c)∣∣z~−z~′∣∣2
SISOM-Bewertung:
r(x)=doutdin
Berechnung des durchschnittlichen Distanzverhältnisses als Proxy für die Trennbarkeit des Merkmalsraums:
ravg=∣L∣1∑z∈Ldout(σ(z⊙g))din(σ(z⊙g))
Adaptive Fusion von Unsicherheit und Diversität:
r^i=min(ravg,1)⋅Ei+max(1−ravg,0)⋅ri
Optimierung des Steilheitsparameters α der Sigmoid-Funktion jeder Schicht zur Verbesserung der Merkmalsraumtrennbarkeit:
αopt=argminαravg(α)
- Einheitliche Metrik-Gestaltung: Das Distanzverhältnis erfasst gleichzeitig AL- und OOD-Erkennungsanforderungen
- Adaptive Fusion: Automatische Ausbalancierung von Unsicherheit und Diversität basierend auf der Qualität des Merkmalsraums
- Multi-Layer-Merkmalintegration: Nutzung von Informationen aus mehreren Netzwerkschichten zur Verbesserung der Darstellungsfähigkeit
- Gradienten-Gewichtung: Hervorhebung wichtiger Neuronen durch KL-Divergenz-Gradienten
Aktives Lernen:
- CIFAR-10/100: Abfragegröße q=1000/2000
- SVHN: Abfragegröße q=500
- Verwendung von ResNet18/34-Architekturen
OOD-Erkennung:
- Einhaltung der OpenOOD-Benchmark-Einstellungen
- CIFAR-10: Nahe OOD (CIFAR-100, Tiny ImageNet), Ferne OOD (MNIST, SVHN usw.)
- CIFAR-100: Nahe OOD (CIFAR-10, Tiny ImageNet), Ferne OOD (MNIST, SVHN usw.)
- ImageNet-1k: Nahe OOD (SSB-hard, NINCO), Ferne OOD (iNaturalist usw.)
- Aktives Lernen: Klassifizierungsgenauigkeit in Abhängigkeit vom Prozentsatz der gelabelten Daten
- OOD-Erkennung: AUROC (Area Under ROC Curve)
Baselines für aktives Lernen:
- CoreSet, Badge, Learning Loss, CoreGCN
- Semi-supervised-Einstellung: TypiClust, ProbCover, PT4AL
Baselines für OOD-Erkennung:
- NAC, KNN, MSP, Energy, ReAct, SCALE und 17 weitere Methoden
- CIFAR-10: SISOM und SISOMe übertreffen andere Methoden in allen Auswahlzyklen
- CIFAR-100: Erreicht höchste Leistung in späteren Auswahlschritten
- Semi-supervised-Einstellung: SISOM profitiert erheblich von Vortraining und übertrifft PT4AL
| Datensatz | SISOMe | SISOM | Beste Baseline |
|---|
| CIFAR-10 (nahe OOD) | 91,76 | 91,40 | 91,13 |
| CIFAR-100 (nahe OOD) | 81,10 | 79,42 | 81,31 |
| ImageNet (nahe OOD) | 78,59 | 77,33 | 95,22 |
Gesamtranking: SISOMe erreicht in allen drei Benchmarks Top-3-Platzierungen mit insgesamt Platz 1.
- Optimale Sigmoid-Steilheit: Verbessert die Leistung auf CIFAR-100 und ImageNet
- Reduzierte Teilmengenauswahl: Erhebliche Verbesserung der Inferenzgeschwindigkeit mit leicht verbesserter Leistung
- Effekt der Merkmalsverstärkung: KL-Divergenz-Gradienten-Gewichtung verbessert die Merkmalsraumtrennbarkeit erheblich
| Methode | SISOM | SISOMe | Badge | CoreSet |
|---|
| Zeit (Sekunden) | 1477±896 | 954±126 | 33664±6682 | 2604±1572 |
Mit 5%-Teilmengenauswahl wird die Laufzeit von SISOMe auf 266 Sekunden reduziert, mit leicht verbesserter Leistung.
Verwendung von AL-Trainingsprüfpunkten für OOD-Erkennung zeigt, dass SISOMe sowohl bei nahen als auch fernen OOD-Daten beste Leistung erreicht und die Wirksamkeit des einheitlichen Ansatzes beweist.
- Unsicherheitsmethoden: Monte Carlo Dropout, Ensemble-Methoden
- Diversitätsmethoden: CoreSet, Badge und andere gradientenbasierte Methoden
- Hybridmethoden: Kombination von Unsicherheits- und Diversitätsmethoden
- Vorverarbeitungsmethoden: Datenerweiterung, gemischtes Training
- Nachverarbeitungsmethoden: Neuronenfilterung, Gewichtsoperationen
- Logits-basierte Methoden: Temperaturenskalierung, Energiebewertung
- Merkmalsraummethoden: Mahalanobis-Distanz, k-nächste Nachbarn
Bestehende Methoden verwenden hauptsächlich unabhängige Module für AL und OOD, dieses Paper erforscht erstmals die inneren Beziehungen zwischen den beiden Aufgaben.
- Machbarkeit der Vereinheitlichung: Erstmalige Demonstration, dass AL und OOD-Erkennung durch eine einzelne Methode effektiv gelöst werden können
- Leistungsüberlegenheit: Erreicht oder nähert sich State-of-the-Art-Leistung bei beiden Aufgaben
- Praktischer Wert: Vereinfacht die Bereitstellungskomplexität in praktischen Anwendungen
- Rechenkomplexität: Distanzberechnungen verursachen zusätzliche Kosten, können aber durch Teilmengenauswahl gemildert werden
- Abhängigkeit vom Merkmalsraum: Die Methodenleistung hängt von der Trennbarkeit des Merkmalsraums ab
- Empfindlichkeit gegenüber Hyperparametern: Der Sigmoid-Steilheitsparameter erfordert Optimierung für verschiedene Datensätze
- Open-Set-Aktives Lernen: Erweiterung des einheitlichen Ansatzes auf Open-Set-AL-Szenarien
- Komplexe Aufgaben: Erweiterung auf komplexere Aufgaben wie Objekterkennung und semantische Segmentierung
- Batch-Diversifizierung: Untersuchung von Batch-Diversifizierungstechniken auf Dual-Task-Methoden
- Hohe Innovativität: Erste Vorstellung eines einheitlichen Ansatzes für AL und OOD-Erkennung mit wichtigem theoretischem und praktischem Wert
- Geschickte Methodengestaltung: Das Distanzverhältnis ist einfach und effektiv, der adaptive Fusionsmechanismus zeigt tiefe Einsichten
- Umfassende Experimente: Abdeckung mehrerer Datensätze und Baselines mit Ablationsstudien und Laufzeitanalyse
- Solide theoretische Grundlage: Visualisierungsanalyse offenbart innere Beziehungen zwischen den beiden Aufgaben
- Unzureichende theoretische Analyse: Fehlende theoretische Garantien für Konvergenz und Generalisierungsfähigkeit
- Begrenzte Anwendungsbereiche: Hauptsächlich auf Bildklassifizierungsaufgaben validiert, Anwendbarkeit in anderen Bereichen unbekannt
- Komplexe Parameteroptimierung: Mehrere Hyperparameter erfordern Optimierung für verschiedene Datensätze, was die Praktikabilität beeinträchtigen kann
- Akademischer Beitrag: Eröffnet neue Forschungsrichtung für einheitliche Untersuchung von AL und OOD-Erkennung
- Praktischer Wert: Wichtig für praktische Anwendungen wie Roboter und autonomes Fahren
- Reproduzierbarkeit: Detaillierte Implementierungsdetails und Code fördern Reproduzierbarkeit und Erweiterung
- Ressourcenbegrenzte Umgebungen: Anwendungen, die gleichzeitig Markierungseffizienz und OOD-Erkennung berücksichtigen müssen
- Echtzeitsysteme: Durch Teilmengenauswahl können Effizienz und Leistung erhalten bleiben
- Open-World-Anwendungen: Autonomes Fahren, Roboternavigation und andere Szenarien mit Verteilungsänderungen
Das Paper zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:
- Aktives Lernen: Settles (2010), Sener & Savarese (2018), Ash et al. (2020)
- OOD-Erkennung: Yang et al. (2022), Liu et al. (2020), Sun et al. (2022)
- OpenOOD-Benchmark: Yang et al. (2022), Zhang et al. (2023)
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das einen innovativen einheitlichen Ansatz zur Lösung zweier wichtiger Probleme mit umfassender experimenteller Validierung vorschlägt und wichtige Auswirkungen auf verwandte Bereiche hat. Trotz einiger Mängel in Theorie und Praktikabilität machen seine bahnbrechenden Beiträge und überlegene Leistung es zu einer wichtigen Arbeit in diesem Bereich.