2025-11-13T14:31:10.402139

Out-of-Distribution Detection in LiDAR Semantic Segmentation Using Epistemic Uncertainty from Hierarchical GMMs

Miandashti, Brenner
In addition to accurate scene understanding through precise semantic segmentation of LiDAR point clouds, detecting out-of-distribution (OOD) objects, instances not encountered during training, is essential to prevent the incorrect assignment of unknown objects to known classes. While supervised OOD detection methods depend on auxiliary OOD datasets, unsupervised methods avoid this requirement but typically rely on predictive entropy, the entropy of the predictive distribution obtained by averaging over an ensemble or multiple posterior weight samples. However, these methods often conflate epistemic (model) and aleatoric (data) uncertainties, misclassifying ambiguous in distribution regions as OOD. To address this issue, we present an unsupervised OOD detection approach that employs epistemic uncertainty derived from hierarchical Bayesian modeling of Gaussian Mixture Model (GMM) parameters in the feature space of a deep neural network. Without requiring auxiliary data or additional training stages, our approach outperforms existing uncertainty-based methods on the SemanticKITTI dataset, achieving an 18\% improvement in AUROC, 22\% increase in AUPRC, and 36\% reduction in FPR95 (from 76\% to 40\%), compared to the predictive entropy approach used in prior works.
academic

Out-of-Distribution-Erkennung in der LiDAR-Semantischen Segmentierung mittels epistemischer Unsicherheit aus hierarchischen GMMs

Grundinformationen

  • Papier-ID: 2510.08631
  • Titel: Out-of-Distribution Detection in LiDAR Semantic Segmentation Using Epistemic Uncertainty from Hierarchical GMMs
  • Autoren: Hanieh Shojaei Miandashti, Claus Brenner (Leibniz Universität Hannover)
  • Klassifizierung: cs.CV, cs.LG
  • Veröffentlichungsdatum: 8. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.08631

Zusammenfassung

Das Papier schlägt eine Methode zur Schätzung der epistemischen Unsicherheit basierend auf hierarchischer Bayes'scher Modellierung von Gaußschen Mischmodellen (GMM) für die Out-of-Distribution (OOD)-Erkennung in der LiDAR-Semantischen Segmentierung vor. Die Methode benötigt weder Hilfsdaten noch zusätzliche Trainingsphasen und erreicht auf dem SemanticKITTI-Datensatz erhebliche Verbesserungen gegenüber bestehenden entropiebasierten Methoden: AUROC-Verbesserung um 18%, AUPRC-Verbesserung um 22%, FPR95 sinkt von 76% auf 40%.

Forschungshintergrund und Motivation

Problemdefinition

Bei sicherheitskritischen Anwendungen wie dem autonomen Fahren muss die LiDAR-Semantische Segmentierung nicht nur bekannte Szenen genau verstehen, sondern auch Out-of-Distribution (OOD)-Objekte identifizieren können, die während des Trainings nicht gesehen wurden, um zu vermeiden, dass unbekannte Objekte fälschlicherweise als bekannte Klassen klassifiziert werden.

Bedeutung des Problems

  1. Sicherheitsanforderungen: Autonome Fahrzeugsysteme müssen anomale Objekte auf der Straße erkennen (z. B. Mülleimer, Schilder, Tiere)
  2. Zuverlässigkeitsanforderungen: Tiefe Modelle erzeugen häufig übermäßig selbstbewusste, aber fehlerhafte Vorhersagen bei OOD-Eingaben
  3. Praktische Überlegungen: In realen Umgebungen gibt es viele Objektklassen, die nicht im Trainingsdatensatz abgedeckt sind

Einschränkungen bestehender Methoden

  1. Überwachte Methoden: Abhängig von Hilfsdatensätzen mit OOD-Daten, die im LiDAR-Bereich schwer zu beschaffen sind
  2. Unüberwachte Methoden: Basieren hauptsächlich auf Vorhersageentropie, verwechseln aber epistemische und aleatorische Unsicherheit
  3. Unsicherheitsvermischung: Vorhersageentropie vermischt Modellunsicherheit und Datenvariabilität, was zu Fehlklassifizierungen von mehrdeutigen Verteilungs-Innen-Bereichen als OOD führt

Kernbeiträge

  1. Vorschlag einer OOD-Erkennungsmethode basierend auf epistemischer Unsicherheit: Durch hierarchische Bayes'sche Modellierung von GMM-Parametern werden epistemische und aleatorische Unsicherheit getrennt
  2. Unüberwachtes Framework: Benötigt weder Hilfsdaten noch zusätzliche Trainingsphasen, was die Praktikabilität erhöht
  3. Erhebliche Leistungsverbesserung: Übertrifft bestehende Methoden auf dem SemanticKITTI-Datensatz deutlich
  4. Theoretischer Beitrag: Demonstriert die Überlegenheit der epistemischen Unsicherheit gegenüber der Vorhersageentropie bei der OOD-Erkennung

Methodische Details

Aufgabendefinition

Gegeben eine Entfernungsansicht-Darstellung von LiDAR-Punktwolken ist das Ziel:

  1. Pixelweise semantische Segmentierung durchzuführen
  2. Pixelbereiche zu identifizieren, die zu OOD gehören
  3. Die Unsicherheit der Vorhersage zu quantifizieren

Modellarchitektur

1. Hybrid-Generativ-Diskriminatives Framework

Basierend auf der GMMSeg-Architektur wird ein tiefes neuronales Netzwerk verwendet, um pixelweise Merkmalsdarstellungen z ∈ ℝ^D zu extrahieren, dann wird für jede semantische Klasse c eine klassenbedingte Gaußsche Mischverteilung im Merkmalsraum modelliert:

p(z | c) = Σ(k=1 bis K) π_k^(c) N(z | μ_k^(c), Σ_k^(c))

wobei π_k^(c), μ_k^(c), Σ_k^(c) jeweils das Mischgewicht, den Mittelwert und die Kovarianz der k-ten Gaußschen Komponente darstellen.

2. Hierarchische Bayes'sche Modellierung

Die Schlüsselinnovation liegt in der hierarchischen Bayes'schen Modellierung von GMM-Parametern:

  • Priori-Verteilungen: Gaußsch-inverse Gamma konjugierte Prioren für Mittelwert und Varianz jeder Gaußschen Komponente
  • Posteriori-Aktualisierung: Aktualisierung der Posteriori-Verteilung der Parameter basierend auf Trainingsdaten
  • Parametersampling: Mehrfaches Sampling von GMM-Parametern aus der Posteriori-Verteilung während der Inferenz

Konkret:

μ_k^(c) ~ N(μ_0, σ_k^2(c)/κ_0)
σ_k^2(c) ~ Inv-Gamma(α_0, β_0)

3. Schätzung der epistemischen Unsicherheit

Durch Sampling von n GMM-Parametersätzen wird für jeden Pixel die Häufigkeitsverteilung der Klassenvorhersage berechnet, dann wird die Entropie berechnet:

H[y | z] = -Σ(c=1 bis C) p̄_c log p̄_c

wobei p̄_c = (1/n)Σ(i=1 bis n)Iy^(i) = c die empirische Wahrscheinlichkeit der Klasse c darstellt.

Technische Innovationspunkte

  1. Unsicherheitstrennung: Direkte Schätzung der epistemischen Unsicherheit durch Parametersampling, vermeidet die Vermischung von zwei Unsicherheitsarten in der Vorhersageentropie
  2. Kein Neutraining erforderlich: Nutzt den Merkmalsraum des bestehenden Segmentierungsnetzwerks und realisiert Unsicherheitsschätzung durch GMM-Modellierung
  3. Theoretische Grundlage: Basierend auf gegenseitiger Informationstheorie wird epistemische Unsicherheit als Iy; θ | x = H(p(y|x)) - E_θH(p(y|x,θ)) definiert

Experimentelle Einrichtung

Datensätze

  • SemanticKITTI: LiDAR-Punktwolkendatensatz mit 19 semantischen Klassen
  • OOD-Klassen: Verwendung der Outlier-Klasse im Datensatz als OOD-Proben (Mülleimer, Schilder, Tiere usw.)
  • Eingabeformat: 64×1024×5 Entfernungsansicht-Bilder (x,y,z-Koordinaten, Intensität, Entfernung)
  • Merkmalsdimension: 32-dimensionale Merkmale extrahiert mit SalsaNext-Backbone

Bewertungsmetriken

  • AUROC: Fläche unter der ROC-Kurve, misst die Gesamtklassifizierungsleistung
  • AUPRC: Fläche unter der Präzisions-Recall-Kurve, geeignet für unausgeglichene Klassen
  • FPR95: Falsch-Positiv-Rate bei 95% echter Positiv-Rate, misst Sicherheit
  • mIoU: Durchschnittliche Schnittmenge über Vereinigung für semantische Segmentierung

Vergleichsmethoden

  • MSP: Maximale Softmax-Wahrscheinlichkeit
  • ODIN: Temperaturskaliering und Eingabestörungsmethode
  • MC Dropout: Monte-Carlo-Dropout
  • Deep Ensembles (DE): Tiefe Ensembles
  • GMMSeg: Ursprüngliche GMM-Segmentierungsmethode (ohne Unsicherheitsmodellierung)

Implementierungsdetails

  • Backbone-Netzwerk: SalsaNext
  • GMM-Komponenten: 2 Gaußsche Komponenten pro Klasse
  • Anzahl der Samples: 20 GMM-Parametersamples
  • Schwellenwert-Strategie: Unüberwachte Perzentil-Schwelle (Top 5%)

Experimentelle Ergebnisse

Hauptergebnisse

MethodeAUROC (%)AUPRC (%)FPR95 (%)mIoU (%)
MSP70,4110,9076,0056,37
ODIN73,7412,4575,5456,37
MC Dropout73,6413,6575,9257,15
Deep Ensembles73,0316,1476,4857,17
GMMSeg87,6226,1448,8457,60
Diese Methode91,0637,6740,1457,71

Wichtigste Erkenntnisse

  1. Erhebliche Leistungsverbesserung: Im Vergleich zur besten Baseline (GMMSeg) AUROC-Verbesserung um 3,44%, AUPRC-Verbesserung um 11,53%
  2. Sicherheitsverbesserung: FPR95 sinkt von 76,48% auf 40,14% im Vergleich zu Deep Ensembles
  3. Segmentierungsleistung: Durch Abstimmungsmechanismus auch leichte Verbesserung der semantischen Segmentierungsgenauigkeit

Qualitative Analyse

Durch visuelle Vergleiche wurde festgestellt:

  • Diese Methode: Identifiziert echte OOD-Objekte (Schilder, Mülleimer usw.) genau, behält angemessene Unsicherheit für mehrdeutige ID-Bereiche
  • Deep Ensembles: Erzeugt zu viele falsch positive Ergebnisse an semantischen Grenzen, übersieht echte OOD-Objekte

Analyse der Unsicherheitsverteilung

Vergleich der Verteilung von Vorhersageentropie und epistemischer Unsicherheit:

  • Vorhersageentropie zeigt große Überlappung zwischen ID- und OOD-Proben
  • Epistemische Unsicherheit erreicht klarere Trennung, ID-Proben konzentrieren sich auf Bereiche mit niedriger Unsicherheit

Verwandte Arbeiten

Klassifizierung von OOD-Erkennungsmethoden

  1. Überwachte Methoden: Abhängig von Hilfsdatensätzen für Outlier-Exposure-Training
  2. Unüberwachte Methoden: Basierend auf Unsicherheitsschätzung, einschließlich deterministischer Methoden (MSP, ODIN) und Bayes'scher Methoden (MC Dropout, Deep Ensembles)

Unsicherheitsschätzung

  • Entropiemethoden: Vermischen epistemische und aleatorische Unsicherheit
  • Gegenseitige Informationsmethoden: Theoretisch können zwei Unsicherheitsarten getrennt werden, aber schwer genau in tiefen Netzwerken zu berechnen
  • Beitrag dieses Papiers: Direkte Schätzung der epistemischen Unsicherheit durch Bayes'sche Modellierung von GMM-Parametern

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Epistemische Unsicherheit ist bei der OOD-Erkennung wirksamer als Vorhersageentropie
  2. Hierarchische Bayes'sche GMM-Modellierung bietet eine praktische Methode zur Schätzung der epistemischen Unsicherheit
  3. Das unüberwachte Framework vermeidet die Abhängigkeit von Hilfsdaten

Einschränkungen

  1. Falsch-Positiv-Problem: Kann immer noch hohe Unsicherheit für semantisch mehrdeutige oder fehlerhaft segmentierte ID-Bereiche erzeugen
  2. Schwellenwertauswahl: Abhängig von Perzentil-Schwellenwert-Strategie, möglicherweise nicht auf alle Szenarien anwendbar
  3. Rechenkomplexität: Erfordert mehrfaches Parametersampling, erhöht die Inferenzzeit

Zukünftige Richtungen

  1. Untersuchung von Strategien zur Verringerung der Mehrdeutigkeit in Grenzbereichen
  2. Verbesserung der Unsicherheits-Schwellenwertauswahlmethode
  3. Erforschung effizienterer Unsicherheitsschätzungsmethoden

Tiefgehende Bewertung

Stärken

  1. Theoretischer Beitrag: Klar dargelegt, warum epistemische Unsicherheit bei der OOD-Erkennung vorteilhaft ist, bietet theoretische Grundlage
  2. Methodische Innovation: Geschickte Realisierung der epistemischen Unsicherheitsschätzung durch Bayes'sche Modellierung von GMM-Parametern
  3. Umfassende Experimente: Vollständiger Vergleich mit mehreren Baselines auf Standarddatensätzen
  4. Hohe Praktikabilität: Benötigt weder Hilfsdaten noch Neutraining, leicht einsetzbar

Mängel

  1. Generalisierbarkeit zu überprüfen: Nur auf SemanticKITTI-Datensatz validiert, benötigt Validierung auf mehr Datensätzen
  2. Parametersensitivität: Auswahl von Hyperparametern wie GMM-Komponentenzahl fehlt detaillierte Analyse
  3. Rechenkostenanalyse: Rechenkostenanalyse mehrfacher Sampling unzureichend
  4. Theoretische Analyse: Mangelnde tiefgehende theoretische Erklärung, warum GMM-Modellierung Unsicherheit besser trennen kann

Einfluss

  1. Akademischer Wert: Bietet neue Forschungsrichtung für OOD-Erkennung in der LiDAR-Semantischen Segmentierung
  2. Praktischer Wert: Von großer Bedeutung für sicherheitskritische Anwendungen wie autonomes Fahren
  3. Reproduzierbarkeit: Methodenbeschreibung ist klar, Implementierung relativ einfach

Anwendungsszenarien

  1. Autonomes Fahren: Erkennung anomaler Objekte auf der Straße
  2. Roboternavigation: Identifizierung von Hindernissen in unbekannten Umgebungen
  3. Sicherheitsüberwachung: Erkennung anomaler Verhaltensweisen oder Objekte
  4. Industrielle Inspektion: Identifizierung fehlerhafter Produkte auf Produktionslinien

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten in verwandten Bereichen, einschließlich:

  • GMMSeg 18: Grundlegende Arbeiten zur generativen semantischen Segmentierung
  • Deep Ensembles 16: Klassische Methode zur Unsicherheitsschätzung
  • MC Dropout 7: Repräsentative Arbeiten zu Bayes'schem tiefem Lernen
  • SemanticKITTI 1: Standarddatensatz für LiDAR-Semantische Segmentierung

Dieses Papier leistet einen wichtigen Beitrag im Bereich der OOD-Erkennung in der LiDAR-Semantischen Segmentierung. Durch geschickte technische Gestaltung wird eine effektive Schätzung der epistemischen Unsicherheit realisiert, die eine wertvolle Lösung zur Verbesserung der Sicherheit und Zuverlässigkeit autonomer Fahrzeugsysteme bietet.