Out-of-Distribution Detection in LiDAR Semantic Segmentation Using Epistemic Uncertainty from Hierarchical GMMs
Miandashti, Brenner
In addition to accurate scene understanding through precise semantic segmentation of LiDAR point clouds, detecting out-of-distribution (OOD) objects, instances not encountered during training, is essential to prevent the incorrect assignment of unknown objects to known classes. While supervised OOD detection methods depend on auxiliary OOD datasets, unsupervised methods avoid this requirement but typically rely on predictive entropy, the entropy of the predictive distribution obtained by averaging over an ensemble or multiple posterior weight samples. However, these methods often conflate epistemic (model) and aleatoric (data) uncertainties, misclassifying ambiguous in distribution regions as OOD. To address this issue, we present an unsupervised OOD detection approach that employs epistemic uncertainty derived from hierarchical Bayesian modeling of Gaussian Mixture Model (GMM) parameters in the feature space of a deep neural network. Without requiring auxiliary data or additional training stages, our approach outperforms existing uncertainty-based methods on the SemanticKITTI dataset, achieving an 18\% improvement in AUROC, 22\% increase in AUPRC, and 36\% reduction in FPR95 (from 76\% to 40\%), compared to the predictive entropy approach used in prior works.
academic
Out-of-Distribution-Erkennung in der LiDAR-Semantischen Segmentierung mittels epistemischer Unsicherheit aus hierarchischen GMMs
Das Papier schlägt eine Methode zur Schätzung der epistemischen Unsicherheit basierend auf hierarchischer Bayes'scher Modellierung von Gaußschen Mischmodellen (GMM) für die Out-of-Distribution (OOD)-Erkennung in der LiDAR-Semantischen Segmentierung vor. Die Methode benötigt weder Hilfsdaten noch zusätzliche Trainingsphasen und erreicht auf dem SemanticKITTI-Datensatz erhebliche Verbesserungen gegenüber bestehenden entropiebasierten Methoden: AUROC-Verbesserung um 18%, AUPRC-Verbesserung um 22%, FPR95 sinkt von 76% auf 40%.
Bei sicherheitskritischen Anwendungen wie dem autonomen Fahren muss die LiDAR-Semantische Segmentierung nicht nur bekannte Szenen genau verstehen, sondern auch Out-of-Distribution (OOD)-Objekte identifizieren können, die während des Trainings nicht gesehen wurden, um zu vermeiden, dass unbekannte Objekte fälschlicherweise als bekannte Klassen klassifiziert werden.
Überwachte Methoden: Abhängig von Hilfsdatensätzen mit OOD-Daten, die im LiDAR-Bereich schwer zu beschaffen sind
Unüberwachte Methoden: Basieren hauptsächlich auf Vorhersageentropie, verwechseln aber epistemische und aleatorische Unsicherheit
Unsicherheitsvermischung: Vorhersageentropie vermischt Modellunsicherheit und Datenvariabilität, was zu Fehlklassifizierungen von mehrdeutigen Verteilungs-Innen-Bereichen als OOD führt
Vorschlag einer OOD-Erkennungsmethode basierend auf epistemischer Unsicherheit: Durch hierarchische Bayes'sche Modellierung von GMM-Parametern werden epistemische und aleatorische Unsicherheit getrennt
Unüberwachtes Framework: Benötigt weder Hilfsdaten noch zusätzliche Trainingsphasen, was die Praktikabilität erhöht
Erhebliche Leistungsverbesserung: Übertrifft bestehende Methoden auf dem SemanticKITTI-Datensatz deutlich
Theoretischer Beitrag: Demonstriert die Überlegenheit der epistemischen Unsicherheit gegenüber der Vorhersageentropie bei der OOD-Erkennung
Basierend auf der GMMSeg-Architektur wird ein tiefes neuronales Netzwerk verwendet, um pixelweise Merkmalsdarstellungen z ∈ ℝ^D zu extrahieren, dann wird für jede semantische Klasse c eine klassenbedingte Gaußsche Mischverteilung im Merkmalsraum modelliert:
p(z | c) = Σ(k=1 bis K) π_k^(c) N(z | μ_k^(c), Σ_k^(c))
wobei π_k^(c), μ_k^(c), Σ_k^(c) jeweils das Mischgewicht, den Mittelwert und die Kovarianz der k-ten Gaußschen Komponente darstellen.
Durch Sampling von n GMM-Parametersätzen wird für jeden Pixel die Häufigkeitsverteilung der Klassenvorhersage berechnet, dann wird die Entropie berechnet:
H[y | z] = -Σ(c=1 bis C) p̄_c log p̄_c
wobei p̄_c = (1/n)Σ(i=1 bis n)Iy^(i) = c die empirische Wahrscheinlichkeit der Klasse c darstellt.
Unsicherheitstrennung: Direkte Schätzung der epistemischen Unsicherheit durch Parametersampling, vermeidet die Vermischung von zwei Unsicherheitsarten in der Vorhersageentropie
Kein Neutraining erforderlich: Nutzt den Merkmalsraum des bestehenden Segmentierungsnetzwerks und realisiert Unsicherheitsschätzung durch GMM-Modellierung
Theoretische Grundlage: Basierend auf gegenseitiger Informationstheorie wird epistemische Unsicherheit als Iy; θ | x = H(p(y|x)) - E_θH(p(y|x,θ)) definiert
Das Papier zitiert wichtige Arbeiten in verwandten Bereichen, einschließlich:
GMMSeg 18: Grundlegende Arbeiten zur generativen semantischen Segmentierung
Deep Ensembles 16: Klassische Methode zur Unsicherheitsschätzung
MC Dropout 7: Repräsentative Arbeiten zu Bayes'schem tiefem Lernen
SemanticKITTI 1: Standarddatensatz für LiDAR-Semantische Segmentierung
Dieses Papier leistet einen wichtigen Beitrag im Bereich der OOD-Erkennung in der LiDAR-Semantischen Segmentierung. Durch geschickte technische Gestaltung wird eine effektive Schätzung der epistemischen Unsicherheit realisiert, die eine wertvolle Lösung zur Verbesserung der Sicherheit und Zuverlässigkeit autonomer Fahrzeugsysteme bietet.