2025-11-13T14:31:10.402139

Out-of-Distribution Detection in LiDAR Semantic Segmentation Using Epistemic Uncertainty from Hierarchical GMMs

Miandashti, Brenner

In addition to accurate scene understanding through precise semantic segmentation of LiDAR point clouds, detecting out-of-distribution (OOD) objects, instances not encountered during training, is essential to prevent the incorrect assignment of unknown objects to known classes. While supervised OOD detection methods depend on auxiliary OOD datasets, unsupervised methods avoid this requirement but typically rely on predictive entropy, the entropy of the predictive distribution obtained by averaging over an ensemble or multiple posterior weight samples. However, these methods often conflate epistemic (model) and aleatoric (data) uncertainties, misclassifying ambiguous in distribution regions as OOD. To address this issue, we present an unsupervised OOD detection approach that employs epistemic uncertainty derived from hierarchical Bayesian modeling of Gaussian Mixture Model (GMM) parameters in the feature space of a deep neural network. Without requiring auxiliary data or additional training stages, our approach outperforms existing uncertainty-based methods on the SemanticKITTI dataset, achieving an 18\% improvement in AUROC, 22\% increase in AUPRC, and 36\% reduction in FPR95 (from 76\% to 40\%), compared to the predictive entropy approach used in prior works.

academic

كشف التوزيع الخارجي في تقسيم دلالات LiDAR باستخدام عدم اليقين الإبستيمي من نماذج GMM الهرمية

المعلومات الأساسية

معرّف الورقة: 2510.08631
العنوان: Out-of-Distribution Detection in LiDAR Semantic Segmentation Using Epistemic Uncertainty from Hierarchical GMMs
المؤلفون: Hanieh Shojaei Miandashti, Claus Brenner (جامعة لايبنتس هانوفر)
التصنيف: cs.CV, cs.LG
تاريخ النشر: 8 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.08631

الملخص

تقترح هذه الورقة طريقة لتقدير عدم اليقين الإبستيمي بناءً على نمذجة معاملات نموذج غاوسي مختلط (GMM) بايزي هرمي، لكشف التوزيع الخارجي (OOD) في تقسيم دلالات LiDAR. لا تتطلب الطريقة بيانات مساعدة أو مراحل تدريب إضافية، وتحقق تحسناً كبيراً مقارنة بالطرق القائمة على熵 التنبؤ على مجموعة بيانات SemanticKITTI: تحسن AUROC بنسبة 18%، وتحسن AUPRC بنسبة 22%، وانخفاض FPR95 من 76% إلى 40%.

خلفية البحث والدافع

تعريف المشكلة

في التطبيقات الحرجة من حيث السلامة مثل القيادة الذاتية، لا يحتاج تقسيم دلالات LiDAR فقط إلى فهم دقيق للمشاهد المعروفة، بل يجب أيضاً أن يكون قادراً على تحديد كائنات التوزيع الخارجي (OOD) التي لم تُرَ أثناء التدريب، لتجنب تصنيف الأجسام المجهولة بشكل خاطئ كفئات معروفة.

أهمية المشكلة

متطلبات السلامة: تحتاج أنظمة القيادة الذاتية إلى تحديد الأجسام الشاذة على الطريق (مثل سلات القمامة والعلامات والحيوانات)
متطلبات الموثوقية: غالباً ما تنتج نماذج التعلم العميق تنبؤات خاطئة لكن واثقة جداً للمدخلات الخارجية
الاعتبارات العملية: توجد في البيئات الحقيقية فئات كائنات كثيرة لم تغطها مجموعات بيانات التدريب

قيود الطرق الموجودة

الطرق الموجهة: تعتمد على مجموعات بيانات OOD مساعدة، يصعب الحصول عليها في مجال LiDAR
الطرق غير الموجهة: تعتمد بشكل أساسي على熵 التنبؤ، لكنها تخلط بين عدم اليقين الإبستيمي والعشوائي
الخلط في عدم اليقين: تمزج熵 التنبؤ بين عدم يقين النموذج وضوضاء البيانات، مما يؤدي إلى تصنيف المناطق الداخلية الغامضة بشكل خاطئ كـ OOD

المساهمات الأساسية

اقتراح طريقة كشف OOD قائمة على عدم اليقين الإبستيمي: من خلال نمذجة معاملات GMM بايزية هرمية، فصل عدم اليقين الإبستيمي والعشوائي
إطار عمل غير موجه: لا يتطلب بيانات OOD مساعدة أو مراحل تدريب إضافية، مما يحسن الجدوى العملية
تحسن الأداء الكبير: يتفوق بشكل كبير على الطرق الموجودة على مجموعة بيانات SemanticKITTI
المساهمة النظرية: إثبات مزايا عدم اليقين الإبستيمي مقارنة بـ熵 التنبؤ في كشف OOD

شرح الطريقة

تعريف المهمة

بالنظر إلى تمثيل العرض المسافة لسحابة نقاط LiDAR، الهدف هو:

إجراء تقسيم دلالات على مستوى البكسل
تحديد مناطق البكسل التي تنتمي إلى OOD
قياس عدم اليقين في التنبؤ

معمارية النموذج

1. إطار العمل المختلط التوليدي-التمييزي

بناءً على معمارية GMMSeg، يستخدم شبكة عصبية عميقة لاستخراج تمثيلات ميزات على مستوى البكسل z ∈ R^D، ثم نمذجة توزيع غاوسي مختلط مشروط بالفئة لكل فئة دلالية c:

p(z | c) = Σ(k=1 to K) π_k^(c) N(z | μ_k^(c), Σ_k^(c))

حيث تمثل π_k^(c)، μ_k^(c)، Σ_k^(c) وزن الخليط، والمتوسط، والتباين المشترك للمكون الغاوسي k على التوالي.

2. النمذجة البايزية الهرمية

الابتكار الرئيسي يكمن في النمذجة البايزية الهرمية لمعاملات GMM:

التوزيعات السابقة: تعيين توزيعات سابقة مترافقة غاوسية-معكوسة غاما لمتوسط وتباين كل مكون غاوسي
تحديث لاحق: تحديث التوزيع اللاحق لمعاملات بناءً على بيانات التدريب
أخذ العينات من المعاملات: أخذ عينات من عدة مجموعات من معاملات GMM من التوزيع اللاحق أثناء الاستدلال

بشكل محدد:

μ_k^(c) ~ N(μ_0, σ_k^2(c)/κ_0)
σ_k^2(c) ~ Inv-Gamma(α_0, β_0)

3. تقدير عدم اليقين الإبستيمي

من خلال أخذ عينات من n مجموعة من معاملات GMM، حساب توزيع التردد لتنبؤ الفئة لكل بكسل، ثم حساب الإنتروبيا:

H[y | z] = -Σ(c=1 to C) p̄_c log p̄_c

حيث p̄_c = (1/n)Σ(i=1 to n)Iy^(i) = c تمثل الاحتمالية التجريبية للفئة c.

نقاط الابتكار التقني

فصل عدم اليقين: تقدير مباشر لعدم اليقين الإبستيمي من خلال أخذ عينات المعاملات، تجنب الخلط بين نوعي عدم اليقين في熵 التنبؤ
بدون إعادة تدريب: الاستفادة من فضاء الميزات لشبكة التقسيم الموجودة، تحقيق تقدير عدم اليقين من خلال نمذجة GMM
الأساس النظري: بناءً على نظرية المعلومات المتبادلة، يُعرّف عدم اليقين الإبستيمي كـ Iy; θ | x = H(p(y|x)) - E_θH(p(y|x,θ))

إعداد التجارب

مجموعات البيانات

SemanticKITTI: مجموعة بيانات سحابة نقاط LiDAR تحتوي على 19 فئة دلالية
فئات OOD: استخدام فئة outlier في مجموعة البيانات كعينات OOD (سلات القمامة والعلامات والحيوانات وغيرها)
صيغة الإدخال: صور عرض مسافة بحجم 64×1024×5 (إحداثيات x,y,z والشدة والمسافة)
بُعد الميزات: استخراج ميزات 32 بُعد باستخدام شبكة SalsaNext الأساسية

مقاييس التقييم

AUROC: المساحة تحت منحنى ROC، قياس الأداء الشامل للتصنيف
AUPRC: المساحة تحت منحنى الدقة-الاستدعاء، مناسب للسيناريوهات غير المتوازنة
FPR95: معدل الإيجابيات الكاذبة عند معدل الإيجابيات الحقيقية 95%، قياس السلامة
mIoU: متوسط تقاطع الاتحاد لتقسيم الدلالات

طرق المقارنة

MSP: أقصى احتمالية Softmax
ODIN: طريقة تحجيم درجة الحرارة والاضطراب المدخل
MC Dropout: Dropout مونت كارلو
Deep Ensembles (DE): التجميع العميق
GMMSeg: طريقة GMM الأصلية للتقسيم (بدون نمذجة عدم اليقين)

تفاصيل التنفيذ

شبكة العمود الفقري: SalsaNext
عدد مكونات GMM: مكونان غاوسيان لكل فئة
عدد العينات: 20 عينة معاملات GMM
استراتيجية الحد الأدنى: حد أدنى مئوي غير موجه (أعلى 5%)

نتائج التجارب

النتائج الرئيسية

الطريقة	AUROC (%)	AUPRC (%)	FPR95 (%)	mIoU (%)
MSP	70.41	10.90	76.00	56.37
ODIN	73.74	12.45	75.54	56.37
MC Dropout	73.64	13.65	75.92	57.15
Deep Ensembles	73.03	16.14	76.48	57.17
GMMSeg	87.62	26.14	48.84	57.60
الطريقة المقترحة	91.06	37.67	40.14	57.71

النتائج الرئيسية

تحسن الأداء الكبير: مقارنة بأفضل خط أساس (GMMSeg)، تحسن AUROC بنسبة 3.44%، وتحسن AUPRC بنسبة 11.53%
تحسن السلامة: انخفاض FPR95 من 76.48% إلى 40.14% مقارنة بـ Deep Ensembles
أداء التقسيم: من خلال آلية التصويت، تحسن طفيف أيضاً في دقة التقسيم الدلالي

التحليل النوعي

من خلال المقارنة البصرية، تم اكتشاف:

الطريقة المقترحة: تحديد دقيق لكائنات OOD الحقيقية (العلامات وسلات القمامة وغيرها)، الحفاظ على عدم يقين معتدل للمناطق الداخلية الغامضة
Deep Ensembles: إنتاج إيجابيات كاذبة كثيرة في حدود الدلالات، فقدان كائنات OOD الحقيقية

تحليل توزيع عدم اليقين

مقارنة توزيع熵 التنبؤ وعدم اليقين الإبستيمي:

تتداخل熵 التنبؤ بشكل كبير بين عينات ID و OOD
يحقق عدم اليقين الإبستيمي فصلاً أوضح، مع تركيز عينات ID في منطقة عدم اليقين المنخفض

الأعمال ذات الصلة

تصنيف طرق كشف OOD

الطرق الموجهة: تعتمد على مجموعات بيانات مساعدة لتدريب outlier exposure
الطرق غير الموجهة: بناءً على تقدير عدم اليقين، بما في ذلك الطرق الحتمية (MSP و ODIN) والطرق البايزية (MC Dropout و Deep Ensembles)

تقدير عدم اليقين

طرق الإنتروبيا: خلط عدم اليقين الإبستيمي والعشوائي
طرق المعلومات المتبادلة: يمكن نظرياً فصل نوعي عدم اليقين، لكن يصعب حسابها بدقة في الشبكات العميقة
مساهمة هذه الورقة: تحقيق تقدير مباشر لعدم اليقين الإبستيمي من خلال النمذجة البايزية الهرمية لمعاملات GMM

الخلاصة والمناقشة

الاستنتاجات الرئيسية

عدم اليقين الإبستيمي أكثر فعالية من熵 التنبؤ في كشف OOD
توفر النمذجة البايزية الهرمية لـ GMM طريقة عملية لتقدير عدم اليقين الإبستيمي
يتجنب الإطار غير الموجه الاعتماد على البيانات المساعدة

القيود

مشكلة الإيجابيات الكاذبة: قد تنتج عدم يقين عالي للمناطق الداخلية الغامضة أو المقسمة بشكل خاطئ
اختيار الحد الأدنى: يعتمد على استراتيجية حد أدنى مئوي، قد لا تنطبق على جميع السيناريوهات
التعقيد الحسابي: يتطلب أخذ عينات متعددة، مما يزيد من وقت الاستدلال

الاتجاهات المستقبلية

البحث عن استراتيجيات لتقليل الغموض في المناطق الحدودية
تحسين طرق اختيار حد أدنى لعدم اليقين
استكشاف طرق أكثر كفاءة لتقدير عدم اليقين

التقييم المتعمق

المميزات

المساهمة النظرية: شرح واضح لمزايا عدم اليقين الإبستيمي في كشف OOD، توفير أساس نظري
ابتكار الطريقة: تحقيق ذكي لتقدير عدم اليقين الإبستيمي من خلال النمذجة البايزية الهرمية لمعاملات GMM
التجارب الشاملة: مقارنة شاملة مع عدة خطوط أساس على مجموعة بيانات قياسية
القوة العملية: لا يتطلب بيانات مساعدة أو إعادة تدريب، سهل النشر

أوجه القصور

التحقق من القابلية للتعميم: التحقق فقط على مجموعة بيانات SemanticKITTI، يتطلب التحقق على مجموعات بيانات أكثر
حساسية المعاملات: اختيار معاملات فائقة مثل عدد مكونات GMM يفتقر إلى تحليل تفصيلي
التكلفة الحسابية: تحليل غير كافٍ لتكلفة الحساب للعينات المتعددة
التحليل النظري: نقص التفسير النظري العميق لسبب أن نمذجة GMM يمكن أن تفصل عدم اليقين بشكل أفضل

التأثير

القيمة الأكاديمية: توفير اتجاه بحثي جديد لكشف OOD في تقسيم دلالات LiDAR
القيمة العملية: ذات أهمية كبيرة للتطبيقات الحرجة من حيث السلامة مثل القيادة الذاتية
قابلية التكرار: وصف الطريقة واضح، التنفيذ نسبياً بسيط

السيناريوهات المعمول بها

القيادة الذاتية: كشف الأجسام الشاذة على الطريق
ملاحة الروبوتات: تحديد العوائق في البيئات المجهولة
المراقبة الأمنية: كشف السلوك أو الأجسام الشاذة
الكشف الصناعي: تحديد المنتجات المعيبة على خطوط الإنتاج

المراجع

تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك:

GMMSeg 18: العمل الأساسي للتقسيم الدلالي التوليدي
Deep Ensembles 16: الطريقة الكلاسيكية لتقدير عدم اليقين
MC Dropout 7: العمل التمثيلي للتعلم العميق البايزي
SemanticKITTI 1: مجموعة البيانات القياسية لتقسيم دلالات LiDAR

تقدم هذه الورقة مساهمة مهمة في مجال كشف OOD في تقسيم دلالات LiDAR، وتحقق من خلال التصميم التقني الذكي تقديراً فعالاً لعدم اليقين الإبستيمي، مما يوفر حلاً قيماً لتحسين سلامة وموثوقية أنظمة القيادة الذاتية.