2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.

Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.

academic

XD-RCDepth: تقدير العمق خفيف الوزن بالرادار والكاميرا مع تقطير موزع الوعي والتوزيع

المعلومات الأساسية

معرّف الورقة: 2510.13565
العنوان: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
المؤلفون: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
المؤسسات: جامعة ميونيخ التقنية وشركة Infineon Technologies AG
التصنيف: cs.CV (رؤية الحاسوب)
تاريخ النشر: 15 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.13565

الملخص

تقدم هذه الورقة XD-RCDepth، وهي بنية خفيفة الوزن لتقدير العمق بالرادار والكاميرا، مع تقليل عدد المعاملات بنسبة 29.7% مقارنة بأحدث نماذج خطوط الأساس الخفيفة الوزن، مع الحفاظ على دقة مماثلة. لضمان الأداء تحت ضغط نموذج والتحسين من القابلية للتفسير، قدم المؤلفون استراتيجيتي تقطير معرفة: تقطير محاذاة القابلية للتفسير (نقل هياكل الأهمية من نموذج المعلم إلى نموذج الطالب) وتقطير توزيع العمق (إعادة صياغة انحدار العمق كتصنيف ناعم على صناديق منفصلة). حققت هذه المكونات تقليلاً بنسبة 7.97% في MAE مقارنة بالتدريب المباشر، مع تحقيق دقة تنافسية بكفاءة في الوقت الفعلي على مجموعات بيانات nuScenes و ZJU-4DRadarCam.

خلفية البحث والدافع

تعريف المشكلة

يظل تقدير العمق مهمة أساسية في القيادة الذاتية، وتشمل الطرق الحالية بشكل أساسي:

طرق الكاميرا النقية: تعاني من مشكلة الحالة المرضية المتأصلة لأن صور RGB لا توفر قياساً هندسياً مباشراً
دمج LiDAR والكاميرا: على الرغم من الدقة العالية، إلا أن LiDAR مكلف وعرض النطاق الترددي للبيانات كبير، مما يؤثر على الأداء في الوقت الفعلي
دمج الرادار والكاميرا: الرادار نسبياً أقل تكلفة وأكثر قوة في الطقس السيء، لكنه يعاني من مشاكل الندرة والضوضاء

قيود الطرق الموجودة

تعاني طرق تقدير العمق بالرادار والكاميرا الحالية من المشاكل التالية:

التعقيد الحسابي العالي: تعتمد معظمها على خطوط أنابيب ثنائية المراحل، حيث تكثف سحابة نقاط الرادار الندرة أولاً، ثم تتنبأ بالعمق
عيوب في تصميم التقطير: مثل تقطير الميزات عبر الوسائط في LiRCDepth الذي يتطلب محاذاة القناة، مما يحد من تصميم شبكة الطالب
نقص القابلية للتفسير: إشارات التقطير الموجودة سطحية نسبياً ولا تتعامل مع قابلية تفسير النموذج

دافع البحث

يكمن دافع المؤلفين في:

تطوير بنية دمج رادار-كاميرا أخف وزناً لتلبية متطلبات النشر في الوقت الفعلي
تصميم استراتيجيات تقطير معرفة أكثر فعالية، مع الحفاظ على الأداء أثناء ضغط النموذج
إدخال القابلية للتفسير في تقطير المعرفة لمهام التنبؤ الكثيفة

المساهمات الأساسية

اقتراح إطار عمل خفيف الوزن لتقدير العمق بالرادار والكاميرا: يستخدم وحدة دمج FiLM فعالة، مع تقليل عدد المعاملات بنسبة 29.7% مقارنة بـ LiRCDepth
طرق تقطير معرفة مبتكرة:
- تقطير خريطة الأهمية المحاذاة للقابلية للتفسير (X-KD)
- تقطير توزيع العمق (D2-KD)
إدخال القابلية للتفسير لأول مرة في تقطير المعرفة للتنبؤ الكثيف: من خلال توليد خرائط الأهمية باستخدام Grad-CAM للتقطير
تحقيق أداء في الوقت الفعلي: الوصول إلى 15 إطار في الثانية مع الحفاظ على دقة تنافسية

شرح الطريقة

تعريف المهمة

الإدخال: صورة RGB وسحابة نقاط رادار ندرة الإخراج: خريطة عمق كثيفة القيود: متطلبات الأداء في الوقت الفعلي والموارد الحسابية المحدودة

معمارية النموذج

شبكة المعلم (CaFNet)

تدفق الصورة: شبكة عمود فقري ResNet-34، استخراج ميزات في 5 مستويات مكانية
تدفق الرادار: معالجة ثنائية المراحل، المرحلة الأولى تولد خريطة عمق خشنة وخريطة ثقة
الدمج: وحدة دمج بوابة واعية للثقة (CaGF)
فك التشفير: فك تشفير بنمط BTS

شبكة الطالب (XD-RCDepth)

شبكة العمود الفقري: MobileNetV2 ثنائية الوسائط، معالجة ميزات الصورة والرادار بشكل منفصل
وحدة دمج FiLM:
```
γ = Conv1×1(fr), β = Conv1×1(fr)
ffuse = (1 + γ) ⊙ fi + β
```
حيث fr و fi هما ميزات الرادار والصورة على التوالي، و γ و β هما معاملات التحجيم والإزاحة حسب القناة
DASPP النقطي: توسيع تجميع الهرم المكاني الممدد الكثيف، باستخدام فرع الالتفاف النقطي والعينات الممددة بمعدلات تمدد مختلفة

نقاط الابتكار التقني

1. تقطير محاذاة القابلية للتفسير (X-KD)

توليد خرائط أهمية باستخدام Grad-CAM، مما يجعل شبكة الطالب تتعلم أنماط الانتباه من شبكة المعلم:

توليد خريطة الأهمية:

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

خسارة التقطير:

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. تقطير توزيع العمق (D2-KD)

تقسيم نطاق العمق المستمر إلى B صندوق، مع التقطير من خلال التصنيف الناعم:

تخصيص الصندوق:

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

التوزيع الاحتمالي:

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

خسارة اختلاف KL:

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

دالة الخسارة الكلية

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

حيث LDepth هي خسارة الإشراف على العمق، و λ1=1.0, λ2=0.5, λ3=0.5

إعداد التجارب

مجموعات البيانات

nuScenes: مجموعة بيانات متعددة الوسائط للقيادة الذاتية، باستخدام بيانات الرادار ثلاثية الأبعاد
ZJU-4DRadarCam: مجموعة بيانات الرادار رباعي الأبعاد، توفر معلومات رادار بدقة أعلى

مقاييس التقييم

مقاييس الخطأ: MAE (متوسط الخطأ المطلق)، RMSE (جذر متوسط الخطأ التربيعي)، AbsRel (الخطأ المطلق النسبي)، log10
مقاييس الدقة: δ1, δ2, δ3 (دقة العتبة)

طرق المقارنة

RadarNet: طريقة دمج رادار-كاميرا مبكرة
CaFNet: شبكة المعلم
LiRCDepth: خط الأساس الخفيف الوزن الحالي الأكثر تقدماً

تفاصيل التنفيذ

الأجهزة: وحدة معالجة رسومات NVIDIA L40 واحدة
حجم الدفعة: 8
طبقات التقطير: طبقة 1/16 من مشفر الصورة ومشفر الرادار وفك التشفير

نتائج التجارب

النتائج الرئيسية

مقارنة الأداء على مجموعة بيانات nuScenes (مسافة التقييم 80 متر)

الطريقة	عدد المعاملات	وقت التشغيل	MAE↓	RMSE↓	AbsRel↓	δ1↑
RadarNet	22.8M	0.378s	2.179	4.899	0.106	0.894
CaFNet (المعلم)	62.25M	0.132s	1.763	4.184	0.083	0.921
LiRCDepth	12.65M	0.069s	2.152	4.801	0.105	0.892
XD-RCDepth (بدون تقطير)	8.89M	0.015s	2.232	4.897	0.114	0.887
XD-RCDepth (XD2-KD)	8.89M	0.015s	2.054	4.676	0.102	0.901

النتائج الرئيسية

كفاءة المعاملات: يقلل XD-RCDepth عدد المعاملات بنسبة 29.7% مقارنة بـ LiRCDepth
تحسن السرعة: انخفض وقت التشغيل من 0.069 ثانية إلى 0.015 ثانية، مما يحقق 15 إطار في الثانية
تأثير التقطير: مقارنة بالإصدار بدون تقطير، تحسن MAE بنسبة 7.91% و 7.96% و 7.97% على مسافات 50 متر و 70 متر و 80 متر على التوالي

تجارب الاستئصال

مقارنة طرق الدمج

طريقة الدمج	عدد المعاملات	MAE	RMSE	AbsRel	δ1
الجمع	8.74M	2.248	4.903	0.115	0.886
الربط	10.94M	2.208	4.802	0.114	0.888
الانتباه	9.48M	2.266	4.901	0.115	0.885
FiLM	8.89M	2.232	4.897	0.114	0.887

تحليل مكونات التقطير

X-KD	D2-KD	MAE	RMSE	AbsRel	δ1
-	-	2.232	4.897	0.114	0.887
✓	-	2.114	4.756	0.108	0.892
-	✓	2.132	4.781	0.107	0.891
✓	✓	2.054	4.676	0.102	0.901

التحليل النوعي

جودة خريطة العمق: ينتج النموذج المقطر خرائط عمق بحدود أجسام أوضح وعدم استمرارية عمق أنظف
محاذاة خريطة الأهمية: بعد التدريب باستخدام X-KD، تكون خرائط الأهمية لشبكة الطالب أكثر حدة وتركيزاً على الهياكل ذات الصلة بالعمق

الأعمال ذات الصلة

تطور طرق تقدير العمق

تقدير العمق أحادي العين: التنبؤ بخريطة عمق كثيفة من صورة RGB، لكن يعاني من غموض المقياس
دمج LiDAR والكاميرا: الاستفادة من سحابة نقاط LiDAR الندرة كمقدمة هندسية
دمج الرادار والكاميرا: الاستفادة من الرادار بتكلفة أقل وقوة أكبر في الطقس

تطور تقطير المعرفة

التقطير الكلاسيكي: تقطير العلامات الناعمة المقترح من قبل Hinton وآخرون
تقطير الميزات: محاذاة ميزات الطبقات الوسيطة
تقطير القابلية للتفسير: إدخال هذه الورقة لأول مرة في مهام التنبؤ الكثيفة

مزايا هذه الورقة

مقارنة بالأعمال الموجودة، تحقق هذه الورقة تحسينات كبيرة في الخفة والسرعة والقابلية للتفسير.

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

تحقيق الخفة بنجاح: تقليل كبير في عدد المعاملات ووقت الحساب مع الحفاظ على أداء تنافسية
استراتيجيات تقطير فعالة: يكمل X-KD و D2-KD بعضهما البعض، مما يحسن أداء شبكة الطالب بشكل كبير
قيمة عملية: تحقيق متطلبات الأداء في الوقت الفعلي، مناسب للنشر الفعلي

القيود

الاعتماد على جودة بيانات الرادار: تظل الأداء محدودة بندرة وضوضاء سحابة نقاط الرادار
اختيار هدف التقطير: قد يؤثر اختيار هدف Grad-CAM (مثل متوسط العمق على مستوى الصورة) على الفعالية
القدرة على التعميم: تم التحقق بشكل أساسي على مجموعات بيانات محددة، وتحتاج قدرة التعميم عبر المجالات إلى مزيد من التحقق

الاتجاهات المستقبلية

يقترح المؤلفون البحث عن تأثير اختيار هدف Grad-CAM والأهداف البديلة على جودة قابلية تفسير التقطير والأداء اللاحقة.

التقييم المتعمق

المزايا

قوة الابتكار التقني: إدخال القابلية للتفسير لأول مرة في تقطير المعرفة للتنبؤ الكثيف، مع مسار تقني جديد
تجارب شاملة: إجراء مقارنات واستئصال شامل على مجموعتي بيانات
قيمة عملية عالية: تحسينات كبيرة في المعاملات والسرعة، تلبي متطلبات النشر الفعلي
تصميم الطريقة معقول: دمج FiLM بسيط وفعال، تصميم Point-wise DASPP الخفيف الوزن ماهر

أوجه القصور

نقص التحليل النظري: افتقار إلى تحليل نظري عميق لسبب فعالية تقطير القابلية للتفسير
قيود تجارب الاستئصال: عدم تحليل كافٍ لتأثير أهداف Grad-CAM المختلفة ومعاملات درجة الحرارة
نطاق المقارنة محدود: المقارنة بشكل أساسي مع طرق الرادار والكاميرا، مع نقص المقارنة مع طرق تقدير العمق الخفيفة الوزن الأخرى

التأثير

المساهمة الأكاديمية: فتح اتجاه جديد لتقطير المعرفة في مهام التنبؤ الكثيفة
القيمة العملية: توفير حل قابل للتطبيق لتقدير العمق في الوقت الفعلي في القيادة الذاتية
قابلية التكرار: وصف الطريقة واضح، تفاصيل التنفيذ كافية

السيناريوهات المعمول بها

القيادة الذاتية: تقدير العمق في الوقت الفعلي في أنظمة المركبات ذات الموارد المحدودة
الروبوتات المتنقلة: سيناريوهات تتطلب الإدراك متعدد الوسائط الخفيف الوزن
الحوسبة الطرفية: التطبيقات التي تتطلب موارد حسابية محدودة لكن معلومات عمق دقيقة

المراجع

تستشهد الورقة بأعمال مهمة في مجالات تقدير العمق وتقطير المعرفة والذكاء الاصطناعي القابل للتفسير، بما في ذلك:

Hinton et al. (2015): العمل الأساسي لتقطير المعرفة
Selvaraju et al. (2019): طريقة تصور Grad-CAM
Caesar et al. (2020): مجموعة بيانات nuScenes
وعدد من الأبحاث الحديثة في دمج الرادار والكاميرا

التقييم الشامل: هذه ورقة ذات جودة تقنية عالية، تقدم مساهمات قيمة في مجال تقدير العمق متعدد الوسائط الخفيف الوزن. الطريقة مبتكرة، التجارب شاملة، والقيمة العملية بارزة، مما يوفر مرجعاً مفيداً للبحث والتطبيقات في المجالات ذات الصلة.