Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
معرّف الورقة : 2510.13565العنوان : XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillationالمؤلفون : Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Willeالمؤسسات : جامعة ميونيخ التقنية وشركة Infineon Technologies AGالتصنيف : cs.CV (رؤية الحاسوب)تاريخ النشر : 15 أكتوبر 2025رابط الورقة : https://arxiv.org/abs/2510.13565 تقدم هذه الورقة XD-RCDepth، وهي بنية خفيفة الوزن لتقدير العمق بالرادار والكاميرا، مع تقليل عدد المعاملات بنسبة 29.7% مقارنة بأحدث نماذج خطوط الأساس الخفيفة الوزن، مع الحفاظ على دقة مماثلة. لضمان الأداء تحت ضغط نموذج والتحسين من القابلية للتفسير، قدم المؤلفون استراتيجيتي تقطير معرفة: تقطير محاذاة القابلية للتفسير (نقل هياكل الأهمية من نموذج المعلم إلى نموذج الطالب) وتقطير توزيع العمق (إعادة صياغة انحدار العمق كتصنيف ناعم على صناديق منفصلة). حققت هذه المكونات تقليلاً بنسبة 7.97% في MAE مقارنة بالتدريب المباشر، مع تحقيق دقة تنافسية بكفاءة في الوقت الفعلي على مجموعات بيانات nuScenes و ZJU-4DRadarCam.
يظل تقدير العمق مهمة أساسية في القيادة الذاتية، وتشمل الطرق الحالية بشكل أساسي:
طرق الكاميرا النقية : تعاني من مشكلة الحالة المرضية المتأصلة لأن صور RGB لا توفر قياساً هندسياً مباشراًدمج LiDAR والكاميرا : على الرغم من الدقة العالية، إلا أن LiDAR مكلف وعرض النطاق الترددي للبيانات كبير، مما يؤثر على الأداء في الوقت الفعليدمج الرادار والكاميرا : الرادار نسبياً أقل تكلفة وأكثر قوة في الطقس السيء، لكنه يعاني من مشاكل الندرة والضوضاءتعاني طرق تقدير العمق بالرادار والكاميرا الحالية من المشاكل التالية:
التعقيد الحسابي العالي : تعتمد معظمها على خطوط أنابيب ثنائية المراحل، حيث تكثف سحابة نقاط الرادار الندرة أولاً، ثم تتنبأ بالعمقعيوب في تصميم التقطير : مثل تقطير الميزات عبر الوسائط في LiRCDepth الذي يتطلب محاذاة القناة، مما يحد من تصميم شبكة الطالبنقص القابلية للتفسير : إشارات التقطير الموجودة سطحية نسبياً ولا تتعامل مع قابلية تفسير النموذجيكمن دافع المؤلفين في:
تطوير بنية دمج رادار-كاميرا أخف وزناً لتلبية متطلبات النشر في الوقت الفعلي تصميم استراتيجيات تقطير معرفة أكثر فعالية، مع الحفاظ على الأداء أثناء ضغط النموذج إدخال القابلية للتفسير في تقطير المعرفة لمهام التنبؤ الكثيفة اقتراح إطار عمل خفيف الوزن لتقدير العمق بالرادار والكاميرا : يستخدم وحدة دمج FiLM فعالة، مع تقليل عدد المعاملات بنسبة 29.7% مقارنة بـ LiRCDepthطرق تقطير معرفة مبتكرة :
تقطير خريطة الأهمية المحاذاة للقابلية للتفسير (X-KD) تقطير توزيع العمق (D2-KD) إدخال القابلية للتفسير لأول مرة في تقطير المعرفة للتنبؤ الكثيف : من خلال توليد خرائط الأهمية باستخدام Grad-CAM للتقطيرتحقيق أداء في الوقت الفعلي : الوصول إلى 15 إطار في الثانية مع الحفاظ على دقة تنافسيةالإدخال : صورة RGB وسحابة نقاط رادار ندرة
الإخراج : خريطة عمق كثيفة
القيود : متطلبات الأداء في الوقت الفعلي والموارد الحسابية المحدودة
تدفق الصورة: شبكة عمود فقري ResNet-34، استخراج ميزات في 5 مستويات مكانية تدفق الرادار: معالجة ثنائية المراحل، المرحلة الأولى تولد خريطة عمق خشنة وخريطة ثقة الدمج: وحدة دمج بوابة واعية للثقة (CaGF) فك التشفير: فك تشفير بنمط BTS شبكة العمود الفقري : MobileNetV2 ثنائية الوسائط، معالجة ميزات الصورة والرادار بشكل منفصلوحدة دمج FiLM :γ = Conv1×1(fr), β = Conv1×1(fr)
ffuse = (1 + γ) ⊙ fi + β
حيث fr و fi هما ميزات الرادار والصورة على التوالي، و γ و β هما معاملات التحجيم والإزاحة حسب القناةDASPP النقطي : توسيع تجميع الهرم المكاني الممدد الكثيف، باستخدام فرع الالتفاف النقطي والعينات الممددة بمعدلات تمدد مختلفةتوليد خرائط أهمية باستخدام Grad-CAM، مما يجعل شبكة الطالب تتعلم أنماط الانتباه من شبكة المعلم:
توليد خريطة الأهمية :
α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)
خسارة التقطير :
LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)
تقسيم نطاق العمق المستمر إلى B صندوق، مع التقطير من خلال التصنيف الناعم:
تخصيص الصندوق :
Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)
التوزيع الاحتمالي :
pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)
خسارة اختلاف KL :
LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))
L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD
حيث LDepth هي خسارة الإشراف على العمق، و λ1=1.0, λ2=0.5, λ3=0.5
nuScenes : مجموعة بيانات متعددة الوسائط للقيادة الذاتية، باستخدام بيانات الرادار ثلاثية الأبعادZJU-4DRadarCam : مجموعة بيانات الرادار رباعي الأبعاد، توفر معلومات رادار بدقة أعلىمقاييس الخطأ : MAE (متوسط الخطأ المطلق)، RMSE (جذر متوسط الخطأ التربيعي)، AbsRel (الخطأ المطلق النسبي)، log10مقاييس الدقة : δ1, δ2, δ3 (دقة العتبة)RadarNet: طريقة دمج رادار-كاميرا مبكرة CaFNet: شبكة المعلم LiRCDepth: خط الأساس الخفيف الوزن الحالي الأكثر تقدماً الأجهزة: وحدة معالجة رسومات NVIDIA L40 واحدة حجم الدفعة: 8 طبقات التقطير: طبقة 1/16 من مشفر الصورة ومشفر الرادار وفك التشفير الطريقة عدد المعاملات وقت التشغيل MAE↓ RMSE↓ AbsRel↓ δ1↑ RadarNet 22.8M 0.378s 2.179 4.899 0.106 0.894 CaFNet (المعلم) 62.25M 0.132s 1.763 4.184 0.083 0.921 LiRCDepth 12.65M 0.069s 2.152 4.801 0.105 0.892 XD-RCDepth (بدون تقطير) 8.89M 0.015s 2.232 4.897 0.114 0.887 XD-RCDepth (XD2-KD) 8.89M 0.015s 2.054 4.676 0.102 0.901
كفاءة المعاملات : يقلل XD-RCDepth عدد المعاملات بنسبة 29.7% مقارنة بـ LiRCDepthتحسن السرعة : انخفض وقت التشغيل من 0.069 ثانية إلى 0.015 ثانية، مما يحقق 15 إطار في الثانيةتأثير التقطير : مقارنة بالإصدار بدون تقطير، تحسن MAE بنسبة 7.91% و 7.96% و 7.97% على مسافات 50 متر و 70 متر و 80 متر على التواليطريقة الدمج عدد المعاملات MAE RMSE AbsRel δ1 الجمع 8.74M 2.248 4.903 0.115 0.886 الربط 10.94M 2.208 4.802 0.114 0.888 الانتباه 9.48M 2.266 4.901 0.115 0.885 FiLM 8.89M 2.232 4.897 0.114 0.887
X-KD D2-KD MAE RMSE AbsRel δ1 - - 2.232 4.897 0.114 0.887 ✓ - 2.114 4.756 0.108 0.892 - ✓ 2.132 4.781 0.107 0.891 ✓ ✓ 2.054 4.676 0.102 0.901
جودة خريطة العمق : ينتج النموذج المقطر خرائط عمق بحدود أجسام أوضح وعدم استمرارية عمق أنظفمحاذاة خريطة الأهمية : بعد التدريب باستخدام X-KD، تكون خرائط الأهمية لشبكة الطالب أكثر حدة وتركيزاً على الهياكل ذات الصلة بالعمقتقدير العمق أحادي العين : التنبؤ بخريطة عمق كثيفة من صورة RGB، لكن يعاني من غموض المقياسدمج LiDAR والكاميرا : الاستفادة من سحابة نقاط LiDAR الندرة كمقدمة هندسيةدمج الرادار والكاميرا : الاستفادة من الرادار بتكلفة أقل وقوة أكبر في الطقسالتقطير الكلاسيكي : تقطير العلامات الناعمة المقترح من قبل Hinton وآخرونتقطير الميزات : محاذاة ميزات الطبقات الوسيطةتقطير القابلية للتفسير : إدخال هذه الورقة لأول مرة في مهام التنبؤ الكثيفةمقارنة بالأعمال الموجودة، تحقق هذه الورقة تحسينات كبيرة في الخفة والسرعة والقابلية للتفسير.
تحقيق الخفة بنجاح : تقليل كبير في عدد المعاملات ووقت الحساب مع الحفاظ على أداء تنافسيةاستراتيجيات تقطير فعالة : يكمل X-KD و D2-KD بعضهما البعض، مما يحسن أداء شبكة الطالب بشكل كبيرقيمة عملية : تحقيق متطلبات الأداء في الوقت الفعلي، مناسب للنشر الفعليالاعتماد على جودة بيانات الرادار : تظل الأداء محدودة بندرة وضوضاء سحابة نقاط الراداراختيار هدف التقطير : قد يؤثر اختيار هدف Grad-CAM (مثل متوسط العمق على مستوى الصورة) على الفعاليةالقدرة على التعميم : تم التحقق بشكل أساسي على مجموعات بيانات محددة، وتحتاج قدرة التعميم عبر المجالات إلى مزيد من التحققيقترح المؤلفون البحث عن تأثير اختيار هدف Grad-CAM والأهداف البديلة على جودة قابلية تفسير التقطير والأداء اللاحقة.
قوة الابتكار التقني : إدخال القابلية للتفسير لأول مرة في تقطير المعرفة للتنبؤ الكثيف، مع مسار تقني جديدتجارب شاملة : إجراء مقارنات واستئصال شامل على مجموعتي بياناتقيمة عملية عالية : تحسينات كبيرة في المعاملات والسرعة، تلبي متطلبات النشر الفعليتصميم الطريقة معقول : دمج FiLM بسيط وفعال، تصميم Point-wise DASPP الخفيف الوزن ماهرنقص التحليل النظري : افتقار إلى تحليل نظري عميق لسبب فعالية تقطير القابلية للتفسيرقيود تجارب الاستئصال : عدم تحليل كافٍ لتأثير أهداف Grad-CAM المختلفة ومعاملات درجة الحرارةنطاق المقارنة محدود : المقارنة بشكل أساسي مع طرق الرادار والكاميرا، مع نقص المقارنة مع طرق تقدير العمق الخفيفة الوزن الأخرىالمساهمة الأكاديمية : فتح اتجاه جديد لتقطير المعرفة في مهام التنبؤ الكثيفةالقيمة العملية : توفير حل قابل للتطبيق لتقدير العمق في الوقت الفعلي في القيادة الذاتيةقابلية التكرار : وصف الطريقة واضح، تفاصيل التنفيذ كافيةالقيادة الذاتية : تقدير العمق في الوقت الفعلي في أنظمة المركبات ذات الموارد المحدودةالروبوتات المتنقلة : سيناريوهات تتطلب الإدراك متعدد الوسائط الخفيف الوزنالحوسبة الطرفية : التطبيقات التي تتطلب موارد حسابية محدودة لكن معلومات عمق دقيقةتستشهد الورقة بأعمال مهمة في مجالات تقدير العمق وتقطير المعرفة والذكاء الاصطناعي القابل للتفسير، بما في ذلك:
Hinton et al. (2015): العمل الأساسي لتقطير المعرفة Selvaraju et al. (2019): طريقة تصور Grad-CAM Caesar et al. (2020): مجموعة بيانات nuScenes وعدد من الأبحاث الحديثة في دمج الرادار والكاميرا التقييم الشامل : هذه ورقة ذات جودة تقنية عالية، تقدم مساهمات قيمة في مجال تقدير العمق متعدد الوسائط الخفيف الوزن. الطريقة مبتكرة، التجارب شاملة، والقيمة العملية بارزة، مما يوفر مرجعاً مفيداً للبحث والتطبيقات في المجالات ذات الصلة.