XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
Sun, Wang, Peng et al.
Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
academic
XD-RCDepth: व्याख्यात्मकता-संरेखित और वितरण-जागरूक आसवन के साथ हल्का रडार-कैमरा गहराई अनुमान
यह पेपर XD-RCDepth प्रस्तावित करता है, एक हल्का रडार-कैमरा गहराई अनुमान आर्किटेक्चर जो अत्याधुनिक हल्के आधारभूत मॉडल की तुलना में 29.7% कम पैरामीटर रखता है, साथ ही तुलनीय सटीकता बनाए रखता है। मॉडल संपीड़न के तहत प्रदर्शन बनाए रखने और व्याख्यात्मकता बढ़ाने के लिए, लेखकों ने दो ज्ञान आसवन रणनीतियों का परिचय दिया: व्याख्यात्मकता-संरेखित आसवन (शिक्षक मॉडल की सामर्थ्य संरचना को छात्र मॉडल में स्थानांतरित करना) और गहराई वितरण आसवन (गहराई प्रतिगमन को असतत bins पर नरम वर्गीकरण के रूप में पुनर्निर्माण करना)। ये घटक प्रत्यक्ष प्रशिक्षण की तुलना में 7.97% MAE में कमी लाते हैं, nuScenes और ZJU-4DRadarCam डेटासेट पर वास्तविक समय दक्षता के साथ प्रतिस्पर्धी सटीकता प्राप्त करते हैं।
जहां fr और fi क्रमशः रडार और छवि विशेषताएं हैं, γ, β चैनल-वार स्केलिंग और ऑफसेट गुणांक हैं
Point-wise DASPP: विस्तारित घना विस्फारित स्थानिक पिरामिड पूलिंग, बिंदु कनवल्शन शाखा और विभिन्न विस्फारण दरों के साथ विस्फारित नमूनाकरण का उपयोग करता है
लेखकों ने Grad-CAM लक्ष्य चयन और वैकल्पिक आरोपण लक्ष्यों के आसवन व्याख्यात्मकता गुणवत्ता और डाउनस्ट्रीम प्रदर्शन पर प्रभाव का अनुसंधान करने का प्रस्ताव दिया है।
पेपर गहराई अनुमान, ज्ञान आसवन, व्याख्यात्मक AI आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:
Hinton et al. (2015): ज्ञान आसवन की आधारशिला कार्य
Selvaraju et al. (2019): Grad-CAM दृश्य विधि
Caesar et al. (2020): nuScenes डेटासेट
और रडार-कैमरा संलयन के कई नवीनतम अनुसंधान
समग्र मूल्यांकन: यह हल्के बहु-मोडल गहराई अनुमान क्षेत्र में मूल्यवान योगदान देने वाला उच्च तकनीकी गुणवत्ता वाला पेपर है। विधि नवीन है, प्रयोग पर्याप्त हैं, व्यावहारिक मूल्य उत्कृष्ट है, संबंधित क्षेत्र के अनुसंधान और अनुप्रयोग के लिए लाभकारी संदर्भ प्रदान करता है।