2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.

Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.

academic

XD-RCDepth: व्याख्यात्मकता-संरेखित और वितरण-जागरूक आसवन के साथ हल्का रडार-कैमरा गहराई अनुमान

बुनियादी जानकारी

पेपर ID: 2510.13565
शीर्षक: XD-RCDepth: व्याख्यात्मकता-संरेखित और वितरण-जागरूक आसवन के साथ हल्का रडार-कैमरा गहराई अनुमान
लेखक: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
संस्थान: Technical University of Munich & Infineon Technologies AG
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन तिथि: 15 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.13565

सारांश

यह पेपर XD-RCDepth प्रस्तावित करता है, एक हल्का रडार-कैमरा गहराई अनुमान आर्किटेक्चर जो अत्याधुनिक हल्के आधारभूत मॉडल की तुलना में 29.7% कम पैरामीटर रखता है, साथ ही तुलनीय सटीकता बनाए रखता है। मॉडल संपीड़न के तहत प्रदर्शन बनाए रखने और व्याख्यात्मकता बढ़ाने के लिए, लेखकों ने दो ज्ञान आसवन रणनीतियों का परिचय दिया: व्याख्यात्मकता-संरेखित आसवन (शिक्षक मॉडल की सामर्थ्य संरचना को छात्र मॉडल में स्थानांतरित करना) और गहराई वितरण आसवन (गहराई प्रतिगमन को असतत bins पर नरम वर्गीकरण के रूप में पुनर्निर्माण करना)। ये घटक प्रत्यक्ष प्रशिक्षण की तुलना में 7.97% MAE में कमी लाते हैं, nuScenes और ZJU-4DRadarCam डेटासेट पर वास्तविक समय दक्षता के साथ प्रतिस्पर्धी सटीकता प्राप्त करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

गहराई अनुमान स्वायत्त ड्राइविंग में एक मुख्य कार्य बना हुआ है, मौजूदा विधियों में मुख्य रूप से शामिल हैं:

शुद्ध कैमरा विधियां: RGB छवियां प्रत्यक्ष ज्यामितीय माप प्रदान नहीं करती हैं, इसलिए अंतर्निहित बीमार-स्थिति समस्या मौजूद है
LiDAR-कैमरा संलयन: हालांकि सटीकता अधिक है, LiDAR महंगा है और डेटा बैंडविड्थ बड़ी है, जो वास्तविक समय प्रदर्शन को प्रभावित करती है
रडार-कैमरा संलयन: रडार अपेक्षाकृत सस्ता है और प्रतिकूल मौसम में अधिक मजबूत है, लेकिन विरलता और शोर समस्याएं मौजूद हैं

मौजूदा विधियों की सीमाएं

मौजूदा रडार-कैमरा गहराई अनुमान विधियों में निम्नलिखित समस्याएं हैं:

उच्च कम्प्यूटेशनल जटिलता: अधिकांश दो-चरणीय पाइपलाइन अपनाते हैं, पहले विरल रडार बिंदु क्लाउड को घना करते हैं, फिर गहराई भविष्यवाणी करते हैं
आसवन डिजाइन दोष: जैसे LiRCDepth का क्रॉस-मोडल विशेषता आसवन चैनल संरेखण की आवश्यकता है, जो छात्र नेटवर्क डिजाइन को सीमित करता है
व्याख्यात्मकता की कमी: मौजूदा आसवन संकेत सतही हैं, मॉडल व्याख्यात्मकता से संबंधित नहीं हैं

अनुसंधान प्रेरणा

लेखकों की अनुसंधान प्रेरणा निम्नलिखित में निहित है:

अधिक हल्का रडार-कैमरा संलयन आर्किटेक्चर विकसित करना, वास्तविक समय तैनाती की आवश्यकता को पूरा करने के लिए
अधिक प्रभावी ज्ञान आसवन रणनीति डिजाइन करना, मॉडल संपीड़न के दौरान प्रदर्शन बनाए रखने के लिए
घने भविष्यवाणी कार्यों के ज्ञान आसवन में व्याख्यात्मकता को शामिल करना

मुख्य योगदान

हल्का रडार-कैमरा गहराई अनुमान ढांचा प्रस्तावित किया: कुशल FiLM संलयन मॉड्यूल का उपयोग करते हुए, LiRCDepth की तुलना में 29.7% कम पैरामीटर
नवीन ज्ञान आसवन विधियां:
- व्याख्यात्मकता-संरेखित सामर्थ्य मानचित्र आसवन (X-KD)
- गहराई वितरण आसवन (D2-KD)
पहली बार घने भविष्यवाणी के ज्ञान आसवन में व्याख्यात्मकता को शामिल किया: Grad-CAM द्वारा उत्पन्न सामर्थ्य मानचित्र के माध्यम से आसवन
वास्तविक समय प्रदर्शन प्राप्त किया: प्रतिस्पर्धी सटीकता बनाए रखते हुए 15 FPS तक पहुंचा

विधि विवरण

कार्य परिभाषा

इनपुट: RGB छवि और विरल रडार बिंदु क्लाउड आउटपुट: घना गहराई मानचित्र बाधाएं: वास्तविक समय प्रदर्शन आवश्यकता और सीमित कम्प्यूटेशनल संसाधन

मॉडल आर्किटेक्चर

शिक्षक नेटवर्क (CaFNet)

छवि प्रवाह: ResNet-34 बैकबोन नेटवर्क, 5 स्थानिक पैमानों पर विशेषताएं निकालता है
रडार प्रवाह: दो-चरणीय प्रसंस्करण, पहला चरण मोटी गहराई मानचित्र और आत्मविश्वास मानचित्र उत्पन्न करता है
संलयन: आत्मविश्वास-जागरूक गेटेड संलयन (CaGF) मॉड्यूल
डिकोडर: BTS शैली का डिकोडर

छात्र नेटवर्क (XD-RCDepth)

बैकबोन नेटवर्क: द्वि-मोडल MobileNetV2, क्रमशः छवि और रडार विशेषताओं को संसाधित करता है
FiLM संलयन मॉड्यूल:
```
γ = Conv1×1(fr), β = Conv1×1(fr)
ffuse = (1 + γ) ⊙ fi + β
```
जहां fr और fi क्रमशः रडार और छवि विशेषताएं हैं, γ, β चैनल-वार स्केलिंग और ऑफसेट गुणांक हैं
Point-wise DASPP: विस्तारित घना विस्फारित स्थानिक पिरामिड पूलिंग, बिंदु कनवल्शन शाखा और विभिन्न विस्फारण दरों के साथ विस्फारित नमूनाकरण का उपयोग करता है

तकनीकी नवाचार बिंदु

1. व्याख्यात्मकता-संरेखित आसवन (X-KD)

Grad-CAM द्वारा उत्पन्न सामर्थ्य मानचित्र के माध्यम से, छात्र नेटवर्क को शिक्षक नेटवर्क के ध्यान पैटर्न सीखने के लिए:

सामर्थ्य मानचित्र उत्पादन:

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

आसवन हानि:

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. गहराई वितरण आसवन (D2-KD)

निरंतर गहराई श्रेणी को B bins में असतत करता है, नरम वर्गीकरण के माध्यम से आसवन:

Bin आवंटन:

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

संभाव्यता वितरण:

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

KL विचलन हानि:

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

कुल हानि फलन

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

जहां LDepth गहराई पर्यवेक्षण हानि है, λ1=1.0, λ2=0.5, λ3=0.5

प्रायोगिक सेटअप

डेटासेट

nuScenes: बहु-मोडल स्वायत्त ड्राइविंग डेटासेट, 3D रडार डेटा का उपयोग करता है
ZJU-4DRadarCam: 4D रडार डेटासेट, उच्च रिज़ॉल्यूशन रडार जानकारी प्रदान करता है

मूल्यांकन मेट्रिक्स

त्रुटि मेट्रिक्स: MAE (माध्य निरपेक्ष त्रुटि), RMSE (मूल माध्य वर्ग त्रुटि), AbsRel (सापेक्ष निरपेक्ष त्रुटि), log10
सटीकता मेट्रिक्स: δ1, δ2, δ3 (थ्रेसहोल्ड सटीकता)

तुलना विधियां

RadarNet: प्रारंभिक रडार-कैमरा संलयन विधि
CaFNet: शिक्षक नेटवर्क
LiRCDepth: वर्तमान अत्याधुनिक हल्का आधारभूत

कार्यान्वयन विवरण

हार्डवेयर: एकल NVIDIA L40 GPU
बैच आकार: 8
आसवन परतें: छवि एनकोडर, रडार एनकोडर, डिकोडर की 1/16 स्केल परत

प्रायोगिक परिणाम

मुख्य परिणाम

nuScenes डेटासेट प्रदर्शन तुलना (80m मूल्यांकन दूरी)

विधि	पैरामीटर	रन टाइम	MAE↓	RMSE↓	AbsRel↓	δ1↑
RadarNet	22.8M	0.378s	2.179	4.899	0.106	0.894
CaFNet (शिक्षक)	62.25M	0.132s	1.763	4.184	0.083	0.921
LiRCDepth	12.65M	0.069s	2.152	4.801	0.105	0.892
XD-RCDepth (बिना आसवन)	8.89M	0.015s	2.232	4.897	0.114	0.887
XD-RCDepth (XD2-KD)	8.89M	0.015s	2.054	4.676	0.102	0.901

मुख्य निष्कर्ष

पैरामीटर दक्षता: XD-RCDepth LiRCDepth की तुलना में 29.7% कम पैरामीटर
गति वृद्धि: रन टाइम 0.069s से 0.015s तक कम हुआ, 15 FPS तक पहुंचा
आसवन प्रभाव: बिना आसवन संस्करण की तुलना में, MAE क्रमशः 50m, 70m, 80m दूरी पर 7.91%, 7.96%, 7.97% में सुधार

विलोपन प्रयोग

संलयन विधि तुलना

संलयन विधि	पैरामीटर	MAE	RMSE	AbsRel	δ1
जोड़	8.74M	2.248	4.903	0.115	0.886
संयोजन	10.94M	2.208	4.802	0.114	0.888
ध्यान	9.48M	2.266	4.901	0.115	0.885
FiLM	8.89M	2.232	4.897	0.114	0.887

आसवन घटक विश्लेषण

X-KD	D2-KD	MAE	RMSE	AbsRel	δ1
-	-	2.232	4.897	0.114	0.887
✓	-	2.114	4.756	0.108	0.892
-	✓	2.132	4.781	0.107	0.891
✓	✓	2.054	4.676	0.102	0.901

गुणात्मक विश्लेषण

गहराई मानचित्र गुणवत्ता: आसवन के बाद का मॉडल स्पष्ट वस्तु सीमाएं और स्वच्छ गहराई असंतुलन उत्पन्न करता है
सामर्थ्य मानचित्र संरेखण: X-KD प्रशिक्षण के बाद छात्र नेटवर्क सामर्थ्य मानचित्र तीव्र होते हैं, गहराई-संबंधित संरचनाओं पर अधिक ध्यान केंद्रित करते हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सफलतापूर्वक हल्केपन प्राप्त किया: प्रतिस्पर्धी प्रदर्शन बनाए रखते हुए पैरामीटर और कम्प्यूटेशनल समय में महत्वपूर्ण कमी
प्रभावी आसवन रणनीति: X-KD और D2-KD एक दूसरे को पूरक करते हैं, छात्र नेटवर्क प्रदर्शन में महत्वपूर्ण सुधार
व्यावहारिक मूल्य: वास्तविक समय प्रदर्शन आवश्यकता तक पहुंचता है, वास्तविक तैनाती के लिए उपयुक्त

सीमाएं

रडार डेटा गुणवत्ता निर्भरता: प्रदर्शन अभी भी रडार बिंदु क्लाउड की विरलता और शोर से सीमित है
आसवन लक्ष्य चयन: Grad-CAM लक्ष्य का चयन (जैसे छवि-स्तर औसत गहराई) प्रभाव को प्रभावित कर सकता है
सामान्यीकरण क्षमता: मुख्य रूप से विशिष्ट डेटासेट पर सत्यापित, क्रॉस-डोमेन सामान्यीकरण क्षमता को आगे सत्यापन की आवश्यकता है

भविष्य की दिशाएं

लेखकों ने Grad-CAM लक्ष्य चयन और वैकल्पिक आरोपण लक्ष्यों के आसवन व्याख्यात्मकता गुणवत्ता और डाउनस्ट्रीम प्रदर्शन पर प्रभाव का अनुसंधान करने का प्रस्ताव दिया है।

गहन मूल्यांकन

लाभ

तकनीकी नवाचार शक्तिशाली: पहली बार घने भविष्यवाणी के ज्ञान आसवन में व्याख्यात्मकता को शामिल किया, तकनीकी मार्ग नवीन है
पर्याप्त प्रयोग: दो डेटासेट पर व्यापक तुलना और विलोपन प्रयोग
उच्च व्यावहारिक मूल्य: महत्वपूर्ण पैरामीटर और गति अनुकूलन, वास्तविक तैनाती आवश्यकता को पूरा करता है
विवेकपूर्ण विधि डिजाइन: FiLM संलयन सरल और प्रभावी, Point-wise DASPP हल्केपन डिजाइन चतुर है

कमियां

सैद्धांतिक विश्लेषण अपर्याप्त: व्याख्यात्मकता आसवन प्रभावी क्यों है इसका गहन सैद्धांतिक विश्लेषण अभाव है
विलोपन प्रयोग सीमा: विभिन्न Grad-CAM लक्ष्य और तापमान पैरामीटर के प्रभाव का पर्याप्त विश्लेषण नहीं
तुलना सीमा: मुख्य रूप से रडार-कैमरा विधियों के साथ तुलना, अन्य हल्के गहराई अनुमान विधियों के साथ तुलना अभाव है

प्रभाव

शैक्षणिक योगदान: घने भविष्यवाणी कार्यों के ज्ञान आसवन के लिए नई दिशा खोलता है
व्यावहारिक मूल्य: स्वायत्त ड्राइविंग में वास्तविक समय गहराई अनुमान के लिए व्यावहारिक समाधान प्रदान करता है
पुनरुत्पादनीयता: विधि विवरण स्पष्ट, कार्यान्वयन विवरण पर्याप्त है

लागू परिदृश्य

स्वायत्त ड्राइविंग: संसाधन-सीमित वाहन-आधारित प्रणाली वास्तविक समय गहराई अनुमान
मोबाइल रोबोट: हल्के बहु-मोडल संवेदन की आवश्यकता वाले परिदृश्य
किनारे कंप्यूटिंग: सीमित कम्प्यूटेशनल संसाधन लेकिन सटीक गहराई जानकारी की आवश्यकता वाले अनुप्रयोग

संदर्भ

पेपर गहराई अनुमान, ज्ञान आसवन, व्याख्यात्मक AI आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

Hinton et al. (2015): ज्ञान आसवन की आधारशिला कार्य
Selvaraju et al. (2019): Grad-CAM दृश्य विधि
Caesar et al. (2020): nuScenes डेटासेट
और रडार-कैमरा संलयन के कई नवीनतम अनुसंधान

समग्र मूल्यांकन: यह हल्के बहु-मोडल गहराई अनुमान क्षेत्र में मूल्यवान योगदान देने वाला उच्च तकनीकी गुणवत्ता वाला पेपर है। विधि नवीन है, प्रयोग पर्याप्त हैं, व्यावहारिक मूल्य उत्कृष्ट है, संबंधित क्षेत्र के अनुसंधान और अनुप्रयोग के लिए लाभकारी संदर्भ प्रदान करता है।