2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.

Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.

academic

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

基本信息

论文ID: 2510.13565
标题: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
作者: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
机构: Technical University of Munich & Infineon Technologies AG
分类: cs.CV (Computer Vision)
发表时间: 2025年10月15日
论文链接: https://arxiv.org/abs/2510.13565

纯相机方法：由于RGB图像不提供直接的几何测量，存在固有的病态性问题
LiDAR-相机融合：虽然精度高，但LiDAR成本昂贵且数据带宽大，影响实时性能
雷达-相机融合：雷达相对成本低且在恶劣天气下更鲁棒，但存在稀疏性和噪声问题

现有方法的局限性

现有雷达-相机深度估计方法存在以下问题：

计算复杂度高：多数采用两阶段流水线，先将稀疏雷达点云致密化，再进行深度预测
蒸馏设计缺陷：如LiRCDepth的跨模态特征蒸馏需要通道对齐，限制了学生网络设计
缺乏可解释性：现有蒸馏信号较为表面，未涉及模型可解释性

研究动机

作者的研究动机在于：

开发更轻量级的雷达-相机融合架构，满足实时部署需求
设计更有效的知识蒸馏策略，在模型压缩的同时保持性能
将可解释性引入密集预测任务的知识蒸馏中

核心贡献

提出了轻量级雷达-相机深度估计框架：采用高效的FiLM融合模块，参数量比LiRCDepth减少29.7%
创新的知识蒸馏方法：
- 可解释性对齐的显著性图蒸馏（X-KD）
- 深度分布蒸馏（D2-KD）
首次将可解释性引入密集预测的知识蒸馏：通过Grad-CAM生成显著性图进行蒸馏
实现实时性能：在保持竞争性精度的同时达到15 FPS

图像流：ResNet-34骨干网络，提取5个空间尺度的特征
雷达流：两阶段处理，第一阶段生成粗糙深度图和置信度图
融合：置信度感知门控融合（CaGF）模块
解码器：BTS风格的解码器

学生网络（XD-RCDepth）

骨干网络：双模态MobileNetV2，分别处理图像和雷达特征
FiLM融合模块：
```
γ = Conv1×1(fr), β = Conv1×1(fr)
ffuse = (1 + γ) ⊙ fi + β
```
其中fr和fi分别为雷达和图像特征，γ、β为逐通道的缩放和偏移系数
Point-wise DASPP：扩展密集空洞空间金字塔池化，使用点卷积分支和不同膨胀率的空洞采样

技术创新点

1. 可解释性对齐蒸馏（X-KD）

通过Grad-CAM生成显著性图，使学生网络学习教师网络的注意力模式：

显著性图生成：

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

蒸馏损失：

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. 深度分布蒸馏（D2-KD）

将连续深度范围离散化为B个bins，通过软分类进行蒸馏：

Bin分配：

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

概率分布：

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

KL散度损失：

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

总体损失函数

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

其中LDepth为深度监督损失，λ1=1.0, λ2=0.5, λ3=0.5

实验设置

数据集

nuScenes：多模态自动驾驶数据集，使用3D雷达数据
ZJU-4DRadarCam：4D雷达数据集，提供更高分辨率的雷达信息

评价指标

误差指标：MAE（平均绝对误差）、RMSE（均方根误差）、AbsRel（相对绝对误差）、log10
准确率指标：δ1, δ2, δ3（阈值准确率）

对比方法

RadarNet：早期雷达-相机融合方法
CaFNet：教师网络
LiRCDepth：当前最先进的轻量级基线

实现细节

硬件：单个NVIDIA L40 GPU
批量大小：8
蒸馏层：图像编码器、雷达编码器、解码器的1/16尺度层

方法	参数量	运行时间	MAE↓	RMSE↓	AbsRel↓	δ1↑
RadarNet	22.8M	0.378s	2.179	4.899	0.106	0.894
CaFNet (Teacher)	62.25M	0.132s	1.763	4.184	0.083	0.921
LiRCDepth	12.65M	0.069s	2.152	4.801	0.105	0.892
XD-RCDepth (无蒸馏)	8.89M	0.015s	2.232	4.897	0.114	0.887
XD-RCDepth (XD2-KD)	8.89M	0.015s	2.054	4.676	0.102	0.901

关键发现

参数效率：XD-RCDepth比LiRCDepth减少29.7%参数量
速度提升：运行时间从0.069s降至0.015s，达到15 FPS
蒸馏效果：相比无蒸馏版本，MAE分别在50m、70m、80m距离下改善7.91%、7.96%、7.97%

消融实验

融合方法对比

融合方法	参数量	MAE	RMSE	AbsRel	δ1
加法	8.74M	2.248	4.903	0.115	0.886
拼接	10.94M	2.208	4.802	0.114	0.888
注意力	9.48M	2.266	4.901	0.115	0.885
FiLM	8.89M	2.232	4.897	0.114	0.887