Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation 论文ID : 2510.13565标题 : XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation作者 : Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille机构 : Technical University of Munich & Infineon Technologies AG分类 : cs.CV (Computer Vision)发表时间 : 2025年10月15日论文链接 : https://arxiv.org/abs/2510.13565 本文提出了XD-RCDepth,一个轻量级的雷达-相机深度估计架构,相比最先进的轻量级基线模型参数量减少了29.7%,同时保持了相当的精度。为了在模型压缩下保持性能并增强可解释性,作者引入了两种知识蒸馏策略:可解释性对齐蒸馏(将教师模型的显著性结构传递给学生模型)和深度分布蒸馏(将深度回归重新表述为离散化bins上的软分类)。这些组件相比直接训练减少了7.97%的MAE,在nuScenes和ZJU-4DRadarCam数据集上实现了具有实时效率的竞争性精度。
深度估计在自动驾驶中仍然是核心任务,现有方法主要包括:
纯相机方法 :由于RGB图像不提供直接的几何测量,存在固有的病态性问题LiDAR-相机融合 :虽然精度高,但LiDAR成本昂贵且数据带宽大,影响实时性能雷达-相机融合 :雷达相对成本低且在恶劣天气下更鲁棒,但存在稀疏性和噪声问题现有雷达-相机深度估计方法存在以下问题:
计算复杂度高 :多数采用两阶段流水线,先将稀疏雷达点云致密化,再进行深度预测蒸馏设计缺陷 :如LiRCDepth的跨模态特征蒸馏需要通道对齐,限制了学生网络设计缺乏可解释性 :现有蒸馏信号较为表面,未涉及模型可解释性作者的研究动机在于:
开发更轻量级的雷达-相机融合架构,满足实时部署需求 设计更有效的知识蒸馏策略,在模型压缩的同时保持性能 将可解释性引入密集预测任务的知识蒸馏中 提出了轻量级雷达-相机深度估计框架 :采用高效的FiLM融合模块,参数量比LiRCDepth减少29.7%创新的知识蒸馏方法 :
可解释性对齐的显著性图蒸馏(X-KD) 深度分布蒸馏(D2-KD) 首次将可解释性引入密集预测的知识蒸馏 :通过Grad-CAM生成显著性图进行蒸馏实现实时性能 :在保持竞争性精度的同时达到15 FPS输入 :RGB图像和稀疏雷达点云
输出 :密集深度图
约束 :实时性能要求和有限的计算资源
图像流:ResNet-34骨干网络,提取5个空间尺度的特征 雷达流:两阶段处理,第一阶段生成粗糙深度图和置信度图 融合:置信度感知门控融合(CaGF)模块 解码器:BTS风格的解码器 骨干网络 :双模态MobileNetV2,分别处理图像和雷达特征FiLM融合模块 :γ = Conv1×1(fr), β = Conv1×1(fr)
ffuse = (1 + γ) ⊙ fi + β
其中fr和fi分别为雷达和图像特征,γ、β为逐通道的缩放和偏移系数Point-wise DASPP :扩展密集空洞空间金字塔池化,使用点卷积分支和不同膨胀率的空洞采样通过Grad-CAM生成显著性图,使学生网络学习教师网络的注意力模式:
显著性图生成 :
α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)
蒸馏损失 :
LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)
将连续深度范围离散化为B个bins,通过软分类进行蒸馏:
Bin分配 :
Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)
概率分布 :
pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)
KL散度损失 :
LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))
L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD
其中LDepth为深度监督损失,λ1=1.0, λ2=0.5, λ3=0.5
nuScenes :多模态自动驾驶数据集,使用3D雷达数据ZJU-4DRadarCam :4D雷达数据集,提供更高分辨率的雷达信息误差指标 :MAE(平均绝对误差)、RMSE(均方根误差)、AbsRel(相对绝对误差)、log10准确率指标 :δ1, δ2, δ3(阈值准确率)RadarNet:早期雷达-相机融合方法 CaFNet:教师网络 LiRCDepth:当前最先进的轻量级基线 硬件:单个NVIDIA L40 GPU 批量大小:8 蒸馏层:图像编码器、雷达编码器、解码器的1/16尺度层 方法 参数量 运行时间 MAE↓ RMSE↓ AbsRel↓ δ1↑ RadarNet 22.8M 0.378s 2.179 4.899 0.106 0.894 CaFNet (Teacher) 62.25M 0.132s 1.763 4.184 0.083 0.921 LiRCDepth 12.65M 0.069s 2.152 4.801 0.105 0.892 XD-RCDepth (无蒸馏) 8.89M 0.015s 2.232 4.897 0.114 0.887 XD-RCDepth (XD2-KD) 8.89M 0.015s 2.054 4.676 0.102 0.901
参数效率 :XD-RCDepth比LiRCDepth减少29.7%参数量速度提升 :运行时间从0.069s降至0.015s,达到15 FPS蒸馏效果 :相比无蒸馏版本,MAE分别在50m、70m、80m距离下改善7.91%、7.96%、7.97%融合方法 参数量 MAE RMSE AbsRel δ1 加法 8.74M 2.248 4.903 0.115 0.886 拼接 10.94M 2.208 4.802 0.114 0.888 注意力 9.48M 2.266 4.901 0.115 0.885 FiLM 8.89M 2.232 4.897 0.114 0.887
X-KD D2-KD MAE RMSE AbsRel δ1 - - 2.232 4.897 0.114 0.887 ✓ - 2.114 4.756 0.108 0.892 - ✓ 2.132 4.781 0.107 0.891 ✓ ✓ 2.054 4.676 0.102 0.901
深度图质量 :蒸馏后的模型产生更清晰的物体边界和更干净的深度不连续性显著性图对齐 :X-KD训练后的学生网络显著性图更加锐利,更专注于深度相关结构单目深度估计 :从RGB图像预测密集深度图,但存在尺度歧义性LiDAR-相机融合 :利用稀疏LiDAR点云作为几何先验雷达-相机融合 :利用成本更低、天气鲁棒性更强的毫米波雷达经典蒸馏 :Hinton等提出的软标签蒸馏特征蒸馏 :中间层特征对齐可解释性蒸馏 :本文首次在密集预测任务中引入相比现有工作,本文在轻量化、实时性和可解释性方面都有显著提升。
成功实现轻量化 :在保持竞争性能的同时大幅减少参数量和计算时间有效的蒸馏策略 :X-KD和D2-KD相互补充,显著提升学生网络性能实用价值 :达到实时性能要求,适合实际部署雷达数据质量依赖 :性能仍受限于雷达点云的稀疏性和噪声蒸馏目标选择 :Grad-CAM目标的选择(如图像级平均深度)可能影响效果泛化能力 :主要在特定数据集上验证,跨域泛化能力有待进一步验证作者提出将研究Grad-CAM目标选择和替代归因目标对蒸馏可解释性质量和下游性能的影响。
技术创新性强 :首次将可解释性引入密集预测的知识蒸馏,技术路线新颖实验充分 :在两个数据集上进行了全面的对比和消融实验实用价值高 :显著的参数和速度优化,满足实际部署需求方法设计合理 :FiLM融合简单有效,Point-wise DASPP轻量化设计巧妙理论分析不足 :缺乏对为什么可解释性蒸馏有效的深入理论分析消融实验局限 :未充分分析不同Grad-CAM目标和温度参数的影响对比范围有限 :主要与雷达-相机方法对比,缺少与其他轻量化深度估计方法的比较学术贡献 :为密集预测任务的知识蒸馏开辟了新方向实用价值 :为自动驾驶中的实时深度估计提供了可行方案可复现性 :方法描述清晰,实现细节充分自动驾驶 :资源受限的车载系统实时深度估计移动机器人 :需要轻量级多模态感知的场景边缘计算 :计算资源有限但需要准确深度信息的应用论文引用了深度估计、知识蒸馏、可解释AI等领域的重要工作,包括:
Hinton et al. (2015): 知识蒸馏的奠基工作 Selvaraju et al. (2019): Grad-CAM可视化方法 Caesar et al. (2020): nuScenes数据集 以及多篇雷达-相机融合的最新研究 总体评价 :这是一篇技术质量较高的论文,在轻量级多模态深度估计领域做出了有价值的贡献。方法新颖,实验充分,实用价值突出,为相关领域的研究和应用提供了有益的参考。