2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.
Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
academic

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

基本信息

  • 论文ID: 2510.13565
  • 标题: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
  • 作者: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
  • 机构: Technical University of Munich & Infineon Technologies AG
  • 分类: cs.CV (Computer Vision)
  • 发表时间: 2025年10月15日
  • 论文链接: https://arxiv.org/abs/2510.13565

摘要

本文提出了XD-RCDepth,一个轻量级的雷达-相机深度估计架构,相比最先进的轻量级基线模型参数量减少了29.7%,同时保持了相当的精度。为了在模型压缩下保持性能并增强可解释性,作者引入了两种知识蒸馏策略:可解释性对齐蒸馏(将教师模型的显著性结构传递给学生模型)和深度分布蒸馏(将深度回归重新表述为离散化bins上的软分类)。这些组件相比直接训练减少了7.97%的MAE,在nuScenes和ZJU-4DRadarCam数据集上实现了具有实时效率的竞争性精度。

研究背景与动机

问题定义

深度估计在自动驾驶中仍然是核心任务,现有方法主要包括:

  1. 纯相机方法:由于RGB图像不提供直接的几何测量,存在固有的病态性问题
  2. LiDAR-相机融合:虽然精度高,但LiDAR成本昂贵且数据带宽大,影响实时性能
  3. 雷达-相机融合:雷达相对成本低且在恶劣天气下更鲁棒,但存在稀疏性和噪声问题

现有方法的局限性

现有雷达-相机深度估计方法存在以下问题:

  1. 计算复杂度高:多数采用两阶段流水线,先将稀疏雷达点云致密化,再进行深度预测
  2. 蒸馏设计缺陷:如LiRCDepth的跨模态特征蒸馏需要通道对齐,限制了学生网络设计
  3. 缺乏可解释性:现有蒸馏信号较为表面,未涉及模型可解释性

研究动机

作者的研究动机在于:

  1. 开发更轻量级的雷达-相机融合架构,满足实时部署需求
  2. 设计更有效的知识蒸馏策略,在模型压缩的同时保持性能
  3. 将可解释性引入密集预测任务的知识蒸馏中

核心贡献

  1. 提出了轻量级雷达-相机深度估计框架:采用高效的FiLM融合模块,参数量比LiRCDepth减少29.7%
  2. 创新的知识蒸馏方法
    • 可解释性对齐的显著性图蒸馏(X-KD)
    • 深度分布蒸馏(D2-KD)
  3. 首次将可解释性引入密集预测的知识蒸馏:通过Grad-CAM生成显著性图进行蒸馏
  4. 实现实时性能:在保持竞争性精度的同时达到15 FPS

方法详解

任务定义

输入:RGB图像和稀疏雷达点云 输出:密集深度图 约束:实时性能要求和有限的计算资源

模型架构

教师网络(CaFNet)

  • 图像流:ResNet-34骨干网络,提取5个空间尺度的特征
  • 雷达流:两阶段处理,第一阶段生成粗糙深度图和置信度图
  • 融合:置信度感知门控融合(CaGF)模块
  • 解码器:BTS风格的解码器

学生网络(XD-RCDepth)

  • 骨干网络:双模态MobileNetV2,分别处理图像和雷达特征
  • FiLM融合模块
    γ = Conv1×1(fr), β = Conv1×1(fr)
    ffuse = (1 + γ) ⊙ fi + β
    

    其中fr和fi分别为雷达和图像特征,γ、β为逐通道的缩放和偏移系数
  • Point-wise DASPP:扩展密集空洞空间金字塔池化,使用点卷积分支和不同膨胀率的空洞采样

技术创新点

1. 可解释性对齐蒸馏(X-KD)

通过Grad-CAM生成显著性图,使学生网络学习教师网络的注意力模式:

显著性图生成

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

蒸馏损失

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. 深度分布蒸馏(D2-KD)

将连续深度范围离散化为B个bins,通过软分类进行蒸馏:

Bin分配

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

概率分布

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

KL散度损失

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

总体损失函数

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

其中LDepth为深度监督损失,λ1=1.0, λ2=0.5, λ3=0.5

实验设置

数据集

  1. nuScenes:多模态自动驾驶数据集,使用3D雷达数据
  2. ZJU-4DRadarCam:4D雷达数据集,提供更高分辨率的雷达信息

评价指标

  • 误差指标:MAE(平均绝对误差)、RMSE(均方根误差)、AbsRel(相对绝对误差)、log10
  • 准确率指标:δ1, δ2, δ3(阈值准确率)

对比方法

  • RadarNet:早期雷达-相机融合方法
  • CaFNet:教师网络
  • LiRCDepth:当前最先进的轻量级基线

实现细节

  • 硬件:单个NVIDIA L40 GPU
  • 批量大小:8
  • 蒸馏层:图像编码器、雷达编码器、解码器的1/16尺度层

实验结果

主要结果

nuScenes数据集性能对比(80m评估距离)

方法参数量运行时间MAE↓RMSE↓AbsRel↓δ1↑
RadarNet22.8M0.378s2.1794.8990.1060.894
CaFNet (Teacher)62.25M0.132s1.7634.1840.0830.921
LiRCDepth12.65M0.069s2.1524.8010.1050.892
XD-RCDepth (无蒸馏)8.89M0.015s2.2324.8970.1140.887
XD-RCDepth (XD2-KD)8.89M0.015s2.0544.6760.1020.901

关键发现

  1. 参数效率:XD-RCDepth比LiRCDepth减少29.7%参数量
  2. 速度提升:运行时间从0.069s降至0.015s,达到15 FPS
  3. 蒸馏效果:相比无蒸馏版本,MAE分别在50m、70m、80m距离下改善7.91%、7.96%、7.97%

消融实验

融合方法对比

融合方法参数量MAERMSEAbsRelδ1
加法8.74M2.2484.9030.1150.886
拼接10.94M2.2084.8020.1140.888
注意力9.48M2.2664.9010.1150.885
FiLM8.89M2.2324.8970.1140.887

蒸馏组件分析

X-KDD2-KDMAERMSEAbsRelδ1
--2.2324.8970.1140.887
-2.1144.7560.1080.892
-2.1324.7810.1070.891
2.0544.6760.1020.901

定性分析

  1. 深度图质量:蒸馏后的模型产生更清晰的物体边界和更干净的深度不连续性
  2. 显著性图对齐:X-KD训练后的学生网络显著性图更加锐利,更专注于深度相关结构

相关工作

深度估计方法演进

  1. 单目深度估计:从RGB图像预测密集深度图,但存在尺度歧义性
  2. LiDAR-相机融合:利用稀疏LiDAR点云作为几何先验
  3. 雷达-相机融合:利用成本更低、天气鲁棒性更强的毫米波雷达

知识蒸馏发展

  1. 经典蒸馏:Hinton等提出的软标签蒸馏
  2. 特征蒸馏:中间层特征对齐
  3. 可解释性蒸馏:本文首次在密集预测任务中引入

本文优势

相比现有工作,本文在轻量化、实时性和可解释性方面都有显著提升。

结论与讨论

主要结论

  1. 成功实现轻量化:在保持竞争性能的同时大幅减少参数量和计算时间
  2. 有效的蒸馏策略:X-KD和D2-KD相互补充,显著提升学生网络性能
  3. 实用价值:达到实时性能要求,适合实际部署

局限性

  1. 雷达数据质量依赖:性能仍受限于雷达点云的稀疏性和噪声
  2. 蒸馏目标选择:Grad-CAM目标的选择(如图像级平均深度)可能影响效果
  3. 泛化能力:主要在特定数据集上验证,跨域泛化能力有待进一步验证

未来方向

作者提出将研究Grad-CAM目标选择和替代归因目标对蒸馏可解释性质量和下游性能的影响。

深度评价

优点

  1. 技术创新性强:首次将可解释性引入密集预测的知识蒸馏,技术路线新颖
  2. 实验充分:在两个数据集上进行了全面的对比和消融实验
  3. 实用价值高:显著的参数和速度优化,满足实际部署需求
  4. 方法设计合理:FiLM融合简单有效,Point-wise DASPP轻量化设计巧妙

不足

  1. 理论分析不足:缺乏对为什么可解释性蒸馏有效的深入理论分析
  2. 消融实验局限:未充分分析不同Grad-CAM目标和温度参数的影响
  3. 对比范围有限:主要与雷达-相机方法对比,缺少与其他轻量化深度估计方法的比较

影响力

  1. 学术贡献:为密集预测任务的知识蒸馏开辟了新方向
  2. 实用价值:为自动驾驶中的实时深度估计提供了可行方案
  3. 可复现性:方法描述清晰,实现细节充分

适用场景

  1. 自动驾驶:资源受限的车载系统实时深度估计
  2. 移动机器人:需要轻量级多模态感知的场景
  3. 边缘计算:计算资源有限但需要准确深度信息的应用

参考文献

论文引用了深度估计、知识蒸馏、可解释AI等领域的重要工作,包括:

  • Hinton et al. (2015): 知识蒸馏的奠基工作
  • Selvaraju et al. (2019): Grad-CAM可视化方法
  • Caesar et al. (2020): nuScenes数据集
  • 以及多篇雷达-相机融合的最新研究

总体评价:这是一篇技术质量较高的论文,在轻量级多模态深度估计领域做出了有价值的贡献。方法新颖,实验充分,实用价值突出,为相关领域的研究和应用提供了有益的参考。