2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.

Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.

academic

XD-RCDepth: 説明可能性対応および分布認識蒸留を用いた軽量レーダー・カメラ深度推定

基本情報

論文ID: 2510.13565
タイトル: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
著者: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
所属機関: ミュンヘン工科大学 & インフィニオン・テクノロジーズAG
分類: cs.CV（コンピュータビジョン）
発表日: 2025年10月15日
論文リンク: https://arxiv.org/abs/2510.13565

要約

本論文はXD-RCDepthを提案する。これは軽量レーダー・カメラ深度推定アーキテクチャであり、最先端の軽量ベースラインモデルと比較してパラメータ数を29.7%削減しながら、同等の精度を維持している。モデル圧縮下での性能維持と説明可能性の向上のため、著者らは2つの知識蒸留戦略を導入した：説明可能性対応蒸留（教師モデルの顕著性構造を学生モデルに転送）および深度分布蒸留（深度回帰を離散化ビン上のソフト分類として再定式化）。これらのコンポーネントは直接訓練と比較してMAEを7.97%削減し、nuScenesおよびZJU-4DRadarCamデータセット上でリアルタイム効率を備えた競争力のある精度を実現している。

研究背景と動機

問題定義

深度推定は自動運転における中核的なタスクであり、既存手法は主に以下を含む：

カメラのみの手法：RGB画像が直接的な幾何測定を提供しないため、本質的に不適切な問題が存在する
LiDAR・カメラ融合：精度は高いが、LiDARは高コストであり、データ帯域幅が大きく、リアルタイム性能に影響する
レーダー・カメラ融合：レーダーは相対的にコストが低く、悪天候下でより堅牢であるが、スパース性とノイズの問題が存在する

既存手法の限界

既存のレーダー・カメラ深度推定手法には以下の問題がある：

計算複雑度が高い：多くの手法が2段階パイプラインを採用し、まずスパースレーダー点群を高密度化し、その後深度予測を行う
蒸留設計の欠陥：LiRCDepthのクロスモーダル特徴蒸留はチャネル対応を必要とし、学生ネットワークの設計を制限する
説明可能性の欠如：既存の蒸留信号は表面的であり、モデルの説明可能性には関与していない

研究動機

著者らの研究動機は以下の通りである：

リアルタイム展開要件を満たす、より軽量なレーダー・カメラ融合アーキテクチャを開発する
モデル圧縮時に性能を維持する、より効果的な知識蒸留戦略を設計する
密集予測タスクの知識蒸留に説明可能性を導入する

核心的貢献

軽量レーダー・カメラ深度推定フレームワークの提案：効率的なFiLM融合モジュールを採用し、LiRCDepthと比較してパラメータ数を29.7%削減
革新的な知識蒸留手法：
- 説明可能性対応顕著性図蒸留（X-KD）
- 深度分布蒸留（D2-KD）
密集予測の知識蒸留への説明可能性の初導入：Grad-CAMで生成した顕著性図を用いた蒸留
リアルタイム性能の実現：競争力のある精度を維持しながら15 FPSを達成

方法の詳細

タスク定義

入力：RGB画像とスパースレーダー点群出力：密集深度図制約：リアルタイム性能要件と限定的な計算リソース

モデルアーキテクチャ

教師ネットワーク（CaFNet）

画像ストリーム：ResNet-34バックボーン、5つの空間スケールで特徴を抽出
レーダーストリーム：2段階処理、第1段階で粗い深度図と信頼度図を生成
融合：信頼度認識ゲート融合（CaGF）モジュール
デコーダー：BTSスタイルのデコーダー

学生ネットワーク（XD-RCDepth）

バックボーン：デュアルモーダルMobileNetV2、画像とレーダー特徴をそれぞれ処理
FiLM融合モジュール：
```
γ = Conv1×1(fr), β = Conv1×1(fr)
ffuse = (1 + γ) ⊙ fi + β
```
ここでfrおよびfiはそれぞれレーダーと画像特徴、γ、βはチャネルごとのスケーリングとオフセット係数
Point-wise DASPP：拡張密集空洞空間ピラミッドプーリング、ポイント畳み込み分岐と異なる拡張率の空洞サンプリングを使用

技術的革新点

1. 説明可能性対応蒸留（X-KD）

Grad-CAMで生成した顕著性図を通じて、学生ネットワークに教師ネットワークの注意パターンを学習させる：

顕著性図生成：

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

蒸留損失：

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. 深度分布蒸留（D2-KD）

連続深度範囲をB個のビンに離散化し、ソフト分類を通じて蒸留を行う：

ビン割り当て：

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

確率分布：

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

KL発散損失：

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

総合損失関数

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

ここでLDepthは深度監視損失、λ1=1.0, λ2=0.5, λ3=0.5

実験設定

データセット

nuScenes：マルチモーダル自動運転データセット、3Dレーダーデータを使用
ZJU-4DRadarCam：4Dレーダーデータセット、より高解像度のレーダー情報を提供

評価指標

誤差指標：MAE（平均絶対誤差）、RMSE（二乗平均平方根誤差）、AbsRel（相対絶対誤差）、log10
精度指標：δ1, δ2, δ3（閾値精度）

比較手法

RadarNet：初期段階のレーダー・カメラ融合手法
CaFNet：教師ネットワーク
LiRCDepth：現在の最先端軽量ベースライン

実装詳細

ハードウェア：単一NVIDIA L40 GPU
バッチサイズ：8
蒸留層：画像エンコーダー、レーダーエンコーダー、デコーダーの1/16スケール層

実験結果

主要結果

nuScenesデータセット性能比較（80m評価距離）

手法	パラメータ数	実行時間	MAE↓	RMSE↓	AbsRel↓	δ1↑
RadarNet	22.8M	0.378s	2.179	4.899	0.106	0.894
CaFNet (教師)	62.25M	0.132s	1.763	4.184	0.083	0.921
LiRCDepth	12.65M	0.069s	2.152	4.801	0.105	0.892
XD-RCDepth (蒸留なし)	8.89M	0.015s	2.232	4.897	0.114	0.887
XD-RCDepth (XD2-KD)	8.89M	0.015s	2.054	4.676	0.102	0.901

主要な知見

パラメータ効率：XD-RCDepthはLiRCDepthと比較してパラメータ数を29.7%削減
速度向上：実行時間が0.069sから0.015sに短縮され、15 FPSを達成
蒸留効果：蒸留なしバージョンと比較して、50m、70m、80m距離でMAEがそれぞれ7.91%、7.96%、7.97%改善

アブレーション実験

融合手法の比較

融合手法	パラメータ数	MAE	RMSE	AbsRel	δ1
加算	8.74M	2.248	4.903	0.115	0.886
連結	10.94M	2.208	4.802	0.114	0.888
注意機構	9.48M	2.266	4.901	0.115	0.885
FiLM	8.89M	2.232	4.897	0.114	0.887