Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
論文ID : 2510.13565タイトル : XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation著者 : Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille所属機関 : ミュンヘン工科大学 & インフィニオン・テクノロジーズAG分類 : cs.CV(コンピュータビジョン)発表日 : 2025年10月15日論文リンク : https://arxiv.org/abs/2510.13565 本論文はXD-RCDepthを提案する。これは軽量レーダー・カメラ深度推定アーキテクチャであり、最先端の軽量ベースラインモデルと比較してパラメータ数を29.7%削減しながら、同等の精度を維持している。モデル圧縮下での性能維持と説明可能性の向上のため、著者らは2つの知識蒸留戦略を導入した:説明可能性対応蒸留(教師モデルの顕著性構造を学生モデルに転送)および深度分布蒸留(深度回帰を離散化ビン上のソフト分類として再定式化)。これらのコンポーネントは直接訓練と比較してMAEを7.97%削減し、nuScenesおよびZJU-4DRadarCamデータセット上でリアルタイム効率を備えた競争力のある精度を実現している。
深度推定は自動運転における中核的なタスクであり、既存手法は主に以下を含む:
カメラのみの手法 :RGB画像が直接的な幾何測定を提供しないため、本質的に不適切な問題が存在するLiDAR・カメラ融合 :精度は高いが、LiDARは高コストであり、データ帯域幅が大きく、リアルタイム性能に影響するレーダー・カメラ融合 :レーダーは相対的にコストが低く、悪天候下でより堅牢であるが、スパース性とノイズの問題が存在する既存のレーダー・カメラ深度推定手法には以下の問題がある:
計算複雑度が高い :多くの手法が2段階パイプラインを採用し、まずスパースレーダー点群を高密度化し、その後深度予測を行う蒸留設計の欠陥 :LiRCDepthのクロスモーダル特徴蒸留はチャネル対応を必要とし、学生ネットワークの設計を制限する説明可能性の欠如 :既存の蒸留信号は表面的であり、モデルの説明可能性には関与していない著者らの研究動機は以下の通りである:
リアルタイム展開要件を満たす、より軽量なレーダー・カメラ融合アーキテクチャを開発する モデル圧縮時に性能を維持する、より効果的な知識蒸留戦略を設計する 密集予測タスクの知識蒸留に説明可能性を導入する 軽量レーダー・カメラ深度推定フレームワークの提案 :効率的なFiLM融合モジュールを採用し、LiRCDepthと比較してパラメータ数を29.7%削減革新的な知識蒸留手法 :
説明可能性対応顕著性図蒸留(X-KD) 深度分布蒸留(D2-KD) 密集予測の知識蒸留への説明可能性の初導入 :Grad-CAMで生成した顕著性図を用いた蒸留リアルタイム性能の実現 :競争力のある精度を維持しながら15 FPSを達成入力 :RGB画像とスパースレーダー点群
出力 :密集深度図
制約 :リアルタイム性能要件と限定的な計算リソース
画像ストリーム:ResNet-34バックボーン、5つの空間スケールで特徴を抽出 レーダーストリーム:2段階処理、第1段階で粗い深度図と信頼度図を生成 融合:信頼度認識ゲート融合(CaGF)モジュール デコーダー:BTSスタイルのデコーダー バックボーン :デュアルモーダルMobileNetV2、画像とレーダー特徴をそれぞれ処理FiLM融合モジュール :γ = Conv1×1(fr), β = Conv1×1(fr)
ffuse = (1 + γ) ⊙ fi + β
ここでfrおよびfiはそれぞれレーダーと画像特徴、γ、βはチャネルごとのスケーリングとオフセット係数Point-wise DASPP :拡張密集空洞空間ピラミッドプーリング、ポイント畳み込み分岐と異なる拡張率の空洞サンプリングを使用Grad-CAMで生成した顕著性図を通じて、学生ネットワークに教師ネットワークの注意パターンを学習させる:
顕著性図生成 :
α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)
蒸留損失 :
LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)
連続深度範囲をB個のビンに離散化し、ソフト分類を通じて蒸留を行う:
ビン割り当て :
Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)
確率分布 :
pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)
KL発散損失 :
LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))
L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD
ここでLDepthは深度監視損失、λ1=1.0, λ2=0.5, λ3=0.5
nuScenes :マルチモーダル自動運転データセット、3Dレーダーデータを使用ZJU-4DRadarCam :4Dレーダーデータセット、より高解像度のレーダー情報を提供誤差指標 :MAE(平均絶対誤差)、RMSE(二乗平均平方根誤差)、AbsRel(相対絶対誤差)、log10精度指標 :δ1, δ2, δ3(閾値精度)RadarNet:初期段階のレーダー・カメラ融合手法 CaFNet:教師ネットワーク LiRCDepth:現在の最先端軽量ベースライン ハードウェア:単一NVIDIA L40 GPU バッチサイズ:8 蒸留層:画像エンコーダー、レーダーエンコーダー、デコーダーの1/16スケール層 手法 パラメータ数 実行時間 MAE↓ RMSE↓ AbsRel↓ δ1↑ RadarNet 22.8M 0.378s 2.179 4.899 0.106 0.894 CaFNet (教師) 62.25M 0.132s 1.763 4.184 0.083 0.921 LiRCDepth 12.65M 0.069s 2.152 4.801 0.105 0.892 XD-RCDepth (蒸留なし) 8.89M 0.015s 2.232 4.897 0.114 0.887 XD-RCDepth (XD2-KD) 8.89M 0.015s 2.054 4.676 0.102 0.901
パラメータ効率 :XD-RCDepthはLiRCDepthと比較してパラメータ数を29.7%削減速度向上 :実行時間が0.069sから0.015sに短縮され、15 FPSを達成蒸留効果 :蒸留なしバージョンと比較して、50m、70m、80m距離でMAEがそれぞれ7.91%、7.96%、7.97%改善融合手法 パラメータ数 MAE RMSE AbsRel δ1 加算 8.74M 2.248 4.903 0.115 0.886 連結 10.94M 2.208 4.802 0.114 0.888 注意機構 9.48M 2.266 4.901 0.115 0.885 FiLM 8.89M 2.232 4.897 0.114 0.887
X-KD D2-KD MAE RMSE AbsRel δ1 - - 2.232 4.897 0.114 0.887 ✓ - 2.114 4.756 0.108 0.892 - ✓ 2.132 4.781 0.107 0.891 ✓ ✓ 2.054 4.676 0.102 0.901
深度図の品質 :蒸留後のモデルはより明確な物体の境界とより清潔な深度不連続性を生成する顕著性図の対応 :X-KD訓練後の学生ネットワークの顕著性図はより鮮明で、深度関連構造により焦点を当てている単眼深度推定 :RGB画像から密集深度図を予測するが、スケールの曖昧性が存在するLiDAR・カメラ融合 :スパースLiDARポイント群を幾何学的先験として利用レーダー・カメラ融合 :より低コストで天候堅牢性が高いミリ波レーダーを利用古典的蒸留 :Hintonらが提案したソフトラベル蒸留特徴蒸留 :中間層特徴の対応説明可能性蒸留 :本論文が密集予測タスクで初めて導入既存研究と比較して、本論文は軽量化、リアルタイム性、説明可能性の面で顕著な改善を達成している。
軽量化の成功 :競争力のある性能を維持しながら、パラメータ数と計算時間を大幅に削減効果的な蒸留戦略 :X-KDとD2-KDは相互補完的であり、学生ネットワークの性能を著しく向上させる実用的価値 :リアルタイム性能要件を達成し、実際の展開に適しているレーダーデータ品質への依存 :性能はレーダー点群のスパース性とノイズに依然として制限される蒸留目標選択 :Grad-CAM目標の選択(例えば画像レベルの平均深度)は効果に影響する可能性がある汎化能力 :主に特定のデータセット上で検証されており、ドメイン間の汎化能力はさらなる検証が必要である著者らはGrad-CAM目標選択と代替帰属目標が蒸留の説明可能性品質と下流性能に与える影響を研究することを提案している。
技術革新性が強い :密集予測の知識蒸留に説明可能性を初めて導入し、技術ルートが新規である実験が充分 :2つのデータセット上で包括的な比較とアブレーション実験を実施実用的価値が高い :著しいパラメータと速度の最適化により、実際の展開要件を満たす手法設計が合理的 :FiLM融合はシンプルで効果的、Point-wise DASPPの軽量化設計は巧妙である理論分析が不足 :説明可能性蒸留が有効である理由についての深い理論分析が欠けるアブレーション実験の限界 :異なるGrad-CAM目標と温度パラメータの影響が十分に分析されていない比較範囲が限定的 :主にレーダー・カメラ手法との比較であり、他の軽量深度推定手法との比較が不足している学術的貢献 :密集予測タスクの知識蒸留に新しい方向を開く実用的価値 :自動運転におけるリアルタイム深度推定の実行可能なソリューションを提供再現性 :手法の説明が明確で、実装詳細が充分である自動運転 :リソース制限のある車載システムでのリアルタイム深度推定移動ロボット :軽量マルチモーダル知覚が必要なシーンエッジコンピューティング :計算リソースが限定的だが正確な深度情報が必要なアプリケーション論文は深度推定、知識蒸留、説明可能なAIなどの分野における重要な研究を引用している。これには以下が含まれる:
Hinton et al. (2015):知識蒸留の基礎的研究 Selvaraju et al. (2019):Grad-CAM可視化手法 Caesar et al. (2020):nuScenesデータセット およびレーダー・カメラ融合に関する複数の最新研究 総合評価 :これは技術品質が高い論文であり、軽量マルチモーダル深度推定分野で価値のある貢献を行っている。手法は新規で、実験は充分であり、実用的価値が顕著であり、関連分野の研究と応用に有益な参考を提供している。