2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.
Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
academic

XD-RCDepth: 説明可能性対応および分布認識蒸留を用いた軽量レーダー・カメラ深度推定

基本情報

  • 論文ID: 2510.13565
  • タイトル: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
  • 著者: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
  • 所属機関: ミュンヘン工科大学 & インフィニオン・テクノロジーズAG
  • 分類: cs.CV(コンピュータビジョン)
  • 発表日: 2025年10月15日
  • 論文リンク: https://arxiv.org/abs/2510.13565

要約

本論文はXD-RCDepthを提案する。これは軽量レーダー・カメラ深度推定アーキテクチャであり、最先端の軽量ベースラインモデルと比較してパラメータ数を29.7%削減しながら、同等の精度を維持している。モデル圧縮下での性能維持と説明可能性の向上のため、著者らは2つの知識蒸留戦略を導入した:説明可能性対応蒸留(教師モデルの顕著性構造を学生モデルに転送)および深度分布蒸留(深度回帰を離散化ビン上のソフト分類として再定式化)。これらのコンポーネントは直接訓練と比較してMAEを7.97%削減し、nuScenesおよびZJU-4DRadarCamデータセット上でリアルタイム効率を備えた競争力のある精度を実現している。

研究背景と動機

問題定義

深度推定は自動運転における中核的なタスクであり、既存手法は主に以下を含む:

  1. カメラのみの手法:RGB画像が直接的な幾何測定を提供しないため、本質的に不適切な問題が存在する
  2. LiDAR・カメラ融合:精度は高いが、LiDARは高コストであり、データ帯域幅が大きく、リアルタイム性能に影響する
  3. レーダー・カメラ融合:レーダーは相対的にコストが低く、悪天候下でより堅牢であるが、スパース性とノイズの問題が存在する

既存手法の限界

既存のレーダー・カメラ深度推定手法には以下の問題がある:

  1. 計算複雑度が高い:多くの手法が2段階パイプラインを採用し、まずスパースレーダー点群を高密度化し、その後深度予測を行う
  2. 蒸留設計の欠陥:LiRCDepthのクロスモーダル特徴蒸留はチャネル対応を必要とし、学生ネットワークの設計を制限する
  3. 説明可能性の欠如:既存の蒸留信号は表面的であり、モデルの説明可能性には関与していない

研究動機

著者らの研究動機は以下の通りである:

  1. リアルタイム展開要件を満たす、より軽量なレーダー・カメラ融合アーキテクチャを開発する
  2. モデル圧縮時に性能を維持する、より効果的な知識蒸留戦略を設計する
  3. 密集予測タスクの知識蒸留に説明可能性を導入する

核心的貢献

  1. 軽量レーダー・カメラ深度推定フレームワークの提案:効率的なFiLM融合モジュールを採用し、LiRCDepthと比較してパラメータ数を29.7%削減
  2. 革新的な知識蒸留手法
    • 説明可能性対応顕著性図蒸留(X-KD)
    • 深度分布蒸留(D2-KD)
  3. 密集予測の知識蒸留への説明可能性の初導入:Grad-CAMで生成した顕著性図を用いた蒸留
  4. リアルタイム性能の実現:競争力のある精度を維持しながら15 FPSを達成

方法の詳細

タスク定義

入力:RGB画像とスパースレーダー点群 出力:密集深度図 制約:リアルタイム性能要件と限定的な計算リソース

モデルアーキテクチャ

教師ネットワーク(CaFNet)

  • 画像ストリーム:ResNet-34バックボーン、5つの空間スケールで特徴を抽出
  • レーダーストリーム:2段階処理、第1段階で粗い深度図と信頼度図を生成
  • 融合:信頼度認識ゲート融合(CaGF)モジュール
  • デコーダー:BTSスタイルのデコーダー

学生ネットワーク(XD-RCDepth)

  • バックボーン:デュアルモーダルMobileNetV2、画像とレーダー特徴をそれぞれ処理
  • FiLM融合モジュール
    γ = Conv1×1(fr), β = Conv1×1(fr)
    ffuse = (1 + γ) ⊙ fi + β
    

    ここでfrおよびfiはそれぞれレーダーと画像特徴、γ、βはチャネルごとのスケーリングとオフセット係数
  • Point-wise DASPP:拡張密集空洞空間ピラミッドプーリング、ポイント畳み込み分岐と異なる拡張率の空洞サンプリングを使用

技術的革新点

1. 説明可能性対応蒸留(X-KD)

Grad-CAMで生成した顕著性図を通じて、学生ネットワークに教師ネットワークの注意パターンを学習させる:

顕著性図生成

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

蒸留損失

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. 深度分布蒸留(D2-KD)

連続深度範囲をB個のビンに離散化し、ソフト分類を通じて蒸留を行う:

ビン割り当て

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

確率分布

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

KL発散損失

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

総合損失関数

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

ここでLDepthは深度監視損失、λ1=1.0, λ2=0.5, λ3=0.5

実験設定

データセット

  1. nuScenes:マルチモーダル自動運転データセット、3Dレーダーデータを使用
  2. ZJU-4DRadarCam:4Dレーダーデータセット、より高解像度のレーダー情報を提供

評価指標

  • 誤差指標:MAE(平均絶対誤差)、RMSE(二乗平均平方根誤差)、AbsRel(相対絶対誤差)、log10
  • 精度指標:δ1, δ2, δ3(閾値精度)

比較手法

  • RadarNet:初期段階のレーダー・カメラ融合手法
  • CaFNet:教師ネットワーク
  • LiRCDepth:現在の最先端軽量ベースライン

実装詳細

  • ハードウェア:単一NVIDIA L40 GPU
  • バッチサイズ:8
  • 蒸留層:画像エンコーダー、レーダーエンコーダー、デコーダーの1/16スケール層

実験結果

主要結果

nuScenesデータセット性能比較(80m評価距離)

手法パラメータ数実行時間MAE↓RMSE↓AbsRel↓δ1↑
RadarNet22.8M0.378s2.1794.8990.1060.894
CaFNet (教師)62.25M0.132s1.7634.1840.0830.921
LiRCDepth12.65M0.069s2.1524.8010.1050.892
XD-RCDepth (蒸留なし)8.89M0.015s2.2324.8970.1140.887
XD-RCDepth (XD2-KD)8.89M0.015s2.0544.6760.1020.901

主要な知見

  1. パラメータ効率:XD-RCDepthはLiRCDepthと比較してパラメータ数を29.7%削減
  2. 速度向上:実行時間が0.069sから0.015sに短縮され、15 FPSを達成
  3. 蒸留効果:蒸留なしバージョンと比較して、50m、70m、80m距離でMAEがそれぞれ7.91%、7.96%、7.97%改善

アブレーション実験

融合手法の比較

融合手法パラメータ数MAERMSEAbsRelδ1
加算8.74M2.2484.9030.1150.886
連結10.94M2.2084.8020.1140.888
注意機構9.48M2.2664.9010.1150.885
FiLM8.89M2.2324.8970.1140.887

蒸留コンポーネント分析

X-KDD2-KDMAERMSEAbsRelδ1
--2.2324.8970.1140.887
-2.1144.7560.1080.892
-2.1324.7810.1070.891
2.0544.6760.1020.901

定性的分析

  1. 深度図の品質:蒸留後のモデルはより明確な物体の境界とより清潔な深度不連続性を生成する
  2. 顕著性図の対応:X-KD訓練後の学生ネットワークの顕著性図はより鮮明で、深度関連構造により焦点を当てている

関連研究

深度推定手法の進化

  1. 単眼深度推定:RGB画像から密集深度図を予測するが、スケールの曖昧性が存在する
  2. LiDAR・カメラ融合:スパースLiDARポイント群を幾何学的先験として利用
  3. レーダー・カメラ融合:より低コストで天候堅牢性が高いミリ波レーダーを利用

知識蒸留の発展

  1. 古典的蒸留:Hintonらが提案したソフトラベル蒸留
  2. 特徴蒸留:中間層特徴の対応
  3. 説明可能性蒸留:本論文が密集予測タスクで初めて導入

本論文の利点

既存研究と比較して、本論文は軽量化、リアルタイム性、説明可能性の面で顕著な改善を達成している。

結論と議論

主要な結論

  1. 軽量化の成功:競争力のある性能を維持しながら、パラメータ数と計算時間を大幅に削減
  2. 効果的な蒸留戦略:X-KDとD2-KDは相互補完的であり、学生ネットワークの性能を著しく向上させる
  3. 実用的価値:リアルタイム性能要件を達成し、実際の展開に適している

限界

  1. レーダーデータ品質への依存:性能はレーダー点群のスパース性とノイズに依然として制限される
  2. 蒸留目標選択:Grad-CAM目標の選択(例えば画像レベルの平均深度)は効果に影響する可能性がある
  3. 汎化能力:主に特定のデータセット上で検証されており、ドメイン間の汎化能力はさらなる検証が必要である

今後の方向性

著者らはGrad-CAM目標選択と代替帰属目標が蒸留の説明可能性品質と下流性能に与える影響を研究することを提案している。

深い評価

利点

  1. 技術革新性が強い:密集予測の知識蒸留に説明可能性を初めて導入し、技術ルートが新規である
  2. 実験が充分:2つのデータセット上で包括的な比較とアブレーション実験を実施
  3. 実用的価値が高い:著しいパラメータと速度の最適化により、実際の展開要件を満たす
  4. 手法設計が合理的:FiLM融合はシンプルで効果的、Point-wise DASPPの軽量化設計は巧妙である

不足

  1. 理論分析が不足:説明可能性蒸留が有効である理由についての深い理論分析が欠ける
  2. アブレーション実験の限界:異なるGrad-CAM目標と温度パラメータの影響が十分に分析されていない
  3. 比較範囲が限定的:主にレーダー・カメラ手法との比較であり、他の軽量深度推定手法との比較が不足している

影響力

  1. 学術的貢献:密集予測タスクの知識蒸留に新しい方向を開く
  2. 実用的価値:自動運転におけるリアルタイム深度推定の実行可能なソリューションを提供
  3. 再現性:手法の説明が明確で、実装詳細が充分である

適用シーン

  1. 自動運転:リソース制限のある車載システムでのリアルタイム深度推定
  2. 移動ロボット:軽量マルチモーダル知覚が必要なシーン
  3. エッジコンピューティング:計算リソースが限定的だが正確な深度情報が必要なアプリケーション

参考文献

論文は深度推定、知識蒸留、説明可能なAIなどの分野における重要な研究を引用している。これには以下が含まれる:

  • Hinton et al. (2015):知識蒸留の基礎的研究
  • Selvaraju et al. (2019):Grad-CAM可視化手法
  • Caesar et al. (2020):nuScenesデータセット
  • およびレーダー・カメラ融合に関する複数の最新研究

総合評価:これは技術品質が高い論文であり、軽量マルチモーダル深度推定分野で価値のある貢献を行っている。手法は新規で、実験は充分であり、実用的価値が顕著であり、関連分野の研究と応用に有益な参考を提供している。