2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.

Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.

academic

XD-RCDepth: 설명가능성 정렬 및 분포 인식 증류를 통한 경량 레이더-카메라 깊이 추정

기본 정보

논문 ID: 2510.13565
제목: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
저자: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
기관: Technical University of Munich & Infineon Technologies AG
분류: cs.CV (컴퓨터 비전)
발표 시간: 2025년 10월 15일
논문 링크: https://arxiv.org/abs/2510.13565

초록

본 논문은 XD-RCDepth를 제안하며, 이는 최첨단 경량 기준 모델 대비 매개변수 29.7% 감소를 달성하면서 동등한 정확도를 유지하는 경량 레이더-카메라 깊이 추정 아키텍처입니다. 모델 압축 하에서 성능을 유지하고 설명가능성을 향상시키기 위해, 저자들은 두 가지 지식 증류 전략을 도입했습니다: 설명가능성 정렬 증류(교사 모델의 현저성 구조를 학생 모델로 전달)와 깊이 분포 증류(깊이 회귀를 이산화된 빈에 대한 소프트 분류로 재구성). 이러한 구성 요소는 직접 훈련 대비 7.97% MAE 감소를 달성하며, nuScenes 및 ZJU-4DRadarCam 데이터셋에서 실시간 효율성을 갖춘 경쟁력 있는 정확도를 구현합니다.

연구 배경 및 동기

문제 정의

깊이 추정은 자율주행에서 여전히 핵심 작업이며, 기존 방법은 주로 다음을 포함합니다:

순수 카메라 방법: RGB 이미지가 직접적인 기하학적 측정을 제공하지 않기 때문에 고유한 병적 문제 존재
LiDAR-카메라 융합: 높은 정확도를 제공하지만 LiDAR 비용이 높고 데이터 대역폭이 크며 실시간 성능에 영향
레이더-카메라 융합: 레이더는 상대적으로 저비용이며 악천후에서 더 견고하지만 희소성 및 노이즈 문제 존재

기존 방법의 한계

기존 레이더-카메라 깊이 추정 방법은 다음과 같은 문제가 있습니다:

높은 계산 복잡도: 대부분 2단계 파이프라인을 채택하여 먼저 희소 레이더 포인트 클라우드를 조밀화한 후 깊이 예측 수행
증류 설계 결함: LiRCDepth의 크로스모달 특성 증류는 채널 정렬이 필요하여 학생 네트워크 설계 제한
설명가능성 부족: 기존 증류 신호는 표면적이며 모델 설명가능성을 다루지 않음

연구 동기

저자들의 연구 동기는 다음과 같습니다:

실시간 배포 요구사항을 충족하는 더 경량의 레이더-카메라 융합 아키텍처 개발
모델 압축 중 성능을 유지하면서 더 효과적인 지식 증류 전략 설계
조밀 예측 작업의 지식 증류에 설명가능성 도입

핵심 기여

경량 레이더-카메라 깊이 추정 프레임워크 제안: 효율적인 FiLM 융합 모듈을 채택하여 LiRCDepth 대비 매개변수 29.7% 감소
혁신적인 지식 증류 방법:
- 설명가능성 정렬 현저성 맵 증류(X-KD)
- 깊이 분포 증류(D2-KD)
조밀 예측의 지식 증류에 설명가능성 최초 도입: Grad-CAM을 통해 생성된 현저성 맵으로 증류
실시간 성능 달성: 경쟁력 있는 정확도 유지 중 15 FPS 달성

방법 상세 설명

작업 정의

입력: RGB 이미지 및 희소 레이더 포인트 클라우드 출력: 조밀 깊이 맵 제약: 실시간 성능 요구사항 및 제한된 계산 자원

모델 아키텍처

교사 네트워크(CaFNet)

이미지 스트림: ResNet-34 백본 네트워크, 5개 공간 스케일의 특성 추출
레이더 스트림: 2단계 처리, 첫 번째 단계에서 거친 깊이 맵 및 신뢰도 맵 생성
융합: 신뢰도 인식 게이팅 융합(CaGF) 모듈
디코더: BTS 스타일 디코더

학생 네트워크(XD-RCDepth)

백본 네트워크: 이미지 및 레이더 특성을 각각 처리하는 이중 모달 MobileNetV2
FiLM 융합 모듈:
```
γ = Conv1×1(fr), β = Conv1×1(fr)
ffuse = (1 + γ) ⊙ fi + β
```
여기서 fr과 fi는 각각 레이더 및 이미지 특성이며, γ, β는 채널별 스케일링 및 오프셋 계수
Point-wise DASPP: 확장된 조밀 공간 피라미드 풀링, 포인트 컨볼루션 분기 및 다양한 팽창률의 공간 샘플링 사용

기술 혁신 포인트

1. 설명가능성 정렬 증류(X-KD)

Grad-CAM을 통해 생성된 현저성 맵을 사용하여 학생 네트워크가 교사 네트워크의 주의 패턴을 학습하도록 함:

현저성 맵 생성:

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

증류 손실:

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. 깊이 분포 증류(D2-KD)

연속 깊이 범위를 B개 빈으로 이산화하고 소프트 분류를 통해 증류:

빈 할당:

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

확률 분포:

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

KL 발산 손실:

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

전체 손실 함수

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

여기서 LDepth는 깊이 감독 손실이며, λ1=1.0, λ2=0.5, λ3=0.5

실험 설정

데이터셋

nuScenes: 3D 레이더 데이터를 사용하는 멀티모달 자율주행 데이터셋
ZJU-4DRadarCam: 더 높은 해상도의 레이더 정보를 제공하는 4D 레이더 데이터셋

평가 지표

오류 지표: MAE(평균 절대 오류), RMSE(제곱근 평균 제곱 오류), AbsRel(상대 절대 오류), log10
정확도 지표: δ1, δ2, δ3(임계값 정확도)

비교 방법

RadarNet: 초기 레이더-카메라 융합 방법
CaFNet: 교사 네트워크
LiRCDepth: 현재 최첨단 경량 기준선

구현 세부사항

하드웨어: 단일 NVIDIA L40 GPU
배치 크기: 8
증류 계층: 이미지 인코더, 레이더 인코더, 디코더의 1/16 스케일 계층

실험 결과

주요 결과

nuScenes 데이터셋 성능 비교(80m 평가 거리)

방법	매개변수	실행 시간	MAE↓	RMSE↓	AbsRel↓	δ1↑
RadarNet	22.8M	0.378s	2.179	4.899	0.106	0.894
CaFNet (교사)	62.25M	0.132s	1.763	4.184	0.083	0.921
LiRCDepth	12.65M	0.069s	2.152	4.801	0.105	0.892
XD-RCDepth (증류 없음)	8.89M	0.015s	2.232	4.897	0.114	0.887
XD-RCDepth (XD2-KD)	8.89M	0.015s	2.054	4.676	0.102	0.901