Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
논문 ID : 2510.13565제목 : XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation저자 : Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille기관 : Technical University of Munich & Infineon Technologies AG분류 : cs.CV (컴퓨터 비전)발표 시간 : 2025년 10월 15일논문 링크 : https://arxiv.org/abs/2510.13565 본 논문은 XD-RCDepth를 제안하며, 이는 최첨단 경량 기준 모델 대비 매개변수 29.7% 감소를 달성하면서 동등한 정확도를 유지하는 경량 레이더-카메라 깊이 추정 아키텍처입니다. 모델 압축 하에서 성능을 유지하고 설명가능성을 향상시키기 위해, 저자들은 두 가지 지식 증류 전략을 도입했습니다: 설명가능성 정렬 증류(교사 모델의 현저성 구조를 학생 모델로 전달)와 깊이 분포 증류(깊이 회귀를 이산화된 빈에 대한 소프트 분류로 재구성). 이러한 구성 요소는 직접 훈련 대비 7.97% MAE 감소를 달성하며, nuScenes 및 ZJU-4DRadarCam 데이터셋에서 실시간 효율성을 갖춘 경쟁력 있는 정확도를 구현합니다.
깊이 추정은 자율주행에서 여전히 핵심 작업이며, 기존 방법은 주로 다음을 포함합니다:
순수 카메라 방법 : RGB 이미지가 직접적인 기하학적 측정을 제공하지 않기 때문에 고유한 병적 문제 존재LiDAR-카메라 융합 : 높은 정확도를 제공하지만 LiDAR 비용이 높고 데이터 대역폭이 크며 실시간 성능에 영향레이더-카메라 융합 : 레이더는 상대적으로 저비용이며 악천후에서 더 견고하지만 희소성 및 노이즈 문제 존재기존 레이더-카메라 깊이 추정 방법은 다음과 같은 문제가 있습니다:
높은 계산 복잡도 : 대부분 2단계 파이프라인을 채택하여 먼저 희소 레이더 포인트 클라우드를 조밀화한 후 깊이 예측 수행증류 설계 결함 : LiRCDepth의 크로스모달 특성 증류는 채널 정렬이 필요하여 학생 네트워크 설계 제한설명가능성 부족 : 기존 증류 신호는 표면적이며 모델 설명가능성을 다루지 않음저자들의 연구 동기는 다음과 같습니다:
실시간 배포 요구사항을 충족하는 더 경량의 레이더-카메라 융합 아키텍처 개발 모델 압축 중 성능을 유지하면서 더 효과적인 지식 증류 전략 설계 조밀 예측 작업의 지식 증류에 설명가능성 도입 경량 레이더-카메라 깊이 추정 프레임워크 제안 : 효율적인 FiLM 융합 모듈을 채택하여 LiRCDepth 대비 매개변수 29.7% 감소혁신적인 지식 증류 방법 :
설명가능성 정렬 현저성 맵 증류(X-KD) 깊이 분포 증류(D2-KD) 조밀 예측의 지식 증류에 설명가능성 최초 도입 : Grad-CAM을 통해 생성된 현저성 맵으로 증류실시간 성능 달성 : 경쟁력 있는 정확도 유지 중 15 FPS 달성입력 : RGB 이미지 및 희소 레이더 포인트 클라우드
출력 : 조밀 깊이 맵
제약 : 실시간 성능 요구사항 및 제한된 계산 자원
이미지 스트림: ResNet-34 백본 네트워크, 5개 공간 스케일의 특성 추출 레이더 스트림: 2단계 처리, 첫 번째 단계에서 거친 깊이 맵 및 신뢰도 맵 생성 융합: 신뢰도 인식 게이팅 융합(CaGF) 모듈 디코더: BTS 스타일 디코더 백본 네트워크 : 이미지 및 레이더 특성을 각각 처리하는 이중 모달 MobileNetV2FiLM 융합 모듈 :γ = Conv1×1(fr), β = Conv1×1(fr)
ffuse = (1 + γ) ⊙ fi + β
여기서 fr과 fi는 각각 레이더 및 이미지 특성이며, γ, β는 채널별 스케일링 및 오프셋 계수Point-wise DASPP : 확장된 조밀 공간 피라미드 풀링, 포인트 컨볼루션 분기 및 다양한 팽창률의 공간 샘플링 사용Grad-CAM을 통해 생성된 현저성 맵을 사용하여 학생 네트워크가 교사 네트워크의 주의 패턴을 학습하도록 함:
현저성 맵 생성 :
α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)
증류 손실 :
LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)
연속 깊이 범위를 B개 빈으로 이산화하고 소프트 분류를 통해 증류:
빈 할당 :
Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)
확률 분포 :
pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)
KL 발산 손실 :
LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))
L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD
여기서 LDepth는 깊이 감독 손실이며, λ1=1.0, λ2=0.5, λ3=0.5
nuScenes : 3D 레이더 데이터를 사용하는 멀티모달 자율주행 데이터셋ZJU-4DRadarCam : 더 높은 해상도의 레이더 정보를 제공하는 4D 레이더 데이터셋오류 지표 : MAE(평균 절대 오류), RMSE(제곱근 평균 제곱 오류), AbsRel(상대 절대 오류), log10정확도 지표 : δ1, δ2, δ3(임계값 정확도)RadarNet: 초기 레이더-카메라 융합 방법 CaFNet: 교사 네트워크 LiRCDepth: 현재 최첨단 경량 기준선 하드웨어: 단일 NVIDIA L40 GPU 배치 크기: 8 증류 계층: 이미지 인코더, 레이더 인코더, 디코더의 1/16 스케일 계층 방법 매개변수 실행 시간 MAE↓ RMSE↓ AbsRel↓ δ1↑ RadarNet 22.8M 0.378s 2.179 4.899 0.106 0.894 CaFNet (교사) 62.25M 0.132s 1.763 4.184 0.083 0.921 LiRCDepth 12.65M 0.069s 2.152 4.801 0.105 0.892 XD-RCDepth (증류 없음) 8.89M 0.015s 2.232 4.897 0.114 0.887 XD-RCDepth (XD2-KD) 8.89M 0.015s 2.054 4.676 0.102 0.901
매개변수 효율성 : XD-RCDepth는 LiRCDepth 대비 매개변수 29.7% 감소속도 향상 : 실행 시간이 0.069s에서 0.015s로 감소하여 15 FPS 달성증류 효과 : 증류 없는 버전 대비 50m, 70m, 80m 거리에서 MAE가 각각 7.91%, 7.96%, 7.97% 개선융합 방법 매개변수 MAE RMSE AbsRel δ1 덧셈 8.74M 2.248 4.903 0.115 0.886 연결 10.94M 2.208 4.802 0.114 0.888 주의 9.48M 2.266 4.901 0.115 0.885 FiLM 8.89M 2.232 4.897 0.114 0.887
X-KD D2-KD MAE RMSE AbsRel δ1 - - 2.232 4.897 0.114 0.887 ✓ - 2.114 4.756 0.108 0.892 - ✓ 2.132 4.781 0.107 0.891 ✓ ✓ 2.054 4.676 0.102 0.901
깊이 맵 품질 : 증류 후 모델은 더 명확한 물체 경계 및 더 깨끗한 깊이 불연속성 생성현저성 맵 정렬 : X-KD 훈련 후 학생 네트워크 현저성 맵은 더 선명하며 깊이 관련 구조에 더 집중단안 깊이 추정 : RGB 이미지에서 조밀 깊이 맵 예측, 하지만 스케일 모호성 존재LiDAR-카메라 융합 : 희소 LiDAR 포인트 클라우드를 기하학적 사전으로 활용레이더-카메라 융합 : 더 저비용이고 날씨 견고성이 강한 밀리미터파 레이더 활용고전적 증류 : Hinton 등이 제안한 소프트 라벨 증류특성 증류 : 중간 계층 특성 정렬설명가능성 증류 : 본 논문이 조밀 예측 작업에 최초 도입기존 연구와 비교하여 본 논문은 경량화, 실시간성 및 설명가능성 측면에서 현저한 개선을 달성합니다.
경량화 성공적 달성 : 경쟁력 있는 성능 유지 중 매개변수 및 계산 시간 대폭 감소효과적인 증류 전략 : X-KD와 D2-KD는 상호 보완적이며 학생 네트워크 성능 현저히 향상실용적 가치 : 실시간 성능 요구사항 달성, 실제 배포에 적합레이더 데이터 품질 의존성 : 성능은 여전히 레이더 포인트 클라우드의 희소성 및 노이즈에 제한됨증류 목표 선택 : Grad-CAM 목표 선택(예: 이미지 수준 평균 깊이)이 효과에 영향 가능일반화 능력 : 주로 특정 데이터셋에서 검증되었으며 도메인 간 일반화 능력은 추가 검증 필요저자들은 Grad-CAM 목표 선택 및 대체 귀인 목표가 증류 설명가능성 품질 및 하류 성능에 미치는 영향을 연구할 것을 제안합니다.
높은 기술 혁신성 : 조밀 예측의 지식 증류에 설명가능성 최초 도입, 기술 경로 신규충분한 실험 : 두 데이터셋에서 포괄적인 비교 및 소거 실험 수행높은 실용적 가치 : 현저한 매개변수 및 속도 최적화, 실제 배포 요구사항 충족합리적인 방법 설계 : FiLM 융합은 단순하고 효과적이며, Point-wise DASPP 경량화 설계는 정교함이론적 분석 부족 : 설명가능성 증류가 효과적인 이유에 대한 심층 이론적 분석 부재소거 실험 한계 : 다양한 Grad-CAM 목표 및 온도 매개변수의 영향 충분히 분석하지 않음제한된 비교 범위 : 주로 레이더-카메라 방법과 비교하며 다른 경량 깊이 추정 방법과의 비교 부족학술적 기여 : 조밀 예측 작업의 지식 증류에 새로운 방향 개척실용적 가치 : 자율주행의 실시간 깊이 추정을 위한 실행 가능한 방안 제공재현성 : 방법 설명이 명확하고 구현 세부사항 충분자율주행 : 자원 제약이 있는 차량 탑재 시스템의 실시간 깊이 추정이동 로봇 : 경량 멀티모달 감지가 필요한 시나리오엣지 컴퓨팅 : 계산 자원이 제한되지만 정확한 깊이 정보가 필요한 응용논문은 깊이 추정, 지식 증류, 설명가능 AI 등 분야의 중요한 연구를 인용하며, 다음을 포함합니다:
Hinton et al. (2015): 지식 증류의 기초 연구 Selvaraju et al. (2019): Grad-CAM 시각화 방법 Caesar et al. (2020): nuScenes 데이터셋 및 다수의 레이더-카메라 융합 최신 연구 종합 평가 : 이는 경량 멀티모달 깊이 추정 분야에서 가치 있는 기여를 한 기술 품질이 우수한 논문입니다. 방법이 신규이고 실험이 충분하며 실용적 가치가 뛰어나 관련 분야의 연구 및 응용에 유익한 참고자료를 제공합니다.