2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.
Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
academic

XD-RCDepth: 설명가능성 정렬 및 분포 인식 증류를 통한 경량 레이더-카메라 깊이 추정

기본 정보

  • 논문 ID: 2510.13565
  • 제목: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
  • 저자: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
  • 기관: Technical University of Munich & Infineon Technologies AG
  • 분류: cs.CV (컴퓨터 비전)
  • 발표 시간: 2025년 10월 15일
  • 논문 링크: https://arxiv.org/abs/2510.13565

초록

본 논문은 XD-RCDepth를 제안하며, 이는 최첨단 경량 기준 모델 대비 매개변수 29.7% 감소를 달성하면서 동등한 정확도를 유지하는 경량 레이더-카메라 깊이 추정 아키텍처입니다. 모델 압축 하에서 성능을 유지하고 설명가능성을 향상시키기 위해, 저자들은 두 가지 지식 증류 전략을 도입했습니다: 설명가능성 정렬 증류(교사 모델의 현저성 구조를 학생 모델로 전달)와 깊이 분포 증류(깊이 회귀를 이산화된 빈에 대한 소프트 분류로 재구성). 이러한 구성 요소는 직접 훈련 대비 7.97% MAE 감소를 달성하며, nuScenes 및 ZJU-4DRadarCam 데이터셋에서 실시간 효율성을 갖춘 경쟁력 있는 정확도를 구현합니다.

연구 배경 및 동기

문제 정의

깊이 추정은 자율주행에서 여전히 핵심 작업이며, 기존 방법은 주로 다음을 포함합니다:

  1. 순수 카메라 방법: RGB 이미지가 직접적인 기하학적 측정을 제공하지 않기 때문에 고유한 병적 문제 존재
  2. LiDAR-카메라 융합: 높은 정확도를 제공하지만 LiDAR 비용이 높고 데이터 대역폭이 크며 실시간 성능에 영향
  3. 레이더-카메라 융합: 레이더는 상대적으로 저비용이며 악천후에서 더 견고하지만 희소성 및 노이즈 문제 존재

기존 방법의 한계

기존 레이더-카메라 깊이 추정 방법은 다음과 같은 문제가 있습니다:

  1. 높은 계산 복잡도: 대부분 2단계 파이프라인을 채택하여 먼저 희소 레이더 포인트 클라우드를 조밀화한 후 깊이 예측 수행
  2. 증류 설계 결함: LiRCDepth의 크로스모달 특성 증류는 채널 정렬이 필요하여 학생 네트워크 설계 제한
  3. 설명가능성 부족: 기존 증류 신호는 표면적이며 모델 설명가능성을 다루지 않음

연구 동기

저자들의 연구 동기는 다음과 같습니다:

  1. 실시간 배포 요구사항을 충족하는 더 경량의 레이더-카메라 융합 아키텍처 개발
  2. 모델 압축 중 성능을 유지하면서 더 효과적인 지식 증류 전략 설계
  3. 조밀 예측 작업의 지식 증류에 설명가능성 도입

핵심 기여

  1. 경량 레이더-카메라 깊이 추정 프레임워크 제안: 효율적인 FiLM 융합 모듈을 채택하여 LiRCDepth 대비 매개변수 29.7% 감소
  2. 혁신적인 지식 증류 방법:
    • 설명가능성 정렬 현저성 맵 증류(X-KD)
    • 깊이 분포 증류(D2-KD)
  3. 조밀 예측의 지식 증류에 설명가능성 최초 도입: Grad-CAM을 통해 생성된 현저성 맵으로 증류
  4. 실시간 성능 달성: 경쟁력 있는 정확도 유지 중 15 FPS 달성

방법 상세 설명

작업 정의

입력: RGB 이미지 및 희소 레이더 포인트 클라우드 출력: 조밀 깊이 맵 제약: 실시간 성능 요구사항 및 제한된 계산 자원

모델 아키텍처

교사 네트워크(CaFNet)

  • 이미지 스트림: ResNet-34 백본 네트워크, 5개 공간 스케일의 특성 추출
  • 레이더 스트림: 2단계 처리, 첫 번째 단계에서 거친 깊이 맵 및 신뢰도 맵 생성
  • 융합: 신뢰도 인식 게이팅 융합(CaGF) 모듈
  • 디코더: BTS 스타일 디코더

학생 네트워크(XD-RCDepth)

  • 백본 네트워크: 이미지 및 레이더 특성을 각각 처리하는 이중 모달 MobileNetV2
  • FiLM 융합 모듈:
    γ = Conv1×1(fr), β = Conv1×1(fr)
    ffuse = (1 + γ) ⊙ fi + β
    

    여기서 fr과 fi는 각각 레이더 및 이미지 특성이며, γ, β는 채널별 스케일링 및 오프셋 계수
  • Point-wise DASPP: 확장된 조밀 공간 피라미드 풀링, 포인트 컨볼루션 분기 및 다양한 팽창률의 공간 샘플링 사용

기술 혁신 포인트

1. 설명가능성 정렬 증류(X-KD)

Grad-CAM을 통해 생성된 현저성 맵을 사용하여 학생 네트워크가 교사 네트워크의 주의 패턴을 학습하도록 함:

현저성 맵 생성:

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

증류 손실:

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. 깊이 분포 증류(D2-KD)

연속 깊이 범위를 B개 빈으로 이산화하고 소프트 분류를 통해 증류:

빈 할당:

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

확률 분포:

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

KL 발산 손실:

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

전체 손실 함수

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

여기서 LDepth는 깊이 감독 손실이며, λ1=1.0, λ2=0.5, λ3=0.5

실험 설정

데이터셋

  1. nuScenes: 3D 레이더 데이터를 사용하는 멀티모달 자율주행 데이터셋
  2. ZJU-4DRadarCam: 더 높은 해상도의 레이더 정보를 제공하는 4D 레이더 데이터셋

평가 지표

  • 오류 지표: MAE(평균 절대 오류), RMSE(제곱근 평균 제곱 오류), AbsRel(상대 절대 오류), log10
  • 정확도 지표: δ1, δ2, δ3(임계값 정확도)

비교 방법

  • RadarNet: 초기 레이더-카메라 융합 방법
  • CaFNet: 교사 네트워크
  • LiRCDepth: 현재 최첨단 경량 기준선

구현 세부사항

  • 하드웨어: 단일 NVIDIA L40 GPU
  • 배치 크기: 8
  • 증류 계층: 이미지 인코더, 레이더 인코더, 디코더의 1/16 스케일 계층

실험 결과

주요 결과

nuScenes 데이터셋 성능 비교(80m 평가 거리)

방법매개변수실행 시간MAE↓RMSE↓AbsRel↓δ1↑
RadarNet22.8M0.378s2.1794.8990.1060.894
CaFNet (교사)62.25M0.132s1.7634.1840.0830.921
LiRCDepth12.65M0.069s2.1524.8010.1050.892
XD-RCDepth (증류 없음)8.89M0.015s2.2324.8970.1140.887
XD-RCDepth (XD2-KD)8.89M0.015s2.0544.6760.1020.901

주요 발견

  1. 매개변수 효율성: XD-RCDepth는 LiRCDepth 대비 매개변수 29.7% 감소
  2. 속도 향상: 실행 시간이 0.069s에서 0.015s로 감소하여 15 FPS 달성
  3. 증류 효과: 증류 없는 버전 대비 50m, 70m, 80m 거리에서 MAE가 각각 7.91%, 7.96%, 7.97% 개선

소거 실험

융합 방법 비교

융합 방법매개변수MAERMSEAbsRelδ1
덧셈8.74M2.2484.9030.1150.886
연결10.94M2.2084.8020.1140.888
주의9.48M2.2664.9010.1150.885
FiLM8.89M2.2324.8970.1140.887

증류 구성 요소 분석

X-KDD2-KDMAERMSEAbsRelδ1
--2.2324.8970.1140.887
-2.1144.7560.1080.892
-2.1324.7810.1070.891
2.0544.6760.1020.901

정성적 분석

  1. 깊이 맵 품질: 증류 후 모델은 더 명확한 물체 경계 및 더 깨끗한 깊이 불연속성 생성
  2. 현저성 맵 정렬: X-KD 훈련 후 학생 네트워크 현저성 맵은 더 선명하며 깊이 관련 구조에 더 집중

관련 연구

깊이 추정 방법 진화

  1. 단안 깊이 추정: RGB 이미지에서 조밀 깊이 맵 예측, 하지만 스케일 모호성 존재
  2. LiDAR-카메라 융합: 희소 LiDAR 포인트 클라우드를 기하학적 사전으로 활용
  3. 레이더-카메라 융합: 더 저비용이고 날씨 견고성이 강한 밀리미터파 레이더 활용

지식 증류 발전

  1. 고전적 증류: Hinton 등이 제안한 소프트 라벨 증류
  2. 특성 증류: 중간 계층 특성 정렬
  3. 설명가능성 증류: 본 논문이 조밀 예측 작업에 최초 도입

본 논문의 장점

기존 연구와 비교하여 본 논문은 경량화, 실시간성 및 설명가능성 측면에서 현저한 개선을 달성합니다.

결론 및 논의

주요 결론

  1. 경량화 성공적 달성: 경쟁력 있는 성능 유지 중 매개변수 및 계산 시간 대폭 감소
  2. 효과적인 증류 전략: X-KD와 D2-KD는 상호 보완적이며 학생 네트워크 성능 현저히 향상
  3. 실용적 가치: 실시간 성능 요구사항 달성, 실제 배포에 적합

한계

  1. 레이더 데이터 품질 의존성: 성능은 여전히 레이더 포인트 클라우드의 희소성 및 노이즈에 제한됨
  2. 증류 목표 선택: Grad-CAM 목표 선택(예: 이미지 수준 평균 깊이)이 효과에 영향 가능
  3. 일반화 능력: 주로 특정 데이터셋에서 검증되었으며 도메인 간 일반화 능력은 추가 검증 필요

향후 방향

저자들은 Grad-CAM 목표 선택 및 대체 귀인 목표가 증류 설명가능성 품질 및 하류 성능에 미치는 영향을 연구할 것을 제안합니다.

심층 평가

장점

  1. 높은 기술 혁신성: 조밀 예측의 지식 증류에 설명가능성 최초 도입, 기술 경로 신규
  2. 충분한 실험: 두 데이터셋에서 포괄적인 비교 및 소거 실험 수행
  3. 높은 실용적 가치: 현저한 매개변수 및 속도 최적화, 실제 배포 요구사항 충족
  4. 합리적인 방법 설계: FiLM 융합은 단순하고 효과적이며, Point-wise DASPP 경량화 설계는 정교함

부족한 점

  1. 이론적 분석 부족: 설명가능성 증류가 효과적인 이유에 대한 심층 이론적 분석 부재
  2. 소거 실험 한계: 다양한 Grad-CAM 목표 및 온도 매개변수의 영향 충분히 분석하지 않음
  3. 제한된 비교 범위: 주로 레이더-카메라 방법과 비교하며 다른 경량 깊이 추정 방법과의 비교 부족

영향력

  1. 학술적 기여: 조밀 예측 작업의 지식 증류에 새로운 방향 개척
  2. 실용적 가치: 자율주행의 실시간 깊이 추정을 위한 실행 가능한 방안 제공
  3. 재현성: 방법 설명이 명확하고 구현 세부사항 충분

적용 시나리오

  1. 자율주행: 자원 제약이 있는 차량 탑재 시스템의 실시간 깊이 추정
  2. 이동 로봇: 경량 멀티모달 감지가 필요한 시나리오
  3. 엣지 컴퓨팅: 계산 자원이 제한되지만 정확한 깊이 정보가 필요한 응용

참고문헌

논문은 깊이 추정, 지식 증류, 설명가능 AI 등 분야의 중요한 연구를 인용하며, 다음을 포함합니다:

  • Hinton et al. (2015): 지식 증류의 기초 연구
  • Selvaraju et al. (2019): Grad-CAM 시각화 방법
  • Caesar et al. (2020): nuScenes 데이터셋
  • 및 다수의 레이더-카메라 융합 최신 연구

종합 평가: 이는 경량 멀티모달 깊이 추정 분야에서 가치 있는 기여를 한 기술 품질이 우수한 논문입니다. 방법이 신규이고 실험이 충분하며 실용적 가치가 뛰어나 관련 분야의 연구 및 응용에 유익한 참고자료를 제공합니다.