2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.

Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.

academic

XD-RCDepth: Лёгкая оценка глубины на основе радара и камеры с дистилляцией, выравненной по объяснимости и учитывающей распределение

Основная информация

ID статьи: 2510.13565
Название: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
Авторы: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
Учреждения: Технический университет Мюнхена и Infineon Technologies AG
Категория: cs.CV (Компьютерное зрение)
Дата публикации: 15 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.13565

Аннотация

В данной работе предложена архитектура XD-RCDepth для лёгкой оценки глубины на основе радара и камеры, которая сокращает количество параметров на 29,7% по сравнению с передовыми лёгкими базовыми моделями при сохранении сопоставимой точности. Для сохранения производительности при сжатии модели и повышения интерпретируемости авторы вводят две стратегии дистилляции знаний: дистилляцию, выравненную по объяснимости (передача карт значимости учителя ученику), и дистилляцию распределения глубины (переформулировка регрессии глубины как мягкой классификации по дискретизированным бинам). Эти компоненты снижают MAE на 7,97% по сравнению с прямым обучением и достигают конкурентоспособной точности с эффективностью в реальном времени на наборах данных nuScenes и ZJU-4DRadarCam.

Исследовательский контекст и мотивация

Определение проблемы

Оценка глубины остаётся ключевой задачей в автономном вождении. Существующие методы включают:

Методы только с камерой: Имеют внутреннюю некорректность задачи, так как RGB-изображения не предоставляют прямых геометрических измерений
Слияние LiDAR-камера: Хотя и обеспечивают высокую точность, LiDAR дорогостоящ и требует большой пропускной способности данных, влияя на производительность в реальном времени
Слияние радара-камера: Радар относительно дешевле и более устойчив к неблагоприятным погодным условиям, но страдает от разреженности и шума

Ограничения существующих методов

Существующие методы оценки глубины радара-камера имеют следующие проблемы:

Высокая вычислительная сложность: Большинство использует двухэтапный конвейер, сначала уплотняя разреженное облако точек радара, затем предсказывая глубину
Недостатки в дизайне дистилляции: Например, кросс-модальная дистилляция признаков в LiRCDepth требует выравнивания каналов, ограничивая конструкцию сети ученика
Отсутствие интерпретируемости: Существующие сигналы дистилляции поверхностны и не затрагивают интерпретируемость модели

Исследовательская мотивация

Мотивация авторов заключается в:

Разработке более лёгкой архитектуры слияния радара-камера для удовлетворения требований развёртывания в реальном времени
Проектировании более эффективных стратегий дистилляции знаний, сохраняя производительность при сжатии модели
Введении интерпретируемости в дистилляцию знаний для задач плотного предсказания

Основные вклады

Предложена лёгкая архитектура оценки глубины радара-камера: Использует эффективный модуль слияния FiLM с сокращением параметров на 29,7% по сравнению с LiRCDepth
Инновационные методы дистилляции знаний:
- Дистилляция карт значимости, выравненная по объяснимости (X-KD)
- Дистилляция распределения глубины (D2-KD)
Первое введение интерпретируемости в дистилляцию знаний для плотного предсказания: Через генерацию карт значимости с использованием Grad-CAM
Достижение производительности в реальном времени: 15 FPS при сохранении конкурентоспособной точности

Подробное описание метода

Определение задачи

Входные данные: RGB-изображение и разреженное облако точек радара Выходные данные: Плотная карта глубины Ограничения: Требования к производительности в реальном времени и ограниченные вычислительные ресурсы

Архитектура модели

Сеть учителя (CaFNet)

Поток изображения: Костяк ResNet-34, извлекающий признаки на 5 пространственных масштабах
Поток радара: Двухэтапная обработка, первый этап генерирует грубую карту глубины и карту уверенности
Слияние: Модуль слияния с управлением уверенностью (CaGF)
Декодер: Декодер в стиле BTS

Сеть ученика (XD-RCDepth)

Костяк: Двумодальный MobileNetV2, обрабатывающий признаки изображения и радара отдельно
Модуль слияния FiLM:
```
γ = Conv1×1(fr), β = Conv1×1(fr)
ffuse = (1 + γ) ⊙ fi + β
```
где fr и fi — признаки радара и изображения соответственно, γ и β — коэффициенты поканального масштабирования и смещения
Point-wise DASPP: Расширенная плотная пирамида пространственного пула с расширением, использующая ветви точечной свёртки и расширенную выборку с различными коэффициентами расширения

Технические инновации

1. Дистилляция, выравненная по объяснимости (X-KD)

Генерирует карты значимости через Grad-CAM, позволяя сети ученика изучать паттерны внимания сети учителя:

Генерация карты значимости:

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

Потеря дистилляции:

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. Дистилляция распределения глубины (D2-KD)

Дискретизирует непрерывный диапазон глубины в B бинов, проводя дистилляцию через мягкую классификацию:

Назначение бина:

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

Распределение вероятности:

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

Потеря дивергенции Кульбака-Лейблера:

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

Общая функция потерь

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

где LDepth — потеря надзора за глубиной, λ1=1.0, λ2=0.5, λ3=0.5

Экспериментальная установка

Наборы данных

nuScenes: Мультимодальный набор данных для автономного вождения с данными 3D-радара
ZJU-4DRadarCam: Набор данных 4D-радара, предоставляющий информацию радара более высокого разрешения

Метрики оценки

Метрики ошибок: MAE (средняя абсолютная ошибка), RMSE (среднеквадратичная ошибка), AbsRel (относительная абсолютная ошибка), log10
Метрики точности: δ1, δ2, δ3 (точность по пороговым значениям)

Методы сравнения

RadarNet: Ранний метод слияния радара-камера
CaFNet: Сеть учителя
LiRCDepth: Текущий передовой лёгкий базовый метод

Детали реализации

Оборудование: Один GPU NVIDIA L40
Размер пакета: 8
Слои дистилляции: Слои масштаба 1/16 кодировщика изображения, кодировщика радара и декодера

Результаты экспериментов

Основные результаты

Сравнение производительности на наборе данных nuScenes (расстояние оценки 80 м)

Метод	Параметры	Время выполнения	MAE↓	RMSE↓	AbsRel↓	δ1↑
RadarNet	22.8M	0.378s	2.179	4.899	0.106	0.894
CaFNet (Учитель)	62.25M	0.132s	1.763	4.184	0.083	0.921
LiRCDepth	12.65M	0.069s	2.152	4.801	0.105	0.892
XD-RCDepth (без дистилляции)	8.89M	0.015s	2.232	4.897	0.114	0.887
XD-RCDepth (XD2-KD)	8.89M	0.015s	2.054	4.676	0.102	0.901

Ключевые находки

Эффективность параметров: XD-RCDepth сокращает параметры на 29,7% по сравнению с LiRCDepth
Улучшение скорости: Время выполнения снижается с 0.069s до 0.015s, достигая 15 FPS
Эффект дистилляции: По сравнению с версией без дистилляции, MAE улучшается на 7.91%, 7.96%, 7.97% на расстояниях 50 м, 70 м, 80 м соответственно

Абляционные исследования

Сравнение методов слияния

Метод слияния	Параметры	MAE	RMSE	AbsRel	δ1
Сложение	8.74M	2.248	4.903	0.115	0.886
Конкатенация	10.94M	2.208	4.802	0.114	0.888
Внимание	9.48M	2.266	4.901	0.115	0.885
FiLM	8.89M	2.232	4.897	0.114	0.887

Анализ компонентов дистилляции

X-KD	D2-KD	MAE	RMSE	AbsRel	δ1
-	-	2.232	4.897	0.114	0.887
✓	-	2.114	4.756	0.108	0.892
-	✓	2.132	4.781	0.107	0.891
✓	✓	2.054	4.676	0.102	0.901

Качественный анализ

Качество карты глубины: Модель после дистилляции производит более чёткие границы объектов и более чистые разрывы глубины
Выравнивание карт значимости: Карты значимости сети ученика после обучения X-KD становятся более острыми и сосредоточены на структурах, связанных с глубиной

Связанные работы

Эволюция методов оценки глубины

Монокулярная оценка глубины: Предсказание плотной карты глубины из RGB-изображения, но с проблемой неоднозначности масштаба
Слияние LiDAR-камера: Использование разреженного облака точек LiDAR в качестве геометрического приоритета
Слияние радара-камера: Использование более дешёвого и устойчивого к погодным условиям миллиметрового радара

Развитие дистилляции знаний

Классическая дистилляция: Дистилляция мягких меток, предложенная Hinton и др.
Дистилляция признаков: Выравнивание признаков промежуточных слоёв
Дистилляция интерпретируемости: Впервые введена в задачи плотного предсказания в данной работе

Преимущества данной работы

По сравнению с существующими работами, данная работа показывает значительные улучшения в облегчении, производительности в реальном времени и интерпретируемости.

Заключение и обсуждение

Основные выводы

Успешное облегчение: Значительное сокращение параметров и времени вычисления при сохранении конкурентоспособной производительности
Эффективные стратегии дистилляции: X-KD и D2-KD взаимно дополняют друг друга, значительно улучшая производительность сети ученика
Практическая ценность: Достижение требований производительности в реальном времени, подходит для практического развёртывания

Ограничения

Зависимость от качества данных радара: Производительность по-прежнему ограничена разреженностью и шумом облака точек радара
Выбор целей дистилляции: Выбор целей Grad-CAM (например, средняя глубина на уровне изображения) может влиять на эффективность
Способность к обобщению: Главным образом проверена на конкретных наборах данных, способность к кросс-доменному обобщению требует дальнейшей проверки

Направления будущих исследований

Авторы предлагают исследовать влияние выбора целей Grad-CAM и альтернативных целей атрибуции на качество интерпретируемости дистилляции и производительность нижестоящих задач.

Глубокая оценка

Преимущества

Сильная техническая инновативность: Впервые вводит интерпретируемость в дистилляцию знаний для плотного предсказания, техническая схема новаторская
Полные эксперименты: Проведены всесторонние сравнительные и абляционные исследования на двух наборах данных
Высокая практическая ценность: Значительная оптимизация параметров и скорости, удовлетворяет требованиям практического развёртывания
Разумный дизайн метода: Слияние FiLM просто и эффективно, облегчённый дизайн Point-wise DASPP хитроумен

Недостатки

Недостаточный теоретический анализ: Отсутствует глубокий анализ того, почему дистилляция интерпретируемости эффективна
Ограничения абляционных исследований: Недостаточно полный анализ влияния различных целей Grad-CAM и параметров температуры
Ограниченный диапазон сравнения: Главным образом сравнивается с методами радара-камера, отсутствует сравнение с другими методами облегчённой оценки глубины

Влияние

Академический вклад: Открывает новое направление для дистилляции знаний в задачах плотного предсказания
Практическая ценность: Предоставляет осуществимое решение для оценки глубины в реальном времени в автономном вождении
Воспроизводимость: Описание метода ясно, детали реализации полны

Применимые сценарии

Автономное вождение: Оценка глубины в реальном времени в системах с ограниченными ресурсами на борту
Мобильные роботы: Сценарии, требующие лёгкого многомодального восприятия
Граничные вычисления: Приложения с ограниченными вычислительными ресурсами, но требующие точной информации о глубине

Библиография

Статья ссылается на важные работы в областях оценки глубины, дистилляции знаний, интерпретируемого ИИ, включая:

Hinton et al. (2015): Основополагающая работа по дистилляции знаний
Selvaraju et al. (2019): Метод визуализации Grad-CAM
Caesar et al. (2020): Набор данных nuScenes
Множество последних исследований по слиянию радара-камера

Общая оценка: Это статья высокого технического качества, которая вносит ценный вклад в область облегчённой многомодальной оценки глубины. Метод инновационен, эксперименты полны, практическая ценность выдающаяся, предоставляя полезные ориентиры для исследований и приложений в соответствующих областях.