XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
Sun, Wang, Peng et al.
Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
academic
XD-RCDepth: Лёгкая оценка глубины на основе радара и камеры с дистилляцией, выравненной по объяснимости и учитывающей распределение
В данной работе предложена архитектура XD-RCDepth для лёгкой оценки глубины на основе радара и камеры, которая сокращает количество параметров на 29,7% по сравнению с передовыми лёгкими базовыми моделями при сохранении сопоставимой точности. Для сохранения производительности при сжатии модели и повышения интерпретируемости авторы вводят две стратегии дистилляции знаний: дистилляцию, выравненную по объяснимости (передача карт значимости учителя ученику), и дистилляцию распределения глубины (переформулировка регрессии глубины как мягкой классификации по дискретизированным бинам). Эти компоненты снижают MAE на 7,97% по сравнению с прямым обучением и достигают конкурентоспособной точности с эффективностью в реальном времени на наборах данных nuScenes и ZJU-4DRadarCam.
Оценка глубины остаётся ключевой задачей в автономном вождении. Существующие методы включают:
Методы только с камерой: Имеют внутреннюю некорректность задачи, так как RGB-изображения не предоставляют прямых геометрических измерений
Слияние LiDAR-камера: Хотя и обеспечивают высокую точность, LiDAR дорогостоящ и требует большой пропускной способности данных, влияя на производительность в реальном времени
Слияние радара-камера: Радар относительно дешевле и более устойчив к неблагоприятным погодным условиям, но страдает от разреженности и шума
Существующие методы оценки глубины радара-камера имеют следующие проблемы:
Высокая вычислительная сложность: Большинство использует двухэтапный конвейер, сначала уплотняя разреженное облако точек радара, затем предсказывая глубину
Недостатки в дизайне дистилляции: Например, кросс-модальная дистилляция признаков в LiRCDepth требует выравнивания каналов, ограничивая конструкцию сети ученика
Отсутствие интерпретируемости: Существующие сигналы дистилляции поверхностны и не затрагивают интерпретируемость модели
Предложена лёгкая архитектура оценки глубины радара-камера: Использует эффективный модуль слияния FiLM с сокращением параметров на 29,7% по сравнению с LiRCDepth
Инновационные методы дистилляции знаний:
Дистилляция карт значимости, выравненная по объяснимости (X-KD)
Дистилляция распределения глубины (D2-KD)
Первое введение интерпретируемости в дистилляцию знаний для плотного предсказания: Через генерацию карт значимости с использованием Grad-CAM
Достижение производительности в реальном времени: 15 FPS при сохранении конкурентоспособной точности
Входные данные: RGB-изображение и разреженное облако точек радара
Выходные данные: Плотная карта глубины
Ограничения: Требования к производительности в реальном времени и ограниченные вычислительные ресурсы
где fr и fi — признаки радара и изображения соответственно, γ и β — коэффициенты поканального масштабирования и смещения
Point-wise DASPP: Расширенная плотная пирамида пространственного пула с расширением, использующая ветви точечной свёртки и расширенную выборку с различными коэффициентами расширения
Качество карты глубины: Модель после дистилляции производит более чёткие границы объектов и более чистые разрывы глубины
Выравнивание карт значимости: Карты значимости сети ученика после обучения X-KD становятся более острыми и сосредоточены на структурах, связанных с глубиной
По сравнению с существующими работами, данная работа показывает значительные улучшения в облегчении, производительности в реальном времени и интерпретируемости.
Авторы предлагают исследовать влияние выбора целей Grad-CAM и альтернативных целей атрибуции на качество интерпретируемости дистилляции и производительность нижестоящих задач.
Недостаточный теоретический анализ: Отсутствует глубокий анализ того, почему дистилляция интерпретируемости эффективна
Ограничения абляционных исследований: Недостаточно полный анализ влияния различных целей Grad-CAM и параметров температуры
Ограниченный диапазон сравнения: Главным образом сравнивается с методами радара-камера, отсутствует сравнение с другими методами облегчённой оценки глубины
Статья ссылается на важные работы в областях оценки глубины, дистилляции знаний, интерпретируемого ИИ, включая:
Hinton et al. (2015): Основополагающая работа по дистилляции знаний
Selvaraju et al. (2019): Метод визуализации Grad-CAM
Caesar et al. (2020): Набор данных nuScenes
Множество последних исследований по слиянию радара-камера
Общая оценка: Это статья высокого технического качества, которая вносит ценный вклад в область облегчённой многомодальной оценки глубины. Метод инновационен, эксперименты полны, практическая ценность выдающаяся, предоставляя полезные ориентиры для исследований и приложений в соответствующих областях.