2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.
Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
academic

XD-RCDepth: Лёгкая оценка глубины на основе радара и камеры с дистилляцией, выравненной по объяснимости и учитывающей распределение

Основная информация

  • ID статьи: 2510.13565
  • Название: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
  • Авторы: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
  • Учреждения: Технический университет Мюнхена и Infineon Technologies AG
  • Категория: cs.CV (Компьютерное зрение)
  • Дата публикации: 15 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.13565

Аннотация

В данной работе предложена архитектура XD-RCDepth для лёгкой оценки глубины на основе радара и камеры, которая сокращает количество параметров на 29,7% по сравнению с передовыми лёгкими базовыми моделями при сохранении сопоставимой точности. Для сохранения производительности при сжатии модели и повышения интерпретируемости авторы вводят две стратегии дистилляции знаний: дистилляцию, выравненную по объяснимости (передача карт значимости учителя ученику), и дистилляцию распределения глубины (переформулировка регрессии глубины как мягкой классификации по дискретизированным бинам). Эти компоненты снижают MAE на 7,97% по сравнению с прямым обучением и достигают конкурентоспособной точности с эффективностью в реальном времени на наборах данных nuScenes и ZJU-4DRadarCam.

Исследовательский контекст и мотивация

Определение проблемы

Оценка глубины остаётся ключевой задачей в автономном вождении. Существующие методы включают:

  1. Методы только с камерой: Имеют внутреннюю некорректность задачи, так как RGB-изображения не предоставляют прямых геометрических измерений
  2. Слияние LiDAR-камера: Хотя и обеспечивают высокую точность, LiDAR дорогостоящ и требует большой пропускной способности данных, влияя на производительность в реальном времени
  3. Слияние радара-камера: Радар относительно дешевле и более устойчив к неблагоприятным погодным условиям, но страдает от разреженности и шума

Ограничения существующих методов

Существующие методы оценки глубины радара-камера имеют следующие проблемы:

  1. Высокая вычислительная сложность: Большинство использует двухэтапный конвейер, сначала уплотняя разреженное облако точек радара, затем предсказывая глубину
  2. Недостатки в дизайне дистилляции: Например, кросс-модальная дистилляция признаков в LiRCDepth требует выравнивания каналов, ограничивая конструкцию сети ученика
  3. Отсутствие интерпретируемости: Существующие сигналы дистилляции поверхностны и не затрагивают интерпретируемость модели

Исследовательская мотивация

Мотивация авторов заключается в:

  1. Разработке более лёгкой архитектуры слияния радара-камера для удовлетворения требований развёртывания в реальном времени
  2. Проектировании более эффективных стратегий дистилляции знаний, сохраняя производительность при сжатии модели
  3. Введении интерпретируемости в дистилляцию знаний для задач плотного предсказания

Основные вклады

  1. Предложена лёгкая архитектура оценки глубины радара-камера: Использует эффективный модуль слияния FiLM с сокращением параметров на 29,7% по сравнению с LiRCDepth
  2. Инновационные методы дистилляции знаний:
    • Дистилляция карт значимости, выравненная по объяснимости (X-KD)
    • Дистилляция распределения глубины (D2-KD)
  3. Первое введение интерпретируемости в дистилляцию знаний для плотного предсказания: Через генерацию карт значимости с использованием Grad-CAM
  4. Достижение производительности в реальном времени: 15 FPS при сохранении конкурентоспособной точности

Подробное описание метода

Определение задачи

Входные данные: RGB-изображение и разреженное облако точек радара Выходные данные: Плотная карта глубины Ограничения: Требования к производительности в реальном времени и ограниченные вычислительные ресурсы

Архитектура модели

Сеть учителя (CaFNet)

  • Поток изображения: Костяк ResNet-34, извлекающий признаки на 5 пространственных масштабах
  • Поток радара: Двухэтапная обработка, первый этап генерирует грубую карту глубины и карту уверенности
  • Слияние: Модуль слияния с управлением уверенностью (CaGF)
  • Декодер: Декодер в стиле BTS

Сеть ученика (XD-RCDepth)

  • Костяк: Двумодальный MobileNetV2, обрабатывающий признаки изображения и радара отдельно
  • Модуль слияния FiLM:
    γ = Conv1×1(fr), β = Conv1×1(fr)
    ffuse = (1 + γ) ⊙ fi + β
    

    где fr и fi — признаки радара и изображения соответственно, γ и β — коэффициенты поканального масштабирования и смещения
  • Point-wise DASPP: Расширенная плотная пирамида пространственного пула с расширением, использующая ветви точечной свёртки и расширенную выборку с различными коэффициентами расширения

Технические инновации

1. Дистилляция, выравненная по объяснимости (X-KD)

Генерирует карты значимости через Grad-CAM, позволяя сети ученика изучать паттерны внимания сети учителя:

Генерация карты значимости:

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

Потеря дистилляции:

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. Дистилляция распределения глубины (D2-KD)

Дискретизирует непрерывный диапазон глубины в B бинов, проводя дистилляцию через мягкую классификацию:

Назначение бина:

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

Распределение вероятности:

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

Потеря дивергенции Кульбака-Лейблера:

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

Общая функция потерь

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

где LDepth — потеря надзора за глубиной, λ1=1.0, λ2=0.5, λ3=0.5

Экспериментальная установка

Наборы данных

  1. nuScenes: Мультимодальный набор данных для автономного вождения с данными 3D-радара
  2. ZJU-4DRadarCam: Набор данных 4D-радара, предоставляющий информацию радара более высокого разрешения

Метрики оценки

  • Метрики ошибок: MAE (средняя абсолютная ошибка), RMSE (среднеквадратичная ошибка), AbsRel (относительная абсолютная ошибка), log10
  • Метрики точности: δ1, δ2, δ3 (точность по пороговым значениям)

Методы сравнения

  • RadarNet: Ранний метод слияния радара-камера
  • CaFNet: Сеть учителя
  • LiRCDepth: Текущий передовой лёгкий базовый метод

Детали реализации

  • Оборудование: Один GPU NVIDIA L40
  • Размер пакета: 8
  • Слои дистилляции: Слои масштаба 1/16 кодировщика изображения, кодировщика радара и декодера

Результаты экспериментов

Основные результаты

Сравнение производительности на наборе данных nuScenes (расстояние оценки 80 м)

МетодПараметрыВремя выполненияMAE↓RMSE↓AbsRel↓δ1↑
RadarNet22.8M0.378s2.1794.8990.1060.894
CaFNet (Учитель)62.25M0.132s1.7634.1840.0830.921
LiRCDepth12.65M0.069s2.1524.8010.1050.892
XD-RCDepth (без дистилляции)8.89M0.015s2.2324.8970.1140.887
XD-RCDepth (XD2-KD)8.89M0.015s2.0544.6760.1020.901

Ключевые находки

  1. Эффективность параметров: XD-RCDepth сокращает параметры на 29,7% по сравнению с LiRCDepth
  2. Улучшение скорости: Время выполнения снижается с 0.069s до 0.015s, достигая 15 FPS
  3. Эффект дистилляции: По сравнению с версией без дистилляции, MAE улучшается на 7.91%, 7.96%, 7.97% на расстояниях 50 м, 70 м, 80 м соответственно

Абляционные исследования

Сравнение методов слияния

Метод слиянияПараметрыMAERMSEAbsRelδ1
Сложение8.74M2.2484.9030.1150.886
Конкатенация10.94M2.2084.8020.1140.888
Внимание9.48M2.2664.9010.1150.885
FiLM8.89M2.2324.8970.1140.887

Анализ компонентов дистилляции

X-KDD2-KDMAERMSEAbsRelδ1
--2.2324.8970.1140.887
-2.1144.7560.1080.892
-2.1324.7810.1070.891
2.0544.6760.1020.901

Качественный анализ

  1. Качество карты глубины: Модель после дистилляции производит более чёткие границы объектов и более чистые разрывы глубины
  2. Выравнивание карт значимости: Карты значимости сети ученика после обучения X-KD становятся более острыми и сосредоточены на структурах, связанных с глубиной

Связанные работы

Эволюция методов оценки глубины

  1. Монокулярная оценка глубины: Предсказание плотной карты глубины из RGB-изображения, но с проблемой неоднозначности масштаба
  2. Слияние LiDAR-камера: Использование разреженного облака точек LiDAR в качестве геометрического приоритета
  3. Слияние радара-камера: Использование более дешёвого и устойчивого к погодным условиям миллиметрового радара

Развитие дистилляции знаний

  1. Классическая дистилляция: Дистилляция мягких меток, предложенная Hinton и др.
  2. Дистилляция признаков: Выравнивание признаков промежуточных слоёв
  3. Дистилляция интерпретируемости: Впервые введена в задачи плотного предсказания в данной работе

Преимущества данной работы

По сравнению с существующими работами, данная работа показывает значительные улучшения в облегчении, производительности в реальном времени и интерпретируемости.

Заключение и обсуждение

Основные выводы

  1. Успешное облегчение: Значительное сокращение параметров и времени вычисления при сохранении конкурентоспособной производительности
  2. Эффективные стратегии дистилляции: X-KD и D2-KD взаимно дополняют друг друга, значительно улучшая производительность сети ученика
  3. Практическая ценность: Достижение требований производительности в реальном времени, подходит для практического развёртывания

Ограничения

  1. Зависимость от качества данных радара: Производительность по-прежнему ограничена разреженностью и шумом облака точек радара
  2. Выбор целей дистилляции: Выбор целей Grad-CAM (например, средняя глубина на уровне изображения) может влиять на эффективность
  3. Способность к обобщению: Главным образом проверена на конкретных наборах данных, способность к кросс-доменному обобщению требует дальнейшей проверки

Направления будущих исследований

Авторы предлагают исследовать влияние выбора целей Grad-CAM и альтернативных целей атрибуции на качество интерпретируемости дистилляции и производительность нижестоящих задач.

Глубокая оценка

Преимущества

  1. Сильная техническая инновативность: Впервые вводит интерпретируемость в дистилляцию знаний для плотного предсказания, техническая схема новаторская
  2. Полные эксперименты: Проведены всесторонние сравнительные и абляционные исследования на двух наборах данных
  3. Высокая практическая ценность: Значительная оптимизация параметров и скорости, удовлетворяет требованиям практического развёртывания
  4. Разумный дизайн метода: Слияние FiLM просто и эффективно, облегчённый дизайн Point-wise DASPP хитроумен

Недостатки

  1. Недостаточный теоретический анализ: Отсутствует глубокий анализ того, почему дистилляция интерпретируемости эффективна
  2. Ограничения абляционных исследований: Недостаточно полный анализ влияния различных целей Grad-CAM и параметров температуры
  3. Ограниченный диапазон сравнения: Главным образом сравнивается с методами радара-камера, отсутствует сравнение с другими методами облегчённой оценки глубины

Влияние

  1. Академический вклад: Открывает новое направление для дистилляции знаний в задачах плотного предсказания
  2. Практическая ценность: Предоставляет осуществимое решение для оценки глубины в реальном времени в автономном вождении
  3. Воспроизводимость: Описание метода ясно, детали реализации полны

Применимые сценарии

  1. Автономное вождение: Оценка глубины в реальном времени в системах с ограниченными ресурсами на борту
  2. Мобильные роботы: Сценарии, требующие лёгкого многомодального восприятия
  3. Граничные вычисления: Приложения с ограниченными вычислительными ресурсами, но требующие точной информации о глубине

Библиография

Статья ссылается на важные работы в областях оценки глубины, дистилляции знаний, интерпретируемого ИИ, включая:

  • Hinton et al. (2015): Основополагающая работа по дистилляции знаний
  • Selvaraju et al. (2019): Метод визуализации Grad-CAM
  • Caesar et al. (2020): Набор данных nuScenes
  • Множество последних исследований по слиянию радара-камера

Общая оценка: Это статья высокого технического качества, которая вносит ценный вклад в область облегчённой многомодальной оценки глубины. Метод инновационен, эксперименты полны, практическая ценность выдающаяся, предоставляя полезные ориентиры для исследований и приложений в соответствующих областях.