2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.
Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
academic

XD-RCDepth: Estimación de Profundidad Ligera Radar-Cámara con Destilación Alineada a Explicabilidad y Consciente de Distribución

Información Básica

  • ID del Artículo: 2510.13565
  • Título: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
  • Autores: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
  • Institución: Technical University of Munich & Infineon Technologies AG
  • Clasificación: cs.CV (Visión por Computadora)
  • Fecha de Publicación: 15 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.13565

Resumen

Este artículo propone XD-RCDepth, una arquitectura ligera de estimación de profundidad radar-cámara que reduce los parámetros en un 29,7% en comparación con los modelos base ligeros de última generación, manteniendo una precisión comparable. Para preservar el rendimiento bajo compresión de modelos y mejorar la explicabilidad, los autores introducen dos estrategias de destilación de conocimiento: destilación alineada a explicabilidad (que transfiere estructuras de saliencia del modelo maestro al modelo estudiante) y destilación de distribución de profundidad (que reformula la regresión de profundidad como clasificación suave sobre bins discretizados). Estos componentes reducen el MAE en un 7,97% en comparación con el entrenamiento directo, logrando precisión competitiva con eficiencia en tiempo real en los conjuntos de datos nuScenes y ZJU-4DRadarCam.

Contexto de Investigación y Motivación

Definición del Problema

La estimación de profundidad sigue siendo una tarea central en conducción autónoma, con métodos existentes que incluyen principalmente:

  1. Métodos de cámara pura: Sufren de problemas inherentes de mal planteamiento debido a que las imágenes RGB no proporcionan mediciones geométricas directas
  2. Fusión LiDAR-cámara: Aunque tiene alta precisión, LiDAR es costoso y genera gran ancho de banda de datos, afectando el rendimiento en tiempo real
  3. Fusión radar-cámara: El radar es relativamente económico y más robusto en condiciones climáticas adversas, pero presenta problemas de dispersión y ruido

Limitaciones de Métodos Existentes

Los métodos existentes de estimación de profundidad radar-cámara presentan los siguientes problemas:

  1. Alta complejidad computacional: La mayoría adopta tuberías de dos etapas, densificando primero la nube de puntos radar dispersa, luego prediciendo profundidad
  2. Defectos en el diseño de destilación: Como la destilación de características multimodales de LiRCDepth que requiere alineación de canales, limitando el diseño de redes estudiantes
  3. Falta de explicabilidad: Las señales de destilación existentes son superficiales, sin abordar la explicabilidad del modelo

Motivación de la Investigación

La motivación de los autores radica en:

  1. Desarrollar una arquitectura de fusión radar-cámara más ligera que satisfaga requisitos de despliegue en tiempo real
  2. Diseñar estrategias de destilación de conocimiento más efectivas, manteniendo rendimiento durante compresión de modelos
  3. Introducir explicabilidad en destilación de conocimiento para tareas de predicción densa

Contribuciones Principales

  1. Propone un marco ligero de estimación de profundidad radar-cámara: Adopta un módulo de fusión FiLM eficiente, reduciendo parámetros en un 29,7% comparado con LiRCDepth
  2. Métodos innovadores de destilación de conocimiento:
    • Destilación de mapas de saliencia alineada a explicabilidad (X-KD)
    • Destilación de distribución de profundidad (D2-KD)
  3. Primera introducción de explicabilidad en destilación de conocimiento para predicción densa: Mediante generación de mapas de saliencia con Grad-CAM para destilación
  4. Logra rendimiento en tiempo real: Alcanza 15 FPS manteniendo precisión competitiva

Explicación Detallada del Método

Definición de la Tarea

Entrada: Imagen RGB y nube de puntos radar dispersa Salida: Mapa de profundidad denso Restricciones: Requisitos de rendimiento en tiempo real y recursos computacionales limitados

Arquitectura del Modelo

Red Maestra (CaFNet)

  • Flujo de imagen: Red troncal ResNet-34, extrayendo características en 5 escalas espaciales
  • Flujo de radar: Procesamiento de dos etapas, generando mapa de profundidad aproximado y mapa de confianza en la primera etapa
  • Fusión: Módulo de fusión con compuerta consciente de confianza (CaGF)
  • Decodificador: Decodificador estilo BTS

Red Estudiante (XD-RCDepth)

  • Red troncal: MobileNetV2 multimodal, procesando características de imagen y radar respectivamente
  • Módulo de fusión FiLM:
    γ = Conv1×1(fr), β = Conv1×1(fr)
    ffuse = (1 + γ) ⊙ fi + β
    

    donde fr y fi son características de radar e imagen respectivamente, γ y β son coeficientes de escala y desplazamiento por canal
  • DASPP Punto a Punto: Pirámide de agrupación espacial dilatada densa extendida, utilizando ramas de convolución puntual y muestreo dilatado con diferentes tasas de dilatación

Puntos de Innovación Técnica

1. Destilación Alineada a Explicabilidad (X-KD)

Genera mapas de saliencia mediante Grad-CAM, permitiendo que la red estudiante aprenda patrones de atención de la red maestra:

Generación de Mapas de Saliencia:

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

Pérdida de Destilación:

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. Destilación de Distribución de Profundidad (D2-KD)

Discretiza el rango de profundidad continuo en B bins, realizando destilación mediante clasificación suave:

Asignación de Bins:

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

Distribución de Probabilidad:

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

Pérdida de Divergencia KL:

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

Función de Pérdida General

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

donde LDepth es la pérdida de supervisión de profundidad, λ1=1.0, λ2=0.5, λ3=0.5

Configuración Experimental

Conjuntos de Datos

  1. nuScenes: Conjunto de datos multimodal de conducción autónoma, utilizando datos de radar 3D
  2. ZJU-4DRadarCam: Conjunto de datos de radar 4D, proporcionando información de radar de mayor resolución

Métricas de Evaluación

  • Métricas de Error: MAE (Error Absoluto Medio), RMSE (Raíz del Error Cuadrático Medio), AbsRel (Error Absoluto Relativo), log10
  • Métricas de Precisión: δ1, δ2, δ3 (Precisión de Umbral)

Métodos de Comparación

  • RadarNet: Método temprano de fusión radar-cámara
  • CaFNet: Red maestra
  • LiRCDepth: Línea base ligera de última generación actual

Detalles de Implementación

  • Hardware: GPU NVIDIA L40 individual
  • Tamaño de lote: 8
  • Capas de destilación: Capas de escala 1/16 del codificador de imagen, codificador de radar y decodificador

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento en Conjunto de Datos nuScenes (Distancia de Evaluación 80m)

MétodoParámetrosTiempo de EjecuciónMAE↓RMSE↓AbsRel↓δ1↑
RadarNet22.8M0.378s2.1794.8990.1060.894
CaFNet (Maestro)62.25M0.132s1.7634.1840.0830.921
LiRCDepth12.65M0.069s2.1524.8010.1050.892
XD-RCDepth (sin destilación)8.89M0.015s2.2324.8970.1140.887
XD-RCDepth (XD2-KD)8.89M0.015s2.0544.6760.1020.901

Hallazgos Clave

  1. Eficiencia de Parámetros: XD-RCDepth reduce parámetros en un 29,7% comparado con LiRCDepth
  2. Mejora de Velocidad: Tiempo de ejecución reducido de 0.069s a 0.015s, alcanzando 15 FPS
  3. Efecto de Destilación: Comparado con versión sin destilación, MAE mejora en 7.91%, 7.96%, 7.97% en distancias de 50m, 70m, 80m respectivamente

Experimentos de Ablación

Comparación de Métodos de Fusión

Método de FusiónParámetrosMAERMSEAbsRelδ1
Adición8.74M2.2484.9030.1150.886
Concatenación10.94M2.2084.8020.1140.888
Atención9.48M2.2664.9010.1150.885
FiLM8.89M2.2324.8970.1140.887

Análisis de Componentes de Destilación

X-KDD2-KDMAERMSEAbsRelδ1
--2.2324.8970.1140.887
-2.1144.7560.1080.892
-2.1324.7810.1070.891
2.0544.6760.1020.901

Análisis Cualitativo

  1. Calidad del Mapa de Profundidad: El modelo destilado produce bordes de objetos más claros y discontinuidades de profundidad más limpias
  2. Alineación de Mapas de Saliencia: Los mapas de saliencia de la red estudiante entrenada con X-KD son más nítidos, enfocándose más en estructuras relacionadas con profundidad

Trabajo Relacionado

Evolución de Métodos de Estimación de Profundidad

  1. Estimación de Profundidad Monocular: Predicción de mapa de profundidad denso desde imagen RGB, pero con ambigüedad de escala
  2. Fusión LiDAR-Cámara: Utilización de nube de puntos LiDAR dispersa como prior geométrico
  3. Fusión Radar-Cámara: Utilización de radar de ondas milimétricas más económico y robusto a condiciones climáticas

Desarrollo de Destilación de Conocimiento

  1. Destilación Clásica: Destilación de etiquetas suaves propuesta por Hinton et al.
  2. Destilación de Características: Alineación de características de capas intermedias
  3. Destilación de Explicabilidad: Primera introducción en tareas de predicción densa en este artículo

Ventajas de Este Trabajo

Comparado con trabajos existentes, este artículo muestra mejoras significativas en ligereza, rendimiento en tiempo real y explicabilidad.

Conclusiones y Discusión

Conclusiones Principales

  1. Ligereza Exitosa: Reduce significativamente parámetros y tiempo computacional manteniendo rendimiento competitivo
  2. Estrategias de Destilación Efectivas: X-KD y D2-KD se complementan mutuamente, mejorando significativamente el rendimiento de la red estudiante
  3. Valor Práctico: Alcanza requisitos de rendimiento en tiempo real, adecuado para despliegue práctico

Limitaciones

  1. Dependencia de Calidad de Datos Radar: El rendimiento sigue limitado por dispersión y ruido de la nube de puntos radar
  2. Selección de Objetivo de Destilación: La selección de objetivo Grad-CAM (como profundidad promedio a nivel de imagen) puede afectar la efectividad
  3. Capacidad de Generalización: Validación principalmente en conjuntos de datos específicos, capacidad de generalización entre dominios requiere verificación adicional

Direcciones Futuras

Los autores proponen investigar el impacto de la selección de objetivo Grad-CAM y objetivos de atribución alternativos en la calidad de explicabilidad de destilación y rendimiento posterior.

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación Técnica: Primera introducción de explicabilidad en destilación de conocimiento para predicción densa, ruta técnica novedosa
  2. Experimentación Completa: Comparaciones exhaustivas y experimentos de ablación en dos conjuntos de datos
  3. Alto Valor Práctico: Optimización significativa de parámetros y velocidad, satisfaciendo requisitos de despliegue práctico
  4. Diseño de Método Razonable: Fusión FiLM simple y efectiva, diseño de ligereza de DASPP punto a punto ingenioso

Insuficiencias

  1. Análisis Teórico Limitado: Falta análisis teórico profundo sobre por qué la destilación de explicabilidad es efectiva
  2. Limitaciones en Experimentos de Ablación: No analiza suficientemente el impacto de diferentes objetivos Grad-CAM y parámetros de temperatura
  3. Rango de Comparación Limitado: Comparación principalmente con métodos radar-cámara, falta comparación con otros métodos de estimación de profundidad ligera

Impacto

  1. Contribución Académica: Abre nueva dirección para destilación de conocimiento en tareas de predicción densa
  2. Valor Práctico: Proporciona solución viable para estimación de profundidad en tiempo real en conducción autónoma
  3. Reproducibilidad: Descripción clara del método, detalles de implementación suficientes

Escenarios Aplicables

  1. Conducción Autónoma: Estimación de profundidad en tiempo real en sistemas vehiculares con recursos limitados
  2. Robótica Móvil: Escenarios que requieren percepción multimodal ligera
  3. Computación de Borde: Aplicaciones con recursos computacionales limitados pero que requieren información de profundidad precisa

Referencias

El artículo cita trabajos importantes en campos de estimación de profundidad, destilación de conocimiento, IA explicable, incluyendo:

  • Hinton et al. (2015): Trabajo fundamental en destilación de conocimiento
  • Selvaraju et al. (2019): Método de visualización Grad-CAM
  • Caesar et al. (2020): Conjunto de datos nuScenes
  • Y múltiples investigaciones recientes en fusión radar-cámara

Evaluación General: Este es un artículo de alta calidad técnica que realiza contribuciones valiosas en el campo de estimación de profundidad multimodal ligera. El método es novedoso, la experimentación es completa, el valor práctico es destacado, proporcionando referencias útiles para investigación y aplicación en campos relacionados.