2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.

Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.

academic

XD-RCDepth: Estimación de Profundidad Ligera Radar-Cámara con Destilación Alineada a Explicabilidad y Consciente de Distribución

Información Básica

ID del Artículo: 2510.13565
Título: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
Autores: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
Institución: Technical University of Munich & Infineon Technologies AG
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: 15 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.13565

Resumen

Este artículo propone XD-RCDepth, una arquitectura ligera de estimación de profundidad radar-cámara que reduce los parámetros en un 29,7% en comparación con los modelos base ligeros de última generación, manteniendo una precisión comparable. Para preservar el rendimiento bajo compresión de modelos y mejorar la explicabilidad, los autores introducen dos estrategias de destilación de conocimiento: destilación alineada a explicabilidad (que transfiere estructuras de saliencia del modelo maestro al modelo estudiante) y destilación de distribución de profundidad (que reformula la regresión de profundidad como clasificación suave sobre bins discretizados). Estos componentes reducen el MAE en un 7,97% en comparación con el entrenamiento directo, logrando precisión competitiva con eficiencia en tiempo real en los conjuntos de datos nuScenes y ZJU-4DRadarCam.

Contexto de Investigación y Motivación

Definición del Problema

La estimación de profundidad sigue siendo una tarea central en conducción autónoma, con métodos existentes que incluyen principalmente:

Métodos de cámara pura: Sufren de problemas inherentes de mal planteamiento debido a que las imágenes RGB no proporcionan mediciones geométricas directas
Fusión LiDAR-cámara: Aunque tiene alta precisión, LiDAR es costoso y genera gran ancho de banda de datos, afectando el rendimiento en tiempo real
Fusión radar-cámara: El radar es relativamente económico y más robusto en condiciones climáticas adversas, pero presenta problemas de dispersión y ruido

Limitaciones de Métodos Existentes

Los métodos existentes de estimación de profundidad radar-cámara presentan los siguientes problemas:

Alta complejidad computacional: La mayoría adopta tuberías de dos etapas, densificando primero la nube de puntos radar dispersa, luego prediciendo profundidad
Defectos en el diseño de destilación: Como la destilación de características multimodales de LiRCDepth que requiere alineación de canales, limitando el diseño de redes estudiantes
Falta de explicabilidad: Las señales de destilación existentes son superficiales, sin abordar la explicabilidad del modelo

Motivación de la Investigación

La motivación de los autores radica en:

Desarrollar una arquitectura de fusión radar-cámara más ligera que satisfaga requisitos de despliegue en tiempo real
Diseñar estrategias de destilación de conocimiento más efectivas, manteniendo rendimiento durante compresión de modelos
Introducir explicabilidad en destilación de conocimiento para tareas de predicción densa

Contribuciones Principales

Propone un marco ligero de estimación de profundidad radar-cámara: Adopta un módulo de fusión FiLM eficiente, reduciendo parámetros en un 29,7% comparado con LiRCDepth
Métodos innovadores de destilación de conocimiento:
- Destilación de mapas de saliencia alineada a explicabilidad (X-KD)
- Destilación de distribución de profundidad (D2-KD)
Primera introducción de explicabilidad en destilación de conocimiento para predicción densa: Mediante generación de mapas de saliencia con Grad-CAM para destilación
Logra rendimiento en tiempo real: Alcanza 15 FPS manteniendo precisión competitiva

Explicación Detallada del Método

Definición de la Tarea

Entrada: Imagen RGB y nube de puntos radar dispersa Salida: Mapa de profundidad denso Restricciones: Requisitos de rendimiento en tiempo real y recursos computacionales limitados

Arquitectura del Modelo

Red Maestra (CaFNet)

Flujo de imagen: Red troncal ResNet-34, extrayendo características en 5 escalas espaciales
Flujo de radar: Procesamiento de dos etapas, generando mapa de profundidad aproximado y mapa de confianza en la primera etapa
Fusión: Módulo de fusión con compuerta consciente de confianza (CaGF)
Decodificador: Decodificador estilo BTS

Red Estudiante (XD-RCDepth)

Red troncal: MobileNetV2 multimodal, procesando características de imagen y radar respectivamente
Módulo de fusión FiLM:
```
γ = Conv1×1(fr), β = Conv1×1(fr)
ffuse = (1 + γ) ⊙ fi + β
```
donde fr y fi son características de radar e imagen respectivamente, γ y β son coeficientes de escala y desplazamiento por canal
DASPP Punto a Punto: Pirámide de agrupación espacial dilatada densa extendida, utilizando ramas de convolución puntual y muestreo dilatado con diferentes tasas de dilatación

Puntos de Innovación Técnica

1. Destilación Alineada a Explicabilidad (X-KD)

Genera mapas de saliencia mediante Grad-CAM, permitiendo que la red estudiante aprenda patrones de atención de la red maestra:

Generación de Mapas de Saliencia:

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

Pérdida de Destilación:

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. Destilación de Distribución de Profundidad (D2-KD)

Discretiza el rango de profundidad continuo en B bins, realizando destilación mediante clasificación suave:

Asignación de Bins:

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

Distribución de Probabilidad:

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

Pérdida de Divergencia KL:

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

Función de Pérdida General

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

donde LDepth es la pérdida de supervisión de profundidad, λ1=1.0, λ2=0.5, λ3=0.5

Configuración Experimental

Conjuntos de Datos

nuScenes: Conjunto de datos multimodal de conducción autónoma, utilizando datos de radar 3D
ZJU-4DRadarCam: Conjunto de datos de radar 4D, proporcionando información de radar de mayor resolución

Métricas de Evaluación

Métricas de Error: MAE (Error Absoluto Medio), RMSE (Raíz del Error Cuadrático Medio), AbsRel (Error Absoluto Relativo), log10
Métricas de Precisión: δ1, δ2, δ3 (Precisión de Umbral)

Métodos de Comparación

RadarNet: Método temprano de fusión radar-cámara
CaFNet: Red maestra
LiRCDepth: Línea base ligera de última generación actual

Detalles de Implementación

Hardware: GPU NVIDIA L40 individual
Tamaño de lote: 8
Capas de destilación: Capas de escala 1/16 del codificador de imagen, codificador de radar y decodificador

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento en Conjunto de Datos nuScenes (Distancia de Evaluación 80m)

Método	Parámetros	Tiempo de Ejecución	MAE↓	RMSE↓	AbsRel↓	δ1↑
RadarNet	22.8M	0.378s	2.179	4.899	0.106	0.894
CaFNet (Maestro)	62.25M	0.132s	1.763	4.184	0.083	0.921
LiRCDepth	12.65M	0.069s	2.152	4.801	0.105	0.892
XD-RCDepth (sin destilación)	8.89M	0.015s	2.232	4.897	0.114	0.887
XD-RCDepth (XD2-KD)	8.89M	0.015s	2.054	4.676	0.102	0.901

Hallazgos Clave

Eficiencia de Parámetros: XD-RCDepth reduce parámetros en un 29,7% comparado con LiRCDepth
Mejora de Velocidad: Tiempo de ejecución reducido de 0.069s a 0.015s, alcanzando 15 FPS
Efecto de Destilación: Comparado con versión sin destilación, MAE mejora en 7.91%, 7.96%, 7.97% en distancias de 50m, 70m, 80m respectivamente

Experimentos de Ablación

Comparación de Métodos de Fusión

Método de Fusión	Parámetros	MAE	RMSE	AbsRel	δ1
Adición	8.74M	2.248	4.903	0.115	0.886
Concatenación	10.94M	2.208	4.802	0.114	0.888
Atención	9.48M	2.266	4.901	0.115	0.885
FiLM	8.89M	2.232	4.897	0.114	0.887

Análisis de Componentes de Destilación

X-KD	D2-KD	MAE	RMSE	AbsRel	δ1
-	-	2.232	4.897	0.114	0.887
✓	-	2.114	4.756	0.108	0.892
-	✓	2.132	4.781	0.107	0.891
✓	✓	2.054	4.676	0.102	0.901

Análisis Cualitativo

Calidad del Mapa de Profundidad: El modelo destilado produce bordes de objetos más claros y discontinuidades de profundidad más limpias
Alineación de Mapas de Saliencia: Los mapas de saliencia de la red estudiante entrenada con X-KD son más nítidos, enfocándose más en estructuras relacionadas con profundidad

Trabajo Relacionado

Evolución de Métodos de Estimación de Profundidad

Estimación de Profundidad Monocular: Predicción de mapa de profundidad denso desde imagen RGB, pero con ambigüedad de escala
Fusión LiDAR-Cámara: Utilización de nube de puntos LiDAR dispersa como prior geométrico
Fusión Radar-Cámara: Utilización de radar de ondas milimétricas más económico y robusto a condiciones climáticas

Desarrollo de Destilación de Conocimiento

Destilación Clásica: Destilación de etiquetas suaves propuesta por Hinton et al.
Destilación de Características: Alineación de características de capas intermedias
Destilación de Explicabilidad: Primera introducción en tareas de predicción densa en este artículo

Ventajas de Este Trabajo

Comparado con trabajos existentes, este artículo muestra mejoras significativas en ligereza, rendimiento en tiempo real y explicabilidad.

Conclusiones y Discusión

Conclusiones Principales

Ligereza Exitosa: Reduce significativamente parámetros y tiempo computacional manteniendo rendimiento competitivo
Estrategias de Destilación Efectivas: X-KD y D2-KD se complementan mutuamente, mejorando significativamente el rendimiento de la red estudiante
Valor Práctico: Alcanza requisitos de rendimiento en tiempo real, adecuado para despliegue práctico

Limitaciones

Dependencia de Calidad de Datos Radar: El rendimiento sigue limitado por dispersión y ruido de la nube de puntos radar
Selección de Objetivo de Destilación: La selección de objetivo Grad-CAM (como profundidad promedio a nivel de imagen) puede afectar la efectividad
Capacidad de Generalización: Validación principalmente en conjuntos de datos específicos, capacidad de generalización entre dominios requiere verificación adicional

Direcciones Futuras

Los autores proponen investigar el impacto de la selección de objetivo Grad-CAM y objetivos de atribución alternativos en la calidad de explicabilidad de destilación y rendimiento posterior.

Evaluación Profunda

Fortalezas

Fuerte Innovación Técnica: Primera introducción de explicabilidad en destilación de conocimiento para predicción densa, ruta técnica novedosa
Experimentación Completa: Comparaciones exhaustivas y experimentos de ablación en dos conjuntos de datos
Alto Valor Práctico: Optimización significativa de parámetros y velocidad, satisfaciendo requisitos de despliegue práctico
Diseño de Método Razonable: Fusión FiLM simple y efectiva, diseño de ligereza de DASPP punto a punto ingenioso

Insuficiencias

Análisis Teórico Limitado: Falta análisis teórico profundo sobre por qué la destilación de explicabilidad es efectiva
Limitaciones en Experimentos de Ablación: No analiza suficientemente el impacto de diferentes objetivos Grad-CAM y parámetros de temperatura
Rango de Comparación Limitado: Comparación principalmente con métodos radar-cámara, falta comparación con otros métodos de estimación de profundidad ligera

Impacto

Contribución Académica: Abre nueva dirección para destilación de conocimiento en tareas de predicción densa
Valor Práctico: Proporciona solución viable para estimación de profundidad en tiempo real en conducción autónoma
Reproducibilidad: Descripción clara del método, detalles de implementación suficientes

Escenarios Aplicables

Conducción Autónoma: Estimación de profundidad en tiempo real en sistemas vehiculares con recursos limitados
Robótica Móvil: Escenarios que requieren percepción multimodal ligera
Computación de Borde: Aplicaciones con recursos computacionales limitados pero que requieren información de profundidad precisa

Referencias

El artículo cita trabajos importantes en campos de estimación de profundidad, destilación de conocimiento, IA explicable, incluyendo:

Hinton et al. (2015): Trabajo fundamental en destilación de conocimiento
Selvaraju et al. (2019): Método de visualización Grad-CAM
Caesar et al. (2020): Conjunto de datos nuScenes
Y múltiples investigaciones recientes en fusión radar-cámara

Evaluación General: Este es un artículo de alta calidad técnica que realiza contribuciones valiosas en el campo de estimación de profundidad multimodal ligera. El método es novedoso, la experimentación es completa, el valor práctico es destacado, proporcionando referencias útiles para investigación y aplicación en campos relacionados.