XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
Sun, Wang, Peng et al.
Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
academic
XD-RCDepth: Estimación de Profundidad Ligera Radar-Cámara con Destilación Alineada a Explicabilidad y Consciente de Distribución
Este artículo propone XD-RCDepth, una arquitectura ligera de estimación de profundidad radar-cámara que reduce los parámetros en un 29,7% en comparación con los modelos base ligeros de última generación, manteniendo una precisión comparable. Para preservar el rendimiento bajo compresión de modelos y mejorar la explicabilidad, los autores introducen dos estrategias de destilación de conocimiento: destilación alineada a explicabilidad (que transfiere estructuras de saliencia del modelo maestro al modelo estudiante) y destilación de distribución de profundidad (que reformula la regresión de profundidad como clasificación suave sobre bins discretizados). Estos componentes reducen el MAE en un 7,97% en comparación con el entrenamiento directo, logrando precisión competitiva con eficiencia en tiempo real en los conjuntos de datos nuScenes y ZJU-4DRadarCam.
La estimación de profundidad sigue siendo una tarea central en conducción autónoma, con métodos existentes que incluyen principalmente:
Métodos de cámara pura: Sufren de problemas inherentes de mal planteamiento debido a que las imágenes RGB no proporcionan mediciones geométricas directas
Fusión LiDAR-cámara: Aunque tiene alta precisión, LiDAR es costoso y genera gran ancho de banda de datos, afectando el rendimiento en tiempo real
Fusión radar-cámara: El radar es relativamente económico y más robusto en condiciones climáticas adversas, pero presenta problemas de dispersión y ruido
Los métodos existentes de estimación de profundidad radar-cámara presentan los siguientes problemas:
Alta complejidad computacional: La mayoría adopta tuberías de dos etapas, densificando primero la nube de puntos radar dispersa, luego prediciendo profundidad
Defectos en el diseño de destilación: Como la destilación de características multimodales de LiRCDepth que requiere alineación de canales, limitando el diseño de redes estudiantes
Falta de explicabilidad: Las señales de destilación existentes son superficiales, sin abordar la explicabilidad del modelo
Propone un marco ligero de estimación de profundidad radar-cámara: Adopta un módulo de fusión FiLM eficiente, reduciendo parámetros en un 29,7% comparado con LiRCDepth
Métodos innovadores de destilación de conocimiento:
Destilación de mapas de saliencia alineada a explicabilidad (X-KD)
Destilación de distribución de profundidad (D2-KD)
Primera introducción de explicabilidad en destilación de conocimiento para predicción densa: Mediante generación de mapas de saliencia con Grad-CAM para destilación
Logra rendimiento en tiempo real: Alcanza 15 FPS manteniendo precisión competitiva
Entrada: Imagen RGB y nube de puntos radar dispersa
Salida: Mapa de profundidad denso
Restricciones: Requisitos de rendimiento en tiempo real y recursos computacionales limitados
donde fr y fi son características de radar e imagen respectivamente, γ y β son coeficientes de escala y desplazamiento por canal
DASPP Punto a Punto: Pirámide de agrupación espacial dilatada densa extendida, utilizando ramas de convolución puntual y muestreo dilatado con diferentes tasas de dilatación
Calidad del Mapa de Profundidad: El modelo destilado produce bordes de objetos más claros y discontinuidades de profundidad más limpias
Alineación de Mapas de Saliencia: Los mapas de saliencia de la red estudiante entrenada con X-KD son más nítidos, enfocándose más en estructuras relacionadas con profundidad
Dependencia de Calidad de Datos Radar: El rendimiento sigue limitado por dispersión y ruido de la nube de puntos radar
Selección de Objetivo de Destilación: La selección de objetivo Grad-CAM (como profundidad promedio a nivel de imagen) puede afectar la efectividad
Capacidad de Generalización: Validación principalmente en conjuntos de datos específicos, capacidad de generalización entre dominios requiere verificación adicional
Los autores proponen investigar el impacto de la selección de objetivo Grad-CAM y objetivos de atribución alternativos en la calidad de explicabilidad de destilación y rendimiento posterior.
Análisis Teórico Limitado: Falta análisis teórico profundo sobre por qué la destilación de explicabilidad es efectiva
Limitaciones en Experimentos de Ablación: No analiza suficientemente el impacto de diferentes objetivos Grad-CAM y parámetros de temperatura
Rango de Comparación Limitado: Comparación principalmente con métodos radar-cámara, falta comparación con otros métodos de estimación de profundidad ligera
El artículo cita trabajos importantes en campos de estimación de profundidad, destilación de conocimiento, IA explicable, incluyendo:
Hinton et al. (2015): Trabajo fundamental en destilación de conocimiento
Selvaraju et al. (2019): Método de visualización Grad-CAM
Caesar et al. (2020): Conjunto de datos nuScenes
Y múltiples investigaciones recientes en fusión radar-cámara
Evaluación General: Este es un artículo de alta calidad técnica que realiza contribuciones valiosas en el campo de estimación de profundidad multimodal ligera. El método es novedoso, la experimentación es completa, el valor práctico es destacado, proporcionando referencias útiles para investigación y aplicación en campos relacionados.