XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
Sun, Wang, Peng et al.
Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
academic
XD-RCDepth: Stima della Profondità Leggera Radar-Camera con Distillazione Consapevole della Distribuzione e Allineata all'Interpretabilità
Il presente articolo propone XD-RCDepth, un'architettura leggera per la stima della profondità radar-camera che riduce i parametri del modello del 29,7% rispetto ai modelli di base leggeri all'avanguardia, mantenendo al contempo un'accuratezza comparabile. Al fine di preservare le prestazioni sotto compressione del modello e migliorare l'interpretabilità, gli autori introducono due strategie di distillazione della conoscenza: la distillazione allineata all'interpretabilità (che trasferisce le strutture di salienza del modello insegnante al modello studente) e la distillazione della distribuzione della profondità (che riformula la regressione della profondità come classificazione soft su bin discretizzati). Questi componenti riducono il MAE del 7,97% rispetto all'addestramento diretto, raggiungendo un'accuratezza competitiva con efficienza in tempo reale sui dataset nuScenes e ZJU-4DRadarCam.
La stima della profondità rimane un compito fondamentale nella guida autonoma, con i metodi esistenti che includono principalmente:
Metodi basati su camera singola: Soffrono di problemi intrinseci di malposizionamento dovuti al fatto che le immagini RGB non forniscono misurazioni geometriche dirette
Fusione LiDAR-camera: Sebbene accurati, i sistemi LiDAR sono costosi e generano larghezza di banda dati elevata, compromettendo le prestazioni in tempo reale
Fusione radar-camera: Il radar è relativamente economico e più robusto in condizioni meteorologiche avverse, ma presenta problemi di sparsità e rumore
I metodi attuali di stima della profondità radar-camera presentano i seguenti problemi:
Complessità computazionale elevata: La maggior parte adotta pipeline a due stadi, densificando prima la nuvola di punti radar sparsa, quindi prevedendo la profondità
Difetti nella progettazione della distillazione: Ad esempio, la distillazione di caratteristiche cross-modali di LiRCDepth richiede l'allineamento dei canali, limitando la progettazione della rete studente
Mancanza di interpretabilità: I segnali di distillazione esistenti sono superficiali e non affrontano l'interpretabilità del modello
Propone un framework leggero di stima della profondità radar-camera: Utilizza un modulo di fusione FiLM efficiente con una riduzione dei parametri del 29,7% rispetto a LiRCDepth
Metodi innovativi di distillazione della conoscenza:
Distillazione della mappa di salienza allineata all'interpretabilità (X-KD)
Distillazione della distribuzione della profondità (D2-KD)
Primo a introdurre l'interpretabilità nella distillazione della conoscenza per previsioni dense: Attraverso la generazione di mappe di salienza tramite Grad-CAM per la distillazione
Realizza prestazioni in tempo reale: Raggiunge 15 FPS mantenendo un'accuratezza competitiva
Input: Immagine RGB e nuvola di punti radar sparsa
Output: Mappa di profondità densa
Vincoli: Requisiti di prestazioni in tempo reale e risorse computazionali limitate
dove fr e fi sono rispettivamente le caratteristiche radar e immagine, γ e β sono coefficienti di scala e offset per canale
Point-wise DASPP: Estensione del pool piramidale spaziale dilatato denso, utilizza rami di convoluzione puntuale e campionamento dilatato con tassi di dilatazione diversi
Efficienza dei Parametri: XD-RCDepth riduce i parametri del 29,7% rispetto a LiRCDepth
Miglioramento della Velocità: Il tempo di esecuzione si riduce da 0.069s a 0.015s, raggiungendo 15 FPS
Effetto della Distillazione: Rispetto alla versione senza distillazione, il MAE migliora rispettivamente del 7,91%, 7,96%, 7,97% alle distanze di 50m, 70m, 80m
Qualità della Mappa di Profondità: Il modello distillato produce bordi degli oggetti più nitidi e discontinuità di profondità più pulite
Allineamento della Mappa di Salienza: La mappa di salienza della rete studente addestrata con X-KD è più acuta, focalizzandosi maggiormente sulle strutture correlate alla profondità
Rispetto ai lavori esistenti, questo articolo presenta miglioramenti significativi negli aspetti della leggerezza, della tempestività e dell'interpretabilità.
Dipendenza dalla Qualità dei Dati Radar: Le prestazioni rimangono limitate dalla sparsità e dal rumore della nuvola di punti radar
Selezione dell'Obiettivo di Distillazione: La scelta dell'obiettivo Grad-CAM (come la profondità media a livello di immagine) potrebbe influenzare l'efficacia
Capacità di Generalizzazione: Principalmente validato su dataset specifici, la capacità di generalizzazione cross-domain richiede ulteriore verifica
Gli autori propongono di ricercare gli effetti della selezione dell'obiettivo Grad-CAM e degli obiettivi di attribuzione alternativi sulla qualità dell'interpretabilità della distillazione e sulle prestazioni a valle.
Forte Innovazione Tecnica: Primo a introdurre l'interpretabilità nella distillazione della conoscenza per compiti di previsione densa, con un percorso tecnico innovativo
Esperimenti Completi: Confronti e esperimenti di ablazione completi su due dataset
Alto Valore Pratico: Ottimizzazione significativa di parametri e velocità, soddisfa i requisiti di distribuzione pratica
Progettazione Razionale dei Metodi: La fusione FiLM è semplice ed efficace, la progettazione leggera di Point-wise DASPP è ingegnosa
Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché la distillazione dell'interpretabilità sia efficace
Limitazioni degli Esperimenti di Ablazione: Non analizza sufficientemente gli effetti di diversi obiettivi Grad-CAM e parametri di temperatura
Intervallo di Confronto Limitato: Principalmente confronti con metodi radar-camera, mancano confronti con altri metodi di stima della profondità leggera
L'articolo cita lavori importanti nei campi della stima della profondità, della distillazione della conoscenza e dell'IA interpretabile, inclusi:
Hinton et al. (2015): Lavoro fondamentale sulla distillazione della conoscenza
Selvaraju et al. (2019): Metodo di visualizzazione Grad-CAM
Caesar et al. (2020): Dataset nuScenes
E numerosi studi recenti sulla fusione radar-camera
Valutazione Complessiva: Questo è un articolo di alta qualità tecnica che fornisce contributi preziosi nel campo della stima della profondità multimodale leggera. Il metodo è innovativo, gli esperimenti sono completi, il valore pratico è notevole, fornendo riferimenti utili per la ricerca e l'applicazione nei campi correlati.