2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.

Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.

academic

XD-RCDepth: Stima della Profondità Leggera Radar-Camera con Distillazione Consapevole della Distribuzione e Allineata all'Interpretabilità

Informazioni Fondamentali

ID Articolo: 2510.13565
Titolo: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
Autori: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
Istituzioni: Technical University of Munich & Infineon Technologies AG
Classificazione: cs.CV (Computer Vision)
Data di Pubblicazione: 15 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.13565

Riassunto

Il presente articolo propone XD-RCDepth, un'architettura leggera per la stima della profondità radar-camera che riduce i parametri del modello del 29,7% rispetto ai modelli di base leggeri all'avanguardia, mantenendo al contempo un'accuratezza comparabile. Al fine di preservare le prestazioni sotto compressione del modello e migliorare l'interpretabilità, gli autori introducono due strategie di distillazione della conoscenza: la distillazione allineata all'interpretabilità (che trasferisce le strutture di salienza del modello insegnante al modello studente) e la distillazione della distribuzione della profondità (che riformula la regressione della profondità come classificazione soft su bin discretizzati). Questi componenti riducono il MAE del 7,97% rispetto all'addestramento diretto, raggiungendo un'accuratezza competitiva con efficienza in tempo reale sui dataset nuScenes e ZJU-4DRadarCam.

Contesto di Ricerca e Motivazione

Definizione del Problema

La stima della profondità rimane un compito fondamentale nella guida autonoma, con i metodi esistenti che includono principalmente:

Metodi basati su camera singola: Soffrono di problemi intrinseci di malposizionamento dovuti al fatto che le immagini RGB non forniscono misurazioni geometriche dirette
Fusione LiDAR-camera: Sebbene accurati, i sistemi LiDAR sono costosi e generano larghezza di banda dati elevata, compromettendo le prestazioni in tempo reale
Fusione radar-camera: Il radar è relativamente economico e più robusto in condizioni meteorologiche avverse, ma presenta problemi di sparsità e rumore

Limitazioni dei Metodi Esistenti

I metodi attuali di stima della profondità radar-camera presentano i seguenti problemi:

Complessità computazionale elevata: La maggior parte adotta pipeline a due stadi, densificando prima la nuvola di punti radar sparsa, quindi prevedendo la profondità
Difetti nella progettazione della distillazione: Ad esempio, la distillazione di caratteristiche cross-modali di LiRCDepth richiede l'allineamento dei canali, limitando la progettazione della rete studente
Mancanza di interpretabilità: I segnali di distillazione esistenti sono superficiali e non affrontano l'interpretabilità del modello

Motivazione della Ricerca

La motivazione della ricerca degli autori risiede in:

Lo sviluppo di un'architettura di fusione radar-camera più leggera che soddisfi i requisiti di distribuzione in tempo reale
La progettazione di strategie di distillazione della conoscenza più efficaci che mantengano le prestazioni durante la compressione del modello
L'introduzione dell'interpretabilità nella distillazione della conoscenza per compiti di previsione densa

Contributi Fondamentali

Propone un framework leggero di stima della profondità radar-camera: Utilizza un modulo di fusione FiLM efficiente con una riduzione dei parametri del 29,7% rispetto a LiRCDepth
Metodi innovativi di distillazione della conoscenza:
- Distillazione della mappa di salienza allineata all'interpretabilità (X-KD)
- Distillazione della distribuzione della profondità (D2-KD)
Primo a introdurre l'interpretabilità nella distillazione della conoscenza per previsioni dense: Attraverso la generazione di mappe di salienza tramite Grad-CAM per la distillazione
Realizza prestazioni in tempo reale: Raggiunge 15 FPS mantenendo un'accuratezza competitiva

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Immagine RGB e nuvola di punti radar sparsa Output: Mappa di profondità densa Vincoli: Requisiti di prestazioni in tempo reale e risorse computazionali limitate

Architettura del Modello

Rete Insegnante (CaFNet)

Flusso di immagini: Backbone ResNet-34, estrae caratteristiche a 5 scale spaziali
Flusso radar: Elaborazione a due stadi, il primo stadio genera mappa di profondità approssimativa e mappa di confidenza
Fusione: Modulo di fusione con gate consapevole della confidenza (CaGF)
Decoder: Decoder in stile BTS

Rete Studente (XD-RCDepth)

Backbone: MobileNetV2 bimodale, elabora separatamente le caratteristiche di immagine e radar
Modulo di Fusione FiLM:
```
γ = Conv1×1(fr), β = Conv1×1(fr)
ffuse = (1 + γ) ⊙ fi + β
```
dove fr e fi sono rispettivamente le caratteristiche radar e immagine, γ e β sono coefficienti di scala e offset per canale
Point-wise DASPP: Estensione del pool piramidale spaziale dilatato denso, utilizza rami di convoluzione puntuale e campionamento dilatato con tassi di dilatazione diversi

Punti Tecnici Innovativi

1. Distillazione Allineata all'Interpretabilità (X-KD)

Genera mappe di salienza tramite Grad-CAM, consentendo alla rete studente di apprendere i modelli di attenzione della rete insegnante:

Generazione della Mappa di Salienza:

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

Perdita di Distillazione:

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. Distillazione della Distribuzione della Profondità (D2-KD)

Discretizza l'intervallo di profondità continua in B bin, eseguendo la distillazione attraverso classificazione soft:

Assegnazione Bin:

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

Distribuzione di Probabilità:

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

Perdita di Divergenza KL:

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

Funzione di Perdita Complessiva

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

dove LDepth è la perdita di supervisione della profondità, λ1=1.0, λ2=0.5, λ3=0.5

Configurazione Sperimentale

Dataset

nuScenes: Dataset multimodale per la guida autonoma, utilizza dati radar 3D
ZJU-4DRadarCam: Dataset radar 4D, fornisce informazioni radar a risoluzione più elevata

Metriche di Valutazione

Metriche di Errore: MAE (Errore Assoluto Medio), RMSE (Errore Quadratico Medio), AbsRel (Errore Assoluto Relativo), log10
Metriche di Accuratezza: δ1, δ2, δ3 (Accuratezza di Soglia)

Metodi di Confronto

RadarNet: Metodo di fusione radar-camera iniziale
CaFNet: Rete insegnante
LiRCDepth: Baseline leggero all'avanguardia attuale

Dettagli di Implementazione

Hardware: GPU NVIDIA L40 singola
Dimensione batch: 8
Livelli di distillazione: Livello di scala 1/16 dell'encoder di immagini, encoder radar e decoder

Risultati Sperimentali

Risultati Principali

Confronto delle Prestazioni su Dataset nuScenes (Valutazione a 80m)

Metodo	Parametri	Tempo di Esecuzione	MAE↓	RMSE↓	AbsRel↓	δ1↑
RadarNet	22.8M	0.378s	2.179	4.899	0.106	0.894
CaFNet (Insegnante)	62.25M	0.132s	1.763	4.184	0.083	0.921
LiRCDepth	12.65M	0.069s	2.152	4.801	0.105	0.892
XD-RCDepth (senza distillazione)	8.89M	0.015s	2.232	4.897	0.114	0.887
XD-RCDepth (XD2-KD)	8.89M	0.015s	2.054	4.676	0.102	0.901

Scoperte Chiave

Efficienza dei Parametri: XD-RCDepth riduce i parametri del 29,7% rispetto a LiRCDepth
Miglioramento della Velocità: Il tempo di esecuzione si riduce da 0.069s a 0.015s, raggiungendo 15 FPS
Effetto della Distillazione: Rispetto alla versione senza distillazione, il MAE migliora rispettivamente del 7,91%, 7,96%, 7,97% alle distanze di 50m, 70m, 80m

Esperimenti di Ablazione

Confronto dei Metodi di Fusione

Metodo di Fusione	Parametri	MAE	RMSE	AbsRel	δ1
Addizione	8.74M	2.248	4.903	0.115	0.886
Concatenazione	10.94M	2.208	4.802	0.114	0.888
Attenzione	9.48M	2.266	4.901	0.115	0.885
FiLM	8.89M	2.232	4.897	0.114	0.887

Analisi dei Componenti di Distillazione

X-KD	D2-KD	MAE	RMSE	AbsRel	δ1
-	-	2.232	4.897	0.114	0.887
✓	-	2.114	4.756	0.108	0.892
-	✓	2.132	4.781	0.107	0.891
✓	✓	2.054	4.676	0.102	0.901

Analisi Qualitativa

Qualità della Mappa di Profondità: Il modello distillato produce bordi degli oggetti più nitidi e discontinuità di profondità più pulite
Allineamento della Mappa di Salienza: La mappa di salienza della rete studente addestrata con X-KD è più acuta, focalizzandosi maggiormente sulle strutture correlate alla profondità

Lavori Correlati

Evoluzione dei Metodi di Stima della Profondità

Stima della Profondità Monoculare: Previsione di mappe di profondità dense da immagini RGB, ma con ambiguità di scala
Fusione LiDAR-camera: Utilizzo di nuvole di punti LiDAR sparse come priori geometrici
Fusione Radar-camera: Utilizzo di radar a onde millimetriche più economici e robusti alle condizioni meteorologiche

Sviluppo della Distillazione della Conoscenza

Distillazione Classica: Distillazione con etichette soft proposta da Hinton et al.
Distillazione di Caratteristiche: Allineamento di caratteristiche di strati intermedi
Distillazione dell'Interpretabilità: Primo articolo a introdurre questo concetto in compiti di previsione densa

Vantaggi di Questo Articolo

Rispetto ai lavori esistenti, questo articolo presenta miglioramenti significativi negli aspetti della leggerezza, della tempestività e dell'interpretabilità.

Conclusioni e Discussione

Conclusioni Principali

Leggerezza Realizzata con Successo: Riduzione significativa dei parametri e del tempo di calcolo mantenendo prestazioni competitive
Strategie di Distillazione Efficaci: X-KD e D2-KD si completano a vicenda, migliorando significativamente le prestazioni della rete studente
Valore Pratico: Raggiunge i requisiti di prestazioni in tempo reale, adatto per la distribuzione pratica

Limitazioni

Dipendenza dalla Qualità dei Dati Radar: Le prestazioni rimangono limitate dalla sparsità e dal rumore della nuvola di punti radar
Selezione dell'Obiettivo di Distillazione: La scelta dell'obiettivo Grad-CAM (come la profondità media a livello di immagine) potrebbe influenzare l'efficacia
Capacità di Generalizzazione: Principalmente validato su dataset specifici, la capacità di generalizzazione cross-domain richiede ulteriore verifica

Direzioni Future

Gli autori propongono di ricercare gli effetti della selezione dell'obiettivo Grad-CAM e degli obiettivi di attribuzione alternativi sulla qualità dell'interpretabilità della distillazione e sulle prestazioni a valle.

Valutazione Approfondita

Punti di Forza

Forte Innovazione Tecnica: Primo a introdurre l'interpretabilità nella distillazione della conoscenza per compiti di previsione densa, con un percorso tecnico innovativo
Esperimenti Completi: Confronti e esperimenti di ablazione completi su due dataset
Alto Valore Pratico: Ottimizzazione significativa di parametri e velocità, soddisfa i requisiti di distribuzione pratica
Progettazione Razionale dei Metodi: La fusione FiLM è semplice ed efficace, la progettazione leggera di Point-wise DASPP è ingegnosa

Carenze

Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché la distillazione dell'interpretabilità sia efficace
Limitazioni degli Esperimenti di Ablazione: Non analizza sufficientemente gli effetti di diversi obiettivi Grad-CAM e parametri di temperatura
Intervallo di Confronto Limitato: Principalmente confronti con metodi radar-camera, mancano confronti con altri metodi di stima della profondità leggera

Impatto

Contributo Accademico: Apre una nuova direzione per la distillazione della conoscenza in compiti di previsione densa
Valore Pratico: Fornisce una soluzione fattibile per la stima della profondità in tempo reale nella guida autonoma
Riproducibilità: Descrizione del metodo chiara, dettagli di implementazione sufficienti

Scenari Applicabili

Guida Autonoma: Stima della profondità in tempo reale in sistemi a bordo con risorse limitate
Robot Mobili: Scenari che richiedono percezione multimodale leggera
Calcolo Edge: Applicazioni con risorse computazionali limitate ma che richiedono informazioni di profondità accurate

Bibliografia

L'articolo cita lavori importanti nei campi della stima della profondità, della distillazione della conoscenza e dell'IA interpretabile, inclusi:

Hinton et al. (2015): Lavoro fondamentale sulla distillazione della conoscenza
Selvaraju et al. (2019): Metodo di visualizzazione Grad-CAM
Caesar et al. (2020): Dataset nuScenes
E numerosi studi recenti sulla fusione radar-camera

Valutazione Complessiva: Questo è un articolo di alta qualità tecnica che fornisce contributi preziosi nel campo della stima della profondità multimodale leggera. Il metodo è innovativo, gli esperimenti sono completi, il valore pratico è notevole, fornendo riferimenti utili per la ricerca e l'applicazione nei campi correlati.