2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.
Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
academic

XD-RCDepth: Stima della Profondità Leggera Radar-Camera con Distillazione Consapevole della Distribuzione e Allineata all'Interpretabilità

Informazioni Fondamentali

  • ID Articolo: 2510.13565
  • Titolo: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
  • Autori: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
  • Istituzioni: Technical University of Munich & Infineon Technologies AG
  • Classificazione: cs.CV (Computer Vision)
  • Data di Pubblicazione: 15 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.13565

Riassunto

Il presente articolo propone XD-RCDepth, un'architettura leggera per la stima della profondità radar-camera che riduce i parametri del modello del 29,7% rispetto ai modelli di base leggeri all'avanguardia, mantenendo al contempo un'accuratezza comparabile. Al fine di preservare le prestazioni sotto compressione del modello e migliorare l'interpretabilità, gli autori introducono due strategie di distillazione della conoscenza: la distillazione allineata all'interpretabilità (che trasferisce le strutture di salienza del modello insegnante al modello studente) e la distillazione della distribuzione della profondità (che riformula la regressione della profondità come classificazione soft su bin discretizzati). Questi componenti riducono il MAE del 7,97% rispetto all'addestramento diretto, raggiungendo un'accuratezza competitiva con efficienza in tempo reale sui dataset nuScenes e ZJU-4DRadarCam.

Contesto di Ricerca e Motivazione

Definizione del Problema

La stima della profondità rimane un compito fondamentale nella guida autonoma, con i metodi esistenti che includono principalmente:

  1. Metodi basati su camera singola: Soffrono di problemi intrinseci di malposizionamento dovuti al fatto che le immagini RGB non forniscono misurazioni geometriche dirette
  2. Fusione LiDAR-camera: Sebbene accurati, i sistemi LiDAR sono costosi e generano larghezza di banda dati elevata, compromettendo le prestazioni in tempo reale
  3. Fusione radar-camera: Il radar è relativamente economico e più robusto in condizioni meteorologiche avverse, ma presenta problemi di sparsità e rumore

Limitazioni dei Metodi Esistenti

I metodi attuali di stima della profondità radar-camera presentano i seguenti problemi:

  1. Complessità computazionale elevata: La maggior parte adotta pipeline a due stadi, densificando prima la nuvola di punti radar sparsa, quindi prevedendo la profondità
  2. Difetti nella progettazione della distillazione: Ad esempio, la distillazione di caratteristiche cross-modali di LiRCDepth richiede l'allineamento dei canali, limitando la progettazione della rete studente
  3. Mancanza di interpretabilità: I segnali di distillazione esistenti sono superficiali e non affrontano l'interpretabilità del modello

Motivazione della Ricerca

La motivazione della ricerca degli autori risiede in:

  1. Lo sviluppo di un'architettura di fusione radar-camera più leggera che soddisfi i requisiti di distribuzione in tempo reale
  2. La progettazione di strategie di distillazione della conoscenza più efficaci che mantengano le prestazioni durante la compressione del modello
  3. L'introduzione dell'interpretabilità nella distillazione della conoscenza per compiti di previsione densa

Contributi Fondamentali

  1. Propone un framework leggero di stima della profondità radar-camera: Utilizza un modulo di fusione FiLM efficiente con una riduzione dei parametri del 29,7% rispetto a LiRCDepth
  2. Metodi innovativi di distillazione della conoscenza:
    • Distillazione della mappa di salienza allineata all'interpretabilità (X-KD)
    • Distillazione della distribuzione della profondità (D2-KD)
  3. Primo a introdurre l'interpretabilità nella distillazione della conoscenza per previsioni dense: Attraverso la generazione di mappe di salienza tramite Grad-CAM per la distillazione
  4. Realizza prestazioni in tempo reale: Raggiunge 15 FPS mantenendo un'accuratezza competitiva

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Immagine RGB e nuvola di punti radar sparsa Output: Mappa di profondità densa Vincoli: Requisiti di prestazioni in tempo reale e risorse computazionali limitate

Architettura del Modello

Rete Insegnante (CaFNet)

  • Flusso di immagini: Backbone ResNet-34, estrae caratteristiche a 5 scale spaziali
  • Flusso radar: Elaborazione a due stadi, il primo stadio genera mappa di profondità approssimativa e mappa di confidenza
  • Fusione: Modulo di fusione con gate consapevole della confidenza (CaGF)
  • Decoder: Decoder in stile BTS

Rete Studente (XD-RCDepth)

  • Backbone: MobileNetV2 bimodale, elabora separatamente le caratteristiche di immagine e radar
  • Modulo di Fusione FiLM:
    γ = Conv1×1(fr), β = Conv1×1(fr)
    ffuse = (1 + γ) ⊙ fi + β
    

    dove fr e fi sono rispettivamente le caratteristiche radar e immagine, γ e β sono coefficienti di scala e offset per canale
  • Point-wise DASPP: Estensione del pool piramidale spaziale dilatato denso, utilizza rami di convoluzione puntuale e campionamento dilatato con tassi di dilatazione diversi

Punti Tecnici Innovativi

1. Distillazione Allineata all'Interpretabilità (X-KD)

Genera mappe di salienza tramite Grad-CAM, consentendo alla rete studente di apprendere i modelli di attenzione della rete insegnante:

Generazione della Mappa di Salienza:

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

Perdita di Distillazione:

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. Distillazione della Distribuzione della Profondità (D2-KD)

Discretizza l'intervallo di profondità continua in B bin, eseguendo la distillazione attraverso classificazione soft:

Assegnazione Bin:

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

Distribuzione di Probabilità:

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

Perdita di Divergenza KL:

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

Funzione di Perdita Complessiva

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

dove LDepth è la perdita di supervisione della profondità, λ1=1.0, λ2=0.5, λ3=0.5

Configurazione Sperimentale

Dataset

  1. nuScenes: Dataset multimodale per la guida autonoma, utilizza dati radar 3D
  2. ZJU-4DRadarCam: Dataset radar 4D, fornisce informazioni radar a risoluzione più elevata

Metriche di Valutazione

  • Metriche di Errore: MAE (Errore Assoluto Medio), RMSE (Errore Quadratico Medio), AbsRel (Errore Assoluto Relativo), log10
  • Metriche di Accuratezza: δ1, δ2, δ3 (Accuratezza di Soglia)

Metodi di Confronto

  • RadarNet: Metodo di fusione radar-camera iniziale
  • CaFNet: Rete insegnante
  • LiRCDepth: Baseline leggero all'avanguardia attuale

Dettagli di Implementazione

  • Hardware: GPU NVIDIA L40 singola
  • Dimensione batch: 8
  • Livelli di distillazione: Livello di scala 1/16 dell'encoder di immagini, encoder radar e decoder

Risultati Sperimentali

Risultati Principali

Confronto delle Prestazioni su Dataset nuScenes (Valutazione a 80m)

MetodoParametriTempo di EsecuzioneMAE↓RMSE↓AbsRel↓δ1↑
RadarNet22.8M0.378s2.1794.8990.1060.894
CaFNet (Insegnante)62.25M0.132s1.7634.1840.0830.921
LiRCDepth12.65M0.069s2.1524.8010.1050.892
XD-RCDepth (senza distillazione)8.89M0.015s2.2324.8970.1140.887
XD-RCDepth (XD2-KD)8.89M0.015s2.0544.6760.1020.901

Scoperte Chiave

  1. Efficienza dei Parametri: XD-RCDepth riduce i parametri del 29,7% rispetto a LiRCDepth
  2. Miglioramento della Velocità: Il tempo di esecuzione si riduce da 0.069s a 0.015s, raggiungendo 15 FPS
  3. Effetto della Distillazione: Rispetto alla versione senza distillazione, il MAE migliora rispettivamente del 7,91%, 7,96%, 7,97% alle distanze di 50m, 70m, 80m

Esperimenti di Ablazione

Confronto dei Metodi di Fusione

Metodo di FusioneParametriMAERMSEAbsRelδ1
Addizione8.74M2.2484.9030.1150.886
Concatenazione10.94M2.2084.8020.1140.888
Attenzione9.48M2.2664.9010.1150.885
FiLM8.89M2.2324.8970.1140.887

Analisi dei Componenti di Distillazione

X-KDD2-KDMAERMSEAbsRelδ1
--2.2324.8970.1140.887
-2.1144.7560.1080.892
-2.1324.7810.1070.891
2.0544.6760.1020.901

Analisi Qualitativa

  1. Qualità della Mappa di Profondità: Il modello distillato produce bordi degli oggetti più nitidi e discontinuità di profondità più pulite
  2. Allineamento della Mappa di Salienza: La mappa di salienza della rete studente addestrata con X-KD è più acuta, focalizzandosi maggiormente sulle strutture correlate alla profondità

Lavori Correlati

Evoluzione dei Metodi di Stima della Profondità

  1. Stima della Profondità Monoculare: Previsione di mappe di profondità dense da immagini RGB, ma con ambiguità di scala
  2. Fusione LiDAR-camera: Utilizzo di nuvole di punti LiDAR sparse come priori geometrici
  3. Fusione Radar-camera: Utilizzo di radar a onde millimetriche più economici e robusti alle condizioni meteorologiche

Sviluppo della Distillazione della Conoscenza

  1. Distillazione Classica: Distillazione con etichette soft proposta da Hinton et al.
  2. Distillazione di Caratteristiche: Allineamento di caratteristiche di strati intermedi
  3. Distillazione dell'Interpretabilità: Primo articolo a introdurre questo concetto in compiti di previsione densa

Vantaggi di Questo Articolo

Rispetto ai lavori esistenti, questo articolo presenta miglioramenti significativi negli aspetti della leggerezza, della tempestività e dell'interpretabilità.

Conclusioni e Discussione

Conclusioni Principali

  1. Leggerezza Realizzata con Successo: Riduzione significativa dei parametri e del tempo di calcolo mantenendo prestazioni competitive
  2. Strategie di Distillazione Efficaci: X-KD e D2-KD si completano a vicenda, migliorando significativamente le prestazioni della rete studente
  3. Valore Pratico: Raggiunge i requisiti di prestazioni in tempo reale, adatto per la distribuzione pratica

Limitazioni

  1. Dipendenza dalla Qualità dei Dati Radar: Le prestazioni rimangono limitate dalla sparsità e dal rumore della nuvola di punti radar
  2. Selezione dell'Obiettivo di Distillazione: La scelta dell'obiettivo Grad-CAM (come la profondità media a livello di immagine) potrebbe influenzare l'efficacia
  3. Capacità di Generalizzazione: Principalmente validato su dataset specifici, la capacità di generalizzazione cross-domain richiede ulteriore verifica

Direzioni Future

Gli autori propongono di ricercare gli effetti della selezione dell'obiettivo Grad-CAM e degli obiettivi di attribuzione alternativi sulla qualità dell'interpretabilità della distillazione e sulle prestazioni a valle.

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione Tecnica: Primo a introdurre l'interpretabilità nella distillazione della conoscenza per compiti di previsione densa, con un percorso tecnico innovativo
  2. Esperimenti Completi: Confronti e esperimenti di ablazione completi su due dataset
  3. Alto Valore Pratico: Ottimizzazione significativa di parametri e velocità, soddisfa i requisiti di distribuzione pratica
  4. Progettazione Razionale dei Metodi: La fusione FiLM è semplice ed efficace, la progettazione leggera di Point-wise DASPP è ingegnosa

Carenze

  1. Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché la distillazione dell'interpretabilità sia efficace
  2. Limitazioni degli Esperimenti di Ablazione: Non analizza sufficientemente gli effetti di diversi obiettivi Grad-CAM e parametri di temperatura
  3. Intervallo di Confronto Limitato: Principalmente confronti con metodi radar-camera, mancano confronti con altri metodi di stima della profondità leggera

Impatto

  1. Contributo Accademico: Apre una nuova direzione per la distillazione della conoscenza in compiti di previsione densa
  2. Valore Pratico: Fornisce una soluzione fattibile per la stima della profondità in tempo reale nella guida autonoma
  3. Riproducibilità: Descrizione del metodo chiara, dettagli di implementazione sufficienti

Scenari Applicabili

  1. Guida Autonoma: Stima della profondità in tempo reale in sistemi a bordo con risorse limitate
  2. Robot Mobili: Scenari che richiedono percezione multimodale leggera
  3. Calcolo Edge: Applicazioni con risorse computazionali limitate ma che richiedono informazioni di profondità accurate

Bibliografia

L'articolo cita lavori importanti nei campi della stima della profondità, della distillazione della conoscenza e dell'IA interpretabile, inclusi:

  • Hinton et al. (2015): Lavoro fondamentale sulla distillazione della conoscenza
  • Selvaraju et al. (2019): Metodo di visualizzazione Grad-CAM
  • Caesar et al. (2020): Dataset nuScenes
  • E numerosi studi recenti sulla fusione radar-camera

Valutazione Complessiva: Questo è un articolo di alta qualità tecnica che fornisce contributi preziosi nel campo della stima della profondità multimodale leggera. Il metodo è innovativo, gli esperimenti sono completi, il valore pratico è notevole, fornendo riferimenti utili per la ricerca e l'applicazione nei campi correlati.