2025-11-16T14:19:12.202113

XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Sun, Wang, Peng et al.
Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
academic

XD-RCDepth: Leichte Radar-Kamera-Tiefenschätzung mit Erklärbarkeits-ausgerichteter und Verteilungs-bewusster Destillation

Grundlegende Informationen

  • Papier-ID: 2510.13565
  • Titel: XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
  • Autoren: Huawei Sun, Zixu Wang, Xiangyuan Peng, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille
  • Institution: Technische Universität München & Infineon Technologies AG
  • Klassifikation: cs.CV (Computervision)
  • Veröffentlichungsdatum: 15. Oktober 2025
  • Papierlink: https://arxiv.org/abs/2510.13565

Zusammenfassung

In diesem Papier wird XD-RCDepth vorgestellt, eine leichte Radar-Kamera-Tiefenschätzungsarchitektur, die 29,7% weniger Parameter als das modernste leichte Basis-Modell aufweist und gleichzeitig vergleichbare Genauigkeit beibehält. Um die Leistung unter Modellkompression zu erhalten und die Erklärbarkeit zu verbessern, führen die Autoren zwei Wissens-Destillationsstrategien ein: Erklärbarkeits-ausgerichtete Destillation (überträgt die Salienzstrukturen des Lehrermodells auf das Schülermodell) und Tiefenverteilungs-Destillation (reformuliert die Tiefenregression als weiche Klassifikation auf diskretisierten Bins). Diese Komponenten reduzieren den MAE um 7,97% im Vergleich zum direkten Training und erreichen wettbewerbsfähige Genauigkeit mit Echtzeit-Effizienz auf den Datensätzen nuScenes und ZJU-4DRadarCam.

Forschungshintergrund und Motivation

Problemdefinition

Die Tiefenschätzung bleibt eine Kernaufgabe beim autonomen Fahren. Bestehende Methoden umfassen hauptsächlich:

  1. Reine Kamera-Methoden: Leiden unter inhärenter Unterbestimmtheit, da RGB-Bilder keine direkte geometrische Messung liefern
  2. LiDAR-Kamera-Fusion: Obwohl präzise, sind LiDAR-Kosten hoch und die Datenbandbreite groß, was die Echtzeitfähigkeit beeinträchtigt
  3. Radar-Kamera-Fusion: Radar ist kostengünstiger und robuster bei schlechtem Wetter, weist aber Spärlichkeits- und Rauschprobleme auf

Einschränkungen bestehender Methoden

Bestehende Radar-Kamera-Tiefenschätzungsmethoden haben folgende Probleme:

  1. Hohe Rechenkomplexität: Die meisten verwenden zwei-stufige Pipelines, die zunächst spärliche Radarpunktwolken verdichten und dann Tiefenvorhersage durchführen
  2. Mängel im Destillationsdesign: Beispielsweise erfordert die Cross-Modal-Merkmals-Destillation von LiRCDepth Kanal-Ausrichtung, was das Schülernetzwerk-Design einschränkt
  3. Mangel an Erklärbarkeit: Bestehende Destillationssignale sind oberflächlich und befassen sich nicht mit der Modell-Erklärbarkeit

Forschungsmotivation

Die Forschungsmotivation der Autoren liegt darin:

  1. Eine leichtere Radar-Kamera-Fusionsarchitektur zu entwickeln, die Echtzeitbereitstellungsanforderungen erfüllt
  2. Effektivere Wissens-Destillationsstrategien zu entwerfen, die die Leistung bei Modellkompression beibehalten
  3. Erklärbarkeit in die Wissens-Destillation von Aufgaben mit dichter Vorhersage einzuführen

Kernbeiträge

  1. Vorschlag eines leichten Radar-Kamera-Tiefenschätzungs-Rahmens: Verwendet effiziente FiLM-Fusionsmodule mit 29,7% weniger Parametern als LiRCDepth
  2. Innovative Wissens-Destillationsmethoden:
    • Erklärbarkeits-ausgerichtete Salienzmap-Destillation (X-KD)
    • Tiefenverteilungs-Destillation (D2-KD)
  3. Erstmalige Einführung von Erklärbarkeit in die Wissens-Destillation von Aufgaben mit dichter Vorhersage: Durch Grad-CAM generierte Salienzmap-Destillation
  4. Erreichung von Echtzeitfähigkeit: Erreicht 15 FPS bei Beibehaltung wettbewerbsfähiger Genauigkeit

Methodische Details

Aufgabendefinition

Eingabe: RGB-Bild und spärliche Radarpunktwolke Ausgabe: Dichte Tiefenkarte Einschränkungen: Echtzeitanforderungen und begrenzte Rechenressourcen

Modellarchitektur

Lehrermodell (CaFNet)

  • Bildstrom: ResNet-34-Rückgrat, extrahiert Merkmale auf 5 räumlichen Skalen
  • Radarstrom: Zwei-Stufen-Verarbeitung, erste Stufe generiert grobe Tiefenkarte und Konfidenzmap
  • Fusion: Konfidenz-bewusste Gate-Fusionsmodule (CaGF)
  • Decoder: BTS-ähnlicher Decoder

Schülermodell (XD-RCDepth)

  • Rückgrat: Dual-Modal MobileNetV2, verarbeitet Bild- und Radarmerkmale separat
  • FiLM-Fusionsmodul:
    γ = Conv1×1(fr), β = Conv1×1(fr)
    ffuse = (1 + γ) ⊙ fi + β
    

    wobei fr und fi Radar- bzw. Bildmerkmale sind, γ und β kanalweise Skalierungs- und Versatzkoeffizienten sind
  • Point-wise DASPP: Erweiterte dichte Atrous-Spatial-Pyramid-Pooling mit Point-Convolution-Zweigen und Atrous-Sampling mit verschiedenen Dilatationsraten

Technische Innovationen

1. Erklärbarkeits-ausgerichtete Destillation (X-KD)

Generiert Salienzmap durch Grad-CAM, um das Schülernetzwerk die Aufmerksamkeitsmuster des Lehrermodells zu erlernen:

Salienzmap-Generierung:

α(·)l,c = (1/HlWl) Σ Σ ∂φ(·)/∂F(·)l,c(i,j)
Map(·)l = ReLU(Σ α(·)l,c F(·)l,c)

Destillationsverlust:

LX-KD = (1/|L|) Σ (1 - ⟨ãSl, ãTl⟩)

2. Tiefenverteilungs-Destillation (D2-KD)

Diskretisiert den kontinuierlichen Tiefenbereich in B Bins und führt Destillation durch weiche Klassifikation durch:

Bin-Zuordnung:

Δ(·)i(p) = |d(·)(p) - ci|, z(·)i(p) = -Δ(·)i(p)

Wahrscheinlichkeitsverteilung:

pS(p) = softmax(zS(p)/τ), qT(p) = softmax(zT(p)/τ)

KL-Divergenz-Verlust:

LD2-KD = (τ²/|Ω|) Σ Σ qTi(p) log(qTi(p)/pSi(p))

Gesamtverlustfunktion

L = λ1 LDepth + λ2 LX-KD + λ3 LD2-KD

wobei LDepth der Tiefenüberwachungsverlust ist, λ1=1.0, λ2=0.5, λ3=0.5

Experimentelle Einrichtung

Datensätze

  1. nuScenes: Multimodaler Datensatz zum autonomen Fahren mit 3D-Radardaten
  2. ZJU-4DRadarCam: 4D-Radar-Datensatz mit höher auflösenden Radarinformationen

Bewertungsmetriken

  • Fehlermetriken: MAE (mittlerer absoluter Fehler), RMSE (Quadratwurzel des mittleren quadratischen Fehlers), AbsRel (relativer absoluter Fehler), log10
  • Genauigkeitsmetriken: δ1, δ2, δ3 (Schwellenwert-Genauigkeit)

Vergleichsmethoden

  • RadarNet: Frühe Radar-Kamera-Fusionsmethode
  • CaFNet: Lehrermodell
  • LiRCDepth: Aktuelles modernste leichte Basis-Modell

Implementierungsdetails

  • Hardware: Einzelne NVIDIA L40 GPU
  • Batch-Größe: 8
  • Destillationsschichten: 1/16-Skalen-Schichten des Bildcoders, Radarcoders und Decoders

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsvergleich auf nuScenes-Datensatz (80m Bewertungsentfernung)

MethodeParameterLaufzeitMAE↓RMSE↓AbsRel↓δ1↑
RadarNet22.8M0.378s2.1794.8990.1060.894
CaFNet (Lehrer)62.25M0.132s1.7634.1840.0830.921
LiRCDepth12.65M0.069s2.1524.8010.1050.892
XD-RCDepth (ohne Destillation)8.89M0.015s2.2324.8970.1140.887
XD-RCDepth (XD2-KD)8.89M0.015s2.0544.6760.1020.901

Wichtigste Erkenntnisse

  1. Parametereffizenz: XD-RCDepth reduziert die Parameterzahl um 29,7% gegenüber LiRCDepth
  2. Geschwindigkeitssteigerung: Laufzeit sinkt von 0.069s auf 0.015s, erreicht 15 FPS
  3. Destillationseffekt: Im Vergleich zur Version ohne Destillation verbessert sich MAE um 7,91%, 7,96% bzw. 7,97% bei Entfernungen von 50m, 70m bzw. 80m

Ablationsstudien

Vergleich von Fusionsmethoden

FusionsmethodeParameterMAERMSEAbsRelδ1
Addition8.74M2.2484.9030.1150.886
Verkettung10.94M2.2084.8020.1140.888
Aufmerksamkeit9.48M2.2664.9010.1150.885
FiLM8.89M2.2324.8970.1140.887

Analyse von Destillationskomponenten

X-KDD2-KDMAERMSEAbsRelδ1
--2.2324.8970.1140.887
-2.1144.7560.1080.892
-2.1324.7810.1070.891
2.0544.6760.1020.901

Qualitative Analyse

  1. Tiefenkarten-Qualität: Das destillierte Modell erzeugt schärfere Objektgrenzen und saubere Tiefenunstetigkeiten
  2. Salienzmap-Ausrichtung: Nach X-KD-Training sind die Salienzmap des Schülermodells schärfer und konzentrieren sich stärker auf tiefenrelevante Strukturen

Verwandte Arbeiten

Entwicklung von Tiefenschätzungsmethoden

  1. Monokulare Tiefenschätzung: Vorhersage dichter Tiefenkarten aus RGB-Bildern, aber mit Skalierungsmehrdeutigkeit
  2. LiDAR-Kamera-Fusion: Nutzt spärliche LiDAR-Punktwolken als geometrische Priors
  3. Radar-Kamera-Fusion: Nutzt kostengünstigere und wetterrobustere Millimeterwellen-Radare

Entwicklung der Wissens-Destillation

  1. Klassische Destillation: Von Hinton et al. vorgeschlagene Soft-Label-Destillation
  2. Merkmals-Destillation: Ausrichtung von Merkmalen in mittleren Schichten
  3. Erklärbarkeits-Destillation: Erstmalige Einführung in Aufgaben mit dichter Vorhersage in diesem Papier

Vorteile dieses Papiers

Im Vergleich zu bestehenden Arbeiten zeigt dieses Papier signifikante Verbesserungen in Leichtgewichtigkeit, Echtzeitfähigkeit und Erklärbarkeit.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Leichtgewichtung: Signifikante Reduktion von Parametern und Rechenzeit bei Beibehaltung wettbewerbsfähiger Leistung
  2. Effektive Destillationsstrategien: X-KD und D2-KD ergänzen sich gegenseitig und verbessern die Schülermodell-Leistung erheblich
  3. Praktischer Wert: Erreicht Echtzeitanforderungen und eignet sich für praktische Bereitstellung

Einschränkungen

  1. Abhängigkeit von Radardatenqualität: Die Leistung ist immer noch durch Spärlichkeit und Rauschen der Radarpunktwolke begrenzt
  2. Auswahl von Destillationszielen: Die Auswahl von Grad-CAM-Zielen (z.B. durchschnittliche Tiefe auf Bildebene) kann die Effektivität beeinflussen
  3. Generalisierungsfähigkeit: Hauptsächlich auf spezifischen Datensätzen validiert, die domänenübergreifende Generalisierungsfähigkeit bedarf weiterer Überprüfung

Zukünftige Richtungen

Die Autoren schlagen vor, die Auswirkungen der Auswahl von Grad-CAM-Zielen und alternativen Attributionsziele auf die Qualität der Destillations-Erklärbarkeit und die nachgelagerte Leistung zu untersuchen.

Tiefenbewertung

Stärken

  1. Starke technische Innovation: Erstmalige Einführung von Erklärbarkeit in die Wissens-Destillation von Aufgaben mit dichter Vorhersage, neuartige technische Route
  2. Umfassende Experimente: Vollständige Vergleichs- und Ablationsstudien auf zwei Datensätzen
  3. Hoher praktischer Wert: Signifikante Parameter- und Geschwindigkeitsoptimierung, erfüllt praktische Bereitstellungsanforderungen
  4. Vernünftiges Methodendesign: FiLM-Fusion ist einfach und effektiv, Point-wise DASPP-Leichtgewichtungsdesign ist raffiniert

Mängel

  1. Unzureichende theoretische Analyse: Mangel an tiefgehender theoretischer Analyse, warum Erklärbarkeits-Destillation effektiv ist
  2. Einschränkungen der Ablationsstudien: Unzureichende Analyse der Auswirkungen verschiedener Grad-CAM-Ziele und Temperaturparameter
  3. Begrenzte Vergleichsspanne: Hauptsächlich Vergleich mit Radar-Kamera-Methoden, mangelnde Vergleiche mit anderen leichten Tiefenschätzungsmethoden

Einfluss

  1. Akademischer Beitrag: Eröffnet neue Richtungen für die Wissens-Destillation von Aufgaben mit dichter Vorhersage
  2. Praktischer Wert: Bietet praktikable Lösungen für Echtzeittiefenschätzung beim autonomen Fahren
  3. Reproduzierbarkeit: Klare Methodenbeschreibung mit ausreichenden Implementierungsdetails

Anwendungsszenarien

  1. Autonomes Fahren: Echtzeittiefenschätzung in ressourcenbeschränkten fahrzeuggestützten Systemen
  2. Mobile Robotik: Szenarien, die leichte multimodale Wahrnehmung erfordern
  3. Edge-Computing: Anwendungen mit begrenzten Rechenressourcen, aber Bedarf an präzisen Tiefensinformationen

Referenzen

Das Papier zitiert wichtige Arbeiten in den Bereichen Tiefenschätzung, Wissens-Destillation und erklärbarer KI, einschließlich:

  • Hinton et al. (2015): Grundlegende Arbeiten zur Wissens-Destillation
  • Selvaraju et al. (2019): Grad-CAM-Visualisierungsmethode
  • Caesar et al. (2020): nuScenes-Datensatz
  • Sowie mehrere neueste Forschungsarbeiten zur Radar-Kamera-Fusion

Gesamtbewertung: Dies ist ein Papier mit hoher technischer Qualität, das wertvolle Beiträge im Bereich der leichten multimodalen Tiefenschätzung leistet. Die Methode ist innovativ, die Experimente sind umfassend, und der praktische Wert ist hervorragend. Es bietet hilfreiche Referenzen für Forschung und Anwendungen in verwandten Bereichen.