XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation
Sun, Wang, Peng et al.
Depth estimation remains central to autonomous driving, and radar-camera fusion offers robustness in adverse conditions by providing complementary geometric cues. In this paper, we present XD-RCDepth, a lightweight architecture that reduces the parameters by 29.7% relative to the state-of-the-art lightweight baseline while maintaining comparable accuracy. To preserve performance under compression and enhance interpretability, we introduce two knowledge-distillation strategies: an explainability-aligned distillation that transfers the teacher's saliency structure to the student, and a depth-distribution distillation that recasts depth regression as soft classification over discretized bins. Together, these components reduce the MAE compared with direct training with 7.97% and deliver competitive accuracy with real-time efficiency on nuScenes and ZJU-4DRadarCam datasets.
academic
XD-RCDepth: Leichte Radar-Kamera-Tiefenschätzung mit Erklärbarkeits-ausgerichteter und Verteilungs-bewusster Destillation
In diesem Papier wird XD-RCDepth vorgestellt, eine leichte Radar-Kamera-Tiefenschätzungsarchitektur, die 29,7% weniger Parameter als das modernste leichte Basis-Modell aufweist und gleichzeitig vergleichbare Genauigkeit beibehält. Um die Leistung unter Modellkompression zu erhalten und die Erklärbarkeit zu verbessern, führen die Autoren zwei Wissens-Destillationsstrategien ein: Erklärbarkeits-ausgerichtete Destillation (überträgt die Salienzstrukturen des Lehrermodells auf das Schülermodell) und Tiefenverteilungs-Destillation (reformuliert die Tiefenregression als weiche Klassifikation auf diskretisierten Bins). Diese Komponenten reduzieren den MAE um 7,97% im Vergleich zum direkten Training und erreichen wettbewerbsfähige Genauigkeit mit Echtzeit-Effizienz auf den Datensätzen nuScenes und ZJU-4DRadarCam.
Bestehende Radar-Kamera-Tiefenschätzungsmethoden haben folgende Probleme:
Hohe Rechenkomplexität: Die meisten verwenden zwei-stufige Pipelines, die zunächst spärliche Radarpunktwolken verdichten und dann Tiefenvorhersage durchführen
Mängel im Destillationsdesign: Beispielsweise erfordert die Cross-Modal-Merkmals-Destillation von LiRCDepth Kanal-Ausrichtung, was das Schülernetzwerk-Design einschränkt
Mangel an Erklärbarkeit: Bestehende Destillationssignale sind oberflächlich und befassen sich nicht mit der Modell-Erklärbarkeit
Erstmalige Einführung von Erklärbarkeit in die Wissens-Destillation von Aufgaben mit dichter Vorhersage: Durch Grad-CAM generierte Salienzmap-Destillation
Erreichung von Echtzeitfähigkeit: Erreicht 15 FPS bei Beibehaltung wettbewerbsfähiger Genauigkeit
wobei fr und fi Radar- bzw. Bildmerkmale sind, γ und β kanalweise Skalierungs- und Versatzkoeffizienten sind
Point-wise DASPP: Erweiterte dichte Atrous-Spatial-Pyramid-Pooling mit Point-Convolution-Zweigen und Atrous-Sampling mit verschiedenen Dilatationsraten
Tiefenkarten-Qualität: Das destillierte Modell erzeugt schärfere Objektgrenzen und saubere Tiefenunstetigkeiten
Salienzmap-Ausrichtung: Nach X-KD-Training sind die Salienzmap des Schülermodells schärfer und konzentrieren sich stärker auf tiefenrelevante Strukturen
Abhängigkeit von Radardatenqualität: Die Leistung ist immer noch durch Spärlichkeit und Rauschen der Radarpunktwolke begrenzt
Auswahl von Destillationszielen: Die Auswahl von Grad-CAM-Zielen (z.B. durchschnittliche Tiefe auf Bildebene) kann die Effektivität beeinflussen
Generalisierungsfähigkeit: Hauptsächlich auf spezifischen Datensätzen validiert, die domänenübergreifende Generalisierungsfähigkeit bedarf weiterer Überprüfung
Die Autoren schlagen vor, die Auswirkungen der Auswahl von Grad-CAM-Zielen und alternativen Attributionsziele auf die Qualität der Destillations-Erklärbarkeit und die nachgelagerte Leistung zu untersuchen.
Starke technische Innovation: Erstmalige Einführung von Erklärbarkeit in die Wissens-Destillation von Aufgaben mit dichter Vorhersage, neuartige technische Route
Umfassende Experimente: Vollständige Vergleichs- und Ablationsstudien auf zwei Datensätzen
Hoher praktischer Wert: Signifikante Parameter- und Geschwindigkeitsoptimierung, erfüllt praktische Bereitstellungsanforderungen
Vernünftiges Methodendesign: FiLM-Fusion ist einfach und effektiv, Point-wise DASPP-Leichtgewichtungsdesign ist raffiniert
Das Papier zitiert wichtige Arbeiten in den Bereichen Tiefenschätzung, Wissens-Destillation und erklärbarer KI, einschließlich:
Hinton et al. (2015): Grundlegende Arbeiten zur Wissens-Destillation
Selvaraju et al. (2019): Grad-CAM-Visualisierungsmethode
Caesar et al. (2020): nuScenes-Datensatz
Sowie mehrere neueste Forschungsarbeiten zur Radar-Kamera-Fusion
Gesamtbewertung: Dies ist ein Papier mit hoher technischer Qualität, das wertvolle Beiträge im Bereich der leichten multimodalen Tiefenschätzung leistet. Die Methode ist innovativ, die Experimente sind umfassend, und der praktische Wert ist hervorragend. Es bietet hilfreiche Referenzen für Forschung und Anwendungen in verwandten Bereichen.