Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
Xu, Lin, Zhou et al.
Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc
academic
Previsione dell'Occupazione Guidata da Informazioni Complementari tramite Fusione di Rappresentazioni Multi-Livello
La previsione dell'occupazione basata su telecamera è un metodo prevalente nella percezione 3D per la guida autonoma, con l'obiettivo di dedurre la geometria della scena 3D completa e le informazioni semantiche da immagini 2D. I metodi esistenti migliorano principalmente le prestazioni attraverso modifiche strutturali (come reti backbone leggere e framework a cascata complessi), ma con effetti limitati. Pochi studi hanno esplorato la fusione di rappresentazioni, portando a un sottoutilizzo della ricca diversità di caratteristiche nelle immagini 2D. Motivati da ciò, proponiamo CIGOcc, un framework di previsione dell'occupazione a due stadi basato sulla fusione di rappresentazioni multi-livello. CIGOcc estrae caratteristiche di segmentazione, grafiche e di profondità dall'immagine di input e introduce un meccanismo di fusione multi-livello deformabile per fondere questi tre tipi di caratteristiche multi-livello. Inoltre, CIGOcc incorpora conoscenze distillate da SAM per migliorare ulteriormente la precisione della previsione. Senza aumentare i costi di addestramento, CIGOcc raggiunge prestazioni all'avanguardia sul benchmark SemanticKITTI.
Il problema centrale affrontato in questo articolo è il completamento semantico della scena 3D basato su telecamera (Semantic Scene Completion, SSC), in particolare come ricostruire accuratamente le regioni occluse da immagini 2D mantenendo la coerenza geometrica tra telecamere.
Limitazioni dell'Ottimizzazione Strutturale: I metodi esistenti si concentrano principalmente sull'ottimizzazione dell'architettura di rete, trascurando l'esplorazione e l'utilizzo completo delle informazioni dell'immagine
Utilizzo Insufficiente delle Caratteristiche: Si concentrano principalmente su caratteristiche grafiche (posizione, dimensione, colore, forma), fornendo solo informazioni semantiche parziali
Mancanza di Fusione Multi-Livello: Mancano ricerche sulla fusione di rappresentazioni multi-livello per migliorare la capacità del modello di comprendere le immagini 2D
Gli autori ritengono che il nucleo della percezione 3D sia la comprensione delle relazioni spaziali tridimensionali, pertanto è necessario:
Caratteristiche di Profondità: Come caratteristiche di basso livello, portano informazioni di distorsione e profondità, migliorando la comprensione delle relazioni spaziali
Caratteristiche di Segmentazione: Sfruttare le forti capacità di rappresentazione semantica dei grandi modelli fondamentali (come SAM)
Fusione Complementare: Fondere efficacemente caratteristiche di diversi livelli per migliorare la comprensione delle immagini 2D
Framework CIGOcc: Propone un nuovo framework a due stadi che utilizza la fusione di rappresentazioni multi-livello per risolvere il problema della bassa precisione, realizzando una ricostruzione 2D-to-3D accurata, in particolare in scenari a lunga distanza
Meccanismo di Fusione Multi-Livello Deformabile: Propone un nuovo meccanismo di fusione che fonde adattivamente e efficacemente le informazioni di profondità e semantiche, garantendo una ricostruzione 3D più completa e accurata
Prestazioni all'Avanguardia: Raggiunge prestazioni all'avanguardia nel compito SSC basato su telecamera, dimostrando efficacia e robustezza in scenari reali complessi
Input: Singola immagine RGB I ∈ R^(C×H×W)
Output: Mappa voxel semantica Y ∈ R^(C×X×Y×Z), dove ogni voxel è classificato come una delle 20 classi semantiche
Obiettivo: Dedurre la geometria della scena 3D completa e le informazioni semantiche da immagini 2D
Fusione di Caratteristiche Multi-Livello: Fonde sistematicamente per la prima volta caratteristiche di segmentazione di alto livello, caratteristiche grafiche di livello medio e caratteristiche di profondità di basso livello
Distillazione della Conoscenza da Grandi Modelli: Distilla efficacemente la conoscenza di Grounded-SAM nel compito di previsione dell'occupazione
Meccanismo di Attenzione Deformabile: Utilizza l'attenzione deformabile per elaborare immagini ad alta risoluzione, riducendo la complessità computazionale
Strategia di Addestramento a Due Stadi: Ottimizza in modo graduale la fusione di caratteristiche di diversi livelli
Efficacia della Fusione Multi-Livello: La fusione sistematica di caratteristiche di diversi livelli migliora significativamente le prestazioni
Trasferimento della Conoscenza da Grandi Modelli: La conoscenza di Grounded-SAM viene trasferita con successo al compito di previsione dell'occupazione
Efficienza Computazionale: Raggiunge prestazioni SOTA mantenendo l'efficienza
Grandi modelli di visione (SAM, Grounded-SAM, ecc.)
Lavori correlati sulla stima della profondità e percezione 3D
Sintesi: CIGOcc è un lavoro con importanti contributi nel campo della previsione dell'occupazione, che attraverso una strategia innovativa di fusione di caratteristiche multi-livello e distillazione della conoscenza da grandi modelli, migliora significativamente le prestazioni mantenendo l'efficienza computazionale. Questo lavoro fornisce una nuova direzione di ricerca per la percezione 3D basata su visione, con importante valore accademico e pratico.