2025-11-23T02:55:16.956845

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion

Xu, Lin, Zhou et al.
Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc
academic

Previsione dell'Occupazione Guidata da Informazioni Complementari tramite Fusione di Rappresentazioni Multi-Livello

Informazioni Fondamentali

  • ID Articolo: 2510.13198
  • Titolo: Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
  • Autori: Rongtao Xu, Jinzhou Lin, Jialei Zhou, Jiahua Dong, Changwei Wang, Ruisheng Wang, Li Guo, Shibiao Xu, Xiaodan Liang
  • Classificazione: cs.CV (Computer Vision)
  • Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.13198v1
  • Link Codice: https://github.com/VitaLemonTea1/CIGOcc

Riassunto

La previsione dell'occupazione basata su telecamera è un metodo prevalente nella percezione 3D per la guida autonoma, con l'obiettivo di dedurre la geometria della scena 3D completa e le informazioni semantiche da immagini 2D. I metodi esistenti migliorano principalmente le prestazioni attraverso modifiche strutturali (come reti backbone leggere e framework a cascata complessi), ma con effetti limitati. Pochi studi hanno esplorato la fusione di rappresentazioni, portando a un sottoutilizzo della ricca diversità di caratteristiche nelle immagini 2D. Motivati da ciò, proponiamo CIGOcc, un framework di previsione dell'occupazione a due stadi basato sulla fusione di rappresentazioni multi-livello. CIGOcc estrae caratteristiche di segmentazione, grafiche e di profondità dall'immagine di input e introduce un meccanismo di fusione multi-livello deformabile per fondere questi tre tipi di caratteristiche multi-livello. Inoltre, CIGOcc incorpora conoscenze distillate da SAM per migliorare ulteriormente la precisione della previsione. Senza aumentare i costi di addestramento, CIGOcc raggiunge prestazioni all'avanguardia sul benchmark SemanticKITTI.

Contesto di Ricerca e Motivazione

Problema di Ricerca

Il problema centrale affrontato in questo articolo è il completamento semantico della scena 3D basato su telecamera (Semantic Scene Completion, SSC), in particolare come ricostruire accuratamente le regioni occluse da immagini 2D mantenendo la coerenza geometrica tra telecamere.

Importanza del Problema

  1. Esigenze della Guida Autonoma: SSC è una soluzione chiave per la percezione 3D nella guida autonoma e nella robotica
  2. Efficienza dei Costi: I metodi basati su telecamera sono più convenienti rispetto ai sensori come LiDAR
  3. Sfide Tecniche: La ricostruzione accurata delle regioni occluse e il mantenimento della coerenza geometrica rimangono colli di bottiglia tecnologici

Limitazioni dei Metodi Esistenti

  1. Limitazioni dell'Ottimizzazione Strutturale: I metodi esistenti si concentrano principalmente sull'ottimizzazione dell'architettura di rete, trascurando l'esplorazione e l'utilizzo completo delle informazioni dell'immagine
  2. Utilizzo Insufficiente delle Caratteristiche: Si concentrano principalmente su caratteristiche grafiche (posizione, dimensione, colore, forma), fornendo solo informazioni semantiche parziali
  3. Mancanza di Fusione Multi-Livello: Mancano ricerche sulla fusione di rappresentazioni multi-livello per migliorare la capacità del modello di comprendere le immagini 2D

Motivazione della Ricerca

Gli autori ritengono che il nucleo della percezione 3D sia la comprensione delle relazioni spaziali tridimensionali, pertanto è necessario:

  • Caratteristiche di Profondità: Come caratteristiche di basso livello, portano informazioni di distorsione e profondità, migliorando la comprensione delle relazioni spaziali
  • Caratteristiche di Segmentazione: Sfruttare le forti capacità di rappresentazione semantica dei grandi modelli fondamentali (come SAM)
  • Fusione Complementare: Fondere efficacemente caratteristiche di diversi livelli per migliorare la comprensione delle immagini 2D

Contributi Principali

  1. Framework CIGOcc: Propone un nuovo framework a due stadi che utilizza la fusione di rappresentazioni multi-livello per risolvere il problema della bassa precisione, realizzando una ricostruzione 2D-to-3D accurata, in particolare in scenari a lunga distanza
  2. Meccanismo di Fusione Multi-Livello Deformabile: Propone un nuovo meccanismo di fusione che fonde adattivamente e efficacemente le informazioni di profondità e semantiche, garantendo una ricostruzione 3D più completa e accurata
  3. Prestazioni all'Avanguardia: Raggiunge prestazioni all'avanguardia nel compito SSC basato su telecamera, dimostrando efficacia e robustezza in scenari reali complessi

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Singola immagine RGB I ∈ R^(C×H×W) Output: Mappa voxel semantica Y ∈ R^(C×X×Y×Z), dove ogni voxel è classificato come una delle 20 classi semantiche Obiettivo: Dedurre la geometria della scena 3D completa e le informazioni semantiche da immagini 2D

Architettura del Modello

CIGOcc adotta un'architettura a due stadi:

Primo Stadio: Rete di Fusione Multi-Modale Deformabile (DMFNet)

  1. Estrazione delle Caratteristiche:
    • Utilizza MobileStereoNet per generare la mappa di profondità D_i ∈ R^(C×H×W)
    • Utilizza Grounded-SAM per estrarre caratteristiche semantiche F_i ∈ R^(C×H×W)
  2. Costruzione dello Spazio Voxel Iniziale:
    F_raw = DMF(F_i^(C×H×W), D_i^(C×H×W))
    

    dove DMF è un metodo di fusione migliorato basato su LMSCNet
  3. Previsione della Testa di Segmentazione:
    F_seg = SegHead(F_raw)
    

Secondo Stadio: Rete di Generazione Voxel Guidata da Informazioni Complementari (CIGNet)

  1. Estrazione delle Caratteristiche dell'Immagine: Utilizza ResNet50 per estrarre caratteristiche F_2D ∈ R^(×H×W×D)
  2. Attenzione Incrociata Deformabile:
    Q_s^3d = DCA(F_2D, Q_d)
    

    dove Q_d è la query di classificazione binaria ottenuta dal primo stadio
  3. Auto-Attenzione Deformabile:
    V̂_s^3d = DSA(Q̂_s^3d, Q̂_s^3d)
    
  4. Modulo di Distillazione della Conoscenza:
    F_sem^2d = θ_s(F_2D)
    

Punti di Innovazione Tecnica

  1. Fusione di Caratteristiche Multi-Livello: Fonde sistematicamente per la prima volta caratteristiche di segmentazione di alto livello, caratteristiche grafiche di livello medio e caratteristiche di profondità di basso livello
  2. Distillazione della Conoscenza da Grandi Modelli: Distilla efficacemente la conoscenza di Grounded-SAM nel compito di previsione dell'occupazione
  3. Meccanismo di Attenzione Deformabile: Utilizza l'attenzione deformabile per elaborare immagini ad alta risoluzione, riducendo la complessità computazionale
  4. Strategia di Addestramento a Due Stadi: Ottimizza in modo graduale la fusione di caratteristiche di diversi livelli

Configurazione Sperimentale

Dataset

Dataset SemanticKITTI:

  • Annotazioni di occupazione semantica densa basate sul benchmark KITTI Odometry
  • Copertura: 0-51,2 metri in avanti, ±25,6 metri lateralmente, altezza -2 a 4,4 metri
  • Griglia voxel: 256×256×32, risoluzione 0,2 metri/voxel
  • Annotazioni di 20 classi semantiche

Metriche di Valutazione

  • Metrica Principale: Intersezione Media su Unione (mIoU)
  • Metriche Ausiliarie: IoU, Precisione, Richiamo
  • Valutazione Speciale: Prestazioni su piccoli oggetti, prestazioni su classi a coda lunga

Metodi di Confronto

Include LMSCNet, 3DSketch, AICNet, JS3C-Net, MonoScene, VoxFormer, OccFormer, SurroundOcc, TPVFormer, SparseOcc, MonoOcc e altri metodi mainstream

Dettagli di Implementazione

  • Hardware: 4×GPU RTX 3090
  • Tempo di Addestramento: 20 epoch per stadio, totale 4,5+4,5=9 ore
  • Pesi Preaddestrati: ViT-H HQ-SAM per Grounded-SAM, MSNet3D SFDS per MobileStereoNet
  • Rete Backbone: ResNet50

Risultati Sperimentali

Risultati Principali

Confronto delle prestazioni sul set di test SemanticKITTI:

MetodomIoUMiglioramento rispetto a VoxFormer-T
VoxFormer-T13,41%-
CIGOcc14,90%+1,49%

Miglioramenti Chiave delle Prestazioni:

  • mIoU Complessivo: 14,90% (SOTA)
  • Prestazioni su Piccoli Oggetti: Miglioramento di +19,28%
  • Prestazioni su Classi a Coda Lunga: Miglioramento di +35,20%

Prestazioni per Diversi Intervalli di Distanza

Intervallo di DistanzamIoU CIGOccmIoU VoxFormer-TMiglioramento
12,8m23,81%21,55%+2,26%
25,6m20,35%18,42%+1,93%
51,2m14,90%13,35%+1,55%

Esperimenti di Ablazione

ComponentemIoUImpatto
Modello Completo14,49%-
Senza Perdita Semantica Ausiliaria14,10%-0,39%
Senza Caratteristiche Fuse13,85%-0,64%
Senza Grounded-SAM13,63%-0,86%

Analisi dei Casi

I risultati qualitativi mostrano che CIGOcc eccelle nei seguenti aspetti:

  • Segmentazione voxel della scena più precisa
  • Minore sovrapposizione di voxel
  • Previsione stradale più accurata
  • Migliore riconoscimento di piccoli oggetti e classi a coda lunga

Lavori Correlati

Completamento Semantico della Scena (SSC)

  • SSCNet: Utilizza CNN 3D per elaborare mappe di profondità sparse
  • EsscNet: Integra caratteristiche multi-scala
  • VoxFormer: Adotta architettura Transformer a due stadi

Percezione 3D Basata su Telecamera

  • Stima della Profondità Monoculare: Monodepth, Monodepth2
  • Transformer per Rilevamento: Modelli DETR
  • Metodi Multi-Vista: BEVFormer e altri

Previsione dell'Occupazione 3D

  • Architetture Transformer: VoxFormer, FB-Occ
  • Fusione di Caratteristiche: Elaborazione bidirezionale di caratteristiche LSS+BEVFormer

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia della Fusione Multi-Livello: La fusione sistematica di caratteristiche di diversi livelli migliora significativamente le prestazioni
  2. Trasferimento della Conoscenza da Grandi Modelli: La conoscenza di Grounded-SAM viene trasferita con successo al compito di previsione dell'occupazione
  3. Efficienza Computazionale: Raggiunge prestazioni SOTA mantenendo l'efficienza

Limitazioni

  1. Risorse di Addestramento: Richiede addestramento a due stadi, aumentando il tempo di addestramento (+1 ora)
  2. Consumo di Memoria: Aumenta il consumo di memoria di 0,4G rispetto al metodo di base
  3. Dipendenza da Modelli Preaddestrati: Dipende dai pesi preaddestrati di Grounded-SAM e MobileStereoNet

Direzioni Future

  1. Ottimizzazione End-to-End: Esplorare strategie di addestramento a stadio singolo
  2. Fusione di Più Modalità: Combinare informazioni da altri sensori
  3. Applicazioni in Tempo Reale: Ottimizzare ulteriormente la velocità di inferenza

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo approccio sistematico alla fusione di rappresentazioni multi-livello per la previsione dell'occupazione
  2. Metodologia Razionale: Analisi teorica chiara e analisi completa della complementarità delle caratteristiche di diversi livelli
  3. Esperimenti Completi: Esperimenti di ablazione e confronto completi che verificano l'efficacia del metodo
  4. Prestazioni Eccellenti: Raggiunge SOTA in più metriche, in particolare per piccoli oggetti e classi a coda lunga

Carenze

  1. Complessità Computazionale: L'addestramento a due stadi aumenta la complessità dell'addestramento
  2. Forte Dipendenza: Dipende fortemente da grandi modelli preaddestrati
  3. Analisi della Generalizzazione: Manca la verifica su altri dataset
  4. Analisi Teorica: Manca un'analisi teorica approfondita del perché questa strategia di fusione sia ottimale

Impatto

  1. Valore Accademico: Fornisce nuove direzioni di ricerca nel campo della previsione dell'occupazione
  2. Valore Pratico: Ha potenziale di applicazione diretta negli scenari di guida autonoma
  3. Riproducibilità: Fornisce codice e dettagli di implementazione dettagliati

Scenari Applicabili

  1. Guida Autonoma: Percezione dell'ambiente del veicolo e pianificazione del percorso
  2. Navigazione Robotica: Comprensione dell'ambiente interno ed esterno
  3. Applicazioni AR/VR: Ricostruzione e comprensione della scena 3D
  4. Pianificazione Urbana: Modellazione urbana 3D basata su visione

Riferimenti Bibliografici

Questo articolo cita 46 riferimenti correlati, che coprono principalmente:

  • Lavori fondamentali sul completamento semantico della scena (SSCNet, LMSCNet, ecc.)
  • Applicazioni dell'architettura Transformer (VoxFormer, BEVFormer, ecc.)
  • Grandi modelli di visione (SAM, Grounded-SAM, ecc.)
  • Lavori correlati sulla stima della profondità e percezione 3D

Sintesi: CIGOcc è un lavoro con importanti contributi nel campo della previsione dell'occupazione, che attraverso una strategia innovativa di fusione di caratteristiche multi-livello e distillazione della conoscenza da grandi modelli, migliora significativamente le prestazioni mantenendo l'efficienza computazionale. Questo lavoro fornisce una nuova direzione di ricerca per la percezione 3D basata su visione, con importante valore accademico e pratico.