2025-11-23T02:55:16.956845

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion

Xu, Lin, Zhou et al.

Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc

academic

Prédiction d'Occupation Guidée par Informations Complémentaires via Fusion de Représentations Multi-Niveaux

Informations Fondamentales

ID de l'article: 2510.13198
Titre: Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
Auteurs: Rongtao Xu, Jinzhou Lin, Jialei Zhou, Jiahua Dong, Changwei Wang, Ruisheng Wang, Li Guo, Shibiao Xu, Xiaodan Liang
Classification: cs.CV (Vision par Ordinateur)
Date de publication: 15 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.13198v1
Lien du code: https://github.com/VitaLemonTea1/CIGOcc

Résumé

La prédiction d'occupation basée sur caméra est une méthode dominante en perception 3D pour la conduite autonome, visant à déduire la géométrie complète de la scène 3D et les informations sémantiques à partir d'images 2D. Les méthodes existantes améliorent principalement les performances par des modifications structurelles (telles que des réseaux de base allégés et des cadres en cascade complexes), mais avec des résultats limités. Peu de recherches explorent la fusion de représentations, ce qui entraîne une sous-utilisation de la riche diversité des caractéristiques dans les images 2D. Motivés par cette observation, nous proposons CIGOcc, un cadre de prédiction d'occupation en deux étapes basé sur la fusion de représentations multi-niveaux. CIGOcc extrait les caractéristiques de segmentation, graphiques et de profondeur des images d'entrée, et introduit un mécanisme de fusion multi-niveaux déformable pour fusionner ces trois types de caractéristiques multi-niveaux. De plus, CIGOcc intègre les connaissances distillées de SAM pour améliorer davantage la précision de la prédiction. Sans augmenter le coût d'entraînement, CIGOcc atteint les performances de pointe sur l'ensemble de référence SemanticKITTI.

Contexte et Motivation de la Recherche

Problème de Recherche

Le problème fondamental abordé dans cet article est la complétude sémantique de scène 3D basée sur caméra (Semantic Scene Completion, SSC), en particulier comment reconstruire avec précision les régions occultées à partir d'images 2D tout en maintenant la cohérence géométrique inter-caméras.

Importance du Problème

Besoins de la conduite autonome: SSC est une solution clé pour la perception 3D en conduite autonome et robotique
Rentabilité: Les méthodes basées sur caméra offrent un meilleur rapport coût-efficacité par rapport aux capteurs comme le LiDAR
Défis technologiques: La reconstruction précise des régions occultées et le maintien de la cohérence géométrique restent des goulots d'étranglement technologiques

Limitations des Méthodes Existantes

Limitations de l'optimisation structurelle: Les méthodes existantes se concentrent principalement sur l'optimisation de l'architecture réseau, négligeant l'exploration et l'utilisation complètes des informations d'image
Utilisation insuffisante des caractéristiques: Accent principal sur les caractéristiques graphiques (position, taille, couleur, forme), fournissant seulement des informations sémantiques partielles
Absence de fusion multi-niveaux: Manque de recherches visant à améliorer la capacité du modèle à comprendre les images 2D sous l'angle de la fusion de représentations multi-niveaux

Motivation de la Recherche

Les auteurs considèrent que le cœur de la perception 3D réside dans la compréhension des relations spatiales tridimensionnelles, nécessitant donc:

Caractéristiques de profondeur: En tant que caractéristiques de bas niveau, elles transportent des informations de distorsion et de profondeur, améliorant la compréhension des relations spatiales
Caractéristiques de segmentation: Exploitant la puissante capacité de représentation sémantique des grands modèles de base (tels que SAM)
Fusion complémentaire: Fusion efficace de différents niveaux de caractéristiques pour améliorer la compréhension des images 2D

Contributions Principales

Cadre CIGOcc: Propose un nouveau cadre en deux étapes utilisant la fusion de représentations multi-niveaux pour résoudre le problème de faible précision cible, réalisant une reconstruction 2D-vers-3D précise, particulièrement dans les scènes éloignées
Mécanisme de Fusion Multi-Niveaux Déformable: Propose un nouveau mécanisme de fusion qui fusionne de manière adaptative et efficace les informations de profondeur et sémantiques, garantissant une reconstruction 3D plus complète et précise
Performance de Pointe: Atteint les performances de pointe sur la tâche SSC basée sur caméra, démontrant l'efficacité et la robustesse dans des scènes réelles complexes

Détails de la Méthode

Définition de la Tâche

Entrée: Image RGB unique I ∈ R^(C×H×W) Sortie: Carte de voxels sémantique Y^(C×X×Y×Z), où chaque voxel est classé dans l'une des 20 catégories sémantiques Objectif: Déduire la géométrie complète de la scène 3D et les informations sémantiques à partir d'une image 2D

Architecture du Modèle

CIGOcc adopte une architecture en deux étapes:

Première Étape: Réseau de Fusion Multimodale Déformable (DMFNet)

Extraction de Caractéristiques:
- Utilise MobileStereoNet pour générer la carte de profondeur D_i ∈ R^(C×H×W)
- Utilise Grounded-SAM pour extraire les caractéristiques sémantiques F_i ∈ R^(C×H×W)
Construction de l'Espace de Voxels Initial:
```
F_raw = DMF(F_i^(C×H×W), D_i^(C×H×W))
```
où DMF est une méthode de fusion améliorée basée sur LMSCNet
Prédiction de la Tête de Segmentation:
```
F_seg = SegHead(F_raw)
```

Deuxième Étape: Réseau de Génération de Voxels Guidé par Informations Complémentaires (CIGNet)

Extraction de Caractéristiques d'Image: Utilise ResNet50 pour extraire les caractéristiques F_2D ∈ R^(×H×W×D)
Attention Croisée Déformable:
```
Q_s^3d = DCA(F_2D, Q_d)
```
où Q_d est la requête de classification binaire obtenue de la première étape
Auto-Attention Déformable:
```
V̂_s^3d = DSA(Q̂_s^3d, Q̂_s^3d)
```
Module de Distillation de Connaissances:
```
F_sem^2d = θ_s(F_2D)
```

Points d'Innovation Technique

Fusion de Caractéristiques Multi-Niveaux: Première fusion systématique de caractéristiques de segmentation de haut niveau, caractéristiques graphiques de niveau intermédiaire et caractéristiques de profondeur de bas niveau
Distillation de Connaissances de Grands Modèles: Distille efficacement les connaissances de Grounded-SAM vers la tâche de prédiction d'occupation
Mécanisme d'Attention Déformable: Utilise l'attention déformable pour traiter les images haute résolution, réduisant la complexité computationnelle
Stratégie d'Entraînement en Deux Étapes: Optimise par étapes la fusion de différents niveaux de caractéristiques

Configuration Expérimentale

Ensemble de Données

Ensemble de Données SemanticKITTI:

Annotations d'occupation sémantique dense basées sur l'ensemble de référence KITTI Odometry
Plage de couverture: 0-51,2 mètres vers l'avant, ±25,6 mètres latéralement, hauteur -2 à 4,4 mètres
Grille de voxels: 256×256×32, résolution 0,2 mètre/voxel
Annotation de 20 catégories sémantiques

Métriques d'Évaluation

Métrique principale: Intersection sur Union moyenne (mIoU)
Métriques auxiliaires: IoU, Précision, Rappel
Évaluation spéciale: Performance sur petits objets, performance sur objets à queue longue

Méthodes de Comparaison

Incluent LMSCNet, 3DSketch, AICNet, JS3C-Net, MonoScene, VoxFormer, OccFormer, SurroundOcc, TPVFormer, SparseOcc, MonoOcc et autres méthodes de pointe

Détails d'Implémentation

Matériel: 4×GPU RTX 3090
Temps d'entraînement: 20 epochs par étape, total 4,5+4,5=9 heures
Poids pré-entraînés: ViT-H HQ-SAM pour Grounded-SAM, MSNet3D SFDS pour MobileStereoNet
Réseau de base: ResNet50

Résultats Expérimentaux

Résultats Principaux

Comparaison des performances sur l'ensemble de test SemanticKITTI:

Méthode	mIoU	Amélioration par rapport à VoxFormer-T
VoxFormer-T	13,41%	-
CIGOcc	14,90%	+1,49%

Améliorations Clés de Performance:

mIoU global: 14,90% (SOTA)
Performance sur petits objets: Amélioration de +19,28%
Performance sur objets à queue longue: Amélioration de +35,20%

Performance selon les Plages de Distance

Plage de Distance	CIGOcc mIoU	VoxFormer-T mIoU	Amélioration
12,8m	23,81%	21,55%	+2,26%
25,6m	20,35%	18,42%	+1,93%
51,2m	14,90%	13,35%	+1,55%

Étude d'Ablation

Composant	mIoU	Impact
Modèle complet	14,49%	-
Sans perte d'assistance sémantique	14,10%	-0,39%
Sans caractéristiques fusionnées	13,85%	-0,64%
Sans Grounded-SAM	13,63%	-0,86%

Analyse de Cas

Les résultats qualitatifs montrent que CIGOcc excelle dans les domaines suivants:

Segmentation de voxels de scène plus précise
Moins de chevauchement de voxels
Prédiction de route plus précise
Meilleure reconnaissance des petits objets et des catégories à queue longue

Travaux Connexes

Complétude Sémantique de Scène (SSC)

SSCNet: Utilise CNN 3D pour traiter les cartes de profondeur creuses
EsscNet: Intègre les caractéristiques multi-échelles
VoxFormer: Adopte une architecture Transformer en deux étapes

Perception 3D Basée sur Caméra

Estimation de profondeur monoculaire: Monodepth, Monodepth2
Transformers de Détection: Modèles DETR
Méthodes Multi-Vues: BEVFormer et autres

Prédiction d'Occupation 3D

Architecture Transformer: VoxFormer, FB-Occ
Fusion de Caractéristiques: Traitement bidirectionnel des caractéristiques LSS+BEVFormer

Conclusion et Discussion

Conclusions Principales

Efficacité de la Fusion Multi-Niveaux: La fusion systématique de caractéristiques de différents niveaux améliore significativement les performances
Transfert de Connaissances de Grands Modèles: Les connaissances de Grounded-SAM se transfèrent avec succès vers la tâche de prédiction d'occupation
Efficacité Computationnelle: Atteint les performances SOTA tout en maintenant l'efficacité

Limitations

Ressources d'Entraînement: Nécessite un entraînement en deux étapes, augmentant légèrement le temps d'entraînement (+1 heure)
Consommation Mémoire: Augmente de 0,4G de mémoire GPU par rapport à la méthode de base
Dépendance aux Modèles Pré-entraînés: Dépend des poids pré-entraînés de Grounded-SAM et MobileStereoNet

Directions Futures

Optimisation Bout-à-Bout: Explorer les stratégies d'entraînement en une seule étape
Fusion de Plus de Modalités: Combiner d'autres informations de capteurs
Applications en Temps Réel: Optimiser davantage la vitesse d'inférence

Évaluation Approfondie

Avantages

Forte Innovativité: Première approche systématique de la prédiction d'occupation sous l'angle de la fusion de représentations multi-niveaux
Méthode Rationnelle: Analyse théorique claire, analyse approfondie de la complémentarité des caractéristiques de différents niveaux
Expériences Complètes: Études d'ablation et expériences de comparaison complètes validant l'efficacité de la méthode
Performance Exceptionnelle: Atteint SOTA sur plusieurs métriques, particulièrement sur les petits objets et les catégories à queue longue

Insuffisances

Complexité Computationnelle: L'entraînement en deux étapes augmente la complexité d'entraînement
Forte Dépendance: Dépend fortement des grands modèles pré-entraînés
Analyse de Généralisation: Manque de validation sur d'autres ensembles de données
Analyse Théorique: Manque d'analyse théorique approfondie sur pourquoi cette stratégie de fusion est optimale

Valeur d'Impact

Valeur Académique: Fournit de nouvelles perspectives de recherche pour le domaine de la prédiction d'occupation
Valeur Pratique: Possède un potentiel d'application directe dans les scénarios de conduite autonome
Reproductibilité: Fournit le code et les détails d'implémentation détaillés

Scénarios d'Application

Conduite Autonome: Perception de l'environnement du véhicule et planification de trajectoire
Navigation Robotique: Compréhension de l'environnement intérieur et extérieur
Applications AR/VR: Reconstruction et compréhension de scènes 3D
Planification Urbaine: Modélisation urbaine 3D basée sur la vision

Références

Cet article cite 47 références connexes, couvrant principalement:

Travaux fondamentaux en complétude sémantique de scène (SSCNet, LMSCNet, etc.)
Applications d'architecture Transformer (VoxFormer, BEVFormer, etc.)
Grands modèles de vision (SAM, Grounded-SAM, etc.)
Travaux connexes en estimation de profondeur et perception 3D

Résumé: CIGOcc est un travail présentant des contributions importantes dans le domaine de la prédiction d'occupation, améliorant significativement les performances tout en maintenant l'efficacité computationnelle grâce à une stratégie innovante de fusion de caractéristiques multi-niveaux et à la distillation de connaissances de grands modèles. Ce travail fournit une nouvelle direction de recherche pour la perception 3D basée sur la vision, possédant une valeur académique et pratique importante.