2025-11-23T02:55:16.956845

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion

Xu, Lin, Zhou et al.
Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc
academic

Prédiction d'Occupation Guidée par Informations Complémentaires via Fusion de Représentations Multi-Niveaux

Informations Fondamentales

  • ID de l'article: 2510.13198
  • Titre: Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
  • Auteurs: Rongtao Xu, Jinzhou Lin, Jialei Zhou, Jiahua Dong, Changwei Wang, Ruisheng Wang, Li Guo, Shibiao Xu, Xiaodan Liang
  • Classification: cs.CV (Vision par Ordinateur)
  • Date de publication: 15 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.13198v1
  • Lien du code: https://github.com/VitaLemonTea1/CIGOcc

Résumé

La prédiction d'occupation basée sur caméra est une méthode dominante en perception 3D pour la conduite autonome, visant à déduire la géométrie complète de la scène 3D et les informations sémantiques à partir d'images 2D. Les méthodes existantes améliorent principalement les performances par des modifications structurelles (telles que des réseaux de base allégés et des cadres en cascade complexes), mais avec des résultats limités. Peu de recherches explorent la fusion de représentations, ce qui entraîne une sous-utilisation de la riche diversité des caractéristiques dans les images 2D. Motivés par cette observation, nous proposons CIGOcc, un cadre de prédiction d'occupation en deux étapes basé sur la fusion de représentations multi-niveaux. CIGOcc extrait les caractéristiques de segmentation, graphiques et de profondeur des images d'entrée, et introduit un mécanisme de fusion multi-niveaux déformable pour fusionner ces trois types de caractéristiques multi-niveaux. De plus, CIGOcc intègre les connaissances distillées de SAM pour améliorer davantage la précision de la prédiction. Sans augmenter le coût d'entraînement, CIGOcc atteint les performances de pointe sur l'ensemble de référence SemanticKITTI.

Contexte et Motivation de la Recherche

Problème de Recherche

Le problème fondamental abordé dans cet article est la complétude sémantique de scène 3D basée sur caméra (Semantic Scene Completion, SSC), en particulier comment reconstruire avec précision les régions occultées à partir d'images 2D tout en maintenant la cohérence géométrique inter-caméras.

Importance du Problème

  1. Besoins de la conduite autonome: SSC est une solution clé pour la perception 3D en conduite autonome et robotique
  2. Rentabilité: Les méthodes basées sur caméra offrent un meilleur rapport coût-efficacité par rapport aux capteurs comme le LiDAR
  3. Défis technologiques: La reconstruction précise des régions occultées et le maintien de la cohérence géométrique restent des goulots d'étranglement technologiques

Limitations des Méthodes Existantes

  1. Limitations de l'optimisation structurelle: Les méthodes existantes se concentrent principalement sur l'optimisation de l'architecture réseau, négligeant l'exploration et l'utilisation complètes des informations d'image
  2. Utilisation insuffisante des caractéristiques: Accent principal sur les caractéristiques graphiques (position, taille, couleur, forme), fournissant seulement des informations sémantiques partielles
  3. Absence de fusion multi-niveaux: Manque de recherches visant à améliorer la capacité du modèle à comprendre les images 2D sous l'angle de la fusion de représentations multi-niveaux

Motivation de la Recherche

Les auteurs considèrent que le cœur de la perception 3D réside dans la compréhension des relations spatiales tridimensionnelles, nécessitant donc:

  • Caractéristiques de profondeur: En tant que caractéristiques de bas niveau, elles transportent des informations de distorsion et de profondeur, améliorant la compréhension des relations spatiales
  • Caractéristiques de segmentation: Exploitant la puissante capacité de représentation sémantique des grands modèles de base (tels que SAM)
  • Fusion complémentaire: Fusion efficace de différents niveaux de caractéristiques pour améliorer la compréhension des images 2D

Contributions Principales

  1. Cadre CIGOcc: Propose un nouveau cadre en deux étapes utilisant la fusion de représentations multi-niveaux pour résoudre le problème de faible précision cible, réalisant une reconstruction 2D-vers-3D précise, particulièrement dans les scènes éloignées
  2. Mécanisme de Fusion Multi-Niveaux Déformable: Propose un nouveau mécanisme de fusion qui fusionne de manière adaptative et efficace les informations de profondeur et sémantiques, garantissant une reconstruction 3D plus complète et précise
  3. Performance de Pointe: Atteint les performances de pointe sur la tâche SSC basée sur caméra, démontrant l'efficacité et la robustesse dans des scènes réelles complexes

Détails de la Méthode

Définition de la Tâche

Entrée: Image RGB unique I ∈ R^(C×H×W) Sortie: Carte de voxels sémantique Y^(C×X×Y×Z), où chaque voxel est classé dans l'une des 20 catégories sémantiques Objectif: Déduire la géométrie complète de la scène 3D et les informations sémantiques à partir d'une image 2D

Architecture du Modèle

CIGOcc adopte une architecture en deux étapes:

Première Étape: Réseau de Fusion Multimodale Déformable (DMFNet)

  1. Extraction de Caractéristiques:
    • Utilise MobileStereoNet pour générer la carte de profondeur D_i ∈ R^(C×H×W)
    • Utilise Grounded-SAM pour extraire les caractéristiques sémantiques F_i ∈ R^(C×H×W)
  2. Construction de l'Espace de Voxels Initial:
    F_raw = DMF(F_i^(C×H×W), D_i^(C×H×W))
    

    où DMF est une méthode de fusion améliorée basée sur LMSCNet
  3. Prédiction de la Tête de Segmentation:
    F_seg = SegHead(F_raw)
    

Deuxième Étape: Réseau de Génération de Voxels Guidé par Informations Complémentaires (CIGNet)

  1. Extraction de Caractéristiques d'Image: Utilise ResNet50 pour extraire les caractéristiques F_2D ∈ R^(×H×W×D)
  2. Attention Croisée Déformable:
    Q_s^3d = DCA(F_2D, Q_d)
    

    où Q_d est la requête de classification binaire obtenue de la première étape
  3. Auto-Attention Déformable:
    V̂_s^3d = DSA(Q̂_s^3d, Q̂_s^3d)
    
  4. Module de Distillation de Connaissances:
    F_sem^2d = θ_s(F_2D)
    

Points d'Innovation Technique

  1. Fusion de Caractéristiques Multi-Niveaux: Première fusion systématique de caractéristiques de segmentation de haut niveau, caractéristiques graphiques de niveau intermédiaire et caractéristiques de profondeur de bas niveau
  2. Distillation de Connaissances de Grands Modèles: Distille efficacement les connaissances de Grounded-SAM vers la tâche de prédiction d'occupation
  3. Mécanisme d'Attention Déformable: Utilise l'attention déformable pour traiter les images haute résolution, réduisant la complexité computationnelle
  4. Stratégie d'Entraînement en Deux Étapes: Optimise par étapes la fusion de différents niveaux de caractéristiques

Configuration Expérimentale

Ensemble de Données

Ensemble de Données SemanticKITTI:

  • Annotations d'occupation sémantique dense basées sur l'ensemble de référence KITTI Odometry
  • Plage de couverture: 0-51,2 mètres vers l'avant, ±25,6 mètres latéralement, hauteur -2 à 4,4 mètres
  • Grille de voxels: 256×256×32, résolution 0,2 mètre/voxel
  • Annotation de 20 catégories sémantiques

Métriques d'Évaluation

  • Métrique principale: Intersection sur Union moyenne (mIoU)
  • Métriques auxiliaires: IoU, Précision, Rappel
  • Évaluation spéciale: Performance sur petits objets, performance sur objets à queue longue

Méthodes de Comparaison

Incluent LMSCNet, 3DSketch, AICNet, JS3C-Net, MonoScene, VoxFormer, OccFormer, SurroundOcc, TPVFormer, SparseOcc, MonoOcc et autres méthodes de pointe

Détails d'Implémentation

  • Matériel: 4×GPU RTX 3090
  • Temps d'entraînement: 20 epochs par étape, total 4,5+4,5=9 heures
  • Poids pré-entraînés: ViT-H HQ-SAM pour Grounded-SAM, MSNet3D SFDS pour MobileStereoNet
  • Réseau de base: ResNet50

Résultats Expérimentaux

Résultats Principaux

Comparaison des performances sur l'ensemble de test SemanticKITTI:

MéthodemIoUAmélioration par rapport à VoxFormer-T
VoxFormer-T13,41%-
CIGOcc14,90%+1,49%

Améliorations Clés de Performance:

  • mIoU global: 14,90% (SOTA)
  • Performance sur petits objets: Amélioration de +19,28%
  • Performance sur objets à queue longue: Amélioration de +35,20%

Performance selon les Plages de Distance

Plage de DistanceCIGOcc mIoUVoxFormer-T mIoUAmélioration
12,8m23,81%21,55%+2,26%
25,6m20,35%18,42%+1,93%
51,2m14,90%13,35%+1,55%

Étude d'Ablation

ComposantmIoUImpact
Modèle complet14,49%-
Sans perte d'assistance sémantique14,10%-0,39%
Sans caractéristiques fusionnées13,85%-0,64%
Sans Grounded-SAM13,63%-0,86%

Analyse de Cas

Les résultats qualitatifs montrent que CIGOcc excelle dans les domaines suivants:

  • Segmentation de voxels de scène plus précise
  • Moins de chevauchement de voxels
  • Prédiction de route plus précise
  • Meilleure reconnaissance des petits objets et des catégories à queue longue

Travaux Connexes

Complétude Sémantique de Scène (SSC)

  • SSCNet: Utilise CNN 3D pour traiter les cartes de profondeur creuses
  • EsscNet: Intègre les caractéristiques multi-échelles
  • VoxFormer: Adopte une architecture Transformer en deux étapes

Perception 3D Basée sur Caméra

  • Estimation de profondeur monoculaire: Monodepth, Monodepth2
  • Transformers de Détection: Modèles DETR
  • Méthodes Multi-Vues: BEVFormer et autres

Prédiction d'Occupation 3D

  • Architecture Transformer: VoxFormer, FB-Occ
  • Fusion de Caractéristiques: Traitement bidirectionnel des caractéristiques LSS+BEVFormer

Conclusion et Discussion

Conclusions Principales

  1. Efficacité de la Fusion Multi-Niveaux: La fusion systématique de caractéristiques de différents niveaux améliore significativement les performances
  2. Transfert de Connaissances de Grands Modèles: Les connaissances de Grounded-SAM se transfèrent avec succès vers la tâche de prédiction d'occupation
  3. Efficacité Computationnelle: Atteint les performances SOTA tout en maintenant l'efficacité

Limitations

  1. Ressources d'Entraînement: Nécessite un entraînement en deux étapes, augmentant légèrement le temps d'entraînement (+1 heure)
  2. Consommation Mémoire: Augmente de 0,4G de mémoire GPU par rapport à la méthode de base
  3. Dépendance aux Modèles Pré-entraînés: Dépend des poids pré-entraînés de Grounded-SAM et MobileStereoNet

Directions Futures

  1. Optimisation Bout-à-Bout: Explorer les stratégies d'entraînement en une seule étape
  2. Fusion de Plus de Modalités: Combiner d'autres informations de capteurs
  3. Applications en Temps Réel: Optimiser davantage la vitesse d'inférence

Évaluation Approfondie

Avantages

  1. Forte Innovativité: Première approche systématique de la prédiction d'occupation sous l'angle de la fusion de représentations multi-niveaux
  2. Méthode Rationnelle: Analyse théorique claire, analyse approfondie de la complémentarité des caractéristiques de différents niveaux
  3. Expériences Complètes: Études d'ablation et expériences de comparaison complètes validant l'efficacité de la méthode
  4. Performance Exceptionnelle: Atteint SOTA sur plusieurs métriques, particulièrement sur les petits objets et les catégories à queue longue

Insuffisances

  1. Complexité Computationnelle: L'entraînement en deux étapes augmente la complexité d'entraînement
  2. Forte Dépendance: Dépend fortement des grands modèles pré-entraînés
  3. Analyse de Généralisation: Manque de validation sur d'autres ensembles de données
  4. Analyse Théorique: Manque d'analyse théorique approfondie sur pourquoi cette stratégie de fusion est optimale

Valeur d'Impact

  1. Valeur Académique: Fournit de nouvelles perspectives de recherche pour le domaine de la prédiction d'occupation
  2. Valeur Pratique: Possède un potentiel d'application directe dans les scénarios de conduite autonome
  3. Reproductibilité: Fournit le code et les détails d'implémentation détaillés

Scénarios d'Application

  1. Conduite Autonome: Perception de l'environnement du véhicule et planification de trajectoire
  2. Navigation Robotique: Compréhension de l'environnement intérieur et extérieur
  3. Applications AR/VR: Reconstruction et compréhension de scènes 3D
  4. Planification Urbaine: Modélisation urbaine 3D basée sur la vision

Références

Cet article cite 47 références connexes, couvrant principalement:

  • Travaux fondamentaux en complétude sémantique de scène (SSCNet, LMSCNet, etc.)
  • Applications d'architecture Transformer (VoxFormer, BEVFormer, etc.)
  • Grands modèles de vision (SAM, Grounded-SAM, etc.)
  • Travaux connexes en estimation de profondeur et perception 3D

Résumé: CIGOcc est un travail présentant des contributions importantes dans le domaine de la prédiction d'occupation, améliorant significativement les performances tout en maintenant l'efficacité computationnelle grâce à une stratégie innovante de fusion de caractéristiques multi-niveaux et à la distillation de connaissances de grands modèles. Ce travail fournit une nouvelle direction de recherche pour la perception 3D basée sur la vision, possédant une valeur académique et pratique importante.