Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
Xu, Lin, Zhou et al.
Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc
academic
Prédiction d'Occupation Guidée par Informations Complémentaires via Fusion de Représentations Multi-Niveaux
La prédiction d'occupation basée sur caméra est une méthode dominante en perception 3D pour la conduite autonome, visant à déduire la géométrie complète de la scène 3D et les informations sémantiques à partir d'images 2D. Les méthodes existantes améliorent principalement les performances par des modifications structurelles (telles que des réseaux de base allégés et des cadres en cascade complexes), mais avec des résultats limités. Peu de recherches explorent la fusion de représentations, ce qui entraîne une sous-utilisation de la riche diversité des caractéristiques dans les images 2D. Motivés par cette observation, nous proposons CIGOcc, un cadre de prédiction d'occupation en deux étapes basé sur la fusion de représentations multi-niveaux. CIGOcc extrait les caractéristiques de segmentation, graphiques et de profondeur des images d'entrée, et introduit un mécanisme de fusion multi-niveaux déformable pour fusionner ces trois types de caractéristiques multi-niveaux. De plus, CIGOcc intègre les connaissances distillées de SAM pour améliorer davantage la précision de la prédiction. Sans augmenter le coût d'entraînement, CIGOcc atteint les performances de pointe sur l'ensemble de référence SemanticKITTI.
Le problème fondamental abordé dans cet article est la complétude sémantique de scène 3D basée sur caméra (Semantic Scene Completion, SSC), en particulier comment reconstruire avec précision les régions occultées à partir d'images 2D tout en maintenant la cohérence géométrique inter-caméras.
Besoins de la conduite autonome: SSC est une solution clé pour la perception 3D en conduite autonome et robotique
Rentabilité: Les méthodes basées sur caméra offrent un meilleur rapport coût-efficacité par rapport aux capteurs comme le LiDAR
Défis technologiques: La reconstruction précise des régions occultées et le maintien de la cohérence géométrique restent des goulots d'étranglement technologiques
Limitations de l'optimisation structurelle: Les méthodes existantes se concentrent principalement sur l'optimisation de l'architecture réseau, négligeant l'exploration et l'utilisation complètes des informations d'image
Utilisation insuffisante des caractéristiques: Accent principal sur les caractéristiques graphiques (position, taille, couleur, forme), fournissant seulement des informations sémantiques partielles
Absence de fusion multi-niveaux: Manque de recherches visant à améliorer la capacité du modèle à comprendre les images 2D sous l'angle de la fusion de représentations multi-niveaux
Les auteurs considèrent que le cœur de la perception 3D réside dans la compréhension des relations spatiales tridimensionnelles, nécessitant donc:
Caractéristiques de profondeur: En tant que caractéristiques de bas niveau, elles transportent des informations de distorsion et de profondeur, améliorant la compréhension des relations spatiales
Caractéristiques de segmentation: Exploitant la puissante capacité de représentation sémantique des grands modèles de base (tels que SAM)
Fusion complémentaire: Fusion efficace de différents niveaux de caractéristiques pour améliorer la compréhension des images 2D
Cadre CIGOcc: Propose un nouveau cadre en deux étapes utilisant la fusion de représentations multi-niveaux pour résoudre le problème de faible précision cible, réalisant une reconstruction 2D-vers-3D précise, particulièrement dans les scènes éloignées
Mécanisme de Fusion Multi-Niveaux Déformable: Propose un nouveau mécanisme de fusion qui fusionne de manière adaptative et efficace les informations de profondeur et sémantiques, garantissant une reconstruction 3D plus complète et précise
Performance de Pointe: Atteint les performances de pointe sur la tâche SSC basée sur caméra, démontrant l'efficacité et la robustesse dans des scènes réelles complexes
Entrée: Image RGB unique I ∈ R^(C×H×W)
Sortie: Carte de voxels sémantique Y^(C×X×Y×Z), où chaque voxel est classé dans l'une des 20 catégories sémantiques
Objectif: Déduire la géométrie complète de la scène 3D et les informations sémantiques à partir d'une image 2D
Fusion de Caractéristiques Multi-Niveaux: Première fusion systématique de caractéristiques de segmentation de haut niveau, caractéristiques graphiques de niveau intermédiaire et caractéristiques de profondeur de bas niveau
Distillation de Connaissances de Grands Modèles: Distille efficacement les connaissances de Grounded-SAM vers la tâche de prédiction d'occupation
Mécanisme d'Attention Déformable: Utilise l'attention déformable pour traiter les images haute résolution, réduisant la complexité computationnelle
Stratégie d'Entraînement en Deux Étapes: Optimise par étapes la fusion de différents niveaux de caractéristiques
Grands modèles de vision (SAM, Grounded-SAM, etc.)
Travaux connexes en estimation de profondeur et perception 3D
Résumé: CIGOcc est un travail présentant des contributions importantes dans le domaine de la prédiction d'occupation, améliorant significativement les performances tout en maintenant l'efficacité computationnelle grâce à une stratégie innovante de fusion de caractéristiques multi-niveaux et à la distillation de connaissances de grands modèles. Ce travail fournit une nouvelle direction de recherche pour la perception 3D basée sur la vision, possédant une valeur académique et pratique importante.