2025-11-23T02:55:16.956845

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion

Xu, Lin, Zhou et al.

Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc

academic

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion

基本信息

论文ID: 2510.13198
标题: Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
作者: Rongtao Xu, Jinzhou Lin, Jialei Zhou, Jiahua Dong, Changwei Wang, Ruisheng Wang, Li Guo, Shibiao Xu, Xiaodan Liang
分类: cs.CV (Computer Vision)
发表时间: 2025年10月15日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.13198v1
代码链接: https://github.com/VitaLemonTea1/CIGOcc

摘要

基于相机的占用预测是自动驾驶3D感知的主流方法，旨在从2D图像推断完整的3D场景几何和语义信息。现有方法主要通过结构修改（如轻量化骨干网络和复杂级联框架）来提升性能，但效果有限。很少有研究从表征融合角度探索，导致2D图像中丰富的特征多样性未被充分利用。基于此动机，本文提出CIGOcc，一个基于多层次表征融合的两阶段占用预测框架。CIGOcc从输入图像中提取分割、图形和深度特征，并引入可变形多层次融合机制来融合这三种多层次特征。此外，CIGOcc结合了从SAM蒸馏的知识来进一步提升预测精度。在不增加训练成本的情况下，CIGOcc在SemanticKITTI基准上达到了最先进的性能。

研究背景与动机

研究问题

本文要解决的核心问题是基于相机的3D语义场景补全（Semantic Scene Completion, SSC），特别是如何从2D图像准确重建被遮挡区域并保持跨相机几何一致性。

问题重要性

自动驾驶需求：SSC是自动驾驶和机器人技术中3D感知的关键解决方案
成本效益：相比LiDAR等传感器，基于相机的方法具有高成本效益
技术挑战：准确重建遮挡区域和保持几何一致性仍是技术瓶颈

现有方法局限性

结构优化局限：现有方法主要关注网络架构优化，忽略了图像信息的充分探索和利用
特征利用不足：主要关注图形特征（位置、大小、颜色、形状），仅提供部分语义信息
多层次融合缺失：缺乏从多层次表征融合角度提升模型对2D图像理解能力的研究

研究动机

作者认为3D感知的核心在于理解三维空间关系，因此需要：

深度特征：作为低级特征，携带失真和深度信息，增强空间关系理解
分割特征：利用大型基础模型（如SAM）的强语义表征能力
互补融合：有效融合不同层次特征以增强2D图像理解

核心贡献

CIGOcc框架：提出了一个新颖的两阶段框架，利用多层次表征融合解决目标精度低的问题，实现准确的2D-to-3D重建，特别是在远距离场景
可变形多层次融合机制：提出新的融合机制，自适应地有效融合深度和语义信息，确保更全面准确的3D重建
最先进性能：在基于相机的SSC任务上达到最先进性能，在复杂真实场景中展现有效性和鲁棒性

方法详解

任务定义

输入：单张RGB图像 I ∈ R^(C×H×W) 输出：语义体素图 Y^(C×X×Y×Z)，其中每个体素被分类为20个语义类别之一目标：从2D图像推断完整的3D场景几何和语义信息

模型架构

CIGOcc采用两阶段架构：

第一阶段：可变形多模态融合网络（DMFNet）

特征提取：
- 使用MobileStereoNet生成深度图 D_i ∈ R^(C×H×W)
- 使用Grounded-SAM提取语义特征 F_i ∈ R^(C×H×W)
初始体素空间构建：
```
F_raw = DMF(F_i^(C×H×W), D_i^(C×H×W))
```
其中DMF是基于LMSCNet改进的融合方法
分割头预测：
```
F_seg = SegHead(F_raw)
```