2025-11-23T02:55:16.956845

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion

Xu, Lin, Zhou et al.
Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc
academic

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion

基本信息

  • 论文ID: 2510.13198
  • 标题: Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
  • 作者: Rongtao Xu, Jinzhou Lin, Jialei Zhou, Jiahua Dong, Changwei Wang, Ruisheng Wang, Li Guo, Shibiao Xu, Xiaodan Liang
  • 分类: cs.CV (Computer Vision)
  • 发表时间: 2025年10月15日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.13198v1
  • 代码链接: https://github.com/VitaLemonTea1/CIGOcc

摘要

基于相机的占用预测是自动驾驶3D感知的主流方法,旨在从2D图像推断完整的3D场景几何和语义信息。现有方法主要通过结构修改(如轻量化骨干网络和复杂级联框架)来提升性能,但效果有限。很少有研究从表征融合角度探索,导致2D图像中丰富的特征多样性未被充分利用。基于此动机,本文提出CIGOcc,一个基于多层次表征融合的两阶段占用预测框架。CIGOcc从输入图像中提取分割、图形和深度特征,并引入可变形多层次融合机制来融合这三种多层次特征。此外,CIGOcc结合了从SAM蒸馏的知识来进一步提升预测精度。在不增加训练成本的情况下,CIGOcc在SemanticKITTI基准上达到了最先进的性能。

研究背景与动机

研究问题

本文要解决的核心问题是基于相机的3D语义场景补全(Semantic Scene Completion, SSC),特别是如何从2D图像准确重建被遮挡区域并保持跨相机几何一致性。

问题重要性

  1. 自动驾驶需求:SSC是自动驾驶和机器人技术中3D感知的关键解决方案
  2. 成本效益:相比LiDAR等传感器,基于相机的方法具有高成本效益
  3. 技术挑战:准确重建遮挡区域和保持几何一致性仍是技术瓶颈

现有方法局限性

  1. 结构优化局限:现有方法主要关注网络架构优化,忽略了图像信息的充分探索和利用
  2. 特征利用不足:主要关注图形特征(位置、大小、颜色、形状),仅提供部分语义信息
  3. 多层次融合缺失:缺乏从多层次表征融合角度提升模型对2D图像理解能力的研究

研究动机

作者认为3D感知的核心在于理解三维空间关系,因此需要:

  • 深度特征:作为低级特征,携带失真和深度信息,增强空间关系理解
  • 分割特征:利用大型基础模型(如SAM)的强语义表征能力
  • 互补融合:有效融合不同层次特征以增强2D图像理解

核心贡献

  1. CIGOcc框架:提出了一个新颖的两阶段框架,利用多层次表征融合解决目标精度低的问题,实现准确的2D-to-3D重建,特别是在远距离场景
  2. 可变形多层次融合机制:提出新的融合机制,自适应地有效融合深度和语义信息,确保更全面准确的3D重建
  3. 最先进性能:在基于相机的SSC任务上达到最先进性能,在复杂真实场景中展现有效性和鲁棒性

方法详解

任务定义

输入:单张RGB图像 I ∈ R^(C×H×W) 输出:语义体素图 Y^(C×X×Y×Z),其中每个体素被分类为20个语义类别之一 目标:从2D图像推断完整的3D场景几何和语义信息

模型架构

CIGOcc采用两阶段架构:

第一阶段:可变形多模态融合网络(DMFNet)

  1. 特征提取
    • 使用MobileStereoNet生成深度图 D_i ∈ R^(C×H×W)
    • 使用Grounded-SAM提取语义特征 F_i ∈ R^(C×H×W)
  2. 初始体素空间构建
    F_raw = DMF(F_i^(C×H×W), D_i^(C×H×W))
    

    其中DMF是基于LMSCNet改进的融合方法
  3. 分割头预测
    F_seg = SegHead(F_raw)
    

第二阶段:互补信息引导体素生成网络(CIGNet)

  1. 图像特征提取:使用ResNet50提取特征 F_2D ∈ R^(×H×W×D)
  2. 可变形交叉注意力
    Q_s^3d = DCA(F_2D, Q_d)
    

    其中Q_d是从第一阶段获得的二进制分类查询
  3. 可变形自注意力
    V̂_s^3d = DSA(Q̂_s^3d, Q̂_s^3d)
    
  4. 知识蒸馏模块
    F_sem^2d = θ_s(F_2D)
    

技术创新点

  1. 多层次特征融合:首次系统性地融合高层次分割特征、中层次图形特征和低层次深度特征
  2. 大模型知识蒸馏:将Grounded-SAM的知识有效蒸馏到占用预测任务中
  3. 可变形注意力机制:采用可变形注意力处理高分辨率图像,降低计算复杂度
  4. 两阶段训练策略:分阶段优化不同层次特征的融合

实验设置

数据集

SemanticKITTI数据集

  • 基于KITTI Odometry基准的密集语义占用标注
  • 覆盖范围:前方0-51.2米,横向±25.6米,高度-2到4.4米
  • 体素网格:256×256×32,分辨率0.2米/体素
  • 20个语义类别标注

评价指标

  • 主要指标:平均交并比(mIoU)
  • 辅助指标:IoU、Precision、Recall
  • 特殊评估:小物体性能、长尾物体性能

对比方法

包括LMSCNet、3DSketch、AICNet、JS3C-Net、MonoScene、VoxFormer、OccFormer、SurroundOcc、TPVFormer、SparseOcc、MonoOcc等主流方法

实现细节

  • 硬件:4×RTX 3090 GPU
  • 训练时间:每阶段20 epochs,共4.5+4.5=9小时
  • 预训练权重:ViT-H HQ-SAM用于Grounded-SAM,MSNet3D SFDS用于MobileStereoNet
  • 骨干网络:ResNet50

实验结果

主要结果

在SemanticKITTI测试集上的性能对比:

方法mIoU相比VoxFormer-T提升
VoxFormer-T13.41%-
CIGOcc14.90%+1.49%

关键性能提升

  • 整体mIoU:14.90%(SOTA)
  • 小物体性能:+19.28%提升
  • 长尾物体性能:+35.20%提升

不同距离范围性能

距离范围CIGOcc mIoUVoxFormer-T mIoU提升
12.8m23.81%21.55%+2.26%
25.6m20.35%18.42%+1.93%
51.2m14.90%13.35%+1.55%

消融实验

组件mIoU影响
完整模型14.49%-
无语义辅助损失14.10%-0.39%
无融合特征13.85%-0.64%
无Grounded-SAM13.63%-0.86%

案例分析

定性结果显示CIGOcc在以下方面表现突出:

  • 更精确的场景体素分割
  • 更少的体素重叠
  • 更准确的道路预测
  • 对小物体和长尾类别的更好识别

相关工作

语义场景补全(SSC)

  • SSCNet:使用3D CNN处理稀疏深度图
  • EsscNet:集成多尺度特征
  • VoxFormer:采用两阶段Transformer架构

基于相机的3D感知

  • 单目深度估计:Monodepth、Monodepth2
  • 检测Transformer:DETR模型
  • 多视图方法:BEVFormer等

3D占用预测

  • Transformer架构:VoxFormer、FB-Occ
  • 特征融合:LSS+BEVFormer的双向特征处理

结论与讨论

主要结论

  1. 多层次融合有效性:系统性融合不同层次特征显著提升性能
  2. 大模型知识迁移:Grounded-SAM知识成功迁移到占用预测任务
  3. 计算效率:在保持效率的同时达到SOTA性能

局限性

  1. 训练资源:需要两阶段训练,增加了一定的训练时间(+1小时)
  2. 内存消耗:相比基线方法增加0.4G显存
  3. 依赖预训练模型:依赖Grounded-SAM和MobileStereoNet的预训练权重

未来方向

  1. 端到端优化:探索单阶段训练策略
  2. 更多模态融合:结合其他传感器信息
  3. 实时应用:进一步优化推理速度

深度评价

优点

  1. 创新性强:首次系统性地从多层次表征融合角度解决占用预测问题
  2. 方法合理:理论分析清晰,不同层次特征的互补性分析到位
  3. 实验充分:全面的消融实验和对比实验验证了方法有效性
  4. 性能突出:在多个指标上达到SOTA,特别是小物体和长尾类别

不足

  1. 计算复杂度:两阶段训练增加了训练复杂度
  2. 依赖性强:严重依赖预训练的大模型
  3. 泛化性分析:缺乏在其他数据集上的验证
  4. 理论分析:对为什么这种融合策略最优缺乏深入的理论分析

影响力

  1. 学术价值:为占用预测领域提供了新的研究思路
  2. 实用价值:在自动驾驶场景中具有直接应用潜力
  3. 可复现性:提供了代码和详细的实现细节

适用场景

  1. 自动驾驶:车辆环境感知和路径规划
  2. 机器人导航:室内外环境理解
  3. AR/VR应用:3D场景重建和理解
  4. 城市规划:基于视觉的3D城市建模

参考文献

本文引用了46篇相关文献,主要涵盖:

  • 语义场景补全基础工作(SSCNet、LMSCNet等)
  • Transformer架构应用(VoxFormer、BEVFormer等)
  • 大型视觉模型(SAM、Grounded-SAM等)
  • 深度估计和3D感知相关工作

总结:CIGOcc是一个在占用预测领域具有重要贡献的工作,通过创新的多层次特征融合策略和大模型知识蒸馏,在保持计算效率的同时显著提升了性能。该工作为基于视觉的3D感知提供了新的研究方向,具有重要的学术价值和实用意义。