2025-11-23T02:55:16.956845

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion

Xu, Lin, Zhou et al.

Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc

academic

補完情報ガイド付き占有率予測：マルチレベル表現融合を用いた手法

基本情報

論文ID: 2510.13198
タイトル: Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
著者: Rongtao Xu, Jinzhou Lin, Jialei Zhou, Jiahua Dong, Changwei Wang, Ruisheng Wang, Li Guo, Shibiao Xu, Xiaodan Liang
分類: cs.CV（コンピュータビジョン）
発表日: 2025年10月15日（arXiv プレプリント）
論文リンク: https://arxiv.org/abs/2510.13198v1
コードリンク: https://github.com/VitaLemonTea1/CIGOcc

概要

カメラベースの占有率予測は自動運転における3D知覚の主流手法であり、2D画像から完全な3Dシーン幾何学およびセマンティック情報を推論することを目的としている。既存手法は主に構造的修正（軽量化バックボーンネットワークや複雑なカスケードフレームワークなど）によるパフォーマンス向上に焦点を当てているが、効果は限定的である。表現融合の観点から探索する研究は少なく、2D画像に含まれる豊富な特徴の多様性が十分に活用されていない。この動機に基づき、本論文はCIGOccを提案する。これはマルチレベル表現融合に基づく2段階占有率予測フレームワークである。CIGOccは入力画像からセグメンテーション、グラフィック、深度特徴を抽出し、これら3つのマルチレベル特徴を融合するための変形可能なマルチレベル融合メカニズムを導入している。さらに、CIGOccはSAMから蒸留された知識を組み込み、予測精度をさらに向上させている。訓練コストを増加させることなく、CIGOccはSemanticKITTIベンチマークで最先端のパフォーマンスを達成している。

研究背景と動機

研究課題

本論文が解決する中核的な課題は、カメラベースの3Dセマンティックシーン補完（Semantic Scene Completion, SSC）、特に2D画像から遮蔽領域を正確に再構成し、カメラ間の幾何学的一貫性を維持する方法である。

課題の重要性

自動運転の要件：SSCは自動運転とロボット工学における3D知覚の重要なソリューションである
費用対効果：LiDARなどのセンサーと比較して、カメラベースの手法は高い費用対効果を有する
技術的課題：遮蔽領域の正確な再構成と幾何学的一貫性の維持は依然として技術的ボトルネックである

既存手法の限界

構造最適化の限界：既存手法は主にネットワークアーキテクチャの最適化に焦点を当て、画像情報の十分な探索と活用を無視している
特徴利用の不足：主にグラフィック特徴（位置、サイズ、色、形状）に焦点を当て、部分的なセマンティック情報のみを提供する
マルチレベル融合の欠落：マルチレベル表現融合の観点から2D画像理解能力を向上させる研究が不足している

研究動機

著者は3D知覚の中核は3次元空間関係の理解にあると考え、以下が必要であると主張している：

深度特徴：低レベル特徴として、歪みと深度情報を含み、空間関係理解を強化する
セグメンテーション特徴：大規模基盤モデル（SAMなど）の強力なセマンティック表現能力を活用する
補完的融合：異なるレベルの特徴を効果的に融合して2D画像理解を強化する

中核的貢献

CIGOccフレームワーク：マルチレベル表現融合を活用して目標精度の低さの問題を解決し、正確な2D-to-3D再構成を実現する新規2段階フレームワークを提案。特に遠距離シーンで有効である
変形可能なマルチレベル融合メカニズム：深度情報とセマンティック情報を適応的かつ効果的に融合し、より包括的で正確な3D再構成を保証する新しい融合メカニズムを提案
最先端のパフォーマンス：カメラベースのSSCタスクで最先端のパフォーマンスを達成し、複雑な実世界シーンにおける有効性とロバスト性を実証

方法の詳細

タスク定義

入力：単一RGB画像 I ∈ R^(C×H×W) 出力：セマンティックボクセルマップ Y ∈ R^(C×X×Y×Z)。各ボクセルは20個のセマンティッククラスのいずれかに分類される目標：2D画像から完全な3Dシーン幾何学およびセマンティック情報を推論する

モデルアーキテクチャ

CIGOccは2段階アーキテクチャを採用している：

第1段階：変形可能なマルチモーダル融合ネットワーク（DMFNet）

特徴抽出：
- MobileStereoNetを使用して深度マップ D_i ∈ R^(C×H×W) を生成
- Grounded-SAMを使用してセマンティック特徴 F_i ∈ R^(C×H×W) を抽出
初期ボクセル空間構築：
```
F_raw = DMF(F_i^(C×H×W), D_i^(C×H×W))
```
ここでDMFはLMSCNetに基づく改善された融合方法である
セグメンテーションヘッド予測：
```
F_seg = SegHead(F_raw)
```

第2段階：補完情報ガイド付きボクセル生成ネットワーク（CIGNet）

画像特徴抽出：ResNet50を使用して特徴 F_2D ∈ R^(×H×W×D) を抽出
変形可能なクロスアテンション：
```
Q_s^3d = DCA(F_2D, Q_d)
```
ここで Q_d は第1段階から得られた二値分類クエリである
変形可能なセルフアテンション：
```
V̂_s^3d = DSA(Q̂_s^3d, Q̂_s^3d)
```
知識蒸留モジュール：
```
F_sem^2d = θ_s(F_2D)
```