Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc
論文ID : 2510.13198タイトル : Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion著者 : Rongtao Xu, Jinzhou Lin, Jialei Zhou, Jiahua Dong, Changwei Wang, Ruisheng Wang, Li Guo, Shibiao Xu, Xiaodan Liang分類 : cs.CV(コンピュータビジョン)発表日 : 2025年10月15日(arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.13198v1 コードリンク : https://github.com/VitaLemonTea1/CIGOcc カメラベースの占有率予測は自動運転における3D知覚の主流手法であり、2D画像から完全な3Dシーン幾何学およびセマンティック情報を推論することを目的としている。既存手法は主に構造的修正(軽量化バックボーンネットワークや複雑なカスケードフレームワークなど)によるパフォーマンス向上に焦点を当てているが、効果は限定的である。表現融合の観点から探索する研究は少なく、2D画像に含まれる豊富な特徴の多様性が十分に活用されていない。この動機に基づき、本論文はCIGOcc を提案する。これはマルチレベル表現融合に基づく2段階占有率予測フレームワークである。CIGOccは入力画像からセグメンテーション、グラフィック、深度特徴を抽出し、これら3つのマルチレベル特徴を融合するための変形可能なマルチレベル融合メカニズムを導入している。さらに、CIGOccはSAMから蒸留された知識を組み込み、予測精度をさらに向上させている。訓練コストを増加させることなく、CIGOccはSemanticKITTIベンチマークで最先端のパフォーマンスを達成している。
本論文が解決する中核的な課題は、カメラベースの3Dセマンティックシーン補完(Semantic Scene Completion, SSC) 、特に2D画像から遮蔽領域を正確に再構成し、カメラ間の幾何学的一貫性を維持する方法である。
自動運転の要件 :SSCは自動運転とロボット工学における3D知覚の重要なソリューションである費用対効果 :LiDARなどのセンサーと比較して、カメラベースの手法は高い費用対効果を有する技術的課題 :遮蔽領域の正確な再構成と幾何学的一貫性の維持は依然として技術的ボトルネックである構造最適化の限界 :既存手法は主にネットワークアーキテクチャの最適化に焦点を当て、画像情報の十分な探索と活用を無視している特徴利用の不足 :主にグラフィック特徴(位置、サイズ、色、形状)に焦点を当て、部分的なセマンティック情報のみを提供するマルチレベル融合の欠落 :マルチレベル表現融合の観点から2D画像理解能力を向上させる研究が不足している著者は3D知覚の中核は3次元空間関係の理解にあると考え、以下が必要であると主張している:
深度特徴 :低レベル特徴として、歪みと深度情報を含み、空間関係理解を強化するセグメンテーション特徴 :大規模基盤モデル(SAMなど)の強力なセマンティック表現能力を活用する補完的融合 :異なるレベルの特徴を効果的に融合して2D画像理解を強化するCIGOccフレームワーク :マルチレベル表現融合を活用して目標精度の低さの問題を解決し、正確な2D-to-3D再構成を実現する新規2段階フレームワークを提案。特に遠距離シーンで有効である変形可能なマルチレベル融合メカニズム :深度情報とセマンティック情報を適応的かつ効果的に融合し、より包括的で正確な3D再構成を保証する新しい融合メカニズムを提案最先端のパフォーマンス :カメラベースのSSCタスクで最先端のパフォーマンスを達成し、複雑な実世界シーンにおける有効性とロバスト性を実証入力 :単一RGB画像 I ∈ R^(C×H×W)
出力 :セマンティックボクセルマップ Y ∈ R^(C×X×Y×Z)。各ボクセルは20個のセマンティッククラスのいずれかに分類される
目標 :2D画像から完全な3Dシーン幾何学およびセマンティック情報を推論する
CIGOccは2段階アーキテクチャを採用している:
特徴抽出 :MobileStereoNetを使用して深度マップ D_i ∈ R^(C×H×W) を生成 Grounded-SAMを使用してセマンティック特徴 F_i ∈ R^(C×H×W) を抽出 初期ボクセル空間構築 :F_raw = DMF(F_i^(C×H×W), D_i^(C×H×W))
ここでDMFはLMSCNetに基づく改善された融合方法であるセグメンテーションヘッド予測 :画像特徴抽出 :ResNet50を使用して特徴 F_2D ∈ R^(×H×W×D) を抽出変形可能なクロスアテンション : ここで Q_d は第1段階から得られた二値分類クエリである変形可能なセルフアテンション :V̂_s^3d = DSA(Q̂_s^3d, Q̂_s^3d)
知識蒸留モジュール :マルチレベル特徴融合 :高レベルセグメンテーション特徴、中レベルグラフィック特徴、低レベル深度特徴を初めて体系的に融合大規模モデル知識蒸留 :Grounded-SAMの知識を占有率予測タスクに効果的に蒸留変形可能なアテンションメカニズム :高解像度画像を処理するために変形可能なアテンションを採用し、計算複雑度を削減2段階訓練戦略 :異なるレベルの特徴融合を段階的に最適化SemanticKITTIデータセット :
KITTI Odometryベンチマークに基づく密集セマンティック占有率アノテーション カバー範囲:前方0~51.2メートル、横方向±25.6メートル、高さ-2~4.4メートル ボクセルグリッド:256×256×32、解像度0.2メートル/ボクセル 20個のセマンティッククラスアノテーション 主要指標 :平均交差比(mIoU)補助指標 :IoU、Precision、Recall特殊評価 :小物体パフォーマンス、ロングテール物体パフォーマンスLMSCNet、3DSketch、AICNet、JS3C-Net、MonoScene、VoxFormer、OccFormer、SurroundOcc、TPVFormer、SparseOcc、MonoOccなどの主流手法を含む
ハードウェア :4×RTX 3090 GPU訓練時間 :各段階20エポック、合計4.5+4.5=9時間事前訓練済み重み :Grounded-SAM用ViT-H HQ-SAM、MobileStereoNet用MSNet3D SFDSバックボーンネットワーク :ResNet50SemanticKITTIテストセットでのパフォーマンス比較:
手法 mIoU VoxFormer-Tに対する改善 VoxFormer-T 13.41% - CIGOcc 14.90% +1.49%
主要なパフォーマンス向上 :
全体mIoU :14.90%(SOTA)小物体パフォーマンス :+19.28%改善ロングテール物体パフォーマンス :+35.20%改善距離範囲 CIGOcc mIoU VoxFormer-T mIoU 改善 12.8m 23.81% 21.55% +2.26% 25.6m 20.35% 18.42% +1.93% 51.2m 14.90% 13.35% +1.55%
コンポーネント mIoU 影響 完全なモデル 14.49% - セマンティック補助損失なし 14.10% -0.39% 融合特徴なし 13.85% -0.64% Grounded-SAMなし 13.63% -0.86%
定性的結果はCIGOccが以下の点で優れていることを示している:
より正確なシーンボクセルセグメンテーション ボクセル重複の削減 より正確な道路予測 小物体とロングテールカテゴリーのより良い認識 SSCNet :3D CNNを使用した疎な深度マップの処理EsscNet :マルチスケール特徴の統合VoxFormer :2段階Transformerアーキテクチャの採用単眼深度推定 :Monodepth、Monodepth2検出Transformer :DETRモデルマルチビュー手法 :BEVFormerなどTransformerアーキテクチャ :VoxFormer、FB-Occ特徴融合 :LSS+BEVFormerの双方向特徴処理マルチレベル融合の有効性 :異なるレベルの特徴を体系的に融合することで、パフォーマンスが大幅に向上する大規模モデル知識の転移 :Grounded-SAMの知識が占有率予測タスクに成功裏に転移される計算効率 :効率を維持しながらSOTAパフォーマンスを達成訓練リソース :2段階訓練が必要であり、訓練時間が増加する(+1時間)メモリ消費 :ベースライン手法と比較して0.4Gのビデオメモリが増加事前訓練モデルへの依存 :Grounded-SAMとMobileStereoNetの事前訓練済み重みに依存エンドツーエンド最適化 :単一段階訓練戦略の探索より多くのモダリティ融合 :他のセンサー情報の統合リアルタイム応用 :推論速度のさらなる最適化強い革新性 :マルチレベル表現融合の観点から占有率予測問題を解決する初めての体系的なアプローチ合理的な方法論 :理論分析が明確で、異なるレベルの特徴の補完性分析が十分充分な実験 :方法の有効性を検証する包括的なアブレーション実験と比較実験優れたパフォーマンス :複数の指標でSOTAを達成、特に小物体とロングテールカテゴリーで優秀計算複雑度 :2段階訓練が訓練複雑度を増加させる強い依存性 :事前訓練された大規模モデルに大きく依存汎化性分析の欠落 :他のデータセットでの検証が不足理論分析の不足 :この融合戦略が最適である理由についての深い理論分析が不足学術的価値 :占有率予測分野に新しい研究方向を提供実用的価値 :自動運転シーンでの直接的な応用の可能性再現性 :コードと詳細な実装詳細を提供自動運転 :車両環境知覚と経路計画ロボット航法 :室内外環境理解AR/VRアプリケーション :3Dシーン再構成と理解都市計画 :ビジョンベースの3D都市モデリング本論文は46篇の関連文献を引用しており、主に以下を網羅している:
セマンティックシーン補完の基礎研究(SSCNet、LMSCNetなど) Transformerアーキテクチャの応用(VoxFormer、BEVFormerなど) 大規模ビジョンモデル(SAM、Grounded-SAMなど) 深度推定と3D知覚関連研究 要約 :CIGOccは占有率予測分野における重要な貢献を有する研究であり、革新的なマルチレベル特徴融合戦略と大規模モデル知識蒸留を通じて、計算効率を維持しながらパフォーマンスを大幅に向上させている。本研究はビジョンベースの3D知覚に新しい研究方向を提供し、重要な学術的価値と実用的意義を有している。