2025-11-23T02:55:16.956845

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion

Xu, Lin, Zhou et al.
Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc
academic

補完情報ガイド付き占有率予測:マルチレベル表現融合を用いた手法

基本情報

  • 論文ID: 2510.13198
  • タイトル: Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
  • 著者: Rongtao Xu, Jinzhou Lin, Jialei Zhou, Jiahua Dong, Changwei Wang, Ruisheng Wang, Li Guo, Shibiao Xu, Xiaodan Liang
  • 分類: cs.CV(コンピュータビジョン)
  • 発表日: 2025年10月15日(arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.13198v1
  • コードリンク: https://github.com/VitaLemonTea1/CIGOcc

概要

カメラベースの占有率予測は自動運転における3D知覚の主流手法であり、2D画像から完全な3Dシーン幾何学およびセマンティック情報を推論することを目的としている。既存手法は主に構造的修正(軽量化バックボーンネットワークや複雑なカスケードフレームワークなど)によるパフォーマンス向上に焦点を当てているが、効果は限定的である。表現融合の観点から探索する研究は少なく、2D画像に含まれる豊富な特徴の多様性が十分に活用されていない。この動機に基づき、本論文はCIGOccを提案する。これはマルチレベル表現融合に基づく2段階占有率予測フレームワークである。CIGOccは入力画像からセグメンテーション、グラフィック、深度特徴を抽出し、これら3つのマルチレベル特徴を融合するための変形可能なマルチレベル融合メカニズムを導入している。さらに、CIGOccはSAMから蒸留された知識を組み込み、予測精度をさらに向上させている。訓練コストを増加させることなく、CIGOccはSemanticKITTIベンチマークで最先端のパフォーマンスを達成している。

研究背景と動機

研究課題

本論文が解決する中核的な課題は、カメラベースの3Dセマンティックシーン補完(Semantic Scene Completion, SSC)、特に2D画像から遮蔽領域を正確に再構成し、カメラ間の幾何学的一貫性を維持する方法である。

課題の重要性

  1. 自動運転の要件:SSCは自動運転とロボット工学における3D知覚の重要なソリューションである
  2. 費用対効果:LiDARなどのセンサーと比較して、カメラベースの手法は高い費用対効果を有する
  3. 技術的課題:遮蔽領域の正確な再構成と幾何学的一貫性の維持は依然として技術的ボトルネックである

既存手法の限界

  1. 構造最適化の限界:既存手法は主にネットワークアーキテクチャの最適化に焦点を当て、画像情報の十分な探索と活用を無視している
  2. 特徴利用の不足:主にグラフィック特徴(位置、サイズ、色、形状)に焦点を当て、部分的なセマンティック情報のみを提供する
  3. マルチレベル融合の欠落:マルチレベル表現融合の観点から2D画像理解能力を向上させる研究が不足している

研究動機

著者は3D知覚の中核は3次元空間関係の理解にあると考え、以下が必要であると主張している:

  • 深度特徴:低レベル特徴として、歪みと深度情報を含み、空間関係理解を強化する
  • セグメンテーション特徴:大規模基盤モデル(SAMなど)の強力なセマンティック表現能力を活用する
  • 補完的融合:異なるレベルの特徴を効果的に融合して2D画像理解を強化する

中核的貢献

  1. CIGOccフレームワーク:マルチレベル表現融合を活用して目標精度の低さの問題を解決し、正確な2D-to-3D再構成を実現する新規2段階フレームワークを提案。特に遠距離シーンで有効である
  2. 変形可能なマルチレベル融合メカニズム:深度情報とセマンティック情報を適応的かつ効果的に融合し、より包括的で正確な3D再構成を保証する新しい融合メカニズムを提案
  3. 最先端のパフォーマンス:カメラベースのSSCタスクで最先端のパフォーマンスを達成し、複雑な実世界シーンにおける有効性とロバスト性を実証

方法の詳細

タスク定義

入力:単一RGB画像 I ∈ R^(C×H×W) 出力:セマンティックボクセルマップ Y ∈ R^(C×X×Y×Z)。各ボクセルは20個のセマンティッククラスのいずれかに分類される 目標:2D画像から完全な3Dシーン幾何学およびセマンティック情報を推論する

モデルアーキテクチャ

CIGOccは2段階アーキテクチャを採用している:

第1段階:変形可能なマルチモーダル融合ネットワーク(DMFNet)

  1. 特徴抽出
    • MobileStereoNetを使用して深度マップ D_i ∈ R^(C×H×W) を生成
    • Grounded-SAMを使用してセマンティック特徴 F_i ∈ R^(C×H×W) を抽出
  2. 初期ボクセル空間構築
    F_raw = DMF(F_i^(C×H×W), D_i^(C×H×W))
    

    ここでDMFはLMSCNetに基づく改善された融合方法である
  3. セグメンテーションヘッド予測
    F_seg = SegHead(F_raw)
    

第2段階:補完情報ガイド付きボクセル生成ネットワーク(CIGNet)

  1. 画像特徴抽出:ResNet50を使用して特徴 F_2D ∈ R^(×H×W×D) を抽出
  2. 変形可能なクロスアテンション
    Q_s^3d = DCA(F_2D, Q_d)
    

    ここで Q_d は第1段階から得られた二値分類クエリである
  3. 変形可能なセルフアテンション
    V̂_s^3d = DSA(Q̂_s^3d, Q̂_s^3d)
    
  4. 知識蒸留モジュール
    F_sem^2d = θ_s(F_2D)
    

技術的イノベーション

  1. マルチレベル特徴融合:高レベルセグメンテーション特徴、中レベルグラフィック特徴、低レベル深度特徴を初めて体系的に融合
  2. 大規模モデル知識蒸留:Grounded-SAMの知識を占有率予測タスクに効果的に蒸留
  3. 変形可能なアテンションメカニズム:高解像度画像を処理するために変形可能なアテンションを採用し、計算複雑度を削減
  4. 2段階訓練戦略:異なるレベルの特徴融合を段階的に最適化

実験設定

データセット

SemanticKITTIデータセット

  • KITTI Odometryベンチマークに基づく密集セマンティック占有率アノテーション
  • カバー範囲:前方0~51.2メートル、横方向±25.6メートル、高さ-2~4.4メートル
  • ボクセルグリッド:256×256×32、解像度0.2メートル/ボクセル
  • 20個のセマンティッククラスアノテーション

評価指標

  • 主要指標:平均交差比(mIoU)
  • 補助指標:IoU、Precision、Recall
  • 特殊評価:小物体パフォーマンス、ロングテール物体パフォーマンス

比較手法

LMSCNet、3DSketch、AICNet、JS3C-Net、MonoScene、VoxFormer、OccFormer、SurroundOcc、TPVFormer、SparseOcc、MonoOccなどの主流手法を含む

実装詳細

  • ハードウェア:4×RTX 3090 GPU
  • 訓練時間:各段階20エポック、合計4.5+4.5=9時間
  • 事前訓練済み重み:Grounded-SAM用ViT-H HQ-SAM、MobileStereoNet用MSNet3D SFDS
  • バックボーンネットワーク:ResNet50

実験結果

主要結果

SemanticKITTIテストセットでのパフォーマンス比較:

手法mIoUVoxFormer-Tに対する改善
VoxFormer-T13.41%-
CIGOcc14.90%+1.49%

主要なパフォーマンス向上

  • 全体mIoU:14.90%(SOTA)
  • 小物体パフォーマンス:+19.28%改善
  • ロングテール物体パフォーマンス:+35.20%改善

異なる距離範囲でのパフォーマンス

距離範囲CIGOcc mIoUVoxFormer-T mIoU改善
12.8m23.81%21.55%+2.26%
25.6m20.35%18.42%+1.93%
51.2m14.90%13.35%+1.55%

アブレーション実験

コンポーネントmIoU影響
完全なモデル14.49%-
セマンティック補助損失なし14.10%-0.39%
融合特徴なし13.85%-0.64%
Grounded-SAMなし13.63%-0.86%

ケース分析

定性的結果はCIGOccが以下の点で優れていることを示している:

  • より正確なシーンボクセルセグメンテーション
  • ボクセル重複の削減
  • より正確な道路予測
  • 小物体とロングテールカテゴリーのより良い認識

関連研究

セマンティックシーン補完(SSC)

  • SSCNet:3D CNNを使用した疎な深度マップの処理
  • EsscNet:マルチスケール特徴の統合
  • VoxFormer:2段階Transformerアーキテクチャの採用

カメラベースの3D知覚

  • 単眼深度推定:Monodepth、Monodepth2
  • 検出Transformer:DETRモデル
  • マルチビュー手法:BEVFormerなど

3D占有率予測

  • Transformerアーキテクチャ:VoxFormer、FB-Occ
  • 特徴融合:LSS+BEVFormerの双方向特徴処理

結論と考察

主要な結論

  1. マルチレベル融合の有効性:異なるレベルの特徴を体系的に融合することで、パフォーマンスが大幅に向上する
  2. 大規模モデル知識の転移:Grounded-SAMの知識が占有率予測タスクに成功裏に転移される
  3. 計算効率:効率を維持しながらSOTAパフォーマンスを達成

限界

  1. 訓練リソース:2段階訓練が必要であり、訓練時間が増加する(+1時間)
  2. メモリ消費:ベースライン手法と比較して0.4Gのビデオメモリが増加
  3. 事前訓練モデルへの依存:Grounded-SAMとMobileStereoNetの事前訓練済み重みに依存

今後の方向性

  1. エンドツーエンド最適化:単一段階訓練戦略の探索
  2. より多くのモダリティ融合:他のセンサー情報の統合
  3. リアルタイム応用:推論速度のさらなる最適化

深い評価

利点

  1. 強い革新性:マルチレベル表現融合の観点から占有率予測問題を解決する初めての体系的なアプローチ
  2. 合理的な方法論:理論分析が明確で、異なるレベルの特徴の補完性分析が十分
  3. 充分な実験:方法の有効性を検証する包括的なアブレーション実験と比較実験
  4. 優れたパフォーマンス:複数の指標でSOTAを達成、特に小物体とロングテールカテゴリーで優秀

不足点

  1. 計算複雑度:2段階訓練が訓練複雑度を増加させる
  2. 強い依存性:事前訓練された大規模モデルに大きく依存
  3. 汎化性分析の欠落:他のデータセットでの検証が不足
  4. 理論分析の不足:この融合戦略が最適である理由についての深い理論分析が不足

影響力

  1. 学術的価値:占有率予測分野に新しい研究方向を提供
  2. 実用的価値:自動運転シーンでの直接的な応用の可能性
  3. 再現性:コードと詳細な実装詳細を提供

適用シーン

  1. 自動運転:車両環境知覚と経路計画
  2. ロボット航法:室内外環境理解
  3. AR/VRアプリケーション:3Dシーン再構成と理解
  4. 都市計画:ビジョンベースの3D都市モデリング

参考文献

本論文は46篇の関連文献を引用しており、主に以下を網羅している:

  • セマンティックシーン補完の基礎研究(SSCNet、LMSCNetなど)
  • Transformerアーキテクチャの応用(VoxFormer、BEVFormerなど)
  • 大規模ビジョンモデル(SAM、Grounded-SAMなど)
  • 深度推定と3D知覚関連研究

要約:CIGOccは占有率予測分野における重要な貢献を有する研究であり、革新的なマルチレベル特徴融合戦略と大規模モデル知識蒸留を通じて、計算効率を維持しながらパフォーマンスを大幅に向上させている。本研究はビジョンベースの3D知覚に新しい研究方向を提供し、重要な学術的価値と実用的意義を有している。