Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
Xu, Lin, Zhou et al.
Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc
카메라 기반 점유율 예측은 자율주행 3D 인식의 주류 방법으로, 2D 이미지에서 완전한 3D 장면 기하학 및 의미 정보를 추론하는 것을 목표로 한다. 기존 방법들은 주로 구조 수정(경량화된 백본 네트워크 및 복잡한 캐스케이드 프레임워크 등)을 통해 성능을 향상시키려 했으나 효과가 제한적이다. 표현 융합 관점에서 탐색하는 연구는 드물어, 2D 이미지의 풍부한 특징 다양성이 충분히 활용되지 못하고 있다. 이러한 동기에 기반하여, 본 논문은 다층 표현 융합 기반의 2단계 점유율 예측 프레임워크인 CIGOcc를 제안한다. CIGOcc는 입력 이미지에서 분할, 그래픽 및 깊이 특징을 추출하고, 이 세 가지 다층 특징을 융합하기 위해 변형 가능한 다층 융합 메커니즘을 도입한다. 또한 CIGOcc는 SAM 증류에서 얻은 지식을 결합하여 예측 정확도를 추가로 향상시킨다. 훈련 비용을 증가시키지 않으면서 CIGOcc는 SemanticKITTI 벤치마크에서 최첨단 성능을 달성했다.
요약: CIGOcc는 점유율 예측 분야에서 중요한 기여를 하는 연구로, 혁신적인 다층 특징 융합 전략 및 대규모 모델 지식 증류를 통해 계산 효율성을 유지하면서 성능을 크게 향상시켰다. 본 연구는 시각 기반 3D 인식에 새로운 연구 방향을 제시하며, 중요한 학술적 가치 및 실용적 의의를 지닌다.