2025-11-23T02:55:16.956845

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion

Xu, Lin, Zhou et al.
Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc
academic

보완 정보 기반 다층 표현 융합을 통한 점유율 예측

기본 정보

  • 논문 ID: 2510.13198
  • 제목: Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
  • 저자: Rongtao Xu, Jinzhou Lin, Jialei Zhou, Jiahua Dong, Changwei Wang, Ruisheng Wang, Li Guo, Shibiao Xu, Xiaodan Liang
  • 분류: cs.CV (컴퓨터 비전)
  • 발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.13198v1
  • 코드 링크: https://github.com/VitaLemonTea1/CIGOcc

초록

카메라 기반 점유율 예측은 자율주행 3D 인식의 주류 방법으로, 2D 이미지에서 완전한 3D 장면 기하학 및 의미 정보를 추론하는 것을 목표로 한다. 기존 방법들은 주로 구조 수정(경량화된 백본 네트워크 및 복잡한 캐스케이드 프레임워크 등)을 통해 성능을 향상시키려 했으나 효과가 제한적이다. 표현 융합 관점에서 탐색하는 연구는 드물어, 2D 이미지의 풍부한 특징 다양성이 충분히 활용되지 못하고 있다. 이러한 동기에 기반하여, 본 논문은 다층 표현 융합 기반의 2단계 점유율 예측 프레임워크인 CIGOcc를 제안한다. CIGOcc는 입력 이미지에서 분할, 그래픽 및 깊이 특징을 추출하고, 이 세 가지 다층 특징을 융합하기 위해 변형 가능한 다층 융합 메커니즘을 도입한다. 또한 CIGOcc는 SAM 증류에서 얻은 지식을 결합하여 예측 정확도를 추가로 향상시킨다. 훈련 비용을 증가시키지 않으면서 CIGOcc는 SemanticKITTI 벤치마크에서 최첨단 성능을 달성했다.

연구 배경 및 동기

연구 문제

본 논문이 해결하는 핵심 문제는 **카메라 기반 3D 의미 장면 완성(Semantic Scene Completion, SSC)**으로, 특히 2D 이미지에서 폐색 영역을 정확하게 재구성하고 카메라 간 기하학적 일관성을 유지하는 방법이다.

문제의 중요성

  1. 자율주행 요구사항: SSC는 자율주행 및 로봇 공학의 3D 인식을 위한 핵심 솔루션
  2. 비용 효율성: LiDAR 등 센서에 비해 카메라 기반 방법은 높은 비용 효율성을 제공
  3. 기술적 과제: 폐색 영역의 정확한 재구성 및 기하학적 일관성 유지는 여전히 기술적 병목

기존 방법의 한계

  1. 구조 최적화의 한계: 기존 방법들은 주로 네트워크 아키텍처 최적화에 집중하여 이미지 정보의 충분한 탐색 및 활용을 간과
  2. 특징 활용 부족: 주로 그래픽 특징(위치, 크기, 색상, 형태)에 집중하여 부분적인 의미 정보만 제공
  3. 다층 융합 부재: 다층 표현 융합 관점에서 2D 이미지 이해 능력을 향상시키는 연구 부족

연구 동기

저자들은 3D 인식의 핵심이 3차원 공간 관계 이해에 있다고 판단하여 다음이 필요하다고 주장한다:

  • 깊이 특징: 저수준 특징으로서 왜곡 및 깊이 정보를 전달하여 공간 관계 이해 강화
  • 분할 특징: 대규모 기초 모델(예: SAM)의 강력한 의미 표현 능력 활용
  • 상호보완적 융합: 서로 다른 수준의 특징을 효과적으로 융합하여 2D 이미지 이해 강화

핵심 기여

  1. CIGOcc 프레임워크: 다층 표현 융합을 활용하여 목표 정확도 문제를 해결하는 새로운 2단계 프레임워크 제안으로, 특히 원거리 장면에서 정확한 2D-to-3D 재구성 구현
  2. 변형 가능한 다층 융합 메커니즘: 깊이 및 의미 정보를 적응적으로 효과적으로 융합하여 더욱 포괄적이고 정확한 3D 재구성을 보장하는 새로운 융합 메커니즘 제안
  3. 최첨단 성능: 카메라 기반 SSC 작업에서 최첨단 성능 달성으로, 복잡한 실제 장면에서 효과성 및 견고성 입증

방법 상세 설명

작업 정의

입력: 단일 RGB 이미지 I ∈ R^(C×H×W) 출력: 의미 복셀 맵 Y ∈ R^(C×X×Y×Z), 각 복셀은 20개 의미 클래스 중 하나로 분류 목표: 2D 이미지에서 완전한 3D 장면 기하학 및 의미 정보 추론

모델 아키텍처

CIGOcc는 2단계 아키텍처를 채택한다:

1단계: 변형 가능한 다중 모달 융합 네트워크(DMFNet)

  1. 특징 추출:
    • MobileStereoNet을 사용하여 깊이 맵 D_i ∈ R^(C×H×W) 생성
    • Grounded-SAM을 사용하여 의미 특징 F_i ∈ R^(C×H×W) 추출
  2. 초기 복셀 공간 구성:
    F_raw = DMF(F_i^(C×H×W), D_i^(C×H×W))
    

    여기서 DMF는 LMSCNet을 기반으로 개선된 융합 방법
  3. 분할 헤드 예측:
    F_seg = SegHead(F_raw)
    

2단계: 보완 정보 기반 복셀 생성 네트워크(CIGNet)

  1. 이미지 특징 추출: ResNet50을 사용하여 특징 F_2D ∈ R^(×H×W×D) 추출
  2. 변형 가능한 교차 주의:
    Q_s^3d = DCA(F_2D, Q_d)
    

    여기서 Q_d는 1단계에서 얻은 이진 분류 쿼리
  3. 변형 가능한 자기 주의:
    V̂_s^3d = DSA(Q̂_s^3d, Q̂_s^3d)
    
  4. 지식 증류 모듈:
    F_sem^2d = θ_s(F_2D)
    

기술 혁신점

  1. 다층 특징 융합: 고수준 분할 특징, 중간 수준 그래픽 특징 및 저수준 깊이 특징을 체계적으로 융합한 최초 시도
  2. 대규모 모델 지식 증류: Grounded-SAM의 지식을 점유율 예측 작업에 효과적으로 증류
  3. 변형 가능한 주의 메커니즘: 고해상도 이미지 처리를 위해 변형 가능한 주의를 채택하여 계산 복잡도 감소
  4. 2단계 훈련 전략: 서로 다른 수준의 특징 융합을 단계적으로 최적화

실험 설정

데이터셋

SemanticKITTI 데이터셋:

  • KITTI Odometry 벤치마크 기반의 밀집 의미 점유 주석
  • 범위: 전방 0-51.2미터, 횡방향 ±25.6미터, 높이 -2~4.4미터
  • 복셀 그리드: 256×256×32, 해상도 0.2미터/복셀
  • 20개 의미 클래스 주석

평가 지표

  • 주요 지표: 평균 교집합 대 합집합(mIoU)
  • 보조 지표: IoU, Precision, Recall
  • 특수 평가: 소형 물체 성능, 장꼬리 물체 성능

비교 방법

LMSCNet, 3DSketch, AICNet, JS3C-Net, MonoScene, VoxFormer, OccFormer, SurroundOcc, TPVFormer, SparseOcc, MonoOcc 등 주류 방법 포함

구현 세부사항

  • 하드웨어: 4×RTX 3090 GPU
  • 훈련 시간: 각 단계 20 에포크, 총 4.5+4.5=9시간
  • 사전훈련 가중치: ViT-H HQ-SAM(Grounded-SAM용), MSNet3D SFDS(MobileStereoNet용)
  • 백본 네트워크: ResNet50

실험 결과

주요 결과

SemanticKITTI 테스트 세트의 성능 비교:

방법mIoUVoxFormer-T 대비 향상
VoxFormer-T13.41%-
CIGOcc14.90%+1.49%

주요 성능 향상:

  • 전체 mIoU: 14.90%(최첨단)
  • 소형 물체 성능: +19.28% 향상
  • 장꼬리 물체 성능: +35.20% 향상

거리 범위별 성능

거리 범위CIGOcc mIoUVoxFormer-T mIoU향상
12.8m23.81%21.55%+2.26%
25.6m20.35%18.42%+1.93%
51.2m14.90%13.35%+1.55%

소거 실험

구성 요소mIoU영향
완전한 모델14.49%-
의미 보조 손실 제거14.10%-0.39%
융합 특징 제거13.85%-0.64%
Grounded-SAM 제거13.63%-0.86%

사례 분석

정성적 결과는 CIGOcc가 다음 영역에서 뛰어난 성능을 보임을 나타낸다:

  • 더욱 정확한 장면 복셀 분할
  • 더 적은 복셀 겹침
  • 더욱 정확한 도로 예측
  • 소형 물체 및 장꼬리 클래스에 대한 더 나은 인식

관련 연구

의미 장면 완성(SSC)

  • SSCNet: 희소 깊이 맵 처리를 위해 3D CNN 사용
  • EsscNet: 다중 스케일 특징 통합
  • VoxFormer: 2단계 Transformer 아키텍처 채택

카메라 기반 3D 인식

  • 단안 깊이 추정: Monodepth, Monodepth2
  • 검출 Transformer: DETR 모델
  • 다중 뷰 방법: BEVFormer 등

3D 점유율 예측

  • Transformer 아키텍처: VoxFormer, FB-Occ
  • 특징 융합: LSS+BEVFormer의 양방향 특징 처리

결론 및 논의

주요 결론

  1. 다층 융합의 효과성: 서로 다른 수준의 특징을 체계적으로 융합하면 성능이 크게 향상됨
  2. 대규모 모델 지식 이전: Grounded-SAM 지식이 점유율 예측 작업으로 성공적으로 이전됨
  3. 계산 효율성: 효율성을 유지하면서 최첨단 성능 달성

한계

  1. 훈련 리소스: 2단계 훈련이 필요하여 훈련 시간 증가(+1시간)
  2. 메모리 소비: 기준선 방법 대비 0.4G 비디오 메모리 증가
  3. 사전훈련 모델 의존성: Grounded-SAM 및 MobileStereoNet의 사전훈련 가중치에 의존

향후 방향

  1. 엔드-투-엔드 최적화: 단일 단계 훈련 전략 탐색
  2. 추가 모달리티 융합: 다른 센서 정보 결합
  3. 실시간 응용: 추론 속도 추가 최적화

심층 평가

장점

  1. 높은 혁신성: 다층 표현 융합 관점에서 점유율 예측 문제를 해결한 최초 시도
  2. 합리적인 방법: 명확한 이론 분석, 서로 다른 수준 특징의 상호보완성 분석 완벽
  3. 충분한 실험: 포괄적인 소거 실험 및 비교 실험으로 방법 효과성 입증
  4. 뛰어난 성능: 여러 지표에서 최첨단 달성, 특히 소형 물체 및 장꼬리 클래스

부족한 점

  1. 계산 복잡도: 2단계 훈련으로 훈련 복잡도 증가
  2. 강한 의존성: 사전훈련된 대규모 모델에 심하게 의존
  3. 일반화 분석 부족: 다른 데이터셋에서의 검증 부족
  4. 이론 분석 부족: 이러한 융합 전략이 최적인 이유에 대한 심층 이론 분석 부족

영향력

  1. 학술적 가치: 점유율 예측 분야에 새로운 연구 방향 제시
  2. 실용적 가치: 자율주행 장면에서 직접 응용 가능성
  3. 재현성: 코드 및 상세한 구현 세부사항 제공

적용 분야

  1. 자율주행: 차량 환경 인식 및 경로 계획
  2. 로봇 네비게이션: 실내외 환경 이해
  3. AR/VR 응용: 3D 장면 재구성 및 이해
  4. 도시 계획: 시각 기반 3D 도시 모델링

참고문헌

본 논문은 46편의 관련 문헌을 인용하며, 주요 내용은 다음을 포함한다:

  • 의미 장면 완성 기초 연구(SSCNet, LMSCNet 등)
  • Transformer 아키텍처 응용(VoxFormer, BEVFormer 등)
  • 대규모 시각 모델(SAM, Grounded-SAM 등)
  • 깊이 추정 및 3D 인식 관련 연구

요약: CIGOcc는 점유율 예측 분야에서 중요한 기여를 하는 연구로, 혁신적인 다층 특징 융합 전략 및 대규모 모델 지식 증류를 통해 계산 효율성을 유지하면서 성능을 크게 향상시켰다. 본 연구는 시각 기반 3D 인식에 새로운 연구 방향을 제시하며, 중요한 학술적 가치 및 실용적 의의를 지닌다.