Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
Xu, Lin, Zhou et al.
Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc
academic
Предсказание занятости, направляемое дополнительной информацией, посредством многоуровневого слияния представлений
Предсказание занятости на основе камеры является основным методом трёхмерного восприятия для автономного вождения, целью которого является вывод полной трёхмерной геометрии сцены и семантической информации из двумерных изображений. Существующие методы в основном повышают производительность за счёт структурных модификаций (таких как облегчённые магистральные сети и сложные каскадные структуры), но эффективность ограничена. Мало исследований изучают слияние представлений, что приводит к недостаточному использованию богатого разнообразия признаков в двумерных изображениях. Исходя из этой мотивации, в данной работе предлагается CIGOcc — двухэтапная структура предсказания занятости на основе многоуровневого слияния представлений. CIGOcc извлекает признаки сегментации, графические и глубинные признаки из входного изображения и вводит механизм деформируемого многоуровневого слияния для объединения этих трёх многоуровневых признаков. Кроме того, CIGOcc объединяет знания, полученные путём дистилляции из SAM, для дальнейшего повышения точности предсказания. Без увеличения затрат на обучение CIGOcc достигает передовых результатов на эталоне SemanticKITTI.
Основная проблема, решаемая в данной работе, — это трёхмерное семантическое дополнение сцены на основе камеры (Semantic Scene Completion, SSC), в частности, как точно восстановить окклюдированные области из двумерного изображения при сохранении геометрической согласованности между камерами.
Ограничения структурной оптимизации: Существующие методы сосредоточены на оптимизации архитектуры сети, игнорируя полное исследование и использование информации из изображений
Недостаточное использование признаков: Основное внимание уделяется графическим признакам (положение, размер, цвет, форма), которые предоставляют только частичную семантическую информацию
Отсутствие многоуровневого слияния: Отсутствуют исследования по повышению способности модели к пониманию двумерных изображений с точки зрения многоуровневого слияния представлений
Структура CIGOcc: Предложена новая двухэтапная структура, использующая многоуровневое слияние представлений для решения проблемы низкой целевой точности, обеспечивающая точное восстановление 2D-в-3D, особенно в дальних сценах
Механизм деформируемого многоуровневого слияния: Предложен новый механизм слияния, адаптивно и эффективно объединяющий глубинную и семантическую информацию, обеспечивающий более полное и точное трёхмерное восстановление
Передовая производительность: Достигнуты передовые результаты в задаче SSC на основе камеры, демонстрирующие эффективность и надёжность в сложных реальных сценах
Входные данные: Одиночное RGB-изображение I ∈ R^(C×H×W)
Выходные данные: Семантическая карта вокселей Y^(C×X×Y×Z), где каждый воксель классифицируется как один из 20 семантических классов
Цель: Вывести полную трёхмерную геометрию сцены и семантическую информацию из двумерного изображения
В данной работе цитируется 46 связанных работ, охватывающих в основном:
Фундаментальные работы по семантическому дополнению сцены (SSCNet, LMSCNet и т. д.)
Применение архитектур Transformer (VoxFormer, BEVFormer и т. д.)
Большие модели компьютерного зрения (SAM, Grounded-SAM и т. д.)
Связанные работы по оценке глубины и трёхмерному восприятию
Резюме: CIGOcc — это важная работа в области предсказания занятости, которая посредством инновационной стратегии многоуровневого слияния признаков и дистилляции знаний больших моделей значительно повышает производительность при сохранении вычислительной эффективности. Данная работа предоставляет новое исследовательское направление для трёхмерного восприятия на основе зрения и имеет важную академическую ценность и практическое значение.