2025-11-23T02:55:16.956845

Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion

Xu, Lin, Zhou et al.

Camera-based occupancy prediction is a mainstream approach for 3D perception in autonomous driving, aiming to infer complete 3D scene geometry and semantics from 2D images. Almost existing methods focus on improving performance through structural modifications, such as lightweight backbones and complex cascaded frameworks, with good yet limited performance. Few studies explore from the perspective of representation fusion, leaving the rich diversity of features in 2D images underutilized. Motivated by this, we propose \textbf{CIGOcc, a two-stage occupancy prediction framework based on multi-level representation fusion. \textbf{CIGOcc extracts segmentation, graphics, and depth features from an input image and introduces a deformable multi-level fusion mechanism to fuse these three multi-level features. Additionally, CIGOcc incorporates knowledge distilled from SAM to further enhance prediction accuracy. Without increasing training costs, CIGOcc achieves state-of-the-art performance on the SemanticKITTI benchmark. The code is provided in the supplementary material and will be released https://github.com/VitaLemonTea1/CIGOcc

academic

Предсказание занятости, направляемое дополнительной информацией, посредством многоуровневого слияния представлений

Основная информация

ID статьи: 2510.13198
Название: Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion
Авторы: Rongtao Xu, Jinzhou Lin, Jialei Zhou, Jiahua Dong, Changwei Wang, Ruisheng Wang, Li Guo, Shibiao Xu, Xiaodan Liang
Категория: cs.CV (Компьютерное зрение)
Дата публикации: 15 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.13198v1
Ссылка на код: https://github.com/VitaLemonTea1/CIGOcc

Аннотация

Предсказание занятости на основе камеры является основным методом трёхмерного восприятия для автономного вождения, целью которого является вывод полной трёхмерной геометрии сцены и семантической информации из двумерных изображений. Существующие методы в основном повышают производительность за счёт структурных модификаций (таких как облегчённые магистральные сети и сложные каскадные структуры), но эффективность ограничена. Мало исследований изучают слияние представлений, что приводит к недостаточному использованию богатого разнообразия признаков в двумерных изображениях. Исходя из этой мотивации, в данной работе предлагается CIGOcc — двухэтапная структура предсказания занятости на основе многоуровневого слияния представлений. CIGOcc извлекает признаки сегментации, графические и глубинные признаки из входного изображения и вводит механизм деформируемого многоуровневого слияния для объединения этих трёх многоуровневых признаков. Кроме того, CIGOcc объединяет знания, полученные путём дистилляции из SAM, для дальнейшего повышения точности предсказания. Без увеличения затрат на обучение CIGOcc достигает передовых результатов на эталоне SemanticKITTI.

Исследовательский контекст и мотивация

Исследуемая проблема

Основная проблема, решаемая в данной работе, — это трёхмерное семантическое дополнение сцены на основе камеры (Semantic Scene Completion, SSC), в частности, как точно восстановить окклюдированные области из двумерного изображения при сохранении геометрической согласованности между камерами.

Важность проблемы

Требования автономного вождения: SSC является ключевым решением для трёхмерного восприятия в автономном вождении и робототехнике
Экономическая эффективность: Методы на основе камеры более экономичны по сравнению с датчиками, такими как LiDAR
Технические вызовы: Точное восстановление окклюдированных областей и сохранение геометрической согласованности остаются техническими узкими местами

Ограничения существующих методов

Ограничения структурной оптимизации: Существующие методы сосредоточены на оптимизации архитектуры сети, игнорируя полное исследование и использование информации из изображений
Недостаточное использование признаков: Основное внимание уделяется графическим признакам (положение, размер, цвет, форма), которые предоставляют только частичную семантическую информацию
Отсутствие многоуровневого слияния: Отсутствуют исследования по повышению способности модели к пониманию двумерных изображений с точки зрения многоуровневого слияния представлений

Исследовательская мотивация

Авторы считают, что суть трёхмерного восприятия заключается в понимании трёхмерных пространственных отношений, поэтому необходимо:

Глубинные признаки: Как низкоуровневые признаки, несущие информацию об искажении и глубине, усиливающие понимание пространственных отношений
Признаки сегментации: Использование мощных семантических представлений больших фундаментальных моделей (таких как SAM)
Дополнительное слияние: Эффективное объединение признаков разных уровней для улучшения понимания двумерного изображения

Основные вклады

Структура CIGOcc: Предложена новая двухэтапная структура, использующая многоуровневое слияние представлений для решения проблемы низкой целевой точности, обеспечивающая точное восстановление 2D-в-3D, особенно в дальних сценах
Механизм деформируемого многоуровневого слияния: Предложен новый механизм слияния, адаптивно и эффективно объединяющий глубинную и семантическую информацию, обеспечивающий более полное и точное трёхмерное восстановление
Передовая производительность: Достигнуты передовые результаты в задаче SSC на основе камеры, демонстрирующие эффективность и надёжность в сложных реальных сценах

Подробное описание метода

Определение задачи

Входные данные: Одиночное RGB-изображение I ∈ R^(C×H×W) Выходные данные: Семантическая карта вокселей Y^(C×X×Y×Z), где каждый воксель классифицируется как один из 20 семантических классов Цель: Вывести полную трёхмерную геометрию сцены и семантическую информацию из двумерного изображения

Архитектура модели

CIGOcc использует двухэтапную архитектуру:

Первый этап: Сеть деформируемого мультимодального слияния (DMFNet)

Извлечение признаков:
- Использование MobileStereoNet для генерации карты глубины D_i ∈ R^(C×H×W)
- Использование Grounded-SAM для извлечения семантических признаков F_i ∈ R^(C×H×W)
Построение начального пространства вокселей:
```
F_raw = DMF(F_i^(C×H×W), D_i^(C×H×W))
```
где DMF — это улучшенный метод слияния на основе LMSCNet
Предсказание головы сегментации:
```
F_seg = SegHead(F_raw)
```

Второй этап: Сеть генерации вокселей, направляемая дополнительной информацией (CIGNet)

Извлечение признаков изображения: Использование ResNet50 для извлечения признаков F_2D ∈ R^(×H×W×D)
Деформируемое кросс-внимание:
```
Q_s^3d = DCA(F_2D, Q_d)
```
где Q_d — это двоичные запросы классификации, полученные на первом этапе
Деформируемое самовнимание:
```
V̂_s^3d = DSA(Q̂_s^3d, Q̂_s^3d)
```
Модуль дистилляции знаний:
```
F_sem^2d = θ_s(F_2D)
```

Технические инновации

Многоуровневое слияние признаков: Первое систематическое объединение высокоуровневых признаков сегментации, среднеуровневых графических признаков и низкоуровневых глубинных признаков
Дистилляция знаний больших моделей: Эффективная дистилляция знаний Grounded-SAM в задачу предсказания занятости
Механизм деформируемого внимания: Использование деформируемого внимания для обработки высокоразрешённых изображений, снижение вычислительной сложности
Двухэтапная стратегия обучения: Поэтапная оптимизация слияния признаков разных уровней

Экспериментальная установка

Набор данных

Набор данных SemanticKITTI:

Плотные семантические аннотации занятости на основе эталона KITTI Odometry
Диапазон покрытия: спереди 0-51,2 метра, поперечно ±25,6 метра, высота -2 до 4,4 метра
Сетка вокселей: 256×256×32, разрешение 0,2 метра/воксель
Аннотация 20 семантических классов

Метрики оценки

Основная метрика: Средний коэффициент пересечения над объединением (mIoU)
Вспомогательные метрики: IoU, Precision, Recall
Специальная оценка: Производительность на малых объектах, производительность на длинных хвостах

Методы сравнения

Включают LMSCNet, 3DSketch, AICNet, JS3C-Net, MonoScene, VoxFormer, OccFormer, SurroundOcc, TPVFormer, SparseOcc, MonoOcc и другие основные методы

Детали реализации

Оборудование: 4×RTX 3090 GPU
Время обучения: По 20 эпох на каждом этапе, всего 4,5+4,5=9 часов
Предварительно обученные веса: ViT-H HQ-SAM для Grounded-SAM, MSNet3D SFDS для MobileStereoNet
Магистральная сеть: ResNet50

Результаты экспериментов

Основные результаты

Сравнение производительности на тестовом наборе SemanticKITTI:

Метод	mIoU	Улучшение относительно VoxFormer-T
VoxFormer-T	13,41%	-
CIGOcc	14,90%	+1,49%

Ключевые улучшения производительности:

Общий mIoU: 14,90% (SOTA)
Производительность на малых объектах: +19,28% улучшение
Производительность на длинных хвостах: +35,20% улучшение

Производительность на разных диапазонах расстояний

Диапазон расстояния	CIGOcc mIoU	VoxFormer-T mIoU	Улучшение
12,8 м	23,81%	21,55%	+2,26%
25,6 м	20,35%	18,42%	+1,93%
51,2 м	14,90%	13,35%	+1,55%

Абляционные эксперименты

Компонент	mIoU	Влияние
Полная модель	14,49%	-
Без вспомогательной потери семантики	14,10%	-0,39%
Без слияния признаков	13,85%	-0,64%
Без Grounded-SAM	13,63%	-0,86%

Анализ примеров

Качественные результаты показывают, что CIGOcc выделяется в следующих аспектах:

Более точная сегментация вокселей сцены
Меньше перекрытия вокселей
Более точное предсказание дороги
Лучшее распознавание малых объектов и классов с длинными хвостами

Связанные работы

Семантическое дополнение сцены (SSC)

SSCNet: Использование трёхмерной свёртки для обработки разреженных карт глубины
EsscNet: Интеграция многомасштабных признаков
VoxFormer: Применение двухэтапной архитектуры Transformer

Трёхмерное восприятие на основе камеры

Оценка монокулярной глубины: Monodepth, Monodepth2
Трансформеры обнаружения: Модели DETR
Многовидовые методы: BEVFormer и другие

Трёхмерное предсказание занятости

Архитектуры Transformer: VoxFormer, FB-Occ
Слияние признаков: Двусторонняя обработка признаков LSS+BEVFormer

Заключение и обсуждение

Основные выводы

Эффективность многоуровневого слияния: Систематическое объединение признаков разных уровней значительно повышает производительность
Передача знаний больших моделей: Знания Grounded-SAM успешно передаются в задачу предсказания занятости
Вычислительная эффективность: Достижение SOTA производительности при сохранении эффективности

Ограничения

Ресурсы обучения: Требуется двухэтапное обучение, что увеличивает время обучения на +1 час
Потребление памяти: Увеличение потребления видеопамяти на 0,4 ГБ по сравнению с базовым методом
Зависимость от предварительно обученных моделей: Зависимость от предварительно обученных весов Grounded-SAM и MobileStereoNet

Будущие направления

Сквозная оптимизация: Исследование стратегий одноэтапного обучения
Слияние большего количества модальностей: Объединение информации от других датчиков
Приложения в реальном времени: Дальнейшая оптимизация скорости вывода

Глубокая оценка

Преимущества

Высокая инновационность: Первое систематическое решение проблемы предсказания занятости с точки зрения многоуровневого слияния представлений
Разумный метод: Ясный теоретический анализ, хорошо проработана взаимодополняемость признаков разных уровней
Полные эксперименты: Всесторонние абляционные и сравнительные эксперименты подтверждают эффективность метода
Выдающаяся производительность: Достижение SOTA по нескольким метрикам, особенно на малых объектах и классах с длинными хвостами

Недостатки

Вычислительная сложность: Двухэтапное обучение увеличивает сложность обучения
Сильная зависимость: Сильная зависимость от предварительно обученных больших моделей
Анализ обобщаемости: Отсутствие проверки на других наборах данных
Теоретический анализ: Отсутствует глубокий анализ того, почему эта стратегия слияния оптимальна

Влияние

Академическая ценность: Предоставляет новые исследовательские направления для области предсказания занятости
Практическая ценность: Имеет прямой потенциал применения в сценариях автономного вождения
Воспроизводимость: Предоставлены код и подробные детали реализации

Применимые сценарии

Автономное вождение: Восприятие окружающей среды транспортного средства и планирование пути
Навигация робота: Понимание окружающей среды в помещении и на открытом воздухе
Приложения AR/VR: Восстановление и понимание трёхмерной сцены
Городское планирование: Трёхмерное моделирование города на основе зрения

Библиография

В данной работе цитируется 46 связанных работ, охватывающих в основном:

Фундаментальные работы по семантическому дополнению сцены (SSCNet, LMSCNet и т. д.)
Применение архитектур Transformer (VoxFormer, BEVFormer и т. д.)
Большие модели компьютерного зрения (SAM, Grounded-SAM и т. д.)
Связанные работы по оценке глубины и трёхмерному восприятию

Резюме: CIGOcc — это важная работа в области предсказания занятости, которая посредством инновационной стратегии многоуровневого слияния признаков и дистилляции знаний больших моделей значительно повышает производительность при сохранении вычислительной эффективности. Данная работа предоставляет новое исследовательское направление для трёхмерного восприятия на основе зрения и имеет важную академическую ценность и практическое значение.