2025-11-18T12:22:13.890784

DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding

Xie, Liang, Li et al.

Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.

academic

DSM: Построение разнообразной семантической карты для 3D визуального позиционирования

Основная информация

ID статьи: 2504.08307
Название: DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
Авторы: Цинхунбин Се, Зицзянь Лян, Фухао Ли, Лун Цэн (Международный аспирантский институт Университета Цинхуа в Шэньчжэне)
Классификация: cs.CV cs.RO
Время публикации/конференция: arXiv 2025 (на рассмотрении)
Ссылка на статью: https://arxiv.org/abs/2504.08307
Страница проекта: https://binicey.github.io/DSM/

Аннотация

Эффективное представление сцены имеет решающее значение для способности визуального позиционирования, однако существующие методы 3D визуального позиционирования часто имеют ограничения. Они либо сосредоточены только на геометрических и визуальных сигналах, либо, как традиционные 3D графы сцен, не содержат многомерных атрибутов, необходимых для сложного рассуждения. Для устранения этого пробела в статье представлена структура разнообразной семантической карты (DSM) — новый подход к представлению сцены, который обогащает надежную геометрическую модель семантикой, полученной из VLM (включая внешний вид, физические свойства и функциональность). DSM сначала строится в режиме реального времени путем слияния многовидовых наблюдений в пределах временного скользящего окна, создавая постоянную и комплексную модель мира. На этой основе предложен DSM-Grounding — новая парадигма, которая преобразует позиционирование из свободного запроса VLM в структурированный процесс рассуждения на семантически богатой карте, значительно повышая точность и интерпретируемость.

Исследовательский контекст и мотивация

Проблемы, которые необходимо решить

Существующие методы 3D визуального позиционирования сталкиваются с двумя основными ограничениями:

Недостаточное семантическое представление: большинство методов сосредоточены только на геометрических и визуальных сигналах, игнорируя внутренние атрибуты объектов и контекстные взаимозависимости
Ограниченные способности рассуждения: традиционные 3D графы сцен могут захватывать только простую семантику и не могут поддерживать рассуждение больших моделей в сложных окружениях

Важность проблемы

Для приложений, таких как сервисные роботы, недостаточно просто распознавать объекты; необходимо понимать многомерные атрибуты объектов (такие как цвет, свежесть, вес, положение) и сложные отношения между ними, что критически важно для выполнения сложных задач.

Ограничения существующих методов

Геометрически ориентированные методы: такие как оптимизация выбора представления, в основном сосредоточены на геометрических и визуальных характеристиках, не хватает семантического понимания
Традиционные 3D графы сцен: сосредоточены только на простой семантике и пространственных отношениях, не хватает детальных многомерных атрибутов
Прямые запросы VLM: плохо работают при сложном пространственном и реляционном рассуждении, ограничены форматом входных данных

Исследовательская мотивация

Построить представление сцены, которое является одновременно выразительным (кодирует богатую информацию) и компактным (обеспечивает адаптируемость между платформами), поддерживающее сложное многомерное рассуждение.

Основные вклады

Предложена структура DSM: новая структура, способная поддерживать сложное многомерное представление сцены, достигающая интеграции семантического понимания и точного позиционирования
Разработан метод временного окна: метод построения в режиме реального времени, интегрирующий геометрию и семантическое восприятие, для построения компонентов DSM с богатой семантикой
Предложен DSM-Grounding: новый метод 3D позиционирования, использующий DSM для более глубокого рассуждения о сцене

Подробное описание метода

Определение задачи

Входные данные: непрерывный поток RGB-D наблюдений, запрос на естественном языке Выходные данные: 3D положение и ограничивающий прямоугольник целевого объекта Ограничения: установка с нулевым обучением, без предварительно обученных меток конкретного класса

Определение DSM

DSM определяется как 3D граф сцены G=(O,R), где:

O: набор узлов объектов
R: набор ребер, представляющих отношения

Каждый узел объекта O_i ∈ O содержит:

Геометрическое представление (O_g^i):

3D облако точек P_i
Ориентированный ограничивающий прямоугольник B_i

Семантическое представление (O_s^i):

Идентификация N_i: метка класса или имя
Атрибуты A_i: структурированное описание, полученное из VLM
- Атрибуты внешнего вида (a_a): цвет, узор, текстура
- Физические атрибуты (a_p): вес, материал, характеристики поверхности
- Функциональные атрибуты (a_o): назначение, методы операции

Процесс построения DSM

1. Анализ одного представления

Для каждого кадра RGB-D выполняется:

Обнаружение и сегментация объектов: использование YoloWorld для открытого словарного обнаружения, SAM2 для сегментации
Генерация облака точек: обратная проекция 2D маски через информацию глубины и позы камеры
Извлечение семантики: использование VLM и рассуждения цепочки мыслей для генерации структурированного семантического описания

2. Многовидовое отображение

Ассоциация мультимодальных данных: вычисление взвешенного балла сходства

S = s_v + s_g + s_c
s_v = CosSimilarity(f_vp̂, f_vq̂)  # визуальное сходство
s_g = IoU(bbox_p, bbox_q)         # геометрическое сходство  
s_c = CosSimilarity(f_sp̂, f_sq̂)  # семантическое сходство

Метод геометрического скользящего окна:

Построение видимого объема для каждого кадра
Агрегирование последних наблюдений облака точек
Применение схемы пространственного голосования для фильтрации шума и завершения формы

Метод DSM-Grounding

1. Извлечение кандидатов

Использование LLM для анализа запроса на естественном языке, определение целевого объекта, якорных объектов и их атрибутов, извлечение начального набора кандидатов из DSM путем текстового сопоставления.

2. Фильтрация скрытых отношений (LRF)

Проверка ограничений отношений, описанных в запросе:

Запрос отношений R, хранящихся в DSM
Использование LLM для оценки согласованности сохраненных отношений с отношениями в запросе
Выбор Top-k кандидатов, создание уточненного набора O_filtered

3. Многоуровневая проверка

Рендеринг изображений с трех точек зрения для финального набора кандидатов:

Уровень объекта: объект заполняет экран, предоставляя подробную информацию о классе и атрибутах
Уровень положения: более широкое представление, показывающее отношение объекта к соседним областям
Уровень сцены: глобальный контекст, содержащий почти всю сцену

Финальное решение:

pred = VLM(I, O_filtered, Q)

Экспериментальная установка

Наборы данных

ScanRefer: 8 сцен, включая гостиные, столовые, кабинеты, спальни и т.д.
Nr3D/Sr3D: отчеты по показателям Overall, Easy, Hard, View-dependent, View-independent
AI2-THOR: высокоточная среда симулятора
Replica: крупномасштабный набор данных внутренних помещений

Метрики оценки

3D визуальное позиционирование: Acc@0.25, Acc@0.5 (пороги IoU)
Семантическая сегментация: mAcc (средняя точность), F-mIoU (переднее среднее IoU)

Детали реализации

Модель обнаружения: YoloWorld
Модель сегментации: SAM2
Кодеры: SigLip (текст), DINOv2 (визуальный)
VLM: GPT-4o-mini, Qwen2.5-VL-7B/72B
Установка порогов: t_v=0.4, t_x=0.8, t_g=0.3, T=1.5

Результаты экспериментов

Основные результаты

3D семантическая сегментация (набор данных Replica)

Метод	mAcc	F-mIoU
LSeg (Privileged)	33.39	51.54
OpenSeg (Privileged)	41.19	53.74
ConceptFusion (Zero-shot)	31.53	38.70
ConceptGraphs (Zero-shot)	40.63	35.95
Наш метод	38.76	67.93

3D визуальное позиционирование (набор данных ScanRefer)

Лучшие результаты с использованием Qwen2.5-VL-72B:

Overall Acc@0.5: 59.06% (SOTA, превосходит существующие методы примерно на 10%)
Multiple Acc@0.5: 53.65% (выдающаяся производительность в многообъектных сценах)

Абляционные исследования (набор данных AI2-THOR)

LRF	Атрибуты внешнего вида	Физические атрибуты	Функциональные атрибуты	Overall Acc@0.5
✓	✓	✓	✓	60.00
✗	✓	✓	✓	53.64 (-6.36)
✗	✓	✗	✗	49.55
✗	✗	✓	✗	49.09
✗	✗	✗	✓	48.41

Ключевые выводы:

Модуль LRF обеспечивает наибольший вклад (примерно 6-7 процентных пункта улучшения)
Атрибуты внешнего вида предоставляют наиболее важный сигнал
Все три типа семантических атрибутов дают положительный вклад

Робототехнические эксперименты

Среда симуляции: значительное превосходство над существующими методами с нулевым обучением в AI2-THOR Реальная среда: успешное развертывание на физическом роботе для выполнения:

Задач семантической навигации: "Навигация к центральной комнате рядом с компьютерным столом"
Задач семантического захвата: "Захватить яблоко на белой полке белого шкафа"

Связанные работы

Представление 3D сцены

Ранние методы: Kimera и другие сосредоточены на метрико-семантическом отображении
Открытое словарное отображение: ConceptFusion создает языковые основы 3D карт
3D графы сцен: SceneGraphFusion, Hydra строят иерархические представления
Преимущество данной работы: DSM обеспечивает более богатое представление многомерных атрибутов

3D визуальное позиционирование

Методы открытого словаря: OpenScene, NuGrounding достигают позиционирования через выравнивание признаков
Методы VLM: SeeGround, ScanReason используют стратегию рендеринга-подсказки
Инновация данной работы: переход от прямого запроса VLM к структурированному процессу рассуждения

Заключение и обсуждение

Основные выводы

Структура DSM успешно объединяет геометрическую точность и семантическое богатство
Многомерные семантические атрибуты (внешний вид, физические, функциональные) значительно повышают производительность позиционирования
Парадигма структурированного рассуждения превосходит методы прямого запроса VLM
Метод показывает отличные результаты как в симулированных, так и в реальных окружениях

Ограничения

Зависимость от восходящих модулей: производительность зависит от качества обнаружения и сегментации объектов
Вычислительная задержка: время вывода больших VLM относительно велико
Адаптируемость окружения: в основном протестирована на внутренних сценах, применимость к открытым сценам неизвестна

Направления будущих исследований

Изучение более эффективных моделей для повышения производительности в реальном времени
Исследование альтернативных методов 3D представления для повышения надежности
Расширение на более сложные открытые окружения

Глубокая оценка

Преимущества

Сильная методологическая инновация: первая систематическая интеграция многомерных семантических атрибутов в 3D представление сцены
Полное техническое решение: комплексное решение от построения сцены до вывода позиционирования
Достаточные эксперименты: охватывают несколько наборов данных, абляционные исследования и проверку на реальных роботах
Значительное улучшение производительности: достижение SOTA на нескольких эталонах, особенно заметное улучшение F-mIoU

Недостатки

Вычислительная сложность: требует множественных вызовов VLM, что может повлиять на приложения в реальном времени
Ограничения оценки: в основном оценивается на внутренних сценах, не хватает крупномасштабной проверки на открытых пространствах
Сильная зависимость: высокая зависимость от качества VLM, может быть подвержена смещениям модели
Требования к памяти: хранение богатой семантической информации может создать нагрузку на память

Влияние

Академический вклад: предоставляет новое направление исследований для понимания 3D сцен
Практическая ценность: непосредственно применимо к практическим приложениям, таким как сервисные роботы
Воспроизводимость: предоставляет подробные детали реализации и страницу проекта

Применимые сценарии

Сервисные роботы в помещениях: навигация и операции в домашних и офисных окружениях
Приложения дополненной реальности: AR системы, требующие богатого семантического понимания
Интеллектуальное видеонаблюдение: понимание сцены на основе семантики и обнаружение аномалий
Вспомогательные технологии: предоставление описания окружения для людей с нарушениями зрения

Библиография

Статья цитирует 40 соответствующих работ, охватывающих представление 3D сцен, визуальное позиционирование, робототехнику и другие области, предоставляя читателям полный справочный материал.

Общая оценка: это высокачественная исследовательская статья, предлагающая инновационное решение в области 3D визуального позиционирования. Структура DSM успешно объединяет геометрическую точность и семантическое богатство, обеспечивая мощную техническую поддержку для понимания и взаимодействия роботов в сложных окружениях. Несмотря на некоторые ограничения в вычислениях и применимости, техническая инновация и экспериментальная проверка демонстрируют высокое качество, оказывая значительное влияние на развитие этой области.