DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
Xie, Liang, Li et al.
Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.
academic
DSM: Построение разнообразной семантической карты для 3D визуального позиционирования
Эффективное представление сцены имеет решающее значение для способности визуального позиционирования, однако существующие методы 3D визуального позиционирования часто имеют ограничения. Они либо сосредоточены только на геометрических и визуальных сигналах, либо, как традиционные 3D графы сцен, не содержат многомерных атрибутов, необходимых для сложного рассуждения. Для устранения этого пробела в статье представлена структура разнообразной семантической карты (DSM) — новый подход к представлению сцены, который обогащает надежную геометрическую модель семантикой, полученной из VLM (включая внешний вид, физические свойства и функциональность). DSM сначала строится в режиме реального времени путем слияния многовидовых наблюдений в пределах временного скользящего окна, создавая постоянную и комплексную модель мира. На этой основе предложен DSM-Grounding — новая парадигма, которая преобразует позиционирование из свободного запроса VLM в структурированный процесс рассуждения на семантически богатой карте, значительно повышая точность и интерпретируемость.
Существующие методы 3D визуального позиционирования сталкиваются с двумя основными ограничениями:
Недостаточное семантическое представление: большинство методов сосредоточены только на геометрических и визуальных сигналах, игнорируя внутренние атрибуты объектов и контекстные взаимозависимости
Ограниченные способности рассуждения: традиционные 3D графы сцен могут захватывать только простую семантику и не могут поддерживать рассуждение больших моделей в сложных окружениях
Для приложений, таких как сервисные роботы, недостаточно просто распознавать объекты; необходимо понимать многомерные атрибуты объектов (такие как цвет, свежесть, вес, положение) и сложные отношения между ними, что критически важно для выполнения сложных задач.
Геометрически ориентированные методы: такие как оптимизация выбора представления, в основном сосредоточены на геометрических и визуальных характеристиках, не хватает семантического понимания
Традиционные 3D графы сцен: сосредоточены только на простой семантике и пространственных отношениях, не хватает детальных многомерных атрибутов
Прямые запросы VLM: плохо работают при сложном пространственном и реляционном рассуждении, ограничены форматом входных данных
Построить представление сцены, которое является одновременно выразительным (кодирует богатую информацию) и компактным (обеспечивает адаптируемость между платформами), поддерживающее сложное многомерное рассуждение.
Предложена структура DSM: новая структура, способная поддерживать сложное многомерное представление сцены, достигающая интеграции семантического понимания и точного позиционирования
Разработан метод временного окна: метод построения в режиме реального времени, интегрирующий геометрию и семантическое восприятие, для построения компонентов DSM с богатой семантикой
Предложен DSM-Grounding: новый метод 3D позиционирования, использующий DSM для более глубокого рассуждения о сцене
Входные данные: непрерывный поток RGB-D наблюдений, запрос на естественном языке
Выходные данные: 3D положение и ограничивающий прямоугольник целевого объекта
Ограничения: установка с нулевым обучением, без предварительно обученных меток конкретного класса
Использование LLM для анализа запроса на естественном языке, определение целевого объекта, якорных объектов и их атрибутов, извлечение начального набора кандидатов из DSM путем текстового сопоставления.
Среда симуляции: значительное превосходство над существующими методами с нулевым обучением в AI2-THOR
Реальная среда: успешное развертывание на физическом роботе для выполнения:
Задач семантической навигации: "Навигация к центральной комнате рядом с компьютерным столом"
Задач семантического захвата: "Захватить яблоко на белой полке белого шкафа"
Статья цитирует 40 соответствующих работ, охватывающих представление 3D сцен, визуальное позиционирование, робототехнику и другие области, предоставляя читателям полный справочный материал.
Общая оценка: это высокачественная исследовательская статья, предлагающая инновационное решение в области 3D визуального позиционирования. Структура DSM успешно объединяет геометрическую точность и семантическое богатство, обеспечивая мощную техническую поддержку для понимания и взаимодействия роботов в сложных окружениях. Несмотря на некоторые ограничения в вычислениях и применимости, техническая инновация и экспериментальная проверка демонстрируют высокое качество, оказывая значительное влияние на развитие этой области.