2025-11-24T17:43:17.218297

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Yuan, Liu, Lu et al.

Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.

academic

DepthVLA: Повышение производительности моделей Vision-Language-Action с помощью пространственного рассуждения, осведомленного о глубине

Основная информация

ID статьи: 2510.13375
Название: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
Авторы: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
Учреждение: IIIS, Tsinghua University & Galaxea AI
Категория: cs.CV (Компьютерное зрение)
Дата публикации: 15 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.13375

Аннотация

Модели Vision-Language-Action (VLA) демонстрируют отличные результаты в обобщении и языко-управляемых задачах манипуляции, однако их производительность снижается на задачах, требующих точного пространственного рассуждения, что обусловлено ограниченными возможностями пространственного рассуждения, унаследованными от моделей визуального языка (VLM). Существующие VLA полагаются на предварительное обучение на больших объемах данных действий для локализации VLM в трехмерном пространстве, что снижает эффективность обучения и остается недостаточным для точного пространственного понимания. В данной работе предлагается DepthVLA — простая и эффективная архитектура VLA, которая явно интегрирует возможности пространственного восприятия через предварительно обученный модуль предсказания глубины. DepthVLA использует гибридный дизайн Transformer, объединяющий VLM, Transformer глубины и экспертов действий через полностью общий механизм внимания, формируя сквозную модель с улучшенными возможностями пространственного рассуждения. Обширная оценка в реальных условиях и среде моделирования показывает, что DepthVLA превосходит передовые методы, достигая 78,5% против 65,0% прогресса в реальных задачах, 94,9% против 93,6% в симуляторе LIBERO и 74,8% против 58,8% в симуляторе Simpler.

Исследовательский контекст и мотивация

Основная проблема

Существующие модели Vision-Language-Action (VLA) показывают неудовлетворительные результаты на задачах манипуляции роботом, требующих точного пространственного рассуждения, главным образом по следующим причинам:

Ограниченные возможности пространственного рассуждения: VLA наследует ограничения пространственного рассуждения от VLM, показывая недостаточную производительность на точных задачах манипуляции
Низкая эффективность обучения: Существующие методы полагаются на большие объемы данных действий для предварительного обучения с целью локализации VLM в трехмерном пространстве, но остаются неспособными полностью понять пространственную информацию
Трудности практического применения: VLA часто дает сбой при захвате мелких предметов, выполнении точных операций или избежании столкновений

Важность проблемы

Точное пространственное рассуждение имеет решающее значение для манипуляции роботом, особенно при:

Захвате мелких предметов или выполнении тонких операций
Планировании пути с избежанием столкновений
Задачах укладки, требующих точной оценки положения
Многошаговых операциях в сложных окружениях

Ограничения существующих методов

Методы генеративных мировых моделей: Отсутствие явного трехмерного знания, ограниченное улучшение кодирования текущей сцены
Рассуждение типа Chain-of-Thought: Введение значительной задержки (более 2 секунд), требующее авторегрессивной генерации сотен пространственных токенов
Внешние оценки глубины: Такие как SpatialVLA, использующие готовые оценки глубины, но не оптимизированные сквозным образом с VLA, что ограничивает потолок производительности

Основные вклады

Архитектура DepthVLA: Предложена новая модель VLA, которая интегрирует предварительно обученного эксперта по предсказанию глубины в гибридную структуру Transformer, обеспечивая явное пространственное рассуждение при сохранении семантической основы VLM
Стратегия предварительного обучения специализированных экспертов: Гибридный дизайн Transformer позволяет каждому эксперту (VLM и глубина) предварительно обучаться отдельно на различных наборах данных, повышая эффективность обучения и масштабируемость за пределы данных действий воплощенных агентов
Комплексная проверка в реальных условиях и моделировании: Проверка DepthVLA в реальных условиях и среде моделирования (LIBERO, Simpler) демонстрирует значительное превосходство над передовыми VLA с заметными улучшениями в точности захвата, избежании столкновений и общей успешности задач

Подробное описание метода

Определение задачи

Следуя стандартной сквозной установке VLA, политика πθ предсказывает последовательность действий длины k At на основе текущего наблюдения ot (из одной или нескольких камер), языковой инструкции l и проприоцептивного состояния st:

At = πθ(ot, l, st)

Архитектура модели

DepthVLA использует архитектуру гибридного Transformer (MoT), интегрирующую трех экспертов:

1. Общий дизайн

Эксперт VLM: Кодирует наблюдения и языковые инструкции, захватывая семантические и языковые признаки
Эксперт глубины: Обрабатывает наблюдения для вывода геометрической информации
Эксперт действий: Генерирует непрерывные действия на основе комбинированных признаков семантического и геометрического экспертов

2. Дизайн эксперта глубины

Архитектура кодировщик-декодировщик: Кодировщик основан на DINOv2, инициализирован из предварительно обученной контрольной точки Depth Anything V2
Структура декодировщика: Соответствует структуре Transformer VLM, выводит предсказание глубины через линейную голову
Использование промежуточных признаков: Выполняет пространственное рассуждение на всех промежуточных слоях, предоставляя богатые геометрические подсказки для предсказания действий

3. Механизм внимания

Использует стратегию маскирования на уровне блоков:

Токены VLM и эксперта глубины обращают внимание только на себя
Токены действий могут обращать внимание на все потоки
Сохраняет способность обучения предварительно обученных модулей при одновременном объединении семантических и пространственных подсказок

Технические инновации

1. Явное пространственное рассуждение

В отличие от неявных методов, DepthVLA обеспечивает явное трехмерное геометрическое понимание через специализированного эксперта глубины, избегая зависимости от больших объемов данных действий.

2. Дизайн гибридного эксперта

Позволяет различным экспертам предварительно обучаться на данных, наиболее подходящих для каждого
Достигает эффективного объединения через общие слои внимания
Сохраняет специализированные возможности каждого эксперта

3. Сквозная оптимизация

Эксперт глубины совместно обучается с VLA, используя комбинированную функцию потерь:

L = Lsi + Lflow

где Lsi — потеря глубины, инвариантная к масштабу, Lflow — потеря соответствия потока.

Экспериментальная установка

Наборы данных

Наборы данных предварительного обучения:
- Эксперт глубины: WildRGB-D, ScanNet, ScanNet++, HyperSim
- VLA: Galaxea Open-World Dataset (100k траекторий), BridgeData V2 (60k траекторий)
Наборы данных оценки:
- Simpler WidowX: 4 набора задач, 120 испытаний
- LIBERO: 4 набора задач (Spatial/Object/Goal/Long), 2000 испытаний
- Реальный мир: 3 эталонные задачи, по 20 запусков на задачу

Метрики оценки

Коэффициент успеха: Процент завершенных задач
Оценка прогресса: Каждый успешный подшаг вносит один балл, усредняется по всем запускам

Методы сравнения

Diffusion Policy
Octo-Base
SpatialVLA
π0 (переиспользование)
OpenVLA
CoT-VLA
MolmoACT
DreamVLA

Детали реализации

Модель: Paligemma-3B в качестве основы VLM, DINOv2-L в качестве кодировщика глубины
Обучение: 32 GPU NVIDIA H100, оптимизатор AdamW
Вывод: GPU NVIDIA 4090, смешанная точность BF16, задержка 210 мс

Результаты экспериментов

Основные результаты

1. Тестирование на эталоне Simpler WidowX

Модель	Предварительное обучение	Put Spoon	Put Carrot	Stack Block	Pick Eggplant	Среднее
π0 (переиспользование)	×	81,7%	64,2%	30,0%	59,2%	58,8%
DepthVLA	×	75,8%	71,7%	62,5%	89,2%	74,8%

2. Тестирование на эталоне LIBERO

Модель	Предварительное обучение	Spatial	Object	Goal	Long	Среднее
π0 (переиспользование)	×	95,8%	96,4%	94,8%	87,4%	93,6%
DepthVLA	×	96,4%	98,0%	95,8%	89,2%	94,9%

3. Тестирование в реальном мире

Общая производительность: DepthVLA достигает среднего балла прогресса 79% против 65% у базовой линии
Операция микроволновой печи: Отличная производительность в избежании столкновений
Укладка блоков: Демонстрирует отличные возможности пространственного восприятия
Организация стола: Сравнимая производительность на задачах захвата мелких предметов

Исследование абляции

Конфигурация	Spoon	Carrot	Block	Eggplant	Среднее
Случайная инициализация эксперта глубины	60,0%	60,8%	43,3%	40,0%	51,0%
Удаление потери глубины	69,2%	60%	28,3%	70,0%	56,9%
Замораживание эксперта глубины	65,8%	69,2%	74,2%	78,3%	71,9%
Удаление маскирования на уровне блоков	66,7%	65,0%	2,5%	88,3%	55,6%
Полная версия DepthVLA	75,8%	71,7%	62,5%	89,2%	74,8%

Ключевые выводы

Предварительное обучение глубины критично: Эксперт глубины со случайной инициализацией показывает значительное снижение производительности
Потеря глубины необходима: Удаление потери глубины приводит к снижению производительности
Маскирование на уровне блоков эффективно: Сохранение независимости экспертов имеет решающее значение для производительности
Предсказание превосходит прямой ввод: Предсказанная глубина работает лучше, чем прямое использование истинной глубины

Связанные работы

Политики универсальной манипуляции роботом

Развитие от специализированных экспертов для одной задачи к универсальным моделям, движимое прогрессом в больших языковых моделях, моделях визуального языка и больших наборах данных действий робота. Ранние VLA генерируют токены действий авторегрессивно путем тонкой настройки VLM, последние VLA используют экспертов действий на основе диффузии.

VLA с пространственным восприятием

Ранние методы: Использование дополнительных трехмерных входов, таких как LiDAR или RGB-D камеры, но снижающие универсальность между платформами
SpatialVLA: Использование готовых оценок глубины для генерации псевдооблаков точек, но без сквозной оптимизации
Генеративные мировые модели: Предсказание будущих кадров, ключевых точек или семантического состояния, но ограниченное улучшение кодирования текущей сцены
Рассуждение CoT: Авторегрессивная генерация токенов глубины, но с введением высокой задержки

Трехмерное геометрическое восприятие

Недавний прогресс в трехмерном восприятии демонстрирует мощные возможности вывода геометрии из монокулярных или многовидовых изображений, предоставляя потенциал для улучшения пространственного рассуждения VLA.

Заключение и обсуждение

Основные выводы

Явное пространственное рассуждение эффективно: Значительное улучшение производительности VLA на точных задачах манипуляции через предварительно обученного эксперта глубины
Дизайн гибридного эксперта превосходит: Позволяет различным экспертам предварительно обучаться на наиболее подходящих данных, повышая эффективность
Сквозная оптимизация критична: Совместная оптимизация предсказания глубины и генерации действий более эффективна, чем использование внешних оценок глубины

Ограничения

Вызовы монокулярного предсказания глубины: Может по-прежнему давать сбой в сложных сценариях (микроскопические края, отражающие или прозрачные объекты, поверхности без текстуры)
Вычислительные затраты: Добавляет 600M параметров и 20 мс задержки вывода
Зависимость от меток глубины: Требует генерации псевдо-меток глубины для обучения

Будущие направления

Многовидовое предсказание глубины: Исследование многовидовой глубины или предсказания облака точек для повышения пространственной точности и надежности
Более эффективные архитектуры: Снижение вычислительных затрат при сохранении производительности
Неконтролируемое пространственное обучение: Снижение зависимости от меток глубины

Глубокая оценка

Преимущества

Сильная методологическая инновация: Первое эффективное интегрирование предварительно обученного эксперта глубины в VLA, обеспечивающее явное пространственное рассуждение
Полные и всесторонние эксперименты: Охватывают реальные условия и несколько сред моделирования с подробными исследованиями абляции
Значительное улучшение производительности: Последовательное улучшение производительности во всех тестовых окружениях
Разумный дизайн: Архитектура гибридного эксперта сохраняет специализированные возможности каждого эксперта при достижении эффективного объединения
Высокая практическая применимость: Небольшое увеличение задержки вывода, подходит для развертывания в реальном времени

Недостатки

Зависимость от качества глубины: Производительность ограничена качеством предсказания глубины, может давать сбой в сложных сценариях
Стоимость генерации меток: Требует генерации псевдо-меток глубины для данных обучения, увеличивая стоимость подготовки данных
Недостаточный теоретический анализ: Отсутствует глубокий теоретический анализ того, почему предсказанная глубина превосходит прямой ввод глубины
Ограниченная проверка обобщаемости: Главным образом проверена на определенных типах задач манипуляции, требуется дополнительная проверка обобщаемости на другие типы задач

Влияние

Вклад в область: Предоставляет новый эффективный метод для улучшения пространственного рассуждения VLA, потенциально влияя на направление последующих исследований
Практическая ценность: Метод прост и эффективен, легко реализуется в существующих системах VLA
Воспроизводимость: Авторы обещают открыть исходный код, способствуя воспроизведению исследований и дальнейшему развитию

Применимые сценарии

Точные задачи манипуляции: Особенно подходит для задач манипуляции роботом, требующих точного пространственного рассуждения
Многомодальные робототехнические системы: Применимо к различным робототехническим платформам с RGB-камерами
Промышленные приложения: Имеет потенциал применения в производстве, сервисной робототехнике и других сценариях, требующих точных операций

Библиография

Статья цитирует богатый набор связанных работ, включая:

Модели VLA: OpenVLA, π0, Octo и др.
Методы пространственного восприятия: SpatialVLA, CoT-VLA и др.
Модели трехмерного восприятия: Depth Anything V2, DINOv2 и др.
Эталонные наборы: LIBERO, Simpler, BridgeData V2 и др.

Общая оценка: Это высококачественная исследовательская работа, предлагающая простой и эффективный метод для повышения производительности пространственного рассуждения VLA. Экспериментальный дизайн полный, результаты убедительны, работа имеет важную практическую ценность и исследовательское значение для области робототехники и манипуляции.