2025-11-24T17:43:17.218297

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Yuan, Liu, Lu et al.

Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.

academic

DepthVLA : Amélioration des modèles Vision-Langage-Action par le raisonnement spatial conscient de la profondeur

Informations fondamentales

ID de l'article : 2510.13375
Titre : DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
Auteurs : Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
Institutions : IIIS, Université Tsinghua & Galaxea AI
Classification : cs.CV (Vision par ordinateur)
Date de publication : 15 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.13375

Résumé

Les modèles Vision-Langage-Action (VLA) démontrent une excellente performance dans les tâches de manipulation guidées par le langage et la généralisation, mais présentent des défaillances dans les tâches nécessitant un raisonnement spatial précis, en raison des capacités limitées de raisonnement spatial hérités des modèles de vision-langage (VLM). Les VLA existants dépendent d'un préentraînement sur de grandes quantités de données d'action pour localiser les VLM dans l'espace 3D, ce qui réduit l'efficacité d'entraînement et reste insuffisant pour une compréhension spatiale précise. Cet article propose DepthVLA, une architecture VLA simple mais efficace qui fusionne explicitement les capacités de raisonnement spatial conscient de la profondeur par le biais d'un module de prédiction de profondeur préentraîné. DepthVLA adopte une conception Transformer hybride qui unifie le VLM, le Transformer de profondeur et les experts en action, formant un modèle bout à bout par un mécanisme d'attention entièrement partagé, améliorant ainsi les capacités de raisonnement spatial. Des évaluations extensives dans des environnements réels et simulés démontrent que DepthVLA surpasse les méthodes de l'état de l'art, atteignant 78,5 % contre 65,0 % de progrès dans les tâches du monde réel, 94,9 % contre 93,6 % dans le simulateur LIBERO, et 74,8 % contre 58,8 % dans le simulateur Simpler.

Contexte de recherche et motivation

Problème fondamental

Les modèles Vision-Langage-Action (VLA) existants présentent des performances insuffisantes dans les tâches de manipulation robotique nécessitant un raisonnement spatial précis, principalement pour les raisons suivantes :

Capacités limitées de raisonnement spatial : Les VLA héritent des limitations du raisonnement spatial des VLM, montrant des performances insuffisantes dans les tâches de manipulation précise
Efficacité d'entraînement faible : Les méthodes existantes dépendent d'un préentraînement sur de grandes quantités de données d'action pour localiser les VLM dans l'espace 3D, mais ne peuvent toujours pas comprendre adéquatement les informations spatiales
Difficultés d'application pratique : Les VLA échouent fréquemment dans la saisie de petits objets, l'exécution de manipulations précises ou l'évitement de collisions

Importance du problème

Le raisonnement spatial précis est crucial pour la manipulation robotique, en particulier dans :

La saisie de petits objets ou les manipulations fines
La planification de trajectoires évitant les collisions
Les tâches d'empilage nécessitant une estimation de position précise
Les opérations multi-étapes dans des environnements complexes

Limitations des méthodes existantes

Approches par modèles mondiaux génératifs : Manquent de connaissances 3D explicites, offrant une amélioration limitée du codage de la scène actuelle
Raisonnement par chaîne de pensée : Introduit un délai significatif (supérieur à 2 secondes), nécessitant une génération autorégressive de centaines de tokens spatiaux
Estimateurs de profondeur externes : Comme SpatialVLA utilisant des estimateurs de profondeur prêts à l'emploi, mais non optimisés bout à bout avec le VLA, limitant le plafond de performance

Contributions fondamentales

Architecture DepthVLA : Propose un nouveau modèle VLA intégrant un expert en prédiction de profondeur préentraîné dans un cadre Transformer hybride, réalisant un raisonnement spatial explicite tout en conservant la base sémantique du VLM
Stratégie de préentraînement par expert spécialisé : La conception Transformer hybride permet à chaque expert (VLM et profondeur) d'être préentraîné séparément sur différents ensembles de données, améliorant l'efficacité d'entraînement et la scalabilité au-delà des données d'action incarnées
Validation complète en monde réel et en simulation : Valide que DepthVLA surpasse significativement les VLA de l'état de l'art dans les environnements réels et simulés (LIBERO, Simpler), avec des améliorations notables en précision de saisie, évitement de collision et taux de réussite global des tâches

Explication détaillée de la méthode

Définition de la tâche

Suivant la configuration VLA standard bout à bout, la politique πθ prédit un bloc d'action de longueur k At basé sur l'observation actuelle ot (provenant d'une ou plusieurs caméras), l'instruction en langage naturel l et l'état proprioceptif st :

At = πθ(ot, l, st)

Architecture du modèle

DepthVLA adopte une architecture Transformer hybride (MoT) intégrant trois experts :

1. Conception globale

Expert VLM : Encode l'observation et l'instruction en langage, capturant les caractéristiques sémantiques et de base linguistique
Expert en profondeur : Traite l'observation pour déduire les informations géométriques
Expert en action : Génère des actions continues basées sur les caractéristiques combinées des experts sémantique et géométrique

2. Conception de l'expert en profondeur

Architecture encodeur-décodeur : L'encodeur basé sur DINOv2, initialisé à partir du point de contrôle préentraîné de Depth Anything V2
Structure du décodeur : Correspond à la structure Transformer du VLM, produisant des prédictions de profondeur par une tête linéaire
Utilisation des caractéristiques intermédiaires : Effectue un raisonnement spatial à tous les niveaux intermédiaires, fournissant des indices géométriques riches pour la prédiction d'action

3. Mécanisme d'attention

Adopte une stratégie de masquage au niveau des blocs :

Les tokens des experts VLM et profondeur n'attendent que leurs propres tokens
Les tokens d'action peuvent attendre tous les flux
Préserve la capacité d'apprentissage des modules préentraînés tout en fusionnant les indices sémantiques et spatiaux

Points d'innovation technique

1. Raisonnement spatial explicite

Contrairement aux méthodes implicites, DepthVLA fournit une compréhension géométrique 3D explicite par un expert en profondeur dédié, évitant la dépendance à de grandes quantités de données d'action.

2. Conception d'experts hybrides

Permet à différents experts d'être préentraînés sur les données qui leur conviennent le mieux
Réalise une fusion efficace par des couches d'attention partagées
Préserve l'expertise spécialisée de chaque expert

3. Optimisation bout à bout

L'expert en profondeur est entraîné conjointement avec le VLA, utilisant une perte combinée :

L = Lsi + Lflow

où Lsi est la perte de profondeur invariante à l'échelle et Lflow est la perte d'appariement de flux.

Configuration expérimentale

Ensembles de données

Ensembles de données de préentraînement :
- Expert en profondeur : WildRGB-D, ScanNet, ScanNet++, HyperSim
- VLA : Galaxea Open-World Dataset (100k trajectoires), BridgeData V2 (60k trajectoires)
Ensembles de données d'évaluation :
- Simpler WidowX : 4 suites de tâches, 120 essais
- LIBERO : 4 suites de tâches (Spatial/Object/Goal/Long), 2000 essais
- Monde réel : 3 tâches de référence, 20 exécutions par tâche

Métriques d'évaluation

Taux de réussite : Pourcentage de tâches complétées
Score de progrès : Chaque sous-étape réussie contribue un point, moyenné sur tous les essais

Méthodes de comparaison

Diffusion Policy
Octo-Base
SpatialVLA
π0 (réimplémentation)
OpenVLA
CoT-VLA
MolmoACT
DreamVLA

Détails d'implémentation

Modèle : Paligemma-3B comme backbone VLM, DINOv2-L comme encodeur de profondeur
Entraînement : 32 GPU NVIDIA H100, optimiseur AdamW
Inférence : GPU NVIDIA 4090, précision mixte BF16, latence de 210ms

Résultats expérimentaux

Résultats principaux

1. Référence Simpler WidowX

Modèle	Préentraînement	Put Spoon	Put Carrot	Stack Block	Pick Eggplant	Moyenne
π0 (réimplémentation)	×	81,7%	64,2%	30,0%	59,2%	58,8%
DepthVLA	×	75,8%	71,7%	62,5%	89,2%	74,8%

2. Référence LIBERO

Modèle	Préentraînement	Spatial	Object	Goal	Long	Moyenne
π0 (réimplémentation)	×	95,8%	96,4%	94,8%	87,4%	93,6%
DepthVLA	×	96,4%	98,0%	95,8%	89,2%	94,9%

3. Référence du monde réel

Performance globale : DepthVLA atteint 79% contre 65% de score de progrès moyen par rapport à la ligne de base
Opération du micro-ondes : Performance excellente en évitement de collision
Empilage de blocs : Démontre une perception spatiale supérieure
Organisation de table : Performance comparable dans les tâches de saisie de petits objets

Études d'ablation

Configuration	Spoon	Carrot	Block	Eggplant	Moyenne
Expert en profondeur initialisé aléatoirement	60,0%	60,8%	43,3%	40,0%	51,0%
Suppression de la perte de profondeur	69,2%	60%	28,3%	70,0%	56,9%
Expert en profondeur gelé	65,8%	69,2%	74,2%	78,3%	71,9%
Suppression du masquage au niveau des blocs	66,7%	65,0%	2,5%	88,3%	55,6%
DepthVLA complet	75,8%	71,7%	62,5%	89,2%	74,8%

Conclusions clés

Le préentraînement en profondeur est crucial : L'expert en profondeur initialisé aléatoirement montre une dégradation significative des performances
La perte de profondeur est nécessaire : La suppression de la perte de profondeur entraîne une dégradation des performances
Le masquage au niveau des blocs est efficace : Maintenir l'indépendance des experts est crucial pour les performances
La prédiction surpasse l'entrée directe : Prédire la profondeur est plus efficace que d'utiliser directement la profondeur réelle

Travaux connexes

Politiques de manipulation robotique généraliste

Évolution des experts monotâche vers les modèles généralistes, impulsée par les progrès des modèles de langage de grande taille, des modèles de vision-langage et des ensembles de données d'action robotique à grande échelle. Les premiers VLA génèrent des tokens d'action en autorégression par ajustement fin des VLM, tandis que les derniers VLA adoptent des experts en action basés sur la diffusion.

VLA avec perception spatiale

Méthodes précoces : Utilisent des entrées 3D supplémentaires comme LiDAR ou caméras RGB-D, mais réduisent la généralité inter-plateformes
SpatialVLA : Utilise un estimateur de profondeur prêt à l'emploi pour générer des nuages de points pseudo, mais non optimisé bout à bout
Modèles mondiaux génératifs : Prédisent les images futures, les points clés ou les états sémantiques, mais offrent une amélioration limitée du codage de la scène actuelle
Raisonnement CoT : Génère des tokens de profondeur en autorégression, mais introduit une latence élevée

Perception géométrique 3D

Les progrès récents en perception 3D démontrent des capacités puissantes pour déduire la géométrie à partir d'images monoculaires ou multi-vues, offrant un potentiel pour améliorer le raisonnement spatial des VLA.

Conclusion et discussion

Conclusions principales

Le raisonnement spatial explicite est efficace : Améliore significativement les performances du VLA dans les tâches de manipulation précise par un expert en profondeur préentraîné
La conception d'experts hybrides est supérieure : Permet à différents experts d'être préentraînés sur les données qui leur conviennent le mieux, améliorant l'efficacité
L'optimisation bout à bout est clé : L'optimisation conjointe de la prédiction de profondeur et de la génération d'action est plus efficace que l'utilisation d'estimateurs de profondeur externes

Limitations

Défis de la prédiction de profondeur monoculaire : Peut toujours échouer dans les scènes difficiles (bords minuscules, objets réfléchissants ou transparents, surfaces sans texture)
Surcharge de calcul : Ajoute 600M paramètres et 20ms de latence d'inférence
Dépendance aux étiquettes de profondeur : Nécessite la génération d'étiquettes de profondeur pseudo pour l'entraînement

Directions futures

Prédiction de profondeur multi-vues : Explorer la prédiction de profondeur multi-vues ou de graphiques de points pour améliorer la précision et la robustesse spatiales
Architectures plus efficaces : Réduire la surcharge de calcul tout en maintenant les performances
Apprentissage spatial non supervisé : Réduire la dépendance aux étiquettes de profondeur

Évaluation approfondie

Points forts

Forte innovativité méthodologique : Première intégration efficace d'un expert en profondeur préentraîné dans un VLA, fournissant un raisonnement spatial explicite
Expérimentation complète et exhaustive : Couvre les environnements réels et multiples environnements simulés, incluant des études d'ablation détaillées
Améliorations de performance significatives : Amélioration cohérente des performances dans tous les environnements de test
Conception rationnelle : L'architecture d'experts hybrides préserve l'expertise spécialisée de chaque expert tout en réalisant une fusion efficace
Forte praticité : L'augmentation de la latence d'inférence est mineure, adaptée au déploiement en temps réel

Insuffisances

Dépendance à la qualité de la profondeur : Les performances sont limitées par la qualité de la prédiction de profondeur, pouvant échouer dans les scènes difficiles
Coût de génération d'étiquettes : Nécessite la génération d'étiquettes de profondeur pseudo pour les données d'entraînement, augmentant le coût de préparation des données
Analyse théorique insuffisante : Manque d'analyse théorique approfondie sur pourquoi la prédiction de profondeur est plus efficace que l'entrée directe de profondeur
Validation de généralisation limitée : Principalement validée sur des types spécifiques de tâches de manipulation, nécessitant plus de validation de généralisation à d'autres types de tâches

Impact

Contribution au domaine : Fournit une nouvelle méthode efficace pour améliorer le raisonnement spatial des VLA, pouvant influencer les directions de recherche futures
Valeur pratique : La méthode est simple et efficace, facilement implémentable dans les systèmes VLA existants
Reproductibilité : Les auteurs s'engagent à publier le code, favorisant la reproduction de la recherche et le développement ultérieur

Scénarios d'application

Tâches de manipulation précise : Particulièrement adaptée aux tâches de manipulation robotique nécessitant un raisonnement spatial précis
Systèmes robotiques multimodaux : Applicable à diverses plateformes robotiques équipées de caméras RGB
Applications industrielles : Potentiel d'application dans les scénarios nécessitant une manipulation précise, tels que la fabrication et les robots de service

Références

L'article cite des travaux connexes abondants, incluant :

Modèles VLA : OpenVLA, π0, Octo, etc.
Méthodes de perception spatiale : SpatialVLA, CoT-VLA, etc.
Modèles de perception 3D : Depth Anything V2, DINOv2, etc.
Références d'évaluation : LIBERO, Simpler, BridgeData V2, etc.

Évaluation globale : Cet article de recherche de haute qualité propose une méthode simple mais efficace pour améliorer les capacités de raisonnement spatial des VLA. La conception expérimentale est complète, les résultats sont convaincants, et l'article possède une valeur pratique et une signification de recherche importantes pour le domaine de la manipulation robotique.