Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.
- ID de l'article : 2510.13375
- Titre : DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
- Auteurs : Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
- Institutions : IIIS, Université Tsinghua & Galaxea AI
- Classification : cs.CV (Vision par ordinateur)
- Date de publication : 15 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.13375
Les modèles Vision-Langage-Action (VLA) démontrent une excellente performance dans les tâches de manipulation guidées par le langage et la généralisation, mais présentent des défaillances dans les tâches nécessitant un raisonnement spatial précis, en raison des capacités limitées de raisonnement spatial hérités des modèles de vision-langage (VLM). Les VLA existants dépendent d'un préentraînement sur de grandes quantités de données d'action pour localiser les VLM dans l'espace 3D, ce qui réduit l'efficacité d'entraînement et reste insuffisant pour une compréhension spatiale précise. Cet article propose DepthVLA, une architecture VLA simple mais efficace qui fusionne explicitement les capacités de raisonnement spatial conscient de la profondeur par le biais d'un module de prédiction de profondeur préentraîné. DepthVLA adopte une conception Transformer hybride qui unifie le VLM, le Transformer de profondeur et les experts en action, formant un modèle bout à bout par un mécanisme d'attention entièrement partagé, améliorant ainsi les capacités de raisonnement spatial. Des évaluations extensives dans des environnements réels et simulés démontrent que DepthVLA surpasse les méthodes de l'état de l'art, atteignant 78,5 % contre 65,0 % de progrès dans les tâches du monde réel, 94,9 % contre 93,6 % dans le simulateur LIBERO, et 74,8 % contre 58,8 % dans le simulateur Simpler.
Les modèles Vision-Langage-Action (VLA) existants présentent des performances insuffisantes dans les tâches de manipulation robotique nécessitant un raisonnement spatial précis, principalement pour les raisons suivantes :
- Capacités limitées de raisonnement spatial : Les VLA héritent des limitations du raisonnement spatial des VLM, montrant des performances insuffisantes dans les tâches de manipulation précise
- Efficacité d'entraînement faible : Les méthodes existantes dépendent d'un préentraînement sur de grandes quantités de données d'action pour localiser les VLM dans l'espace 3D, mais ne peuvent toujours pas comprendre adéquatement les informations spatiales
- Difficultés d'application pratique : Les VLA échouent fréquemment dans la saisie de petits objets, l'exécution de manipulations précises ou l'évitement de collisions
Le raisonnement spatial précis est crucial pour la manipulation robotique, en particulier dans :
- La saisie de petits objets ou les manipulations fines
- La planification de trajectoires évitant les collisions
- Les tâches d'empilage nécessitant une estimation de position précise
- Les opérations multi-étapes dans des environnements complexes
- Approches par modèles mondiaux génératifs : Manquent de connaissances 3D explicites, offrant une amélioration limitée du codage de la scène actuelle
- Raisonnement par chaîne de pensée : Introduit un délai significatif (supérieur à 2 secondes), nécessitant une génération autorégressive de centaines de tokens spatiaux
- Estimateurs de profondeur externes : Comme SpatialVLA utilisant des estimateurs de profondeur prêts à l'emploi, mais non optimisés bout à bout avec le VLA, limitant le plafond de performance
- Architecture DepthVLA : Propose un nouveau modèle VLA intégrant un expert en prédiction de profondeur préentraîné dans un cadre Transformer hybride, réalisant un raisonnement spatial explicite tout en conservant la base sémantique du VLM
- Stratégie de préentraînement par expert spécialisé : La conception Transformer hybride permet à chaque expert (VLM et profondeur) d'être préentraîné séparément sur différents ensembles de données, améliorant l'efficacité d'entraînement et la scalabilité au-delà des données d'action incarnées
- Validation complète en monde réel et en simulation : Valide que DepthVLA surpasse significativement les VLA de l'état de l'art dans les environnements réels et simulés (LIBERO, Simpler), avec des améliorations notables en précision de saisie, évitement de collision et taux de réussite global des tâches
Suivant la configuration VLA standard bout à bout, la politique πθ prédit un bloc d'action de longueur k At basé sur l'observation actuelle ot (provenant d'une ou plusieurs caméras), l'instruction en langage naturel l et l'état proprioceptif st :
DepthVLA adopte une architecture Transformer hybride (MoT) intégrant trois experts :
- Expert VLM : Encode l'observation et l'instruction en langage, capturant les caractéristiques sémantiques et de base linguistique
- Expert en profondeur : Traite l'observation pour déduire les informations géométriques
- Expert en action : Génère des actions continues basées sur les caractéristiques combinées des experts sémantique et géométrique
- Architecture encodeur-décodeur : L'encodeur basé sur DINOv2, initialisé à partir du point de contrôle préentraîné de Depth Anything V2
- Structure du décodeur : Correspond à la structure Transformer du VLM, produisant des prédictions de profondeur par une tête linéaire
- Utilisation des caractéristiques intermédiaires : Effectue un raisonnement spatial à tous les niveaux intermédiaires, fournissant des indices géométriques riches pour la prédiction d'action
Adopte une stratégie de masquage au niveau des blocs :
- Les tokens des experts VLM et profondeur n'attendent que leurs propres tokens
- Les tokens d'action peuvent attendre tous les flux
- Préserve la capacité d'apprentissage des modules préentraînés tout en fusionnant les indices sémantiques et spatiaux
Contrairement aux méthodes implicites, DepthVLA fournit une compréhension géométrique 3D explicite par un expert en profondeur dédié, évitant la dépendance à de grandes quantités de données d'action.
- Permet à différents experts d'être préentraînés sur les données qui leur conviennent le mieux
- Réalise une fusion efficace par des couches d'attention partagées
- Préserve l'expertise spécialisée de chaque expert
L'expert en profondeur est entraîné conjointement avec le VLA, utilisant une perte combinée :
où Lsi est la perte de profondeur invariante à l'échelle et Lflow est la perte d'appariement de flux.
- Ensembles de données de préentraînement :
- Expert en profondeur : WildRGB-D, ScanNet, ScanNet++, HyperSim
- VLA : Galaxea Open-World Dataset (100k trajectoires), BridgeData V2 (60k trajectoires)
- Ensembles de données d'évaluation :
- Simpler WidowX : 4 suites de tâches, 120 essais
- LIBERO : 4 suites de tâches (Spatial/Object/Goal/Long), 2000 essais
- Monde réel : 3 tâches de référence, 20 exécutions par tâche
- Taux de réussite : Pourcentage de tâches complétées
- Score de progrès : Chaque sous-étape réussie contribue un point, moyenné sur tous les essais
- Diffusion Policy
- Octo-Base
- SpatialVLA
- π0 (réimplémentation)
- OpenVLA
- CoT-VLA
- MolmoACT
- DreamVLA
- Modèle : Paligemma-3B comme backbone VLM, DINOv2-L comme encodeur de profondeur
- Entraînement : 32 GPU NVIDIA H100, optimiseur AdamW
- Inférence : GPU NVIDIA 4090, précision mixte BF16, latence de 210ms
| Modèle | Préentraînement | Put Spoon | Put Carrot | Stack Block | Pick Eggplant | Moyenne |
|---|
| π0 (réimplémentation) | × | 81,7% | 64,2% | 30,0% | 59,2% | 58,8% |
| DepthVLA | × | 75,8% | 71,7% | 62,5% | 89,2% | 74,8% |
| Modèle | Préentraînement | Spatial | Object | Goal | Long | Moyenne |
|---|
| π0 (réimplémentation) | × | 95,8% | 96,4% | 94,8% | 87,4% | 93,6% |
| DepthVLA | × | 96,4% | 98,0% | 95,8% | 89,2% | 94,9% |
- Performance globale : DepthVLA atteint 79% contre 65% de score de progrès moyen par rapport à la ligne de base
- Opération du micro-ondes : Performance excellente en évitement de collision
- Empilage de blocs : Démontre une perception spatiale supérieure
- Organisation de table : Performance comparable dans les tâches de saisie de petits objets
| Configuration | Spoon | Carrot | Block | Eggplant | Moyenne |
|---|
| Expert en profondeur initialisé aléatoirement | 60,0% | 60,8% | 43,3% | 40,0% | 51,0% |
| Suppression de la perte de profondeur | 69,2% | 60% | 28,3% | 70,0% | 56,9% |
| Expert en profondeur gelé | 65,8% | 69,2% | 74,2% | 78,3% | 71,9% |
| Suppression du masquage au niveau des blocs | 66,7% | 65,0% | 2,5% | 88,3% | 55,6% |
| DepthVLA complet | 75,8% | 71,7% | 62,5% | 89,2% | 74,8% |
- Le préentraînement en profondeur est crucial : L'expert en profondeur initialisé aléatoirement montre une dégradation significative des performances
- La perte de profondeur est nécessaire : La suppression de la perte de profondeur entraîne une dégradation des performances
- Le masquage au niveau des blocs est efficace : Maintenir l'indépendance des experts est crucial pour les performances
- La prédiction surpasse l'entrée directe : Prédire la profondeur est plus efficace que d'utiliser directement la profondeur réelle
Évolution des experts monotâche vers les modèles généralistes, impulsée par les progrès des modèles de langage de grande taille, des modèles de vision-langage et des ensembles de données d'action robotique à grande échelle. Les premiers VLA génèrent des tokens d'action en autorégression par ajustement fin des VLM, tandis que les derniers VLA adoptent des experts en action basés sur la diffusion.
- Méthodes précoces : Utilisent des entrées 3D supplémentaires comme LiDAR ou caméras RGB-D, mais réduisent la généralité inter-plateformes
- SpatialVLA : Utilise un estimateur de profondeur prêt à l'emploi pour générer des nuages de points pseudo, mais non optimisé bout à bout
- Modèles mondiaux génératifs : Prédisent les images futures, les points clés ou les états sémantiques, mais offrent une amélioration limitée du codage de la scène actuelle
- Raisonnement CoT : Génère des tokens de profondeur en autorégression, mais introduit une latence élevée
Les progrès récents en perception 3D démontrent des capacités puissantes pour déduire la géométrie à partir d'images monoculaires ou multi-vues, offrant un potentiel pour améliorer le raisonnement spatial des VLA.
- Le raisonnement spatial explicite est efficace : Améliore significativement les performances du VLA dans les tâches de manipulation précise par un expert en profondeur préentraîné
- La conception d'experts hybrides est supérieure : Permet à différents experts d'être préentraînés sur les données qui leur conviennent le mieux, améliorant l'efficacité
- L'optimisation bout à bout est clé : L'optimisation conjointe de la prédiction de profondeur et de la génération d'action est plus efficace que l'utilisation d'estimateurs de profondeur externes
- Défis de la prédiction de profondeur monoculaire : Peut toujours échouer dans les scènes difficiles (bords minuscules, objets réfléchissants ou transparents, surfaces sans texture)
- Surcharge de calcul : Ajoute 600M paramètres et 20ms de latence d'inférence
- Dépendance aux étiquettes de profondeur : Nécessite la génération d'étiquettes de profondeur pseudo pour l'entraînement
- Prédiction de profondeur multi-vues : Explorer la prédiction de profondeur multi-vues ou de graphiques de points pour améliorer la précision et la robustesse spatiales
- Architectures plus efficaces : Réduire la surcharge de calcul tout en maintenant les performances
- Apprentissage spatial non supervisé : Réduire la dépendance aux étiquettes de profondeur
- Forte innovativité méthodologique : Première intégration efficace d'un expert en profondeur préentraîné dans un VLA, fournissant un raisonnement spatial explicite
- Expérimentation complète et exhaustive : Couvre les environnements réels et multiples environnements simulés, incluant des études d'ablation détaillées
- Améliorations de performance significatives : Amélioration cohérente des performances dans tous les environnements de test
- Conception rationnelle : L'architecture d'experts hybrides préserve l'expertise spécialisée de chaque expert tout en réalisant une fusion efficace
- Forte praticité : L'augmentation de la latence d'inférence est mineure, adaptée au déploiement en temps réel
- Dépendance à la qualité de la profondeur : Les performances sont limitées par la qualité de la prédiction de profondeur, pouvant échouer dans les scènes difficiles
- Coût de génération d'étiquettes : Nécessite la génération d'étiquettes de profondeur pseudo pour les données d'entraînement, augmentant le coût de préparation des données
- Analyse théorique insuffisante : Manque d'analyse théorique approfondie sur pourquoi la prédiction de profondeur est plus efficace que l'entrée directe de profondeur
- Validation de généralisation limitée : Principalement validée sur des types spécifiques de tâches de manipulation, nécessitant plus de validation de généralisation à d'autres types de tâches
- Contribution au domaine : Fournit une nouvelle méthode efficace pour améliorer le raisonnement spatial des VLA, pouvant influencer les directions de recherche futures
- Valeur pratique : La méthode est simple et efficace, facilement implémentable dans les systèmes VLA existants
- Reproductibilité : Les auteurs s'engagent à publier le code, favorisant la reproduction de la recherche et le développement ultérieur
- Tâches de manipulation précise : Particulièrement adaptée aux tâches de manipulation robotique nécessitant un raisonnement spatial précis
- Systèmes robotiques multimodaux : Applicable à diverses plateformes robotiques équipées de caméras RGB
- Applications industrielles : Potentiel d'application dans les scénarios nécessitant une manipulation précise, tels que la fabrication et les robots de service
L'article cite des travaux connexes abondants, incluant :
- Modèles VLA : OpenVLA, π0, Octo, etc.
- Méthodes de perception spatiale : SpatialVLA, CoT-VLA, etc.
- Modèles de perception 3D : Depth Anything V2, DINOv2, etc.
- Références d'évaluation : LIBERO, Simpler, BridgeData V2, etc.
Évaluation globale : Cet article de recherche de haute qualité propose une méthode simple mais efficace pour améliorer les capacités de raisonnement spatial des VLA. La conception expérimentale est complète, les résultats sont convaincants, et l'article possède une valeur pratique et une signification de recherche importantes pour le domaine de la manipulation robotique.