2025-11-24T17:43:17.218297

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Yuan, Liu, Lu et al.

Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.

academic

DepthVLA: Verbesserung von Vision-Language-Action-Modellen durch tiefengestützte räumliche Argumentation

Grundlegende Informationen

Paper-ID: 2510.13375
Titel: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
Autoren: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
Institution: IIIS, Tsinghua University & Galaxea AI
Klassifizierung: cs.CV (Computervision)
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.13375

Zusammenfassung

Vision-Language-Action (VLA)-Modelle zeigen hervorragende Leistungen bei verallgemeinerten und sprachgesteuerten Manipulationsaufgaben, weisen jedoch bei Aufgaben mit präziser räumlicher Argumentation Leistungseinbußen auf. Dies resultiert aus begrenzten räumlichen Argumentationsfähigkeiten, die von Vision-Language-Modellen (VLMs) geerbt werden. Bestehende VLAs verlassen sich auf großflächiges Vortraining mit Aktionsdaten, um VLMs im 3D-Raum zu lokalisieren, was die Trainingseffizienz verringert und dennoch keine genaue räumliche Verständigung ermöglicht. Dieser Artikel präsentiert DepthVLA, eine einfache und effektive VLA-Architektur, die räumliche Wahrnehmungsfähigkeiten durch ein vortrainiertes Tiefenvorhersagemodul explizit integriert. DepthVLA nutzt ein hybrides Transformer-Design, das VLM, Tiefentransformer und Aktionsexperten vereinheitlicht und durch einen vollständig gemeinsamen Aufmerksamkeitsmechanismus ein End-to-End-Modell mit verbesserter räumlicher Argumentationsfähigkeit bildet. Umfangreiche Bewertungen in realen und simulierten Umgebungen zeigen, dass DepthVLA modernste Methoden übertrifft und bei realen Aufgaben 78,5 % gegenüber 65,0 % Fortschritt, im LIBERO-Simulator 94,9 % gegenüber 93,6 % und im Simpler-Simulator 74,8 % gegenüber 58,8 % erreicht.

Forschungshintergrund und Motivation

Kernprobleme

Bestehende Vision-Language-Action (VLA)-Modelle zeigen schlechte Leistungen bei Robotermanipulationsaufgaben, die präzise räumliche Argumentation erfordern, hauptsächlich aus folgenden Gründen:

Begrenzte räumliche Argumentationsfähigkeit: VLAs erben die räumlichen Argumentationslimitierungen von VLMs und zeigen unzureichende Leistungen bei präzisen Manipulationsaufgaben
Niedrige Trainingseffizienz: Bestehende Methoden verlassen sich auf umfangreiche Aktionsdatenvortraining zur Lokalisierung von VLMs im 3D-Raum, können aber räumliche Informationen nicht vollständig verstehen
Praktische Anwendungsschwierigkeiten: VLAs scheitern häufig beim Greifen kleiner Objekte, bei der Ausführung präziser Manipulationen oder bei der Kollisionsvermeidung

Bedeutung des Problems

Präzise räumliche Argumentation ist für Robotermanipulation entscheidend, besonders bei:

Greifen kleiner Objekte oder Feinmanipulationen
Pfadplanung mit Kollisionsvermeidung
Stapelaufgaben, die präzise Positionsschätzung erfordern
Mehrstufige Manipulationen in komplexen Umgebungen

Limitierungen bestehender Methoden

Generative Weltmodell-Ansätze: Mangelnde explizite 3D-Kenntnisse mit begrenzten Verbesserungen der aktuellen Szenenkodierung
Chain-of-Thought-Argumentation: Führt zu erheblichen Verzögerungen (über 2 Sekunden) mit autoregressive Generierung von Hunderten räumlichen Token
Externe Tiefenschätzer: Wie SpatialVLA mit vorgefertigten Tiefenschätzern, aber ohne End-to-End-Optimierung mit VLA, was die Leistungsobergrenze begrenzt

Kernbeiträge

DepthVLA-Architektur: Präsentation eines neuartigen VLA-Modells, das einen vortrainierten Tiefenvorhersage-Experten in ein hybrides Transformer-Framework integriert und explizite räumliche Argumentation bei Beibehaltung der semantischen Grundlage des VLM ermöglicht
Spezialisierte Experten-Vortrainingsstrategie: Das hybride Transformer-Design ermöglicht es jedem Experten (VLM und Tiefe), auf verschiedenen Datensätzen separat vorzutrainieren, was die Trainingseffizienz erhöht und die Skalierbarkeit über körperliche Aktionsdaten hinaus verbessert
Umfassende Validierung in realen und simulierten Umgebungen: Validierung von DepthVLA in realen und simulierten Umgebungen (LIBERO, Simpler) zeigt signifikante Überlegenheit gegenüber modernsten VLAs mit bemerkenswerten Verbesserungen bei Greifgenauigkeit, Kollisionsvermeidung und Gesamttaskerfolgquote

Methodische Details

Aufgabendefinition

Folgt der standardmäßigen End-to-End-VLA-Einstellung, wobei die Strategie πθ basierend auf der aktuellen Beobachtung ot (von einer oder mehreren Kameras), der Sprachanweisung l und dem propriozeptiven Zustand st einen Aktionsblock At der Länge k vorhersagt:

At = πθ(ot, l, st)

Modellarchitektur

DepthVLA nutzt eine Mixture-of-Transformer (MoT)-Architektur, die drei Experten integriert:

1. Gesamtdesign

VLM-Experte: Kodiert Beobachtungen und Sprachanweisungen, erfasst semantische und sprachliche Grundmerkmale
Tiefenexperte: Verarbeitet Beobachtungen zur Inferenz geometrischer Informationen
Aktionsexperte: Generiert kontinuierliche Aktionen basierend auf kombinierten Merkmalen semantischer und geometrischer Experten

2. Tiefenexperten-Design

Encoder-Decoder-Architektur: Encoder basiert auf DINOv2, initialisiert aus Depth Anything V2-Vortrainingsprüfpunkt
Decoder-Struktur: Entspricht der Transformer-Struktur des VLM, gibt Tiefenvorhersage über linearen Kopf aus
Nutzung von Zwischenmerkmalen: Führt räumliche Argumentation auf allen Zwischenschichten durch und bietet reichhaltige geometrische Hinweise für Aktionsvorhersage

3. Aufmerksamkeitsmechanismus

Nutzt Blockebenen-Maskierungsstrategie:

Token von VLM- und Tiefenexperten beachten nur sich selbst
Aktions-Token können alle Ströme beachten
Erhält Lernfähigkeit vortrainierter Module bei gleichzeitiger Fusion semantischer und räumlicher Hinweise

Technische Innovationen

1. Explizite räumliche Argumentation

Im Gegensatz zu impliziten Methoden bietet DepthVLA durch einen spezialisierten Tiefenexperten explizites 3D-geometrisches Verständnis und vermeidet Abhängigkeit von großen Aktionsdatenmengen.

2. Hybrid-Experten-Design

Ermöglicht es verschiedenen Experten, auf ihren jeweils am besten geeigneten Daten vorzutrainieren
Erreicht effektive Fusion durch gemeinsame Aufmerksamkeitsschichten
Bewahrt die Fachkompetenz jedes Experten

3. End-to-End-Optimierung

Tiefenexperte wird gemeinsam mit VLA trainiert, unter Verwendung kombinierter Verlustfunktion:

L = Lsi + Lflow

wobei Lsi der skalierungsinvariante Tiefenverlust ist und Lflow der Flussmatchingverlust ist.

Experimentelle Einrichtung

Datensätze

Vortrainingsdatensätze:
- Tiefenexperte: WildRGB-D, ScanNet, ScanNet++, HyperSim
- VLA: Galaxea Open-World Dataset (100k Trajektorien), BridgeData V2 (60k Trajektorien)
Bewertungsdatensätze:
- Simpler WidowX: 4 Aufgabenserien, 120 Versuche
- LIBERO: 4 Aufgabenserien (Spatial/Object/Goal/Long), 2000 Versuche
- Reale Welt: 3 Benchmark-Aufgaben, je 20 Durchläufe pro Aufgabe

Bewertungsmetriken

Erfolgsquote: Prozentsatz abgeschlossener Aufgaben
Fortschrittsscore: Jeder erfolgreiche Unterschritt trägt einen Punkt bei, gemittelt über alle Durchläufe

Vergleichsmethoden

Diffusion Policy
Octo-Base
SpatialVLA
π0 (Neuimplementierung)
OpenVLA
CoT-VLA
MolmoACT
DreamVLA

Implementierungsdetails

Modell: Paligemma-3B als VLM-Backbone, DINOv2-L als Tiefenencoder
Training: 32 NVIDIA H100 GPUs, AdamW-Optimierer
Inferenz: NVIDIA 4090 GPU, BF16-Mischgenauigkeit, 210ms Latenz

Experimentelle Ergebnisse

Hauptergebnisse

1. Simpler WidowX-Benchmark

Modell	Vortraining	Put Spoon	Put Carrot	Stack Block	Pick Eggplant	Durchschnitt
π0 (Neuimplementierung)	×	81,7%	64,2%	30,0%	59,2%	58,8%
DepthVLA	×	75,8%	71,7%	62,5%	89,2%	74,8%

2. LIBERO-Benchmark

Modell	Vortraining	Spatial	Object	Goal	Long	Durchschnitt
π0 (Neuimplementierung)	×	95,8%	96,4%	94,8%	87,4%	93,6%
DepthVLA	×	96,4%	98,0%	95,8%	89,2%	94,9%

3. Benchmark in der realen Welt

Gesamtleistung: DepthVLA erreicht 79 % gegenüber 65 % durchschnittlicher Fortschrittsscore der Baseline
Mikrowellenoperation: Zeigt hervorragende Leistung bei Kollisionsvermeidung
Blockstapelung: Demonstriert hervorragende räumliche Wahrnehmungsfähigkeit
Tischorganisation: Zeigt vergleichbare Leistung bei Greifaufgaben mit kleinen Objekten

Ablationsstudien

Einstellung	Spoon	Carrot	Block	Eggplant	Durchschnitt
Tiefenexperte zufällig initialisiert	60,0%	60,8%	43,3%	40,0%	51,0%
Tiefenverlust entfernt	69,2%	60%	28,3%	70,0%	56,9%
Tiefenexperte eingefroren	65,8%	69,2%	74,2%	78,3%	71,9%
Blockebenen-Maskierung entfernt	66,7%	65,0%	2,5%	88,3%	55,6%
DepthVLA vollständig	75,8%	71,7%	62,5%	89,2%	74,8%

Wichtigste Erkenntnisse

Tiefenvortraining ist entscheidend: Zufällig initialisierte Tiefenexperten zeigen signifikante Leistungseinbußen
Tiefenverlust notwendig: Das Entfernen des Tiefenverlusts führt zu Leistungseinbußen
Blockebenen-Maskierung wirksam: Die Aufrechterhaltung der Unabhängigkeit von Experten ist für die Leistung entscheidend
Vorhersage überlegen direkter Eingabe: Vorhergesagte Tiefe funktioniert besser als direkte Verwendung echter Tiefe

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Explizite räumliche Argumentation wirksam: Signifikante Verbesserung der VLA-Leistung bei präzisen Manipulationsaufgaben durch vortrainierte Tiefenexperten
Hybrid-Experten-Design überlegen: Ermöglicht es verschiedenen Experten, auf ihren jeweils am besten geeigneten Daten vorzutrainieren und die Effizienz zu verbessern
End-to-End-Optimierung entscheidend: Gemeinsame Optimierung von Tiefenvorhersage und Aktionsgenerierung ist effektiver als die Verwendung externer Tiefenschätzer

Limitierungen

Herausforderungen der monokularen Tiefenvorhersage: Kann in schwierigen Szenen (winzige Kanten, reflektierende oder transparente Objekte, strukturlose Oberflächen) immer noch fehlschlagen
Rechnerischer Overhead: Fügt 600M Parameter und 20ms Inferenzlatenz hinzu
Abhängigkeit von Tiefenbeschriftungen: Erfordert Generierung von Pseudo-Tiefenbeschriftungen für das Training

Zukünftige Richtungen

Mehrfachansicht-Tiefenvorhersage: Erkundung mehrfachansichtiger Tiefe oder Punktgraph-Vorhersage zur Verbesserung räumlicher Genauigkeit und Robustheit
Effizientere Architekturen: Reduzierung des Rechneraufwands bei Beibehaltung der Leistung
Unüberwachtes räumliches Lernen: Reduzierung der Abhängigkeit von Tiefenbeschriftungen

Tiefenbewertung

Stärken

Starke Methodische Innovation: Erstmalige effektive Integration eines vortrainierten Tiefenexperten in VLA mit expliziter räumlicher Argumentation
Umfangreiche und gründliche Experimente: Abdeckung realer Welt und mehrerer simulierter Umgebungen mit detaillierten Ablationsstudien
Signifikante Leistungsverbesserungen: Konsistente Leistungsverbesserungen in allen Testumgebungen
Vernünftiges Design: Die Hybrid-Experten-Architektur bewahrt die Fachkompetenz jedes Experten bei gleichzeitiger effektiver Fusion
Starke Praktikabilität: Kleine Steigerung der Inferenzlatenz, geeignet für Echtzeit-Bereitstellung

Schwächen

Abhängigkeit von Tiefenqualität: Leistung begrenzt durch Tiefenvorhersagequalität, kann in herausfordernden Szenen fehlschlagen
Kosten der Beschriftungsgenerierung: Erfordert Generierung von Pseudo-Tiefenbeschriftungen für Trainingsdaten, erhöht Datenvorbereitung
Unzureichende theoretische Analyse: Mangelnde tiefgreifende theoretische Analyse, warum Tiefenvorhersage direkter Tiefeneingabe überlegen ist
Begrenzte Verallgemeinerungsvalidierung: Hauptsächlich auf spezifische Manipulationsaufgabentypen validiert, weitere Validierung der Verallgemeinerung auf andere Aufgabentypen erforderlich

Auswirkungen

Beitrag zum Feld: Bietet neue effektive Methode zur Verbesserung der räumlichen Argumentation von VLAs, kann nachfolgende Forschungsrichtungen beeinflussen
Praktischer Wert: Methode ist einfach und effektiv, leicht in bestehenden VLA-Systemen implementierbar
Reproduzierbarkeit: Autoren verpflichten sich zur Veröffentlichung von Code, förderlich für Forschungsreproduzierbarkeit und weitere Entwicklung

Anwendungsszenarien

Präzise Manipulationsaufgaben: Besonders geeignet für Robotermanipulationsaufgaben, die präzise räumliche Argumentation erfordern
Multimodale Robotersysteme: Anwendbar auf verschiedene Roboterplattformen mit RGB-Kameras
Industrielle Anwendungen: Hat Anwendungspotenzial in Szenarien wie Fertigung und Servicerobotern, die präzise Manipulationen erfordern

Referenzen

Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:

VLA-Modelle: OpenVLA, π0, Octo usw.
Räumliche Wahrnehmungsmethoden: SpatialVLA, CoT-VLA usw.
3D-Wahrnehmungsmodelle: Depth Anything V2, DINOv2 usw.
Bewertungs-Benchmarks: LIBERO, Simpler, BridgeData V2 usw.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine einfache und effektive Methode zur Verbesserung der räumlichen Argumentationsfähigkeit von VLAs präsentiert. Das Experimentdesign ist gründlich, die Ergebnisse überzeugend und das Papier hat wichtigen praktischen Wert und Forschungsbedeutung für das Robotermanipulationsfeld.