2025-11-24T17:43:17.218297

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Yuan, Liu, Lu et al.
Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.
academic

DepthVLA: Verbesserung von Vision-Language-Action-Modellen durch tiefengestützte räumliche Argumentation

Grundlegende Informationen

  • Paper-ID: 2510.13375
  • Titel: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
  • Autoren: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
  • Institution: IIIS, Tsinghua University & Galaxea AI
  • Klassifizierung: cs.CV (Computervision)
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13375

Zusammenfassung

Vision-Language-Action (VLA)-Modelle zeigen hervorragende Leistungen bei verallgemeinerten und sprachgesteuerten Manipulationsaufgaben, weisen jedoch bei Aufgaben mit präziser räumlicher Argumentation Leistungseinbußen auf. Dies resultiert aus begrenzten räumlichen Argumentationsfähigkeiten, die von Vision-Language-Modellen (VLMs) geerbt werden. Bestehende VLAs verlassen sich auf großflächiges Vortraining mit Aktionsdaten, um VLMs im 3D-Raum zu lokalisieren, was die Trainingseffizienz verringert und dennoch keine genaue räumliche Verständigung ermöglicht. Dieser Artikel präsentiert DepthVLA, eine einfache und effektive VLA-Architektur, die räumliche Wahrnehmungsfähigkeiten durch ein vortrainiertes Tiefenvorhersagemodul explizit integriert. DepthVLA nutzt ein hybrides Transformer-Design, das VLM, Tiefentransformer und Aktionsexperten vereinheitlicht und durch einen vollständig gemeinsamen Aufmerksamkeitsmechanismus ein End-to-End-Modell mit verbesserter räumlicher Argumentationsfähigkeit bildet. Umfangreiche Bewertungen in realen und simulierten Umgebungen zeigen, dass DepthVLA modernste Methoden übertrifft und bei realen Aufgaben 78,5 % gegenüber 65,0 % Fortschritt, im LIBERO-Simulator 94,9 % gegenüber 93,6 % und im Simpler-Simulator 74,8 % gegenüber 58,8 % erreicht.

Forschungshintergrund und Motivation

Kernprobleme

Bestehende Vision-Language-Action (VLA)-Modelle zeigen schlechte Leistungen bei Robotermanipulationsaufgaben, die präzise räumliche Argumentation erfordern, hauptsächlich aus folgenden Gründen:

  1. Begrenzte räumliche Argumentationsfähigkeit: VLAs erben die räumlichen Argumentationslimitierungen von VLMs und zeigen unzureichende Leistungen bei präzisen Manipulationsaufgaben
  2. Niedrige Trainingseffizienz: Bestehende Methoden verlassen sich auf umfangreiche Aktionsdatenvortraining zur Lokalisierung von VLMs im 3D-Raum, können aber räumliche Informationen nicht vollständig verstehen
  3. Praktische Anwendungsschwierigkeiten: VLAs scheitern häufig beim Greifen kleiner Objekte, bei der Ausführung präziser Manipulationen oder bei der Kollisionsvermeidung

Bedeutung des Problems

Präzise räumliche Argumentation ist für Robotermanipulation entscheidend, besonders bei:

  • Greifen kleiner Objekte oder Feinmanipulationen
  • Pfadplanung mit Kollisionsvermeidung
  • Stapelaufgaben, die präzise Positionsschätzung erfordern
  • Mehrstufige Manipulationen in komplexen Umgebungen

Limitierungen bestehender Methoden

  1. Generative Weltmodell-Ansätze: Mangelnde explizite 3D-Kenntnisse mit begrenzten Verbesserungen der aktuellen Szenenkodierung
  2. Chain-of-Thought-Argumentation: Führt zu erheblichen Verzögerungen (über 2 Sekunden) mit autoregressive Generierung von Hunderten räumlichen Token
  3. Externe Tiefenschätzer: Wie SpatialVLA mit vorgefertigten Tiefenschätzern, aber ohne End-to-End-Optimierung mit VLA, was die Leistungsobergrenze begrenzt

Kernbeiträge

  1. DepthVLA-Architektur: Präsentation eines neuartigen VLA-Modells, das einen vortrainierten Tiefenvorhersage-Experten in ein hybrides Transformer-Framework integriert und explizite räumliche Argumentation bei Beibehaltung der semantischen Grundlage des VLM ermöglicht
  2. Spezialisierte Experten-Vortrainingsstrategie: Das hybride Transformer-Design ermöglicht es jedem Experten (VLM und Tiefe), auf verschiedenen Datensätzen separat vorzutrainieren, was die Trainingseffizienz erhöht und die Skalierbarkeit über körperliche Aktionsdaten hinaus verbessert
  3. Umfassende Validierung in realen und simulierten Umgebungen: Validierung von DepthVLA in realen und simulierten Umgebungen (LIBERO, Simpler) zeigt signifikante Überlegenheit gegenüber modernsten VLAs mit bemerkenswerten Verbesserungen bei Greifgenauigkeit, Kollisionsvermeidung und Gesamttaskerfolgquote

Methodische Details

Aufgabendefinition

Folgt der standardmäßigen End-to-End-VLA-Einstellung, wobei die Strategie πθ basierend auf der aktuellen Beobachtung ot (von einer oder mehreren Kameras), der Sprachanweisung l und dem propriozeptiven Zustand st einen Aktionsblock At der Länge k vorhersagt:

At = πθ(ot, l, st)

Modellarchitektur

DepthVLA nutzt eine Mixture-of-Transformer (MoT)-Architektur, die drei Experten integriert:

1. Gesamtdesign

  • VLM-Experte: Kodiert Beobachtungen und Sprachanweisungen, erfasst semantische und sprachliche Grundmerkmale
  • Tiefenexperte: Verarbeitet Beobachtungen zur Inferenz geometrischer Informationen
  • Aktionsexperte: Generiert kontinuierliche Aktionen basierend auf kombinierten Merkmalen semantischer und geometrischer Experten

2. Tiefenexperten-Design

  • Encoder-Decoder-Architektur: Encoder basiert auf DINOv2, initialisiert aus Depth Anything V2-Vortrainingsprüfpunkt
  • Decoder-Struktur: Entspricht der Transformer-Struktur des VLM, gibt Tiefenvorhersage über linearen Kopf aus
  • Nutzung von Zwischenmerkmalen: Führt räumliche Argumentation auf allen Zwischenschichten durch und bietet reichhaltige geometrische Hinweise für Aktionsvorhersage

3. Aufmerksamkeitsmechanismus

Nutzt Blockebenen-Maskierungsstrategie:

  • Token von VLM- und Tiefenexperten beachten nur sich selbst
  • Aktions-Token können alle Ströme beachten
  • Erhält Lernfähigkeit vortrainierter Module bei gleichzeitiger Fusion semantischer und räumlicher Hinweise

Technische Innovationen

1. Explizite räumliche Argumentation

Im Gegensatz zu impliziten Methoden bietet DepthVLA durch einen spezialisierten Tiefenexperten explizites 3D-geometrisches Verständnis und vermeidet Abhängigkeit von großen Aktionsdatenmengen.

2. Hybrid-Experten-Design

  • Ermöglicht es verschiedenen Experten, auf ihren jeweils am besten geeigneten Daten vorzutrainieren
  • Erreicht effektive Fusion durch gemeinsame Aufmerksamkeitsschichten
  • Bewahrt die Fachkompetenz jedes Experten

3. End-to-End-Optimierung

Tiefenexperte wird gemeinsam mit VLA trainiert, unter Verwendung kombinierter Verlustfunktion:

L = Lsi + Lflow

wobei Lsi der skalierungsinvariante Tiefenverlust ist und Lflow der Flussmatchingverlust ist.

Experimentelle Einrichtung

Datensätze

  1. Vortrainingsdatensätze:
    • Tiefenexperte: WildRGB-D, ScanNet, ScanNet++, HyperSim
    • VLA: Galaxea Open-World Dataset (100k Trajektorien), BridgeData V2 (60k Trajektorien)
  2. Bewertungsdatensätze:
    • Simpler WidowX: 4 Aufgabenserien, 120 Versuche
    • LIBERO: 4 Aufgabenserien (Spatial/Object/Goal/Long), 2000 Versuche
    • Reale Welt: 3 Benchmark-Aufgaben, je 20 Durchläufe pro Aufgabe

Bewertungsmetriken

  • Erfolgsquote: Prozentsatz abgeschlossener Aufgaben
  • Fortschrittsscore: Jeder erfolgreiche Unterschritt trägt einen Punkt bei, gemittelt über alle Durchläufe

Vergleichsmethoden

  • Diffusion Policy
  • Octo-Base
  • SpatialVLA
  • π0 (Neuimplementierung)
  • OpenVLA
  • CoT-VLA
  • MolmoACT
  • DreamVLA

Implementierungsdetails

  • Modell: Paligemma-3B als VLM-Backbone, DINOv2-L als Tiefenencoder
  • Training: 32 NVIDIA H100 GPUs, AdamW-Optimierer
  • Inferenz: NVIDIA 4090 GPU, BF16-Mischgenauigkeit, 210ms Latenz

Experimentelle Ergebnisse

Hauptergebnisse

1. Simpler WidowX-Benchmark

ModellVortrainingPut SpoonPut CarrotStack BlockPick EggplantDurchschnitt
π0 (Neuimplementierung)×81,7%64,2%30,0%59,2%58,8%
DepthVLA×75,8%71,7%62,5%89,2%74,8%

2. LIBERO-Benchmark

ModellVortrainingSpatialObjectGoalLongDurchschnitt
π0 (Neuimplementierung)×95,8%96,4%94,8%87,4%93,6%
DepthVLA×96,4%98,0%95,8%89,2%94,9%

3. Benchmark in der realen Welt

  • Gesamtleistung: DepthVLA erreicht 79 % gegenüber 65 % durchschnittlicher Fortschrittsscore der Baseline
  • Mikrowellenoperation: Zeigt hervorragende Leistung bei Kollisionsvermeidung
  • Blockstapelung: Demonstriert hervorragende räumliche Wahrnehmungsfähigkeit
  • Tischorganisation: Zeigt vergleichbare Leistung bei Greifaufgaben mit kleinen Objekten

Ablationsstudien

EinstellungSpoonCarrotBlockEggplantDurchschnitt
Tiefenexperte zufällig initialisiert60,0%60,8%43,3%40,0%51,0%
Tiefenverlust entfernt69,2%60%28,3%70,0%56,9%
Tiefenexperte eingefroren65,8%69,2%74,2%78,3%71,9%
Blockebenen-Maskierung entfernt66,7%65,0%2,5%88,3%55,6%
DepthVLA vollständig75,8%71,7%62,5%89,2%74,8%

Wichtigste Erkenntnisse

  1. Tiefenvortraining ist entscheidend: Zufällig initialisierte Tiefenexperten zeigen signifikante Leistungseinbußen
  2. Tiefenverlust notwendig: Das Entfernen des Tiefenverlusts führt zu Leistungseinbußen
  3. Blockebenen-Maskierung wirksam: Die Aufrechterhaltung der Unabhängigkeit von Experten ist für die Leistung entscheidend
  4. Vorhersage überlegen direkter Eingabe: Vorhergesagte Tiefe funktioniert besser als direkte Verwendung echter Tiefe

Verwandte Arbeiten

Allgemeine Robotermanipulationsstrategien

Entwicklung von Einzelaufgaben-Experten zu allgemeinen Modellen, angetrieben durch Fortschritte in großen Sprachmodellen, Vision-Language-Modellen und großflächigen Roboter-Aktionsdatensätzen. Frühe VLAs generieren Aktions-Token durch Feinabstimmung von VLMs autoregressiv, während die neuesten VLAs auf Diffusionsbasierte Aktionsexperten setzen.

VLAs mit räumlicher Wahrnehmung

  • Frühe Methoden: Nutzen zusätzliche 3D-Eingaben wie LiDAR oder RGB-D-Kameras, reduzieren aber die plattformübergreifende Allgemeinheit
  • SpatialVLA: Nutzt vorgefertigte Tiefenschätzer zur Generierung von Pseudo-Punktwolken, aber ohne End-to-End-Optimierung
  • Generative Weltmodelle: Vorhersage zukünftiger Frames, Schlüsselpunkte oder semantischer Zustände, aber mit begrenzten Verbesserungen der aktuellen Szenenkodierung
  • CoT-Argumentation: Autoregressive Generierung von Tiefentoken, aber mit hoher Latenz

3D-geometrische Wahrnehmung

Jüngste Fortschritte in der 3D-Wahrnehmung zeigen starke Fähigkeiten zur Inferenz von Geometrie aus monokularen oder mehrfachansichtigen Bildern und bieten Potenzial zur Verbesserung der räumlichen Argumentation von VLAs.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Explizite räumliche Argumentation wirksam: Signifikante Verbesserung der VLA-Leistung bei präzisen Manipulationsaufgaben durch vortrainierte Tiefenexperten
  2. Hybrid-Experten-Design überlegen: Ermöglicht es verschiedenen Experten, auf ihren jeweils am besten geeigneten Daten vorzutrainieren und die Effizienz zu verbessern
  3. End-to-End-Optimierung entscheidend: Gemeinsame Optimierung von Tiefenvorhersage und Aktionsgenerierung ist effektiver als die Verwendung externer Tiefenschätzer

Limitierungen

  1. Herausforderungen der monokularen Tiefenvorhersage: Kann in schwierigen Szenen (winzige Kanten, reflektierende oder transparente Objekte, strukturlose Oberflächen) immer noch fehlschlagen
  2. Rechnerischer Overhead: Fügt 600M Parameter und 20ms Inferenzlatenz hinzu
  3. Abhängigkeit von Tiefenbeschriftungen: Erfordert Generierung von Pseudo-Tiefenbeschriftungen für das Training

Zukünftige Richtungen

  1. Mehrfachansicht-Tiefenvorhersage: Erkundung mehrfachansichtiger Tiefe oder Punktgraph-Vorhersage zur Verbesserung räumlicher Genauigkeit und Robustheit
  2. Effizientere Architekturen: Reduzierung des Rechneraufwands bei Beibehaltung der Leistung
  3. Unüberwachtes räumliches Lernen: Reduzierung der Abhängigkeit von Tiefenbeschriftungen

Tiefenbewertung

Stärken

  1. Starke Methodische Innovation: Erstmalige effektive Integration eines vortrainierten Tiefenexperten in VLA mit expliziter räumlicher Argumentation
  2. Umfangreiche und gründliche Experimente: Abdeckung realer Welt und mehrerer simulierter Umgebungen mit detaillierten Ablationsstudien
  3. Signifikante Leistungsverbesserungen: Konsistente Leistungsverbesserungen in allen Testumgebungen
  4. Vernünftiges Design: Die Hybrid-Experten-Architektur bewahrt die Fachkompetenz jedes Experten bei gleichzeitiger effektiver Fusion
  5. Starke Praktikabilität: Kleine Steigerung der Inferenzlatenz, geeignet für Echtzeit-Bereitstellung

Schwächen

  1. Abhängigkeit von Tiefenqualität: Leistung begrenzt durch Tiefenvorhersagequalität, kann in herausfordernden Szenen fehlschlagen
  2. Kosten der Beschriftungsgenerierung: Erfordert Generierung von Pseudo-Tiefenbeschriftungen für Trainingsdaten, erhöht Datenvorbereitung
  3. Unzureichende theoretische Analyse: Mangelnde tiefgreifende theoretische Analyse, warum Tiefenvorhersage direkter Tiefeneingabe überlegen ist
  4. Begrenzte Verallgemeinerungsvalidierung: Hauptsächlich auf spezifische Manipulationsaufgabentypen validiert, weitere Validierung der Verallgemeinerung auf andere Aufgabentypen erforderlich

Auswirkungen

  1. Beitrag zum Feld: Bietet neue effektive Methode zur Verbesserung der räumlichen Argumentation von VLAs, kann nachfolgende Forschungsrichtungen beeinflussen
  2. Praktischer Wert: Methode ist einfach und effektiv, leicht in bestehenden VLA-Systemen implementierbar
  3. Reproduzierbarkeit: Autoren verpflichten sich zur Veröffentlichung von Code, förderlich für Forschungsreproduzierbarkeit und weitere Entwicklung

Anwendungsszenarien

  1. Präzise Manipulationsaufgaben: Besonders geeignet für Robotermanipulationsaufgaben, die präzise räumliche Argumentation erfordern
  2. Multimodale Robotersysteme: Anwendbar auf verschiedene Roboterplattformen mit RGB-Kameras
  3. Industrielle Anwendungen: Hat Anwendungspotenzial in Szenarien wie Fertigung und Servicerobotern, die präzise Manipulationen erfordern

Referenzen

Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:

  • VLA-Modelle: OpenVLA, π0, Octo usw.
  • Räumliche Wahrnehmungsmethoden: SpatialVLA, CoT-VLA usw.
  • 3D-Wahrnehmungsmodelle: Depth Anything V2, DINOv2 usw.
  • Bewertungs-Benchmarks: LIBERO, Simpler, BridgeData V2 usw.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das eine einfache und effektive Methode zur Verbesserung der räumlichen Argumentationsfähigkeit von VLAs präsentiert. Das Experimentdesign ist gründlich, die Ergebnisse überzeugend und das Papier hat wichtigen praktischen Wert und Forschungsbedeutung für das Robotermanipulationsfeld.