2025-11-24T17:43:17.218297

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Yuan, Liu, Lu et al.
Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.
academic

DepthVLA: Migliorare i Modelli Vision-Language-Action con il Ragionamento Spaziale Consapevole della Profondità

Informazioni Fondamentali

  • ID Articolo: 2510.13375
  • Titolo: DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning
  • Autori: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
  • Istituzioni: IIIS, Tsinghua University & Galaxea AI
  • Classificazione: cs.CV (Visione Artificiale)
  • Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.13375

Riassunto

I modelli Vision-Language-Action (VLA) mostrano eccellenti prestazioni nella generalizzazione e nei compiti di manipolazione guidati dal linguaggio, ma presentano un calo di prestazioni nei compiti che richiedono ragionamento spaziale preciso, dovuto alle capacità di ragionamento spaziale limitate ereditate dai modelli di visione-linguaggio (VLM). Gli attuali VLA si affidano al preaddestramento su dati di azione su larga scala per localizzare i VLM nello spazio 3D, il che riduce l'efficienza dell'addestramento e rimane insufficiente per ottenere una comprensione spaziale accurata. Questo articolo propone DepthVLA, un'architettura VLA semplice ma efficace che integra esplicitamente le capacità di consapevolezza spaziale attraverso un modulo di predizione della profondità preaddestrato. DepthVLA adotta un design Transformer ibrido che unifica il VLM, il Transformer di profondità e l'esperto di azioni attraverso un meccanismo di attenzione completamente condiviso, formando un modello end-to-end che migliora il ragionamento spaziale. Valutazioni estensive in ambienti reali e simulati mostrano che DepthVLA supera i metodi all'avanguardia, raggiungendo il 78,5% vs 65,0% di progresso nei compiti del mondo reale, il 94,9% vs 93,6% nel simulatore LIBERO e il 74,8% vs 58,8% nel simulatore Simpler.

Contesto di Ricerca e Motivazione

Problema Centrale

I modelli Vision-Language-Action (VLA) attuali mostrano prestazioni insufficienti nei compiti di manipolazione robotica che richiedono ragionamento spaziale preciso, principalmente per le seguenti ragioni:

  1. Capacità di ragionamento spaziale limitata: i VLA ereditano i limiti del ragionamento spaziale dei VLM, mostrando prestazioni insufficienti nei compiti di manipolazione precisa
  2. Bassa efficienza di addestramento: i metodi attuali si affidano a grandi quantità di dati di azione per il preaddestramento al fine di localizzare i VLM nello spazio 3D, ma rimangono incapaci di comprendere pienamente le informazioni spaziali
  3. Difficoltà di applicazione pratica: i VLA spesso falliscono nell'afferrare piccoli oggetti, nell'esecuzione di operazioni precise o nell'evitare collisioni

Importanza del Problema

Il ragionamento spaziale preciso è cruciale per la manipolazione robotica, in particolare in:

  • Afferraggio di piccoli oggetti o operazioni delicate
  • Pianificazione di percorsi che evitano collisioni
  • Compiti di impilamento che richiedono stima precisa della posizione
  • Operazioni multi-step in ambienti complessi

Limitazioni dei Metodi Esistenti

  1. Approcci con modelli del mondo generativi: mancano di conoscenza 3D esplicita, con miglioramenti limitati nella codifica della scena attuale
  2. Ragionamento Chain-of-Thought: introduce ritardi significativi (oltre 2 secondi), richiedendo generazione autoregressiva di centinaia di token spaziali
  3. Stimatori di profondità esterni: come SpatialVLA che utilizza stimatori di profondità pronti all'uso, ma non ottimizzati end-to-end con il VLA, limitando il limite massimo di prestazioni

Contributi Principali

  1. Architettura DepthVLA: propone un nuovo modello VLA che integra un esperto di predizione della profondità preaddestrato in un framework Transformer ibrido, realizzando il ragionamento spaziale esplicito mantenendo la base semantica del VLM
  2. Strategia di preaddestramento per esperto specializzato: il design del Transformer ibrido consente a ogni esperto (VLM e profondità) di essere preaddestrato separatamente su diversi dataset, migliorando l'efficienza dell'addestramento e la scalabilità oltre i dati di azione embodied
  3. Validazione completa nel mondo reale e simulato: verifica che DepthVLA supera significativamente i VLA all'avanguardia in ambienti reali e simulati (LIBERO, Simpler), con miglioramenti significativi nella precisione dell'afferraggio, nell'evitamento di collisioni e nel tasso di successo complessivo dei compiti

Spiegazione Dettagliata del Metodo

Definizione del Compito

Seguendo l'impostazione standard end-to-end VLA, la politica πθ predice un blocco di azioni At di lunghezza k basato sull'osservazione corrente ot (da una o più telecamere), l'istruzione linguistica l e lo stato propriocettivo st:

At = πθ(ot, l, st)

Architettura del Modello

DepthVLA adotta un'architettura Transformer ibrida (MoT) che integra tre esperti:

1. Design Complessivo

  • Esperto VLM: codifica le osservazioni e le istruzioni linguistiche, catturando caratteristiche semantiche e di base linguistica
  • Esperto di profondità: elabora le osservazioni per dedurre informazioni geometriche
  • Esperto di azioni: genera azioni continue basate sulle caratteristiche combinate degli esperti semantico e geometrico

2. Design dell'Esperto di Profondità

  • Architettura encoder-decoder: l'encoder è basato su DINOv2, inizializzato dal checkpoint preaddestrato di Depth Anything V2
  • Struttura del decoder: corrisponde alla struttura Transformer del VLM, con output di predizione della profondità attraverso una testina lineare
  • Utilizzo di caratteristiche intermedie: esegue il ragionamento spaziale su tutti i livelli intermedi, fornendo indizi geometrici ricchi per la predizione dell'azione

3. Meccanismo di Attenzione

Adotta una strategia di mascheramento a livello di blocco:

  • I token dell'esperto VLM e di profondità prestano attenzione solo a se stessi
  • I token di azione possono prestare attenzione a tutti i flussi
  • Mantiene la capacità di apprendimento dei moduli preaddestrati mentre fonde indizi semantici e spaziali

Punti di Innovazione Tecnica

1. Ragionamento Spaziale Esplicito

A differenza dei metodi impliciti, DepthVLA fornisce una comprensione geometrica 3D esplicita attraverso un esperto di profondità specializzato, evitando la dipendenza da grandi quantità di dati di azione.

2. Design di Esperti Ibridi

  • Consente a diversi esperti di essere preaddestrati su dati più adatti a ciascuno
  • Realizza una fusione efficace attraverso strati di attenzione condivisi
  • Mantiene le capacità specializzate di ogni esperto

3. Ottimizzazione End-to-End

L'esperto di profondità viene addestrato congiuntamente con il VLA, utilizzando una perdita combinata:

L = Lsi + Lflow

dove Lsi è la perdita di profondità invariante di scala e Lflow è la perdita di corrispondenza di flusso.

Impostazione Sperimentale

Dataset

  1. Dataset di preaddestramento:
    • Esperto di profondità: WildRGB-D, ScanNet, ScanNet++, HyperSim
    • VLA: Galaxea Open-World Dataset (100k traiettorie), BridgeData V2 (60k traiettorie)
  2. Dataset di valutazione:
    • Simpler WidowX: 4 suite di compiti, 120 prove
    • LIBERO: 4 suite di compiti (Spatial/Object/Goal/Long), 2000 prove
    • Mondo reale: 3 compiti di riferimento, 20 esecuzioni per compito

Metriche di Valutazione

  • Tasso di successo: percentuale di compiti completati
  • Punteggio di progresso: ogni sottopasso completato con successo contribuisce con un punto, mediato su tutte le esecuzioni

Metodi di Confronto

  • Diffusion Policy
  • Octo-Base
  • SpatialVLA
  • π0 (reimplementato)
  • OpenVLA
  • CoT-VLA
  • MolmoACT
  • DreamVLA

Dettagli di Implementazione

  • Modello: Paligemma-3B come backbone VLM, DINOv2-L come encoder di profondità
  • Addestramento: 32 GPU NVIDIA H100, ottimizzatore AdamW
  • Inferenza: GPU NVIDIA 4090, precisione mista BF16, latenza 210ms

Risultati Sperimentali

Risultati Principali

1. Benchmark Simpler WidowX

ModelloPreaddestramentoPut SpoonPut CarrotStack BlockPick EggplantMedia
π0 (reimplementato)×81,7%64,2%30,0%59,2%58,8%
DepthVLA×75,8%71,7%62,5%89,2%74,8%

2. Benchmark LIBERO

ModelloPreaddestramentoSpatialObjectGoalLongMedia
π0 (reimplementato)×95,8%96,4%94,8%87,4%93,6%
DepthVLA×96,4%98,0%95,8%89,2%94,9%

3. Benchmark del Mondo Reale

  • Prestazioni complessive: DepthVLA raggiunge il 79% vs 65% di punteggio di progresso medio rispetto alla linea di base
  • Operazione microonde: eccellenti prestazioni nell'evitamento di collisioni
  • Impilamento blocchi: dimostra eccellenti capacità di percezione spaziale
  • Organizzazione tavolo: prestazioni comparabili nei compiti di afferraggio di piccoli oggetti

Esperimenti di Ablazione

ImpostazioneSpoonCarrotBlockEggplantMedia
Esperto di profondità inizializzato casualmente60,0%60,8%43,3%40,0%51,0%
Rimozione della perdita di profondità69,2%60%28,3%70,0%56,9%
Congelamento dell'esperto di profondità65,8%69,2%74,2%78,3%71,9%
Rimozione del mascheramento a livello di blocco66,7%65,0%2,5%88,3%55,6%
DepthVLA Completo75,8%71,7%62,5%89,2%74,8%

Scoperte Chiave

  1. Il preaddestramento della profondità è cruciale: l'esperto di profondità inizializzato casualmente mostra un calo significativo di prestazioni
  2. La perdita di profondità è necessaria: la rimozione della perdita di profondità comporta un calo di prestazioni
  3. Il mascheramento a livello di blocco è efficace: mantenere l'indipendenza degli esperti è cruciale per le prestazioni
  4. La predizione supera l'input diretto: la predizione della profondità è più efficace dell'utilizzo diretto della profondità reale

Lavori Correlati

Politiche di Manipolazione Robotica Generale

Evoluzione da esperti single-task a modelli generali, guidata dai progressi nei modelli di linguaggio di grandi dimensioni, modelli di visione-linguaggio e dataset di azioni robotiche su larga scala. I VLA iniziali generano token di azione autoregressivamente attraverso il fine-tuning dei VLM, mentre i VLA più recenti adottano esperti di azioni basati sulla diffusione.

VLA Consapevoli dello Spazio

  • Metodi iniziali: utilizzano input 3D aggiuntivi come LiDAR o telecamere RGB-D, ma riducono la generalità tra piattaforme
  • SpatialVLA: utilizza uno stimatore di profondità pronto all'uso per generare pseudo-nuvole di punti, ma non ottimizzato end-to-end
  • Modelli del mondo generativi: prevedono frame futuri, punti chiave o stati semantici, ma con miglioramenti limitati nella codifica della scena attuale
  • Ragionamento CoT: genera token di profondità autoregressivamente, ma introduce latenza elevata

Percezione Geometrica 3D

I recenti progressi nella percezione 3D hanno dimostrato forti capacità di dedurre la geometria da immagini monoculari o multi-vista, offrendo potenziale per migliorare il ragionamento spaziale dei VLA.

Conclusioni e Discussione

Conclusioni Principali

  1. Il ragionamento spaziale esplicito è efficace: il miglioramento significativo delle prestazioni dei VLA nei compiti di manipolazione precisa attraverso un esperto di profondità preaddestrato
  2. Il design di esperti ibridi è superiore: consente a diversi esperti di essere preaddestrati su dati più adatti, migliorando l'efficienza
  3. L'ottimizzazione end-to-end è cruciale: l'ottimizzazione congiunta della predizione della profondità e della generazione di azioni è più efficace dell'utilizzo di uno stimatore di profondità esterno

Limitazioni

  1. Sfide nella predizione di profondità monoculare: può ancora fallire in scene difficili (bordi minuscoli, oggetti riflettenti o trasparenti, superfici senza texture)
  2. Overhead computazionale: aggiunge 600M parametri e 20ms di latenza di inferenza
  3. Dipendenza da etichette di profondità: richiede la generazione di etichette di profondità pseudo per l'addestramento

Direzioni Future

  1. Predizione di profondità multi-vista: esplorare la predizione di profondità multi-vista o predizione di grafici di punti per migliorare la precisione e la robustezza spaziale
  2. Architetture più efficienti: ridurre l'overhead computazionale mantenendo le prestazioni
  3. Apprendimento spaziale non supervisionato: ridurre la dipendenza dalle etichette di profondità

Valutazione Approfondita

Punti di Forza

  1. Forte innovazione metodologica: primo a integrare efficacemente un esperto di profondità preaddestrato in un VLA, fornendo ragionamento spaziale esplicito
  2. Esperimenti completi e approfonditi: coprono ambienti reali e multipli simulati, con studi di ablazione dettagliati
  3. Miglioramenti significativi di prestazioni: miglioramenti coerenti delle prestazioni in tutti gli ambienti di test
  4. Design razionale: l'architettura di esperti ibridi mantiene le capacità specializzate di ogni esperto mentre realizza una fusione efficace
  5. Forte praticità: l'aumento della latenza di inferenza è minimo, adatto per il deployment in tempo reale

Limitazioni

  1. Dipendenza dalla qualità della profondità: le prestazioni sono limitate dalla qualità della predizione della profondità, potendo fallire in scene impegnative
  2. Costo della generazione di etichette: la generazione di etichette di profondità pseudo per i dati di addestramento aumenta il costo di preparazione dei dati
  3. Analisi teorica insufficiente: manca un'analisi teorica approfondita del perché la predizione della profondità sia più efficace dell'input diretto della profondità
  4. Validazione di generalizzazione limitata: principalmente validata su tipi specifici di compiti di manipolazione, richiedendo più validazione della generalizzazione ad altri tipi di compiti

Impatto

  1. Contributo al campo: fornisce un nuovo metodo efficace per migliorare il ragionamento spaziale dei VLA, potenzialmente influenzando le direzioni di ricerca future
  2. Valore pratico: il metodo è semplice ed efficace, facilmente implementabile nei sistemi VLA esistenti
  3. Riproducibilità: gli autori si impegnano a rendere pubblico il codice, favorendo la riproduzione della ricerca e lo sviluppo futuro

Scenari Applicabili

  1. Compiti di manipolazione precisa: particolarmente adatto per compiti di manipolazione robotica che richiedono ragionamento spaziale preciso
  2. Sistemi robotici multimodali: applicabile a varie piattaforme robotiche dotate di telecamere RGB
  3. Applicazioni industriali: ha potenziale di applicazione in scenari come la produzione e i robot di servizio che richiedono operazioni precise

Riferimenti Bibliografici

L'articolo cita un'ampia gamma di lavori correlati, inclusi:

  • Modelli VLA: OpenVLA, π0, Octo e altri
  • Metodi consapevoli dello spazio: SpatialVLA, CoT-VLA e altri
  • Modelli di percezione 3D: Depth Anything V2, DINOv2 e altri
  • Benchmark di valutazione: LIBERO, Simpler, BridgeData V2 e altri

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un metodo semplice ma efficace per migliorare le capacità di ragionamento spaziale dei VLA. La progettazione sperimentale è completa, i risultati sono convincenti e l'articolo ha un importante valore pratico e significato di ricerca per il campo della manipolazione robotica.