2025-11-24T17:43:17.218297

DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Yuan, Liu, Lu et al.

Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.

academic

DepthVLA: গভীরতা-সচেতন স্থানিক যুক্তিবিদ্যা সহ দৃষ্টি-ভাষা-ক্রিয়া মডেলগুলি উন্নত করা

মৌলিক তথ্য

পেপার আইডি: 2510.13375
শিরোনাম: DepthVLA: গভীরতা-সচেতন স্থানিক যুক্তিবিদ্যা সহ দৃষ্টি-ভাষা-ক্রিয়া মডেলগুলি উন্নত করা
লেখক: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
প্রতিষ্ঠান: IIIS, Tsinghua University & Galaxea AI
শ্রেণীবিভাগ: cs.CV (কম্পিউটার ভিশন)
প্রকাশনার সময়: ২০২৫ সালের ১৫ অক্টোবর (arXiv প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.13375

সারসংক্ষেপ

দৃষ্টি-ভাষা-ক্রিয়া (VLA) মডেলগুলি সাধারণীকরণ এবং ভাষা-নির্দেশিত ম্যানিপুলেশন কাজে উৎকর্ষ লাভ করে, কিন্তু নির্ভুল স্থানিক যুক্তিবিদ্যার প্রয়োজনীয় কাজগুলিতে কর্মক্ষমতা হ্রাস পায়। এটি দৃষ্টি-ভাষা মডেল (VLM) থেকে উত্তরাধিকার সূত্রে প্রাপ্ত সীমিত স্থানিক যুক্তিবিদ্যা ক্ষমতা থেকে উদ্ভূত। বিদ্যমান VLA VLM-কে 3D স্থানে অবস্থান করার জন্য বড় আকারের ক্রিয়া ডেটা প্রাক-প্রশিক্ষণের উপর নির্ভর করে, যা প্রশিক্ষণ দক্ষতা হ্রাস করে এবং সঠিক স্থানিক বোঝাপড়া অর্জনের জন্য এখনও অপর্যাপ্ত। এই পত্রটি DepthVLA প্রস্তাব করে, যা একটি সহজ এবং কার্যকর VLA স্থাপত্য যা প্রাক-প্রশিক্ষিত গভীরতা পূর্বাভাস মডিউলের মাধ্যমে স্পষ্টভাবে স্থানিক-সচেতন ক্ষমতা একীভূত করে। DepthVLA একটি হাইব্রিড ট্রান্সফর্মার ডিজাইন গ্রহণ করে যা VLM, গভীরতা ট্রান্সফর্মার এবং ক্রিয়া বিশেষজ্ঞদের একীভূত করে, সম্পূর্ণ ভাগ করা মনোযোগ প্রক্রিয়ার মাধ্যমে একটি প্রান্ত-থেকে-প্রান্ত মডেল গঠন করে, যা স্থানিক যুক্তিবিদ্যা ক্ষমতা বৃদ্ধি করে। বাস্তব বিশ্ব এবং অনুকরণ পরিবেশে ব্যাপক মূল্যায়ন দেখায় যে DepthVLA অত্যাধুনিক পদ্ধতিগুলি অতিক্রম করে, বাস্তব বিশ্বের কাজে ৭৮.৫% বনাম ৬৫.০% অগ্রগতি, LIBERO অনুকরণকারীতে ৯৪.৯% বনাম ৯৩.৬%, এবং Simpler অনুকরণকারীতে ৭৪.৮% বনাম ৫৮.৮% অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

বিদ্যমান দৃষ্টি-ভাষা-ক্রিয়া (VLA) মডেলগুলি নির্ভুল স্থানিক যুক্তিবিদ্যার প্রয়োজনীয় রোবোট ম্যানিপুলেশন কাজে দুর্বল পারফরম্যান্স প্রদর্শন করে, প্রধান কারণগুলি হল:

সীমিত স্থানিক যুক্তিবিদ্যা ক্ষমতা: VLA VLM-এর স্থানিক যুক্তিবিদ্যার সীমাবদ্ধতা উত্তরাধিকার সূত্রে পায়, নির্ভুল ম্যানিপুলেশন কাজে অপর্যাপ্ত পারফরম্যান্স প্রদান করে
কম প্রশিক্ষণ দক্ষতা: বিদ্যমান পদ্ধতিগুলি 3D স্থানে VLM অবস্থান করার জন্য বিশাল ক্রিয়া ডেটা প্রাক-প্রশিক্ষণের উপর নির্ভর করে, কিন্তু এখনও স্থানিক তথ্য সম্পূর্ণভাবে বুঝতে পারে না
বাস্তব প্রয়োগের অসুবিধা: VLA ছোট বস্তু ধরা, নির্ভুল ম্যানিপুলেশন সম্পাদন বা সংঘর্ষ এড়ানোর ক্ষেত্রে প্রায়শই ব্যর্থ হয়

সমস্যার গুরুত্ব

নির্ভুল স্থানিক যুক্তিবিদ্যা রোবোট ম্যানিপুলেশনের জন্য অত্যন্ত গুরুত্বপূর্ণ, বিশেষত:

ছোট বস্তু ধরা বা সূক্ষ্ম ম্যানিপুলেশন
সংঘর্ষ এড়ানোর পথ পরিকল্পনা
নির্ভুল অবস্থান অনুমান প্রয়োজনীয় স্ট্যাকিং কাজ
জটিল পরিবেশে বহু-পদক্ষেপ ম্যানিপুলেশন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

উৎপাদনশীল বিশ্ব মডেল পদ্ধতি: স্পষ্ট 3D জ্ঞানের অভাব, বর্তমান দৃশ্য এনকোডিং উন্নতিতে সীমিত
চিন্তার শৃঙ্খল যুক্তিবিদ্যা: উল্লেখযোগ্য বিলম্ব প্রবর্তন করে (২ সেকেন্ডের বেশি), শত শত স্থানিক টোকেন স্বয়ংক্রিয় উৎপাদন প্রয়োজন
বাহ্যিক গভীরতা অনুমানকারী: SpatialVLA-এর মতো বর্তমান গভীরতা অনুমানকারী ব্যবহার করে, কিন্তু VLA-এর সাথে প্রান্ত-থেকে-প্রান্ত অপ্টিমাইজ করা হয় না, কর্মক্ষমতা সীমা সীমাবদ্ধ করে

মূল অবদান

DepthVLA স্থাপত্য: একটি উপন্যাস VLA মডেল প্রস্তাব করে যা প্রাক-প্রশিক্ষিত গভীরতা পূর্বাভাস বিশেষজ্ঞকে হাইব্রিড ট্রান্সফর্মার কাঠামোতে একীভূত করে, স্পষ্ট স্থানিক যুক্তিবিদ্যা বাস্তবায়ন করার সময় VLM-এর শব্দার্থিক ভিত্তি বজায় রাখে
বিশেষজ্ঞ-প্রতি প্রাক-প্রশিক্ষণ কৌশল: হাইব্রিড ট্রান্সফর্মার ডিজাইন প্রতিটি বিশেষজ্ঞ (VLM এবং গভীরতা) বিভিন্ন ডেটাসেটে আলাদাভাবে প্রাক-প্রশিক্ষণ করতে অনুমতি দেয়, প্রশিক্ষণ দক্ষতা বৃদ্ধি করে এবং মূর্ত ক্রিয়া ডেটার বাইরে স্কেলেবিলিটি অতিক্রম করে
ব্যাপক বাস্তব বিশ্ব এবং অনুকরণ যাচাইকরণ: বাস্তব বিশ্ব এবং অনুকরণ পরিবেশে (LIBERO, Simpler) DepthVLA যাচাই করে যা অত্যাধুনিক VLA-এর চেয়ে উল্লেখযোগ্যভাবে উন্নত, ধরার নির্ভুলতা, সংঘর্ষ এড়ানো এবং সামগ্রিক কাজ সাফল্যের হার উল্লেখযোগ্য উন্নতি অর্জন করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

মান প্রান্ত-থেকে-প্রান্ত VLA সেটআপ অনুসরণ করে, নীতি πθ বর্তমান পর্যবেক্ষণ ot (এক বা একাধিক ক্যামেরা থেকে), ভাষা নির্দেশ l এবং প্রোপ্রিওসেপটিভ অবস্থা st এর উপর ভিত্তি করে k দৈর্ঘ্যের ক্রিয়া ব্লক At পূর্বাভাস দেয়:

At = πθ(ot, l, st)

মডেল স্থাপত্য

DepthVLA একটি হাইব্রিড ট্রান্সফর্মার (MoT) স্থাপত্য গ্রহণ করে যা তিনটি বিশেষজ্ঞ একীভূত করে:

1. সামগ্রিক ডিজাইন

VLM বিশেষজ্ঞ: পর্যবেক্ষণ এবং ভাষা নির্দেশ এনকোড করে, শব্দার্থিক এবং ভাষা ভিত্তি বৈশিষ্ট্য ক্যাপচার করে
গভীরতা বিশেষজ্ঞ: পর্যবেক্ষণ প্রক্রিয়া করে জ্যামিতিক তথ্য অনুমান করতে
ক্রিয়া বিশেষজ্ঞ: শব্দার্থিক এবং জ্যামিতিক বিশেষজ্ঞদের সমন্বিত বৈশিষ্ট্যের উপর ভিত্তি করে ক্রমাগত ক্রিয়া উৎপাদন করে

2. গভীরতা বিশেষজ্ঞ ডিজাইন

এনকোডার-ডিকোডার স্থাপত্য: এনকোডার DINOv2 উপর ভিত্তি করে, Depth Anything V2 প্রাক-প্রশিক্ষিত চেকপয়েন্ট থেকে শুরু করা
ডিকোডার কাঠামো: VLM-এর ট্রান্সফর্মার কাঠামোর সাথে মিলিত, গভীরতা পূর্বাভাসের জন্য রৈখিক মাথার মাধ্যমে আউটপুট
মধ্যবর্তী বৈশিষ্ট্য ব্যবহার: সমস্ত মধ্যবর্তী স্তরে স্থানিক যুক্তিবিদ্যা সম্পাদন করে, ক্রিয়া পূর্বাভাসের জন্য সমৃদ্ধ জ্যামিতিক সংকেত প্রদান করে

3. মনোযোগ প্রক্রিয়া

ব্লক-স্তরের মাস্কিং কৌশল গ্রহণ করে:

VLM এবং গভীরতা বিশেষজ্ঞের টোকেন শুধুমাত্র নিজেদের দিকে মনোযোগ দেয়
ক্রিয়া টোকেন সমস্ত প্রবাহের দিকে মনোযোগ দিতে পারে
প্রাক-প্রশিক্ষিত মডিউলের শেখার ক্ষমতা বজায় রাখে যখন শব্দার্থিক এবং স্থানিক সংকেত একীভূত করে

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

1. স্পষ্ট স্থানিক যুক্তিবিদ্যা

অন্তর্নিহিত পদ্ধতির বিপরীতে, DepthVLA একটি বিশেষায়িত গভীরতা বিশেষজ্ঞের মাধ্যমে স্পষ্ট 3D জ্যামিতিক বোঝাপড়া প্রদান করে, বিশাল ক্রিয়া ডেটার উপর নির্ভরতা এড়ায়।

2. হাইব্রিড বিশেষজ্ঞ ডিজাইন

বিভিন্ন বিশেষজ্ঞদের তাদের সবচেয়ে উপযুক্ত ডেটায় প্রাক-প্রশিক্ষণ করতে অনুমতি দেয়
ভাগ করা মনোযোগ স্তরের মাধ্যমে কার্যকর একীকরণ
প্রতিটি বিশেষজ্ঞের বিশেষ ক্ষমতা বজায় রাখে

3. প্রান্ত-থেকে-প্রান্ত অপ্টিমাইজেশন

গভীরতা বিশেষজ্ঞ VLA-এর সাথে যৌথভাবে প্রশিক্ষিত হয়, সমন্বিত ক্ষতি ব্যবহার করে:

L = Lsi + Lflow

যেখানে Lsi স্কেল-অপরিবর্তনীয় গভীরতা ক্ষতি এবং Lflow প্রবাহ মিলান ক্ষতি।

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রাক-প্রশিক্ষণ ডেটাসেট:
- গভীরতা বিশেষজ্ঞ: WildRGB-D, ScanNet, ScanNet++, HyperSim
- VLA: Galaxea Open-World Dataset (১০০k ট্র্যাজেক্টরি), BridgeData V2 (৬০k ট্র্যাজেক্টরি)
মূল্যায়ন ডেটাসেট:
- Simpler WidowX: ৪টি কাজ স্যুট, ১২০ পরীক্ষা
- LIBERO: ৪টি কাজ স্যুট (Spatial/Object/Goal/Long), ২০০০ পরীক্ষা
- বাস্তব বিশ্ব: ৩টি মানদণ্ড কাজ, প্রতি কাজে ২০ রান

মূল্যায়ন মেট্রিক্স

সাফল্যের হার: কাজ সম্পূর্ণতার শতাংশ
অগ্রগতি স্কোর: প্রতিটি সফল সাব-ধাপ একটি পয়েন্ট অবদান রাখে, সমস্ত রান জুড়ে গড়

তুলনামূলক পদ্ধতি

Diffusion Policy
Octo-Base
SpatialVLA
π0 (পুনরায় বাস্তবায়ন)
OpenVLA
CoT-VLA
MolmoACT
DreamVLA

বাস্তবায়ন বিবরণ

মডেল: Paligemma-3B VLM হাড় হিসাবে, DINOv2-L গভীরতা এনকোডার হিসাবে
প্রশিক্ষণ: ৩২টি NVIDIA H100 GPU, AdamW অপ্টিমাইজার
অনুমান: NVIDIA 4090 GPU, BF16 মিশ্র নির্ভুলতা, ২১০ms বিলম্ব

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

1. Simpler WidowX বেঞ্চমার্ক

মডেল	প্রাক-প্রশিক্ষণ	Put Spoon	Put Carrot	Stack Block	Pick Eggplant	গড়
π0 (পুনরায় বাস্তবায়ন)	×	81.7%	64.2%	30.0%	59.2%	58.8%
DepthVLA	×	75.8%	71.7%	62.5%	89.2%	74.8%

2. LIBERO বেঞ্চমার্ক

মডেল	প্রাক-প্রশিক্ষণ	Spatial	Object	Goal	Long	গড়
π0 (পুনরায় বাস্তবায়ন)	×	95.8%	96.4%	94.8%	87.4%	93.6%
DepthVLA	×	96.4%	98.0%	95.8%	89.2%	94.9%

3. বাস্তব বিশ্ব বেঞ্চমার্ক

সামগ্রিক কর্মক্ষমতা: DepthVLA ৭৯% বনাম বেসলাইন ৬৫% গড় অগ্রগতি স্কোর অর্জন করে
মাইক্রোওয়েভ অপারেশন: সংঘর্ষ এড়ানোর ক্ষেত্রে উৎকর্ষ প্রদর্শন করে
ব্লক স্ট্যাকিং: উৎকর্ষ স্থানিক সচেতনতা প্রদর্শন করে
ডেস্কটপ সংগঠন: ছোট বস্তু ধরার কাজে তুলনীয় পারফরম্যান্স

অ্যাবলেশন পরীক্ষা

সেটআপ	Spoon	Carrot	Block	Eggplant	গড়
গভীরতা বিশেষজ্ঞ র্যান্ডম শুরু	60.0%	60.8%	43.3%	40.0%	51.0%
গভীরতা ক্ষতি অপসারণ	69.2%	60%	28.3%	70.0%	56.9%
গভীরতা বিশেষজ্ঞ হিমায়িত	65.8%	69.2%	74.2%	78.3%	71.9%
ব্লক-স্তরের মাস্কিং অপসারণ	66.7%	65.0%	2.5%	88.3%	55.6%
DepthVLA সম্পূর্ণ সংস্করণ	75.8%	71.7%	62.5%	89.2%	74.8%

মূল অনুসন্ধান

গভীরতা প্রাক-প্রশিক্ষণ অত্যন্ত গুরুত্বপূর্ণ: র্যান্ডম শুরু করা গভীরতা বিশেষজ্ঞ উল্লেখযোগ্য কর্মক্ষমতা হ্রাস প্রদর্শন করে
গভীরতা ক্ষতি প্রয়োজনীয়: গভীরতা ক্ষতি অপসারণ কর্মক্ষমতা হ্রাস করে
ব্লক-স্তরের মাস্কিং কার্যকর: বিশেষজ্ঞ স্বাধীনতা বজায় রাখা কর্মক্ষমতার জন্য অত্যন্ত গুরুত্বপূর্ণ
পূর্বাভাস সরাসরি ইনপুটের চেয়ে উন্নত: পূর্বাভাস গভীরতা সরাসরি প্রকৃত গভীরতা ব্যবহারের চেয়ে ভাল কাজ করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

স্পষ্ট স্থানিক যুক্তিবিদ্যা কার্যকর: প্রাক-প্রশিক্ষিত গভীরতা বিশেষজ্ঞের মাধ্যমে নির্ভুল ম্যানিপুলেশন কাজে VLA কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
হাইব্রিড বিশেষজ্ঞ ডিজাইন উন্নত: বিভিন্ন বিশেষজ্ঞদের তাদের সবচেয়ে উপযুক্ত ডেটায় প্রাক-প্রশিক্ষণ করতে অনুমতি দেয়, দক্ষতা বৃদ্ধি করে
প্রান্ত-থেকে-প্রান্ত অপ্টিমাইজেশন মূল: গভীরতা পূর্বাভাস এবং ক্রিয়া উৎপাদনের যৌথ অপ্টিমাইজেশন বাহ্যিক গভীরতা অনুমানকারী ব্যবহারের চেয়ে আরও কার্যকর

সীমাবদ্ধতা

একক-দৃশ্য গভীরতা পূর্বাভাস চ্যালেঞ্জ: কঠিন দৃশ্যে (ক্ষুদ্র প্রান্ত, প্রতিফলন বা স্বচ্ছ বস্তু, টেক্সচারহীন পৃষ্ঠ) এখনও ব্যর্থ হতে পারে
গণনা ওভারহেড: ৬০০M প্যারামিটার এবং ২০ms অনুমান বিলম্ব যোগ করে
গভীরতা লেবেল উপর নির্ভরতা: প্রশিক্ষণের জন্য ছদ্ম গভীরতা লেবেল উৎপাদন প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

বহু-দৃশ্য গভীরতা পূর্বাভাস: স্থানিক নির্ভুলতা এবং শক্তিশালীতা বৃদ্ধির জন্য বহু-দৃশ্য গভীরতা বা পয়েন্ট ম্যাপ পূর্বাভাস অন্বেষণ করে
আরও দক্ষ স্থাপত্য: গণনা ওভারহেড হ্রাস করার সময় কর্মক্ষমতা বজায় রাখে
অপর্যবেক্ষিত স্থানিক শেখা: গভীরতা লেবেলের উপর নির্ভরতা হ্রাস করে

গভীর মূল্যায়ন

শক্তি

শক্তিশালী পদ্ধতি উদ্ভাবন: প্রথমবারের মতো প্রাক-প্রশিক্ষিত গভীরতা বিশেষজ্ঞকে কার্যকরভাবে VLA-তে একীভূত করে, স্পষ্ট স্থানিক যুক্তিবিদ্যা প্রদান করে
ব্যাপক পরীক্ষা: বাস্তব বিশ্ব এবং একাধিক অনুকরণ পরিবেশ জুড়ে, বিস্তারিত অ্যাবলেশন গবেষণা সহ
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: সমস্ত পরীক্ষা পরিবেশে সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নতি অর্জন করে
যুক্তিসঙ্গত ডিজাইন: হাইব্রিড বিশেষজ্ঞ স্থাপত্য প্রতিটি বিশেষজ্ঞের বিশেষ ক্ষমতা বজায় রাখে এবং কার্যকর একীকরণ অর্জন করে
শক্তিশালী ব্যবহারিকতা: অনুমান বিলম্ব ছোট বৃদ্ধি, বাস্তব সময় স্থাপনার জন্য উপযুক্ত

দুর্বলতা

গভীরতা গুণমান নির্ভরতা: কর্মক্ষমতা গভীরতা পূর্বাভাস গুণমান দ্বারা সীমাবদ্ধ, চ্যালেঞ্জিং দৃশ্যে ব্যর্থ হতে পারে
লেবেল উৎপাদন খরচ: প্রশিক্ষণ ডেটার জন্য ছদ্ম গভীরতা লেবেল উৎপাদন প্রয়োজন, ডেটা প্রস্তুতি খরচ বৃদ্ধি করে
অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: কেন গভীরতা পূর্বাভাস সরাসরি ইনপুট গভীরতার চেয়ে আরও কার্যকর তার গভীর তাত্ত্বিক বিশ্লেষণ অভাব
সীমিত সাধারণীকরণ যাচাইকরণ: প্রধানত নির্দিষ্ট ধরনের ম্যানিপুলেশন কাজে যাচাই করা, অন্যান্য ধরনের কাজে সাধারণীকরণ আরও যাচাইকরণ প্রয়োজন

প্রভাব

ক্ষেত্র অবদান: VLA স্থানিক যুক্তিবিদ্যা উন্নত করার জন্য নতুন কার্যকর পদ্ধতি প্রদান করে, পরবর্তী গবেষণা দিকনির্দেশনা প্রভাবিত করতে পারে
ব্যবহারিক মূল্য: পদ্ধতি সহজ এবং কার্যকর, বিদ্যমান VLA সিস্টেমে বাস্তবায়ন সহজ
পুনরুৎপাদনযোগ্যতা: লেখক কোড প্রকাশ্য করার প্রতিশ্রুতি, গবেষণা পুনরুৎপাদন এবং আরও উন্নয়ন সুবিধা করে

প্রযোজ্য দৃশ্য

নির্ভুল ম্যানিপুলেশন কাজ: বিশেষত নির্ভুল স্থানিক যুক্তিবিদ্যার প্রয়োজনীয় রোবোট ম্যানিপুলেশন কাজের জন্য উপযুক্ত
বহু-মোডাল রোবোট সিস্টেম: RGB ক্যামেরা সহ বিভিন্ন রোবোট প্ল্যাটফর্মে প্রযোজ্য
শিল্প প্রয়োগ: উৎপাদন, সেবা রোবোট ইত্যাদি নির্ভুল ম্যানিপুলেশন প্রয়োজনীয় দৃশ্যে প্রয়োগ সম্ভাবনা রয়েছে

সংদর্ভ

পত্রটি সমৃদ্ধ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

VLA মডেল: OpenVLA, π0, Octo ইত্যাদি
স্থানিক-সচেতন পদ্ধতি: SpatialVLA, CoT-VLA ইত্যাদি
3D সচেতনতা মডেল: Depth Anything V2, DINOv2 ইত্যাদি
মূল্যায়ন বেঞ্চমার্ক: LIBERO, Simpler, BridgeData V2 ইত্যাদি

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের গবেষণা পত্র যা VLA-এর স্থানিক যুক্তিবিদ্যা ক্ষমতা উন্নত করার জন্য একটি সহজ এবং কার্যকর পদ্ধতি প্রস্তাব করে। পরীক্ষা ডিজাইন ব্যাপক, ফলাফল প্রভাবশালী, রোবোট ম্যানিপুলেশন ক্ষেত্রে গুরুত্বপূর্ণ ব্যবহারিক মূল্য এবং গবেষণা তাৎপর্য রয়েছে।