Vision-Language-Action (VLA) models have recently shown impressive generalization and language-guided manipulation capabilities. However, their performance degrades on tasks requiring precise spatial reasoning due to limited spatial reasoning inherited from Vision-Language Models (VLMs). Existing VLAs rely on extensive action-data pretraining to ground VLMs in 3D space, which reduces training efficiency and is still insufficient for accurate spatial understanding. In this work, we present DepthVLA, a simple yet effective VLA architecture that explicitly incorporates spatial awareness through a pretrained depth prediction module. DepthVLA adopts a mixture-of-transformers design that unifies a VLM, a depth transformer, and an action expert with fully shared attentions, forming an end-to-end model with enhanced spatial reasoning. Extensive evaluations in both real-world and simulated environments show that DepthVLA outperforms state-of-the-art approaches, achieving 78.5% vs. 65.0% progress in real-world tasks, 94.9% vs. 93.6% in the LIBERO simulator, and 74.8% vs. 58.8% in the Simpler simulator. Our code will be made publicly available.
- পেপার আইডি: 2510.13375
- শিরোনাম: DepthVLA: গভীরতা-সচেতন স্থানিক যুক্তিবিদ্যা সহ দৃষ্টি-ভাষা-ক্রিয়া মডেলগুলি উন্নত করা
- লেখক: Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Zhuoguang Chen, Tao Jiang, Hang Zhao
- প্রতিষ্ঠান: IIIS, Tsinghua University & Galaxea AI
- শ্রেণীবিভাগ: cs.CV (কম্পিউটার ভিশন)
- প্রকাশনার সময়: ২০২৫ সালের ১৫ অক্টোবর (arXiv প্রাক-প্রিন্ট)
- পেপার লিঙ্ক: https://arxiv.org/abs/2510.13375
দৃষ্টি-ভাষা-ক্রিয়া (VLA) মডেলগুলি সাধারণীকরণ এবং ভাষা-নির্দেশিত ম্যানিপুলেশন কাজে উৎকর্ষ লাভ করে, কিন্তু নির্ভুল স্থানিক যুক্তিবিদ্যার প্রয়োজনীয় কাজগুলিতে কর্মক্ষমতা হ্রাস পায়। এটি দৃষ্টি-ভাষা মডেল (VLM) থেকে উত্তরাধিকার সূত্রে প্রাপ্ত সীমিত স্থানিক যুক্তিবিদ্যা ক্ষমতা থেকে উদ্ভূত। বিদ্যমান VLA VLM-কে 3D স্থানে অবস্থান করার জন্য বড় আকারের ক্রিয়া ডেটা প্রাক-প্রশিক্ষণের উপর নির্ভর করে, যা প্রশিক্ষণ দক্ষতা হ্রাস করে এবং সঠিক স্থানিক বোঝাপড়া অর্জনের জন্য এখনও অপর্যাপ্ত। এই পত্রটি DepthVLA প্রস্তাব করে, যা একটি সহজ এবং কার্যকর VLA স্থাপত্য যা প্রাক-প্রশিক্ষিত গভীরতা পূর্বাভাস মডিউলের মাধ্যমে স্পষ্টভাবে স্থানিক-সচেতন ক্ষমতা একীভূত করে। DepthVLA একটি হাইব্রিড ট্রান্সফর্মার ডিজাইন গ্রহণ করে যা VLM, গভীরতা ট্রান্সফর্মার এবং ক্রিয়া বিশেষজ্ঞদের একীভূত করে, সম্পূর্ণ ভাগ করা মনোযোগ প্রক্রিয়ার মাধ্যমে একটি প্রান্ত-থেকে-প্রান্ত মডেল গঠন করে, যা স্থানিক যুক্তিবিদ্যা ক্ষমতা বৃদ্ধি করে। বাস্তব বিশ্ব এবং অনুকরণ পরিবেশে ব্যাপক মূল্যায়ন দেখায় যে DepthVLA অত্যাধুনিক পদ্ধতিগুলি অতিক্রম করে, বাস্তব বিশ্বের কাজে ৭৮.৫% বনাম ৬৫.০% অগ্রগতি, LIBERO অনুকরণকারীতে ৯৪.৯% বনাম ৯৩.৬%, এবং Simpler অনুকরণকারীতে ৭৪.৮% বনাম ৫৮.৮% অর্জন করে।
বিদ্যমান দৃষ্টি-ভাষা-ক্রিয়া (VLA) মডেলগুলি নির্ভুল স্থানিক যুক্তিবিদ্যার প্রয়োজনীয় রোবোট ম্যানিপুলেশন কাজে দুর্বল পারফরম্যান্স প্রদর্শন করে, প্রধান কারণগুলি হল:
- সীমিত স্থানিক যুক্তিবিদ্যা ক্ষমতা: VLA VLM-এর স্থানিক যুক্তিবিদ্যার সীমাবদ্ধতা উত্তরাধিকার সূত্রে পায়, নির্ভুল ম্যানিপুলেশন কাজে অপর্যাপ্ত পারফরম্যান্স প্রদান করে
- কম প্রশিক্ষণ দক্ষতা: বিদ্যমান পদ্ধতিগুলি 3D স্থানে VLM অবস্থান করার জন্য বিশাল ক্রিয়া ডেটা প্রাক-প্রশিক্ষণের উপর নির্ভর করে, কিন্তু এখনও স্থানিক তথ্য সম্পূর্ণভাবে বুঝতে পারে না
- বাস্তব প্রয়োগের অসুবিধা: VLA ছোট বস্তু ধরা, নির্ভুল ম্যানিপুলেশন সম্পাদন বা সংঘর্ষ এড়ানোর ক্ষেত্রে প্রায়শই ব্যর্থ হয়
নির্ভুল স্থানিক যুক্তিবিদ্যা রোবোট ম্যানিপুলেশনের জন্য অত্যন্ত গুরুত্বপূর্ণ, বিশেষত:
- ছোট বস্তু ধরা বা সূক্ষ্ম ম্যানিপুলেশন
- সংঘর্ষ এড়ানোর পথ পরিকল্পনা
- নির্ভুল অবস্থান অনুমান প্রয়োজনীয় স্ট্যাকিং কাজ
- জটিল পরিবেশে বহু-পদক্ষেপ ম্যানিপুলেশন
- উৎপাদনশীল বিশ্ব মডেল পদ্ধতি: স্পষ্ট 3D জ্ঞানের অভাব, বর্তমান দৃশ্য এনকোডিং উন্নতিতে সীমিত
- চিন্তার শৃঙ্খল যুক্তিবিদ্যা: উল্লেখযোগ্য বিলম্ব প্রবর্তন করে (২ সেকেন্ডের বেশি), শত শত স্থানিক টোকেন স্বয়ংক্রিয় উৎপাদন প্রয়োজন
- বাহ্যিক গভীরতা অনুমানকারী: SpatialVLA-এর মতো বর্তমান গভীরতা অনুমানকারী ব্যবহার করে, কিন্তু VLA-এর সাথে প্রান্ত-থেকে-প্রান্ত অপ্টিমাইজ করা হয় না, কর্মক্ষমতা সীমা সীমাবদ্ধ করে
- DepthVLA স্থাপত্য: একটি উপন্যাস VLA মডেল প্রস্তাব করে যা প্রাক-প্রশিক্ষিত গভীরতা পূর্বাভাস বিশেষজ্ঞকে হাইব্রিড ট্রান্সফর্মার কাঠামোতে একীভূত করে, স্পষ্ট স্থানিক যুক্তিবিদ্যা বাস্তবায়ন করার সময় VLM-এর শব্দার্থিক ভিত্তি বজায় রাখে
- বিশেষজ্ঞ-প্রতি প্রাক-প্রশিক্ষণ কৌশল: হাইব্রিড ট্রান্সফর্মার ডিজাইন প্রতিটি বিশেষজ্ঞ (VLM এবং গভীরতা) বিভিন্ন ডেটাসেটে আলাদাভাবে প্রাক-প্রশিক্ষণ করতে অনুমতি দেয়, প্রশিক্ষণ দক্ষতা বৃদ্ধি করে এবং মূর্ত ক্রিয়া ডেটার বাইরে স্কেলেবিলিটি অতিক্রম করে
- ব্যাপক বাস্তব বিশ্ব এবং অনুকরণ যাচাইকরণ: বাস্তব বিশ্ব এবং অনুকরণ পরিবেশে (LIBERO, Simpler) DepthVLA যাচাই করে যা অত্যাধুনিক VLA-এর চেয়ে উল্লেখযোগ্যভাবে উন্নত, ধরার নির্ভুলতা, সংঘর্ষ এড়ানো এবং সামগ্রিক কাজ সাফল্যের হার উল্লেখযোগ্য উন্নতি অর্জন করে
মান প্রান্ত-থেকে-প্রান্ত VLA সেটআপ অনুসরণ করে, নীতি πθ বর্তমান পর্যবেক্ষণ ot (এক বা একাধিক ক্যামেরা থেকে), ভাষা নির্দেশ l এবং প্রোপ্রিওসেপটিভ অবস্থা st এর উপর ভিত্তি করে k দৈর্ঘ্যের ক্রিয়া ব্লক At পূর্বাভাস দেয়:
DepthVLA একটি হাইব্রিড ট্রান্সফর্মার (MoT) স্থাপত্য গ্রহণ করে যা তিনটি বিশেষজ্ঞ একীভূত করে:
- VLM বিশেষজ্ঞ: পর্যবেক্ষণ এবং ভাষা নির্দেশ এনকোড করে, শব্দার্থিক এবং ভাষা ভিত্তি বৈশিষ্ট্য ক্যাপচার করে
- গভীরতা বিশেষজ্ঞ: পর্যবেক্ষণ প্রক্রিয়া করে জ্যামিতিক তথ্য অনুমান করতে
- ক্রিয়া বিশেষজ্ঞ: শব্দার্থিক এবং জ্যামিতিক বিশেষজ্ঞদের সমন্বিত বৈশিষ্ট্যের উপর ভিত্তি করে ক্রমাগত ক্রিয়া উৎপাদন করে
- এনকোডার-ডিকোডার স্থাপত্য: এনকোডার DINOv2 উপর ভিত্তি করে, Depth Anything V2 প্রাক-প্রশিক্ষিত চেকপয়েন্ট থেকে শুরু করা
- ডিকোডার কাঠামো: VLM-এর ট্রান্সফর্মার কাঠামোর সাথে মিলিত, গভীরতা পূর্বাভাসের জন্য রৈখিক মাথার মাধ্যমে আউটপুট
- মধ্যবর্তী বৈশিষ্ট্য ব্যবহার: সমস্ত মধ্যবর্তী স্তরে স্থানিক যুক্তিবিদ্যা সম্পাদন করে, ক্রিয়া পূর্বাভাসের জন্য সমৃদ্ধ জ্যামিতিক সংকেত প্রদান করে
ব্লক-স্তরের মাস্কিং কৌশল গ্রহণ করে:
- VLM এবং গভীরতা বিশেষজ্ঞের টোকেন শুধুমাত্র নিজেদের দিকে মনোযোগ দেয়
- ক্রিয়া টোকেন সমস্ত প্রবাহের দিকে মনোযোগ দিতে পারে
- প্রাক-প্রশিক্ষিত মডিউলের শেখার ক্ষমতা বজায় রাখে যখন শব্দার্থিক এবং স্থানিক সংকেত একীভূত করে
অন্তর্নিহিত পদ্ধতির বিপরীতে, DepthVLA একটি বিশেষায়িত গভীরতা বিশেষজ্ঞের মাধ্যমে স্পষ্ট 3D জ্যামিতিক বোঝাপড়া প্রদান করে, বিশাল ক্রিয়া ডেটার উপর নির্ভরতা এড়ায়।
- বিভিন্ন বিশেষজ্ঞদের তাদের সবচেয়ে উপযুক্ত ডেটায় প্রাক-প্রশিক্ষণ করতে অনুমতি দেয়
- ভাগ করা মনোযোগ স্তরের মাধ্যমে কার্যকর একীকরণ
- প্রতিটি বিশেষজ্ঞের বিশেষ ক্ষমতা বজায় রাখে
গভীরতা বিশেষজ্ঞ VLA-এর সাথে যৌথভাবে প্রশিক্ষিত হয়, সমন্বিত ক্ষতি ব্যবহার করে:
যেখানে Lsi স্কেল-অপরিবর্তনীয় গভীরতা ক্ষতি এবং Lflow প্রবাহ মিলান ক্ষতি।
- প্রাক-প্রশিক্ষণ ডেটাসেট:
- গভীরতা বিশেষজ্ঞ: WildRGB-D, ScanNet, ScanNet++, HyperSim
- VLA: Galaxea Open-World Dataset (১০০k ট্র্যাজেক্টরি), BridgeData V2 (৬০k ট্র্যাজেক্টরি)
- মূল্যায়ন ডেটাসেট:
- Simpler WidowX: ৪টি কাজ স্যুট, ১২০ পরীক্ষা
- LIBERO: ৪টি কাজ স্যুট (Spatial/Object/Goal/Long), ২০০০ পরীক্ষা
- বাস্তব বিশ্ব: ৩টি মানদণ্ড কাজ, প্রতি কাজে ২০ রান
- সাফল্যের হার: কাজ সম্পূর্ণতার শতাংশ
- অগ্রগতি স্কোর: প্রতিটি সফল সাব-ধাপ একটি পয়েন্ট অবদান রাখে, সমস্ত রান জুড়ে গড়
- Diffusion Policy
- Octo-Base
- SpatialVLA
- π0 (পুনরায় বাস্তবায়ন)
- OpenVLA
- CoT-VLA
- MolmoACT
- DreamVLA
- মডেল: Paligemma-3B VLM হাড় হিসাবে, DINOv2-L গভীরতা এনকোডার হিসাবে
- প্রশিক্ষণ: ৩২টি NVIDIA H100 GPU, AdamW অপ্টিমাইজার
- অনুমান: NVIDIA 4090 GPU, BF16 মিশ্র নির্ভুলতা, ২১০ms বিলম্ব
| মডেল | প্রাক-প্রশিক্ষণ | Put Spoon | Put Carrot | Stack Block | Pick Eggplant | গড় |
|---|
| π0 (পুনরায় বাস্তবায়ন) | × | 81.7% | 64.2% | 30.0% | 59.2% | 58.8% |
| DepthVLA | × | 75.8% | 71.7% | 62.5% | 89.2% | 74.8% |
| মডেল | প্রাক-প্রশিক্ষণ | Spatial | Object | Goal | Long | গড় |
|---|
| π0 (পুনরায় বাস্তবায়ন) | × | 95.8% | 96.4% | 94.8% | 87.4% | 93.6% |
| DepthVLA | × | 96.4% | 98.0% | 95.8% | 89.2% | 94.9% |
- সামগ্রিক কর্মক্ষমতা: DepthVLA ৭৯% বনাম বেসলাইন ৬৫% গড় অগ্রগতি স্কোর অর্জন করে
- মাইক্রোওয়েভ অপারেশন: সংঘর্ষ এড়ানোর ক্ষেত্রে উৎকর্ষ প্রদর্শন করে
- ব্লক স্ট্যাকিং: উৎকর্ষ স্থানিক সচেতনতা প্রদর্শন করে
- ডেস্কটপ সংগঠন: ছোট বস্তু ধরার কাজে তুলনীয় পারফরম্যান্স
| সেটআপ | Spoon | Carrot | Block | Eggplant | গড় |
|---|
| গভীরতা বিশেষজ্ঞ র্যান্ডম শুরু | 60.0% | 60.8% | 43.3% | 40.0% | 51.0% |
| গভীরতা ক্ষতি অপসারণ | 69.2% | 60% | 28.3% | 70.0% | 56.9% |
| গভীরতা বিশেষজ্ঞ হিমায়িত | 65.8% | 69.2% | 74.2% | 78.3% | 71.9% |
| ব্লক-স্তরের মাস্কিং অপসারণ | 66.7% | 65.0% | 2.5% | 88.3% | 55.6% |
| DepthVLA সম্পূর্ণ সংস্করণ | 75.8% | 71.7% | 62.5% | 89.2% | 74.8% |
- গভীরতা প্রাক-প্রশিক্ষণ অত্যন্ত গুরুত্বপূর্ণ: র্যান্ডম শুরু করা গভীরতা বিশেষজ্ঞ উল্লেখযোগ্য কর্মক্ষমতা হ্রাস প্রদর্শন করে
- গভীরতা ক্ষতি প্রয়োজনীয়: গভীরতা ক্ষতি অপসারণ কর্মক্ষমতা হ্রাস করে
- ব্লক-স্তরের মাস্কিং কার্যকর: বিশেষজ্ঞ স্বাধীনতা বজায় রাখা কর্মক্ষমতার জন্য অত্যন্ত গুরুত্বপূর্ণ
- পূর্বাভাস সরাসরি ইনপুটের চেয়ে উন্নত: পূর্বাভাস গভীরতা সরাসরি প্রকৃত গভীরতা ব্যবহারের চেয়ে ভাল কাজ করে
একক-কাজ বিশেষজ্ঞ থেকে সাধারণ মডেলে বিকাশ, বড় ভাষা মডেল, দৃষ্টি-ভাষা মডেল এবং বড় আকারের রোবোট ক্রিয়া ডেটাসেটের অগ্রগতি দ্বারা চালিত। প্রাথমিক VLA VLM মাইক্রোটিউনিং এর মাধ্যমে স্বয়ংক্রিয়ভাবে ক্রিয়া টোকেন উৎপাদন করে, সর্বশেষ VLA বিস্তার-ভিত্তিক ক্রিয়া বিশেষজ্ঞ গ্রহণ করে।
- প্রাথমিক পদ্ধতি: LiDAR বা RGB-D ক্যামেরার মতো অতিরিক্ত 3D ইনপুট ব্যবহার করে, কিন্তু প্ল্যাটফর্ম জুড়ে সাধারণীকরণ হ্রাস করে
- SpatialVLA: বর্তমান গভীরতা অনুমানকারী ব্যবহার করে ছদ্ম পয়েন্ট ক্লাউড উৎপাদন করে, কিন্তু প্রান্ত-থেকে-প্রান্ত অপ্টিমাইজ করা হয় না
- উৎপাদনশীল বিশ্ব মডেল: ভবিষ্যত ফ্রেম, মূল পয়েন্ট বা শব্দার্থিক অবস্থা পূর্বাভাস দেয়, কিন্তু বর্তমান দৃশ্য এনকোডিং উন্নতিতে সীমিত
- CoT যুক্তিবিদ্যা: স্বয়ংক্রিয়ভাবে গভীরতা টোকেন উৎপাদন করে, কিন্তু উচ্চ বিলম্ব প্রবর্তন করে
সাম্প্রতিক বছরগুলিতে 3D সচেতনতার অগ্রগতি একক বা বহু-দৃশ্য চিত্র থেকে জ্যামিতি অনুমান করার শক্তিশালী ক্ষমতা প্রদর্শন করেছে, VLA স্থানিক যুক্তিবিদ্যা উন্নত করার সম্ভাবনা প্রদান করে।
- স্পষ্ট স্থানিক যুক্তিবিদ্যা কার্যকর: প্রাক-প্রশিক্ষিত গভীরতা বিশেষজ্ঞের মাধ্যমে নির্ভুল ম্যানিপুলেশন কাজে VLA কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
- হাইব্রিড বিশেষজ্ঞ ডিজাইন উন্নত: বিভিন্ন বিশেষজ্ঞদের তাদের সবচেয়ে উপযুক্ত ডেটায় প্রাক-প্রশিক্ষণ করতে অনুমতি দেয়, দক্ষতা বৃদ্ধি করে
- প্রান্ত-থেকে-প্রান্ত অপ্টিমাইজেশন মূল: গভীরতা পূর্বাভাস এবং ক্রিয়া উৎপাদনের যৌথ অপ্টিমাইজেশন বাহ্যিক গভীরতা অনুমানকারী ব্যবহারের চেয়ে আরও কার্যকর
- একক-দৃশ্য গভীরতা পূর্বাভাস চ্যালেঞ্জ: কঠিন দৃশ্যে (ক্ষুদ্র প্রান্ত, প্রতিফলন বা স্বচ্ছ বস্তু, টেক্সচারহীন পৃষ্ঠ) এখনও ব্যর্থ হতে পারে
- গণনা ওভারহেড: ৬০০M প্যারামিটার এবং ২০ms অনুমান বিলম্ব যোগ করে
- গভীরতা লেবেল উপর নির্ভরতা: প্রশিক্ষণের জন্য ছদ্ম গভীরতা লেবেল উৎপাদন প্রয়োজন
- বহু-দৃশ্য গভীরতা পূর্বাভাস: স্থানিক নির্ভুলতা এবং শক্তিশালীতা বৃদ্ধির জন্য বহু-দৃশ্য গভীরতা বা পয়েন্ট ম্যাপ পূর্বাভাস অন্বেষণ করে
- আরও দক্ষ স্থাপত্য: গণনা ওভারহেড হ্রাস করার সময় কর্মক্ষমতা বজায় রাখে
- অপর্যবেক্ষিত স্থানিক শেখা: গভীরতা লেবেলের উপর নির্ভরতা হ্রাস করে
- শক্তিশালী পদ্ধতি উদ্ভাবন: প্রথমবারের মতো প্রাক-প্রশিক্ষিত গভীরতা বিশেষজ্ঞকে কার্যকরভাবে VLA-তে একীভূত করে, স্পষ্ট স্থানিক যুক্তিবিদ্যা প্রদান করে
- ব্যাপক পরীক্ষা: বাস্তব বিশ্ব এবং একাধিক অনুকরণ পরিবেশ জুড়ে, বিস্তারিত অ্যাবলেশন গবেষণা সহ
- উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: সমস্ত পরীক্ষা পরিবেশে সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নতি অর্জন করে
- যুক্তিসঙ্গত ডিজাইন: হাইব্রিড বিশেষজ্ঞ স্থাপত্য প্রতিটি বিশেষজ্ঞের বিশেষ ক্ষমতা বজায় রাখে এবং কার্যকর একীকরণ অর্জন করে
- শক্তিশালী ব্যবহারিকতা: অনুমান বিলম্ব ছোট বৃদ্ধি, বাস্তব সময় স্থাপনার জন্য উপযুক্ত
- গভীরতা গুণমান নির্ভরতা: কর্মক্ষমতা গভীরতা পূর্বাভাস গুণমান দ্বারা সীমাবদ্ধ, চ্যালেঞ্জিং দৃশ্যে ব্যর্থ হতে পারে
- লেবেল উৎপাদন খরচ: প্রশিক্ষণ ডেটার জন্য ছদ্ম গভীরতা লেবেল উৎপাদন প্রয়োজন, ডেটা প্রস্তুতি খরচ বৃদ্ধি করে
- অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: কেন গভীরতা পূর্বাভাস সরাসরি ইনপুট গভীরতার চেয়ে আরও কার্যকর তার গভীর তাত্ত্বিক বিশ্লেষণ অভাব
- সীমিত সাধারণীকরণ যাচাইকরণ: প্রধানত নির্দিষ্ট ধরনের ম্যানিপুলেশন কাজে যাচাই করা, অন্যান্য ধরনের কাজে সাধারণীকরণ আরও যাচাইকরণ প্রয়োজন
- ক্ষেত্র অবদান: VLA স্থানিক যুক্তিবিদ্যা উন্নত করার জন্য নতুন কার্যকর পদ্ধতি প্রদান করে, পরবর্তী গবেষণা দিকনির্দেশনা প্রভাবিত করতে পারে
- ব্যবহারিক মূল্য: পদ্ধতি সহজ এবং কার্যকর, বিদ্যমান VLA সিস্টেমে বাস্তবায়ন সহজ
- পুনরুৎপাদনযোগ্যতা: লেখক কোড প্রকাশ্য করার প্রতিশ্রুতি, গবেষণা পুনরুৎপাদন এবং আরও উন্নয়ন সুবিধা করে
- নির্ভুল ম্যানিপুলেশন কাজ: বিশেষত নির্ভুল স্থানিক যুক্তিবিদ্যার প্রয়োজনীয় রোবোট ম্যানিপুলেশন কাজের জন্য উপযুক্ত
- বহু-মোডাল রোবোট সিস্টেম: RGB ক্যামেরা সহ বিভিন্ন রোবোট প্ল্যাটফর্মে প্রযোজ্য
- শিল্প প্রয়োগ: উৎপাদন, সেবা রোবোট ইত্যাদি নির্ভুল ম্যানিপুলেশন প্রয়োজনীয় দৃশ্যে প্রয়োগ সম্ভাবনা রয়েছে
পত্রটি সমৃদ্ধ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
- VLA মডেল: OpenVLA, π0, Octo ইত্যাদি
- স্থানিক-সচেতন পদ্ধতি: SpatialVLA, CoT-VLA ইত্যাদি
- 3D সচেতনতা মডেল: Depth Anything V2, DINOv2 ইত্যাদি
- মূল্যায়ন বেঞ্চমার্ক: LIBERO, Simpler, BridgeData V2 ইত্যাদি
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের গবেষণা পত্র যা VLA-এর স্থানিক যুক্তিবিদ্যা ক্ষমতা উন্নত করার জন্য একটি সহজ এবং কার্যকর পদ্ধতি প্রস্তাব করে। পরীক্ষা ডিজাইন ব্যাপক, ফলাফল প্রভাবশালী, রোবোট ম্যানিপুলেশন ক্ষেত্রে গুরুত্বপূর্ণ ব্যবহারিক মূল্য এবং গবেষণা তাৎপর্য রয়েছে।