2025-11-18T12:22:13.890784

DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding

Xie, Liang, Li et al.

Effective scene representation is critical for the visual grounding ability of representations, yet existing methods for 3D Visual Grounding are often constrained. They either only focus on geometric and visual cues, or, like traditional 3D scene graphs, lack the multi-dimensional attributes needed for complex reasoning. To bridge this gap, we introduce the Diverse Semantic Map (DSM) framework, a novel scene representation framework that enriches robust geometric models with a spectrum of VLM-derived semantics, including appearance, physical properties, and affordances. The DSM is first constructed online by fusing multi-view observations within a temporal sliding window, creating a persistent and comprehensive world model. Building on this foundation, we propose DSM-Grounding, a new paradigm that shifts grounding from free-form VLM queries to a structured reasoning process over the semantic-rich map, markedly improving accuracy and interpretability. Extensive evaluations validate our approach's superiority. On the ScanRefer benchmark, DSM-Grounding achieves a state-of-the-art 59.06% overall accuracy of IoU@0.5, surpassing others by 10%. In semantic segmentation, our DSM attains a 67.93% F-mIoU, outperforming all baselines, including privileged ones. Furthermore, successful deployment on physical robots for complex navigation and grasping tasks confirms the framework's practical utility in real-world scenarios.

academic

DSM: 3D ভিজ্যুয়াল গ্রাউন্ডিংয়ের জন্য একটি বৈচিত্র্যময় সিমান্টিক ম্যাপ নির্মাণ

মৌলিক তথ্য

পেপার আইডি: 2504.08307
শিরোনাম: DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding
লেখক: Qinghongbing Xie, Zijian Liang, Fuhao Li, Long Zeng (তিংহুয়া বিশ্ববিদ্যালয় শেনজেন আন্তর্জাতিক স্নাতক স্কুল)
শ্রেণীবিভাগ: cs.CV cs.RO
প্রকাশনার সময়/সম্মেলন: arXiv 2025 (জমা দেওয়া হচ্ছে)
পেপার লিঙ্ক: https://arxiv.org/abs/2504.08307
প্রকল্প হোমপেজ: https://binicey.github.io/DSM/

সারসংক্ষেপ

কার্যকর দৃশ্য প্রতিনিধিত্ব ভিজ্যুয়াল গ্রাউন্ডিং ক্ষমতার জন্য অত্যন্ত গুরুত্বপূর্ণ, তবে বিদ্যমান 3D ভিজ্যুয়াল গ্রাউন্ডিং পদ্ধতিগুলি প্রায়শই সীমাবদ্ধতার সম্মুখীন হয়। এগুলি হয় শুধুমাত্র জ্যামিতিক এবং ভিজ্যুয়াল সংকেতের উপর ফোকাস করে, অথবা ঐতিহ্যবাহী 3D দৃশ্য গ্রাফের মতো, জটিল যুক্তির জন্য প্রয়োজনীয় বহুমাত্রিক বৈশিষ্ট্যের অভাব রয়েছে। এই ব্যবধান পূরণের জন্য, এই পেপারটি বৈচিত্র্যময় সিমান্টিক ম্যাপ (DSM) ফ্রেমওয়ার্ক উপস্থাপন করে, যা একটি উপন্যাস দৃশ্য প্রতিনিধিত্ব ফ্রেমওয়ার্ক যা VLM-উদ্ভূত সিমান্টিক্স (চেহারা, শারীরিক বৈশিষ্ট্য এবং কার্যকারিতা সহ) দিয়ে শক্তিশালী জ্যামিতিক মডেলকে সমৃদ্ধ করে। DSM প্রথমে সময়ের স্লাইডিং উইন্ডোর মধ্যে মাল্টি-ভিউ পর্যবেক্ষণ একীভূত করে অনলাইনে নির্মিত হয়, স্থায়ী এবং ব্যাপক বিশ্ব মডেল তৈরি করে। এর উপর ভিত্তি করে, DSM-Grounding প্রস্তাব করা হয়েছে, যা গ্রাউন্ডিংকে মুক্ত-ফর্ম VLM প্রশ্ন থেকে সিমান্টিক-সমৃদ্ধ ম্যাপে কাঠামোগত যুক্তি প্রক্রিয়ায় রূপান্তরিত করে, যা নির্ভুলতা এবং ব্যাখ্যাযোগ্যতা উল্লেখযোগ্যভাবে উন্নত করে।

গবেষণা পটভূমি এবং প্রেরণা

সমাধান করার সমস্যা

বিদ্যমান 3D ভিজ্যুয়াল গ্রাউন্ডিং পদ্ধতিগুলি দুটি প্রধান সীমাবদ্ধতার সম্মুখীন:

অপর্যাপ্ত সিমান্টিক প্রতিনিধিত্ব: বেশিরভাগ পদ্ধতি শুধুমাত্র জ্যামিতিক এবং ভিজ্যুয়াল সংকেতের উপর ফোকাস করে, বস্তুর অন্তর্নিহিত বৈশিষ্ট্য এবং প্রসঙ্গ পারস্পরিক নির্ভরতা উপেক্ষা করে
সীমিত যুক্তি ক্ষমতা: ঐতিহ্যবাহী 3D দৃশ্য গ্রাফ শুধুমাত্র সহজ সিমান্টিক্স ক্যাপচার করতে পারে, জটিল পরিবেশে বড় মডেলের যুক্তিকে সমর্থন করা কঠিন

সমস্যার গুরুত্ব

সেবা রোবোটের মতো অ্যাপ্লিকেশনের জন্য, শুধুমাত্র বস্তু সনাক্ত করা যথেষ্ট নয়, বরং বস্তুর বহুমাত্রিক বৈশিষ্ট্য (যেমন রঙ, তাজা, ওজন, অবস্থান) এবং তাদের মধ্যে জটিল সম্পর্ক বোঝা প্রয়োজন, যা জটিল কাজ সম্পাদনের জন্য অত্যন্ত গুরুত্বপূর্ণ।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

জ্যামিতি-ভিত্তিক পদ্ধতি: যেমন ভিউ নির্বাচন অপ্টিমাইজেশন, প্রধানত জ্যামিতিক এবং ভিজ্যুয়াল বৈশিষ্ট্যের উপর ফোকাস করে, সিমান্টিক বোঝার অভাব রয়েছে
ঐতিহ্যবাহী 3D দৃশ্য গ্রাফ: শুধুমাত্র সহজ সিমান্টিক্স এবং স্থানিক সম্পর্কের উপর ফোকাস করে, সূক্ষ্ম-দানাদার বহুমাত্রিক বৈশিষ্ট্যের অভাব রয়েছে
VLM সরাসরি প্রশ্ন: জটিল স্থানিক এবং সম্পর্ক যুক্তিতে দুর্বল কর্মক্ষমতা, ইনপুট ফর্ম্যাট দ্বারা সীমাবদ্ধ

গবেষণা প্রেরণা

এমন একটি দৃশ্য প্রতিনিধিত্ব তৈরি করা যা প্রকাশনীয় (সমৃদ্ধ তথ্য এনকোড করে) এবং সংক্ষিপ্ত (ক্রস-প্ল্যাটফর্ম অভিযোজন নিশ্চিত করে) উভয়ই, জটিল বহুমাত্রিক যুক্তি সমর্থন করে।

মূল অবদান

DSM ফ্রেমওয়ার্ক প্রস্তাব: জটিল বহুমাত্রিক দৃশ্য প্রতিনিধিত্ব সমর্থন করতে সক্ষম একটি নতুন ফ্রেমওয়ার্ক, সিমান্টিক বোঝা এবং নির্ভুল গ্রাউন্ডিংয়ের একীকরণ অর্জন করে
সময় উইন্ডো ম্যাপিং পদ্ধতি বিকাশ: জ্যামিতিক এবং সিমান্টিক-সচেতন অনলাইন নির্মাণ পদ্ধতি, সমৃদ্ধ সিমান্টিক DSM উপাদান নির্মাণ করে
DSM-Grounding প্রস্তাব: DSM ব্যবহার করে গভীর দৃশ্য যুক্তি অর্জনের একটি নতুন 3D গ্রাউন্ডিং পদ্ধতি

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

ইনপুট: ক্রমাগত RGB-D পর্যবেক্ষণ প্রবাহ, প্রাকৃতিক ভাষার প্রশ্ন আউটপুট: লক্ষ্য বস্তুর 3D অবস্থান এবং সীমানা বাক্স সীমাবদ্ধতা: শূন্য-শট সেটিং, পূর্ব-প্রশিক্ষিত নির্দিষ্ট শ্রেণী লেবেলের প্রয়োজন নেই

DSM সংজ্ঞা

DSM 3D দৃশ্য গ্রাফ হিসাবে সংজ্ঞায়িত G=(O,R), যেখানে:

O: বস্তু নোড সেট
R: সম্পর্ক প্রতিনিধিত্বকারী প্রান্ত সেট

প্রতিটি বস্তু নোড O_i ∈ O অন্তর্ভুক্ত:

জ্যামিতিক প্রতিনিধিত্ব (O_g^i):

3D পয়েন্ট ক্লাউড P_i
নির্দেশিত সীমানা বাক্স B_i

সিমান্টিক প্রতিনিধিত্ব (O_s^i):

পরিচয় সনাক্তকরণ N_i: শ্রেণী লেবেল বা নাম
বৈশিষ্ট্য A_i: কাঠামোগত VLM-উদ্ভূত বর্ণনা
- চেহারা বৈশিষ্ট্য (a_a): রঙ, প্যাটার্ন, টেক্সচার
- শারীরিক বৈশিষ্ট্য (a_p): ওজন, উপাদান, পৃষ্ঠ বৈশিষ্ট্য
- কার্যকরী বৈশিষ্ট্য (a_o): উদ্দেশ্য, অপারেশন পদ্ধতি

DSM নির্মাণ প্রক্রিয়া

1. একক-ভিউ বিশ্লেষণ

প্রতিটি RGB-D ফ্রেমে সম্পাদিত:

বস্তু সনাক্তকরণ এবং বিভাজন: খোলা শব্দভাণ্ডার সনাক্তকরণের জন্য YoloWorld ব্যবহার করে, বিভাজনের জন্য SAM2
পয়েন্ট ক্লাউড প্রজন্ম: গভীরতা এবং ক্যামেরা অবস্থান তথ্যের মাধ্যমে 2D মাস্ক ব্যাকপ্রজেক্ট করে
সিমান্টিক নিষ্কাশন: কাঠামোগত সিমান্টিক বর্ণনা তৈরি করতে VLM এবং চিন্তা শৃঙ্খল যুক্তি ব্যবহার করে

2. মাল্টি-ভিউ ম্যাপিং

মাল্টিমোডাল ডেটা সংযোগ: ওজনযুক্ত সাদৃশ্য স্কোর গণনা করে

S = s_v + s_g + s_c
s_v = CosSimilarity(f_vp̂, f_vq̂)  # ভিজ্যুয়াল সাদৃশ্য
s_g = IoU(bbox_p, bbox_q)         # জ্যামিতিক সাদৃশ্য  
s_c = CosSimilarity(f_sp̂, f_sq̂)  # সিমান্টিক সাদৃশ্য

জ্যামিতিক স্লাইডিং উইন্ডো পদ্ধতি:

প্রতিটি ফ্রেমের জন্য ভিউ ফ্রাস্টাম তৈরি করে
সর্বশেষ পয়েন্ট ক্লাউড পর্যবেক্ষণ একত্রিত করে
শব্দ ফিল্টার করতে এবং আকৃতি সম্পূর্ণ করতে স্থানিক ভোটিং স্কিম প্রয়োগ করে

DSM-Grounding পদ্ধতি

1. প্রার্থী পুনরুদ্ধার

প্রাকৃতিক ভাষার প্রশ্ন বিশ্লেষণ করতে LLM ব্যবহার করে, লক্ষ্য সত্তা, অ্যাঙ্কর সত্তা এবং তাদের বৈশিষ্ট্য সনাক্ত করে, পাঠ্য ম্যাচিংয়ের মাধ্যমে DSM থেকে প্রাথমিক প্রার্থী সেট পুনরুদ্ধার করে।

2. সম্ভাব্য সম্পর্ক ফিল্টারিং (LRF)

প্রশ্নে বর্ণিত সম্পর্ক সীমাবদ্ধতা যাচাই করে:

DSM-তে সংরক্ষিত সম্পর্ক R প্রশ্ন করে
সংরক্ষিত সম্পর্ক এবং প্রশ্ন সম্পর্কের সামঞ্জস্য মূল্যায়ন করতে LLM ব্যবহার করে
শীর্ষ-k প্রার্থী নির্বাচন করে, পরিমার্জিত সেট O_filtered উৎপাদন করে

3. বহু-স্তরীয় যাচাইকরণ

চূড়ান্ত প্রার্থী সেটের জন্য তিনটি দৃষ্টিভঙ্গির ছবি রেন্ডার করে:

বস্তু-স্তর: বস্তু পূর্ণ স্ক্রিন, বিস্তারিত শ্রেণী এবং বৈশিষ্ট্য তথ্য প্রদান করে
অবস্থান-স্তর: বস্তু এবং সংলগ্ন অঞ্চলের সম্পর্ক দেখায় এমন বৃহত্তর দৃশ্য
দৃশ্য-স্তর: প্রায় সম্পূর্ণ দৃশ্য সহ বৈশ্বিক প্রসঙ্গ তথ্য অন্তর্ভুক্ত করে

চূড়ান্ত সিদ্ধান্ত:

pred = VLM(I, O_filtered, Q)

পরীক্ষামূলক সেটআপ

ডেটাসেট

ScanRefer: 8টি দৃশ্য, বসার ঘর, ডাইনিং রুম, অধ্যয়ন, শোবার ঘর ইত্যাদি সহ
Nr3D/Sr3D: সামগ্রিক, সহজ, কঠিন, দৃশ্য-নির্ভর, দৃশ্য-স্বাধীন সূচক রিপোর্ট করে
AI2-THOR: উচ্চ-বিশ্বস্ততা সিমুলেটর পরিবেশ
Replica: বৃহৎ-স্কেল অভ্যন্তরীণ পরিবেশ ডেটাসেট

মূল্যায়ন মেট্রিক্স

3D ভিজ্যুয়াল গ্রাউন্ডিং: Acc@0.25, Acc@0.5 (IoU থ্রেশহোল্ড)
সিমান্টিক বিভাজন: mAcc (গড় নির্ভুলতা), F-mIoU (অগ্রভাগ গড় IoU)

বাস্তবায়ন বিবরণ

সনাক্তকরণ মডেল: YoloWorld
বিভাজন মডেল: SAM2
এনকোডার: SigLip (পাঠ্য), DINOv2 (ভিজ্যুয়াল)
VLM: GPT-4o-mini, Qwen2.5-VL-7B/72B
থ্রেশহোল্ড সেটিং: t_v=0.4, t_x=0.8, t_g=0.3, T=1.5

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

3D সিমান্টিক বিভাজন (Replica ডেটাসেট)

পদ্ধতি	mAcc	F-mIoU
LSeg (Privileged)	33.39	51.54
OpenSeg (Privileged)	41.19	53.74
ConceptFusion (Zero-shot)	31.53	38.70
ConceptGraphs (Zero-shot)	40.63	35.95
আমাদের পদ্ধতি	38.76	67.93

3D ভিজ্যুয়াল গ্রাউন্ডিং (ScanRefer ডেটাসেট)

Qwen2.5-VL-72B ব্যবহার করে সেরা ফলাফল:

সামগ্রিক Acc@0.5: 59.06% (SOTA, বিদ্যমান পদ্ধতির চেয়ে প্রায় 10% উন্নত)
একাধিক Acc@0.5: 53.65% (বহু-বস্তু দৃশ্যে চমৎকার কর্মক্ষমতা)

অ্যাবলেশন পরীক্ষা (AI2-THOR ডেটাসেট)

LRF	চেহারা বৈশিষ্ট্য	শারীরিক বৈশিষ্ট্য	কার্যকরী বৈশিষ্ট্য	সামগ্রিক Acc@0.5
✓	✓	✓	✓	60.00
✗	✓	✓	✓	53.64 (-6.36)
✗	✓	✗	✗	49.55
✗	✗	✓	✗	49.09
✗	✗	✗	✓	48.41

মূল অনুসন্ধান:

LRF মডিউল সর্বাধিক অবদান রাখে (প্রায় 6-7 শতাংশ পয়েন্ট উন্নতি)
চেহারা বৈশিষ্ট্য সবচেয়ে গুরুত্বপূর্ণ সংকেত প্রদান করে
তিনটি সিমান্টিক বৈশিষ্ট্যই ইতিবাচক অবদান রাখে

রোবোটিক পরীক্ষা

সিমুলেটেড পরিবেশ: AI2-THOR-এ বিদ্যমান শূন্য-শট পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে উন্নত বাস্তব পরিবেশ: শারীরিক রোবোটে সফলভাবে স্থাপিত সম্পাদন করতে:

সিমান্টিক নেভিগেশন কাজ: "কম্পিউটার ডেস্কের পাশে কেন্দ্রীয় কক্ষে নেভিগেট করুন"
সিমান্টিক গ্রাসপিং কাজ: "সাদা ক্যাবিনেটের উপর সাদা তাকে আপেল ধরুন"

উপসংহার এবং আলোচনা

প্রধান উপসংহার

DSM ফ্রেমওয়ার্ক জ্যামিতিক নির্ভুলতা এবং সিমান্টিক সমৃদ্ধির সংমিশ্রণ সফলভাবে অর্জন করে
বহুমাত্রিক সিমান্টিক বৈশিষ্ট্য (চেহারা, শারীরিক, কার্যকরী) গ্রাউন্ডিং কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
কাঠামোগত যুক্তি প্যারাডাইম সরাসরি VLM প্রশ্ন পদ্ধতির চেয়ে উন্নত
পদ্ধতি সিমুলেটেড এবং বাস্তব পরিবেশ উভয়েই চমৎকার কর্মক্ষমতা প্রদর্শন করে

সীমাবদ্ধতা

আপস্ট্রিম মডিউলের উপর নির্ভরতা: কর্মক্ষমতা বস্তু সনাক্তকরণ, বিভাজন গুণমান দ্বারা প্রভাবিত
গণনা বিলম্ব: বড় VLM-এর অনুমান সময় দীর্ঘ
পরিবেশ অভিযোজনযোগ্যতা: প্রধানত অভ্যন্তরীণ পরিবেশে পরীক্ষিত, বহিরঙ্গন দৃশ্যের প্রযোজ্যতা অজানা

ভবিষ্যত দিকনির্দেশনা

রিয়েল-টাইম কর্মক্ষমতা উন্নত করতে আরও দক্ষ মডেল অন্বেষণ করে
স্থিতিস্থাপকতা বৃদ্ধির জন্য বিকল্প 3D প্রতিনিধিত্ব পদ্ধতি গবেষণা করে
আরও জটিল বহিরঙ্গন পরিবেশে সম্প্রসারণ করে

গভীর মূল্যায়ন

শক্তি

শক্তিশালী পদ্ধতি উদ্ভাবন: প্রথমবারের মতো সিস্টেমেটিকভাবে বহুমাত্রিক সিমান্টিক বৈশিষ্ট্যকে 3D দৃশ্য প্রতিনিধিত্বে একীভূত করে
সম্পূর্ণ প্রযুক্তিগত সমাধান: দৃশ্য নির্মাণ থেকে গ্রাউন্ডিং অনুমান পর্যন্ত সম্পূর্ণ সমাধান
ব্যাপক পরীক্ষা: একাধিক ডেটাসেট, অ্যাবলেশন গবেষণা এবং বাস্তব রোবোটিক যাচাইকরণ অন্তর্ভুক্ত
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: একাধিক বেঞ্চমার্কে SOTA অর্জন করে, বিশেষত F-mIoU উল্লেখযোগ্য উন্নতি

অপূর্ণতা

গণনা জটিলতা: একাধিক VLM কল প্রয়োজন, রিয়েল-টাইম অ্যাপ্লিকেশন প্রভাবিত করতে পারে
মূল্যায়ন সীমাবদ্ধতা: প্রধানত অভ্যন্তরীণ দৃশ্যে মূল্যায়িত, বৃহৎ-স্কেল বহিরঙ্গন যাচাইকরণের অভাব
শক্তিশালী নির্ভরতা: VLM গুণমানের উপর উচ্চ নির্ভরতা, মডেল পক্ষপাত দ্বারা প্রভাবিত হতে পারে
মেমরি প্রয়োজনীয়তা: সমৃদ্ধ সিমান্টিক তথ্য সংরক্ষণ মেমরি চাপ আনতে পারে

প্রভাব

একাডেমিক অবদান: 3D দৃশ্য বোঝার জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করে
ব্যবহারিক মূল্য: সেবা রোবোটের মতো বাস্তব অ্যাপ্লিকেশনে সরাসরি প্রযোজ্য
পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং প্রকল্প হোমপেজ প্রদান করে

প্রযোজ্য দৃশ্যকল্প

অভ্যন্তরীণ সেবা রোবোট: পরিবার, অফিস পরিবেশে নেভিগেশন এবং অপারেশন
বর্ধিত বাস্তবতা অ্যাপ্লিকেশন: সমৃদ্ধ সিমান্টিক বোঝার প্রয়োজনীয় AR সিস্টেম
স্মার্ট পর্যবেক্ষণ: সিমান্টিক-ভিত্তিক দৃশ্য বোঝা এবং অসামান্যতা সনাক্তকরণ
সহায়ক প্রযুক্তি: দৃষ্টি প্রতিবন্ধী ব্যক্তিদের জন্য পরিবেশ বর্ণনা প্রদান করে

সংদর্ভ

পেপারটি 40টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, 3D দৃশ্য প্রতিনিধিত্ব, ভিজ্যুয়াল গ্রাউন্ডিং, রোবোটিক্স এবং অন্যান্য একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, পাঠকদের ব্যাপক পটভূমি জ্ঞান প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি 3D ভিজ্যুয়াল গ্রাউন্ডিং ক্ষেত্রে একটি উচ্চ-মানের গবেষণা পেপার যা উদ্ভাবনী সমাধান প্রস্তাব করে। DSM ফ্রেমওয়ার্ক সফলভাবে জ্যামিতিক নির্ভুলতা এবং সিমান্টিক সমৃদ্ধির সংমিশ্রণ করে, জটিল পরিবেশে রোবোটের বোঝা এবং মিথস্ক্রিয়ার জন্য শক্তিশালী প্রযুক্তিগত সমর্থন প্রদান করে। যদিও গণনা এবং প্রযোজ্যতার দিক থেকে কিছু সীমাবদ্ধতা রয়েছে, তবে এর প্রযুক্তিগত উদ্ভাবন এবং পরীক্ষামূলক যাচাইকরণ উভয়ই চমৎকার, এই ক্ষেত্রের উন্নয়নে গুরুত্বপূর্ণ প্রচারমূলক ভূমিকা পালন করে।