2025-11-13T13:49:10.872331

Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation

Wang, Cheng, Wang et al.

Visual Teach-and-Repeat Navigation is a direct solution for mobile robot to be deployed in unknown environments. However, robust trajectory repeat navigation still remains challenged due to environmental changing and dynamic objects. In this paper, we propose a novel visual teach-and-repeat navigation system, which consists of a flexible map representation, robust map matching and a map-less local navigation module. During the teaching process, the recorded keyframes are formulated as a topo-metric graph and each node can be further extended to save new observations. Such representation also alleviates the requirement of globally consistent mapping. To enhance the place recognition performance during repeating process, instead of using frame-to-frame matching, we firstly implement keyframe clustering to aggregate similar connected keyframes into local map and perform place recognition based on visual frame-tolocal map matching strategy. To promote the local goal persistent tracking performance, a long-term goal management algorithm is constructed, which can avoid the robot getting lost due to environmental changes or obstacle occlusion. To achieve the goal without map, a local trajectory-control candidate optimization algorithm is proposed. Extensively experiments are conducted on our mobile platform. The results demonstrate that our system is superior to the baselines in terms of robustness and effectiveness.

academic

लचीले टोपो-मेट्रिक ग्राफ मानचित्र प्रतिनिधित्व के साथ मजबूत दृश्य शिक्षण-और-दोहराव नेविगेशन

मूल जानकारी

पेपर ID: 2510.09089
शीर्षक: Robust Visual Teach-and-Repeat Navigation with Flexible Topo-metric Graph Map Representation
लेखक: Jikai Wang, Yunqi Cheng, Kezhi Wang, और Zonghai Chen (चीन विज्ञान और प्रौद्योगिकी विश्वविद्यालय)
वर्गीकरण: cs.RO (रोबोटिक्स)
प्रकाशन तिथि: 10 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.09089

सारांश

यह पेपर एक नवीन दृश्य शिक्षण-दोहराव (VTR) नेविगेशन प्रणाली प्रस्तावित करता है जो लचीले मानचित्र प्रतिनिधित्व, मजबूत मानचित्र मिलान और मानचित्र-रहित स्थानीय नेविगेशन मॉड्यूल के माध्यम से पर्यावरणीय परिवर्तन और गतिशील वस्तुओं की चुनौतियों को संबोधित करता है। प्रणाली मुख्य फ्रेम को संग्रहीत करने के लिए टोपोलॉजिकल-मेट्रिक ग्राफ संरचना का उपयोग करती है, नए अवलोकनों को सहेजने के लिए नोड विस्तार का समर्थन करती है। मुख्य फ्रेम क्लस्टरिंग और फ्रेम-से-स्थानीय-मानचित्र मिलान रणनीति के माध्यम से स्थान पहचान प्रदर्शन में सुधार किया जाता है, और दीर्घकालीन लक्ष्य प्रबंधन एल्गोरिथ्म का निर्माण रोबोट को पर्यावरणीय परिवर्तन या बाधा अवरोधन के कारण खोने से बचाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

दृश्य शिक्षण-दोहराव (VTR) नेविगेशन अज्ञात वातावरण में मोबाइल रोबोट तैनाती का एक सीधा समाधान है, लेकिन पर्यावरणीय परिवर्तन और गतिशील वस्तुओं की उपस्थिति में, मजबूत प्रक्षेपवक्र दोहराव नेविगेशन प्राप्त करना अभी भी चुनौतीपूर्ण है।

महत्व

व्यावहारिक मूल्य: VTR नेविगेशन कार्य वातावरण के पूर्ण मानचित्रण से बचता है, जिससे रोबोट तैनाती अधिक कुशल होती है
अनुप्रयोग की आवश्यकता: निश्चित मार्ग नेविगेशन परिदृश्यों में व्यापक मांग (जैसे कारखाने की साइटों के बीच नेविगेशन)
तकनीकी चुनौती: पर्यावरणीय परिवर्तन, गतिशील वस्तुओं और पथ विचलन की स्थितियों में नेविगेशन मजबूती बनाए रखने की आवश्यकता

मौजूदा विधियों की सीमाएं

मानचित्र प्रतिनिधित्व समस्या: पारंपरिक विधियां वैश्विक सुसंगतता मानचित्रण पर निर्भर करती हैं, स्थानीयकरण सटीकता के लिए उच्च आवश्यकताएं
स्थान पहचान की कमजोरी: दृश्यबिंदु परिवर्तन और अवरोधन की स्थितियों में फ्रेम-से-फ्रेम मिलान पर्याप्त मजबूत नहीं है
नेविगेशन मॉड्यूल निर्भरता: मौजूदा प्रणालियां सटीक स्थान पहचान पर अत्यधिक निर्भर हैं, मिलान विफलता पर आसानी से विफल हो जाती हैं
पर्यावरणीय अनुकूलन में कमी: पर्यावरणीय परिवर्तन और गतिशील बाधाओं को संभालना कठिन है

मुख्य योगदान

लचीली मानचित्र प्रतिनिधित्व विधि प्रस्तावित की: पर्यावरणीय परिवर्तन और ओडोमेट्री ड्रिफ्ट त्रुटि के अनुकूल टोपोलॉजिकल-मेट्रिक ग्राफ संरचना डिजाइन की गई
मजबूत VTR नेविगेशन प्रणाली का निर्माण: पर्यावरणीय परिवर्तन, गतिशील वस्तुओं और दृश्यबिंदु अवरोधन के अनुकूल, नेविगेशन मॉड्यूल अन्य VTR प्रणालियों में एम्बेड किया जा सकता है
उपयोगकर्ता-अनुकूल प्रणाली का कार्यान्वयन: नए कार्य वातावरण के अनुकूल होना आसान, अच्छी व्यावहारिकता के साथ
प्रणाली प्रभावशीलता का सत्यापन: मोबाइल प्लेटफॉर्म पर व्यापक प्रयोग किए गए, बेसलाइन विधियों की तुलना में श्रेष्ठता प्रदर्शित की गई

विधि विवरण

कार्य परिभाषा

VTR नेविगेशन में दो चरण शामिल हैं:

शिक्षण चरण: मानव नियंत्रण द्वारा रोबोट को कार्य मार्ग के साथ चलाया जाता है, दृश्य फ्रेम को मानचित्र के रूप में वास्तविक समय में रिकॉर्ड किया जाता है
दोहराव चरण: रोबोट वर्तमान दृश्य फ्रेम को मानचित्र से मिलाने का प्रयास करता है, और मिलान सफल होने पर अगला लक्ष्य अपडेट करता है

प्रणाली आर्किटेक्चर

1. मानचित्र प्रतिनिधित्व त्रुटि विश्लेषण

पारंपरिक SLAM मानचित्र प्रतिनिधित्व:

M̂ = {[Ki, T̂WI], i = 1, ···, N}

जहां अनुमानित वैश्विक पोज़ में संचयी ड्रिफ्ट त्रुटि होती है। यह पेपर प्रस्तावित प्रतिनिधित्व:

M̄ = {[Ki, T̂ij], i, j = 1, ···, N}

प्रत्येक मुख्य फ्रेम केवल आसन्न मुख्य फ्रेम के साथ विश्वसनीय सापेक्ष पोज़ परिवर्तन को संग्रहीत करता है।

2. टोपोलॉजिकल-मेट्रिक मुख्य फ्रेम मानचित्र

मुख्य फ्रेम परिभाषित:

Ki = {Ti-1i, Ui, Pi, Ii}

सापेक्ष परिवर्तन, 2D विशेषता बिंदु, 3D स्थिति और छवि जानकारी शामिल है। लूप बंद होने पर विस्तारित:

Ki = {Ti-1i, Ui, Pi, Ii, TL(i)i, L(i)}

3. मानचित्र अतिरेक में कमी

मुख्य फ्रेम क्लस्टरिंग के माध्यम से समान फ्रेम को मर्ज करना:

DBoW समानता की गणना करें, थ्रेशोल्ड के नीचे रोकें
समान मुख्य फ्रेम के 3D विशेषता बिंदुओं को संरक्षित फ्रेम समन्वय प्रणाली में परिवर्तित करें
अतिरेक मुख्य फ्रेम को हटाएं, लिंक्ड सूची संरचना बनाए रखें

दृश्य दोहराव चरण

1. फ्रेम-से-मुख्य-फ्रेम मिलान

विवश खोज रणनीति का उपयोग:

Rn = {[u,v]T | ||[u,v]T - [un,vn]T||2 < γ}

वृत्ताकार क्षेत्र में संबंधित विशेषताओं की खोज करें, PnP के माध्यम से सापेक्ष पोज़ को हल करें।

2. मानचित्र विस्तार

जब रोबोट शिक्षण पथ से विचलित हो जाता है, तो नए अवलोकन को मानचित्र में जोड़ा जाता है:

Ki = {Ti-1i, Ūi, P̄i, Ii, TL(i)i, L(i), TiS(i), S(i), {K}}

3. लक्ष्य सूची प्रबंधन

एकल लक्ष्य के बजाय लक्ष्य सूची का निर्माण:

Tkg0 = inv(Tik) · TiS(i)
Tkg1 = Tkg0 · TS(i)S(S(i))

लक्ष्य सूची Lg = {tg0, tg1, ···, tgM} मिलान सफल होने पर अपडेट होती है।

4. स्थानीय गति योजना

प्रक्षेपवक्र उम्मीदवार स्कोरिंग के माध्यम से बहु-लक्ष्य ट्रैकिंग:

si = (1/3) Σ(m=0 to 2) (1 - (0.005 · Θ(tie - x, tgm - x))^(1/2))

पहले तीन लक्ष्यों पर विचार करके स्कोर करें, सर्वोत्तम प्रक्षेपवक्र चुनें।

प्रयोगात्मक सेटअप

मोबाइल प्लेटफॉर्म कॉन्फ़िगरेशन

हार्डवेयर: विभेदक ड्राइव प्लेटफॉर्म, IMU एम्बेडेड कैमरा (MYNTEYE-SC) और लेजर रडार (Livox Mid-360) के साथ
स्थानीयकरण प्रणाली: OpenVINS का उपयोग दृश्य ओडोमेट्री के लिए, iG-LIO मूल्यांकन के लिए प्रक्षेपवक्र रिकॉर्ड करता है

मूल्यांकन मेट्रिक्स

अंतिम बिंदु दूरी: वास्तविक अंतिम बिंदु और पूर्वनिर्धारित शिक्षण पथ अंतिम बिंदु के बीच की दूरी
सफलता दर: रोबोट शुरुआत से अंत तक नेविगेट कर सकता है या नहीं (सख्त पथ अनुसरण की आवश्यकता नहीं)

डेटासेट

वातावरण: कार्यालय और गलियारे दृश्य
मार्ग प्रकार: सीधे और घुमावदार पथ
परीक्षण स्थितियां: सामान्य स्थिति, बाधा अवरोधन, पर्यावरणीय परिवर्तन

तुलना विधियां

BVTR: शास्त्रीय जैविक-प्रेरित VTR विधि
अभिलेखन प्रयोग: मुख्य फ्रेम क्लस्टरिंग के बिना, एकल-लक्ष्य ट्रैकिंग आदि वेरिएंट

प्रयोगात्मक परिणाम

मुख्य परिणाम

1. सामान्य स्थितियों में नेविगेशन

कार्यालय दृश्य: यह विधि अंतिम बिंदु दूरी 0.08m, BVTR 0.10m
दोनों विधियां नेविगेशन सफलतापूर्वक पूरा कर सकती हैं, मोड़ पर हल्का विचलन

2. बाधा अवरोधन परीक्षण

यह विधि: अंतिम बिंदु दूरी 0.08m, सफलतापूर्वक बाधा से बचा और शिक्षण पथ पर लौटा
BVTR: अंतिम बिंदु दूरी 5.58m, बाधा के सामने रुक गया जारी नहीं रख सका
एकल-लक्ष्य संस्करण: अंतिम बिंदु दूरी 5.20m, बहु-लक्ष्य रणनीति के महत्व को सत्यापित करता है

3. घुमावदार पथ नेविगेशन (गलियारे दृश्य)

यह विधि: अंतिम बिंदु दूरी 0.37m, पूरे पथ को सफलतापूर्वक अनुसरण किया
BVTR: अंतिम बिंदु दूरी 11.44m, अज्ञात स्थान पर नेविगेट करने के बाद रुक गया
मुख्य फ्रेम क्लस्टरिंग के बिना: अंतिम बिंदु दूरी 10.49m, क्लस्टरिंग रणनीति की महत्वपूर्ण भूमिका दर्शाता है

4. मुख्य फ्रेम क्लस्टरिंग सत्यापन

मुख्य फ्रेम क्लस्टरिंग ने लूप बंद होने की घनत्व में उल्लेखनीय वृद्धि की, विशेष रूप से मोड़ पर, गति योजना मॉड्यूल को अधिक समय पर प्रतिक्रिया प्रदान की।

5. मानचित्र विस्तार सत्यापन

प्रणाली दोहराव प्रक्रिया के दौरान नई पर्यावरणीय जानकारी जोड़ने में सक्षम है, विस्तारित मुख्य फ्रेम मूल मानचित्र के साथ संबंध बनाए रखते हैं, टोपोलॉजिकल संरचना को नष्ट नहीं करते।

प्रयोगात्मक निष्कर्ष

दीर्घकालीन लक्ष्य प्रबंधन: बहु-लक्ष्य रणनीति ने लूप बंद होने की विफलता के लिए प्रणाली की मजबूती में उल्लेखनीय वृद्धि की
मुख्य फ्रेम क्लस्टरिंग: बनावट की कमी वाले वातावरण में मजबूत मिलान के लिए महत्वपूर्ण
मानचित्र विस्तार: पर्यावरणीय परिवर्तन को प्रभावी ढंग से संभाला, दीर्घकालीन नेविगेशन कार्यों का समर्थन किया

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

लचीली मानचित्र प्रतिनिधित्व: टोपोलॉजिकल-मेट्रिक ग्राफ ने वैश्विक मानचित्रण आवश्यकताओं को प्रभावी ढंग से कम किया
मजबूत नेविगेशन प्रणाली: बहु-लक्ष्य प्रबंधन और मुख्य फ्रेम क्लस्टरिंग ने प्रणाली की मजबूती में उल्लेखनीय वृद्धि की
व्यावहारिकता सत्यापन: कई चुनौतीपूर्ण परिदृश्यों में प्रणाली की प्रभावशीलता सत्यापित की गई

सीमाएं

सापेक्ष पोज़ निर्भरता: प्रणाली प्रदर्शन मुख्य फ्रेम के बीच सापेक्ष पोज़ की सटीकता पर निर्भर करता है
दीर्घकालीन ड्रिफ्ट: यदि लंबे समय तक मानचित्र से मिलान नहीं हो सकता है, तो ओडोमेट्री ड्रिफ्ट विचलन का कारण बन सकता है
पर्यावरणीय धारणा: सापेक्ष पोज़ अनुमान पर्याप्त सटीक है, कुछ वातावरण में यह मान्य नहीं हो सकता है

भविष्य की दिशाएं

गहन शिक्षण-आधारित अंत-से-अंत दृश्य नेविगेशन मॉडल का निर्माण, सटीक वैश्विक पोज़ ट्रैकिंग और पर्यावरण मानचित्रण की आवश्यकता से आगे बढ़ना।

गहन मूल्यांकन

लाभ

तकनीकी नवाचार: नवीन टोपोलॉजिकल-मेट्रिक मानचित्र प्रतिनिधित्व प्रस्तावित, पारंपरिक विधियों की सीमाओं को प्रभावी ढंग से हल किया
प्रणाली पूर्णता: मानचित्र निर्माण से नेविगेशन निष्पादन तक का संपूर्ण समाधान
पर्याप्त प्रयोग: कई दृश्यों और स्थितियों में व्यापक सत्यापन
व्यावहारिक मूल्य: प्रणाली डिजाइन ने वास्तविक तैनाती आवश्यकताओं पर विचार किया, उपयोगकर्ता-अनुकूल

कमियां

सैद्धांतिक विश्लेषण की कमी: प्रणाली अभिसरण और स्थिरता के लिए सैद्धांतिक गारंटी का अभाव
कम्प्यूटेशनल जटिलता: मुख्य फ्रेम क्लस्टरिंग और बहु-लक्ष्य प्रबंधन की कम्प्यूटेशनल लागत का विस्तृत विश्लेषण नहीं
पर्यावरणीय सीमाएं: मुख्य रूप से इनडोर संरचित वातावरण में परीक्षण, बाहरी जटिल वातावरण की अनुकूलन क्षमता अज्ञात
सीमित तुलना आधार: मुख्य रूप से शास्त्रीय BVTR विधि से तुलना, नवीनतम गहन शिक्षण विधियों के साथ तुलना की कमी

प्रभाव

शैक्षणिक योगदान: VTR नेविगेशन के लिए नई तकनीकी पथ प्रदान, निश्चित सैद्धांतिक मूल्य
व्यावहारिक मूल्य: विधि औद्योगिक और घरेलू रोबोट नेविगेशन में सीधे लागू की जा सकती है
पुनरुत्पादनीयता: तकनीकी विवरण पूर्ण रूप से वर्णित, पुनरुत्पादन और सुधार के लिए सुविधाजनक

उपयोगी परिदृश्य

निश्चित मार्ग नेविगेशन: कारखाने के भीतर साइटों के बीच नेविगेशन, गोदाम रोबोट पथ अनुसरण
पर्यावरणीय परिवर्तन परिदृश्य: हल्के पर्यावरणीय परिवर्तन के अनुकूल दीर्घकालीन नेविगेशन कार्य
कम्प्यूटेशनल संसाधन सीमित: गहन शिक्षण विधियों की तुलना में, हार्डवेयर आवश्यकताएं कम

संदर्भ

पेपर में 31 संदर्भ शामिल हैं, जो दृश्य SLAM, रोबोट नेविगेशन, स्थान पहचान आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हैं, अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह पेपर एक व्यावहारिक VTR नेविगेशन समाधान प्रस्तावित करता है, तकनीकी रूप से निश्चित नवाचार के साथ, प्रयोगात्मक सत्यापन काफी पूर्ण है। हालांकि सैद्धांतिक विश्लेषण और पर्यावरणीय अनुकूलन क्षमता में सुधार की गुंजाइश है, लेकिन यह मोबाइल रोबोट नेविगेशन क्षेत्र के लिए मूल्यवान तकनीकी योगदान प्रदान करता है।