Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors
Danial, Asher, Klein
Monocular simultaneous localization and mapping (SLAM) algorithms estimate drone poses and build a 3D map using a single camera. Current algorithms include sparse methods that lack detailed geometry, while learning-driven approaches produce dense maps but are computationally intensive. Monocular SLAM also faces scale ambiguities, which affect its accuracy. To address these challenges, we propose an edge-aware lightweight monocular SLAM system combining sparse keypoint-based pose estimation with dense edge reconstruction. Our method employs deep learning-based depth prediction and edge detection, followed by optimization to refine keypoints and edges for geometric consistency, without relying on global loop closure or heavy neural computations. We fuse inertial data with vision by using an extended Kalman filter to resolve scale ambiguity and improve accuracy. The system operates in real time on low-power platforms, as demonstrated on a DJI Tello drone with a monocular camera and inertial sensors. In addition, we demonstrate robust autonomous navigation and obstacle avoidance in indoor corridors and on the TUM RGBD dataset. Our approach offers an effective, practical solution to real-time mapping and navigation in resource-constrained environments.
academic
सूक्ष्म ड्रोन के लिए मोनोकुलर कैमरा और जड़त्वीय सेंसर का उपयोग करके समवर्ती स्थानीयकरण और 3D-अर्ध-घने मानचित्रण
यह पेपर सूक्ष्म ड्रोन द्वारा मोनोकुलर कैमरा का उपयोग करके समवर्ती स्थानीयकरण और मानचित्रण (SLAM) की चुनौतियों के समाधान के लिए एक किनारा-जागरूक हल्के मोनोकुलर SLAM सिस्टम प्रस्तावित करता है। यह प्रणाली विरल कीपॉइंट पोज़ अनुमान और घने किनारे पुनर्निर्माण को जोड़ता है, गहन शिक्षण का उपयोग करके गहराई की भविष्यवाणी और किनारे का पता लगाता है, ज्यामितीय सामंजस्य के लिए अनुकूलन के माध्यम से, वैश्विक लूप बंद करने या भारी तंत्रिका नेटवर्क गणना पर निर्भर किए बिना। सिस्टम जड़त्वीय डेटा को दृश्य जानकारी के साथ मिलाने के लिए विस्तारित कलमैन फ़िल्टर का उपयोग करता है, स्केल अस्पष्टता को हल करता है और सटीकता में सुधार करता है। DJI Tello ड्रोन पर वास्तविक समय में कार्यान्वयन किया गया था, और TUM RGBD डेटासेट पर मजबूत स्वायत्त नेविगेशन और बाधा से बचने की क्षमता प्रदर्शित की गई।
विरल मानचित्र समस्या: पारंपरिक विशेषता-बिंदु आधारित SLAM सिस्टम (जैसे ORB-SLAM) हालांकि पोज़ अनुमान को प्रभावी ढंग से अनुमानित कर सकते हैं, लेकिन उत्पन्न 3D बिंदु क्लाउड बहुत विरल है, संरचनात्मक समृद्धि की कमी है, और घने 3D समझ की आवश्यकता वाले कार्यों के लिए अनुपयुक्त है
कम्प्यूटेशनल संसाधन सीमाएं: मौजूदा शिक्षण-संचालित घने SLAM विधियां (जैसे NeRF, NICE-SLAM) कम्प्यूटेशनल रूप से गहन हैं, संसाधन-सीमित एम्बेडेड प्लेटफॉर्म पर वास्तविक समय में चलना मुश्किल है
स्केल अस्पष्टता: मोनोकुलर SLAM की अंतर्निहित स्केल अनिश्चितता स्थानीयकरण सटीकता को प्रभावित करती है
वैश्विक अनुकूलन ओवरहेड: पारंपरिक SLAM लूप बंद करने का पता लगाने और वैश्विक बंडल समायोजन पर निर्भर करता है, जिसमें बड़ी कम्प्यूटेशनल लागत होती है
सूक्ष्म ड्रोन की स्वायत्त नेविगेशन के लिए नेविगेशन, बाधा से बचने और पर्यावरणीय इंटरैक्शन के लिए वास्तविक समय, सटीक 3D संवेदन क्षमता की आवश्यकता होती है। संसाधन-सीमित एम्बेडेड प्लेटफॉर्म पर इस लक्ष्य को प्राप्त करना रोबोटिक्स क्षेत्र की मूल चुनौती है।
ORB-SLAM: केवल विरल 3D बिंदु उत्पन्न करता है, संरचनात्मक विवरण की कमी है
Edge SLAM: हालांकि अर्ध-घने मानचित्र उत्पन्न कर सकता है, लेकिन वैश्विक अनुकूलन पर निर्भर करता है, बड़ी कम्प्यूटेशनल लागत, ऑप्टिकल प्रवाह-आधारित ट्रैकिंग नुकसान शोर का परिचय देता है
DeepTAM/D3VO: गहन शिक्षण विधियां बड़े पैरामीटर, उच्च कम्प्यूटेशनल जटिलता, कम-शक्ति उपकरणों के लिए अनुपयुक्त
NeRF/NICE-SLAM: उच्च-अंत GPU की आवश्यकता, स्थिर दृश्य मान लेता है, वास्तविक समय की कमी
एक हल्के, वास्तविक समय के SLAM सिस्टम को विकसित करना जो संसाधन-सीमित प्लेटफॉर्म पर अर्ध-घने मानचित्र उत्पन्न कर सके, साथ ही उच्च सटीकता पोज़ अनुमान बनाए रखे।
हल्के SLAM पाइपलाइन: विरल एपिपोलर ज्यामिति को घने गहराई की भविष्यवाणी और किनारे निष्कर्षण के साथ एकीकृत करता है, किनारा-लंगर अर्ध-घने मानचित्र निर्माण को प्राप्त करता है
किनारा लूप सामंजस्य हानि: स्पष्ट 2D-2D किनारे मिलान के बिना बहु-दृश्य किनारे प्रक्षेपण सामंजस्य बाधा प्रस्तावित करता है
आकार-जागरूक संरचना बाधा: L-आकार संरचना के आधार पर ज्यामितीय नियमितीकरण, इनडोर वातावरण में संरचनात्मक सामंजस्य को बढ़ाता है
स्थानीय ज्यामितीय अनुकूलन: बहु-उद्देश्य बंडल समायोजन कैमरा पोज़, कीपॉइंट और किनारे खंडों को संयुक्त रूप से अनुकूलित करता है, वैश्विक लूप बंद करने या घने वॉक्सेल फ्यूजन की आवश्यकता नहीं है
दृश्य-जड़त्वीय संलयन: जड़त्वीय डेटा को मिलाने के लिए विस्तारित कलमैन फ़िल्टर का उपयोग करके स्केल अस्पष्टता समस्या को हल करता है
अनुकूलन एल्गोरिथ्म: Levenberg-Marquardt एल्गोरिथ्म का उपयोग करके अरैखिक न्यूनतम वर्ग समस्या को हल करता है, Gauss-Newton और ग्रेडिएंट डिसेंट को संतुलित करता है
FastDepth (Wofk et al., ICRA 2019): हल्के गहराई अनुमान नेटवर्क
TUM RGB-D (Sturm et al., 2012): मानक SLAM मूल्यांकन डेटासेट
Bundle Adjustment (Triggs et al., 1999): शास्त्रीय अनुकूलन तकनीक
Epipolar Geometry (Zhang, 1998): एपिपोलर ज्यामिति मूल सिद्धांत
Extended Kalman Filter: सेंसर संलयन मानक विधि
Edge SLAM (Maity et al., ICCV 2017): किनारा SLAM अग्रदूत कार्य
NeRF/NICE-SLAM: घने पुनर्निर्माण की शिक्षण विधि
कुल मूल्यांकन: यह संसाधन-सीमित प्लेटफॉर्म के लिए व्यावहारिक SLAM अनुसंधान है, तकनीकी मार्ग उचित है, प्रायोगिक परिणाम विश्वसनीय हैं। मुख्य योगदान प्रणाली इंजीनियरिंग और विधि एकीकरण में है, न कि एकल एल्गोरिथ्म सफलता में। 74.7% सटीकता सुधार और 100 गुना गति सुधार व्यावहारिक मूल्य रखते हैं। हालांकि, पेपर प्रायोगिक तुलना, अभलेशन विश्लेषण और सैद्धांतिक गहराई के पहलुओं में सुधार की गुंजाइश है। रोबोटिक्स अनुप्रयोग वर्ग सम्मेलन या पत्रिका में प्रकाशन के लिए उपयुक्त है।