Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.
- पेपर ID: 2510.10602
- शीर्षक: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
- लेखक: Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang
- वर्गीकरण: cs.RO (रोबोटिक्स), cs.CV (कंप्यूटर विजन)
- प्रकाशन तिथि: 12 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.10602
पारंपरिक रोबोटिक ग्रास्पिंग सिस्टम आमतौर पर सेंसर डेटा को स्पष्ट 3D बिंदु क्लाउड में परिवर्तित करने पर निर्भर करते हैं, जो जैविक बुद्धिमत्ता में मौजूद नहीं है। यह पेपर एक मौलिक रूप से भिन्न, तंत्रिका-प्रेरित 6-स्वतंत्रता-डिग्री ग्रास्प डिटेक्शन प्रतिमान की खोज करता है। अनुसंधान SpikeGrasp ढांचा प्रस्तुत करता है, जो जैविक दृश्य-गति पथ की नकल करता है, स्टीरियो स्पाइक कैमरों से कच्चे अतुल्यकालिक घटनाओं (दृष्टिपटल के समान) को संसाधित करता है, और सीधे ग्रास्प पोज़ का अनुमान लगाता है। मॉडल स्टीरियो स्पाइक स्ट्रीम्स को फ्यूज़ करता है, पुनरावर्ती स्पाइकिंग न्यूरल नेटवर्क (उच्च-स्तरीय दृश्य प्रसंस्करण के समान) का उपयोग करके ग्रास्प परिकल्पनाओं को पुनरावृत्तिपूर्वक अनुकूलित करता है, बिना बिंदु क्लाउड पुनर्निर्माण के। इस विधि को मान्य करने के लिए, अनुसंधान एक बड़े पैमाने पर सिंथेटिक बेंचमार्क डेटासेट का निर्माण करता है। प्रयोग दिखाते हैं कि SpikeGrasp पारंपरिक बिंदु क्लाउड-आधारित आधारभूत विधियों से आगे निकल जाता है, विशेष रूप से अव्यवस्थित और बनावट-रहित दृश्यों में, और असाधारण डेटा दक्षता प्रदर्शित करता है।
पारंपरिक रोबोटिक ग्रास्पिंग सिस्टम का मौलिक मुद्दा "ज्यामिति-प्रथम" प्रसंस्करण पाइपलाइन पर निर्भरता है: दृश्य कैप्चर करें → 3D ज्यामिति मॉडल पुनर्निर्माण करें (आमतौर पर बिंदु क्लाउड) → संभावित ग्रास्प खोजने के लिए मॉडल का विश्लेषण करें। यह प्रतिमान कंप्यूटर ग्राफिक्स के दृष्टिकोण से तर्कसंगत है, लेकिन जैविक प्रणालियों के कार्य करने के तरीके से महत्वपूर्ण रूप से भिन्न है।
- जैविक प्रेरणा की कमी: मस्तिष्क किसी वस्तु को पकड़ने का निर्णय लेने के लिए स्पष्ट बिंदु क्लाउड की गणना या संग्रहण नहीं करता है, बल्कि सतत संवेदी सूचना प्रवाह को संसाधित करने के लिए कुशल तंत्रिका आर्किटेक्चर का उपयोग करता है
- कम्प्यूटेशनल जटिलता: बिंदु क्लाउड पुनर्निर्माण कम्प्यूटेशनल रूप से गहन और नाजुक है, सेंसर शोर और प्रकाश स्थितियों के प्रति संवेदनशील है
- गतिशील पर्यावरण सीमाएं: पारंपरिक विधियां गतिशील वातावरण के साथ इंटरैक्शन में सीमित मजबूती रखती हैं
- बिंदु क्लाउड-आधारित विधियां: स्पष्ट 3D पुनर्निर्माण चरण की आवश्यकता है, उच्च कम्प्यूटेशनल ओवरहेड
- पारंपरिक गहन शिक्षा विधियां: जैविक तर्कसंगतता की कमी, उच्च-गतिशील दृश्यों को संभालने में कठिनाई
- इवेंट कैमरा अनुप्रयोग: हालांकि न्यूरोमॉर्फिक सेंसिंग की खोज की गई है, लेकिन 6-DoF ग्रास्पिंग के लिए मानकीकृत बेंचमार्क और कार्य-विशिष्ट आर्किटेक्चर की कमी है
मस्तिष्क की दृश्य-गति प्रणाली की दक्षता और सुंदरता से प्रेरित एक भिन्न पथ की खोज करना, स्पाइक स्ट्रीम्स से सीधे ग्रास्प पोज़ का अनुमान लगाना, बिना मध्यवर्ती ज्यामितीय प्रतिनिधित्व के।
- जैविक-प्रेरित SpikeGrasp आर्किटेक्चर प्रस्तावित किया: अतुल्यकालिक स्पाइक डेटा को पुनरावृत्तिपूर्वक अपडेट के माध्यम से संसाधित करता है, सिंथेटिक डेटासेट पर डिटेक्शन गुणवत्ता पूर्ववर्ती विधियों से अधिक है
- पहला बड़े पैमाने पर सिंथेटिक स्पाइक स्ट्रीम डेटासेट निर्मित किया: 6-DoF ग्रास्प पोज़ डिटेक्शन के लिए, इस उभरते क्षेत्र के लिए मूल्यांकन बेंचमार्क प्रदान करता है
- ढांचे की डेटा दक्षता को सत्यापित किया: सीमित प्रशिक्षण नमूनों के तहत भी मजबूत सामान्यीकरण क्षमता प्रदर्शित करता है
निरंतर बाइनरी स्पाइक स्ट्रीम St1N∈{0,1}H×W×N दिया गया है, लक्ष्य समय t1 के अनुरूप 6-DoF ग्रास्प पोज़ का अनुमान लगाना है। ग्रास्प पोज़ को इस प्रकार दर्शाया जाता है:
G=(R,t,w)
जहां R∈R3×3 घूर्णन मैट्रिक्स है, t∈R3×1 अनुवाद वेक्टर है, w∈R ग्रिपर चौड़ाई है।
स्पाइक कैमरा दृष्टिपटल में केंद्रीय गड्ढे की एकीकृत-और-आग आर्किटेक्चर की नकल करता है। प्रत्येक पिक्सल में प्रकाश संवेदक, एकीकरणकर्ता और तुलनाकर्ता होता है। जब संचित मान सीमा θ से अधिक हो जाता है, तो पिक्सल एक बाइनरी घटना उत्सर्जित करता है:
A(x,y,t)=(∫0tI(x,y,s)ds)modθ
- स्पाइक विशेषता निष्कर्षण: बाएं और दाएं स्पाइक स्ट्रीम्स Sl,Sr को संसाधित करने के लिए 7×7 कनवल्शन और अवशिष्ट ब्लॉक का उपयोग करता है
- सहसंबंध वॉल्यूम गणना: बहु-स्केल सहसंबंध पिरामिड का निर्माण करता है
Ci,j,k=∑hfhli,jfhri,k
- पुनरावृत्तिपूर्वक अपडेट: छिपी हुई स्थिति क्षेत्र h को बनाए रखता है, RSNN के माध्यम से अपडेट करता है:
hk+1=hk+Δh
अंतिम छिपी स्थिति hK को डिकोड करके द्वि-चैनल संभावना मानचित्र M∈R2×H×W उत्पन्न करता है:
- पहला चैनल: objectness (वस्तु-ता)
- दूसरा चैनल: graspness (ग्रास्पेबिलिटी)
crop-and-refine रणनीति अपनाता है, छिपी हुई स्थिति और ग्रास्पेबल स्थानों से पूर्ण 6-DoF ग्रास्प कॉन्फ़िगरेशन का पूर्वानुमान लगाता है।
- अंत-से-अंत स्पाइक प्रसंस्करण: कच्ची स्पाइक स्ट्रीम्स से सीधे ग्रास्प पोज़ का अनुमान लगाता है, बिंदु क्लाउड पुनर्निर्माण की आवश्यकता नहीं है
- जैविक-प्रेरित आर्किटेक्चर: प्राइमेट दृश्य प्रणाली की पदानुक्रमित प्रसंस्करण की नकल करता है
- पुनरावर्ती स्पाइकिंग न्यूरल नेटवर्क: RSNN की अस्थायी मॉडलिंग क्षमता का लाभ उठाता है
- बहु-स्केल सहसंबंध मिलान: सहसंबंध पिरामिड के माध्यम से मोटे-से-ठीक मिलान को लागू करता है
बड़े पैमाने पर सिंथेटिक डेटासेट का निर्माण किया गया:
- प्रशिक्षण सेट: 100 दृश्य, 51,000 स्पाइक स्ट्रीम्स, 25,600 objectness/graspness मानचित्र
- परीक्षण सेट: 90 दृश्य, तीन उप-सेट में विभाजित
- Seen: 30 दृश्य (देखी गई वस्तुएं)
- Similar: 30 दृश्य (समान वस्तुएं)
- Novel: 30 दृश्य (नई वस्तुएं)
- पैमाना: 11 अरब से अधिक ग्रास्प पोज़, 88 वस्तु मॉडल का उपयोग करते हुए
- Average Precision (AP): बहु-घर्षण गुणांक के तहत औसत सटीकता
- AP0.8 और AP0.4: विशिष्ट घर्षण गुणांक के तहत सटीकता
- Success Rate: सिमुलेशन वातावरण में सफलता दर
9 प्रतिनिधि विधियां शामिल हैं:
- 2D विधियां: GG-CNN
- 6-DoF विधियां: GraspNet, GSNet, GraspFast, KGNv2 आदि
- बहु-दृश्य विधियां: ASGrasp, GraspNeRF
- प्रशिक्षण: 18 epoch, Adam अनुकूलक, सीखने की दर 2×10⁻⁴
- हार्डवेयर: NVIDIA RTX 4090 GPU
- बैच आकार: 4
- पुनरावृत्ति संख्या: 16 अपडेट पुनरावृत्तियां
| विधि | Seen | | | Similar | | | Novel | | |
|---|
| AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 |
| GraspNet | 27.56 | 33.43 | 16.59 | 26.11 | 34.18 | 14.23 | 10.55 | 11.25 | 3.98 |
| GSNet | 34.52 | 48.36 | 20.80 | 30.11 | 36.22 | 18.71 | 14.11 | 20.52 | 14.23 |
| GraspFast | 38.46 | 44.25 | 28.66 | 33.83 | 40.05 | 21.32 | 14.63 | 21.05 | 12.85 |
| SpikeGrasp | 38.84 | 47.27 | 29.57 | 34.84 | 40.32 | 25.48 | 15.39 | 18.09 | 9.80 |
- समग्र प्रदर्शन: SpikeGrasp अधिकांश उप-सेट पर सर्वोच्च सटीकता प्राप्त करता है
- Top-1 सफलता दर: Seen (78.53%), Similar (72.18%), Novel (36.79%)
- सिमुलेशन सत्यापन: Isaac Sim में सफलता दर क्रमशः 91.3%, 85.8%, 70.9% है
| कॉन्फ़िगरेशन | Seen | Similar | Novel |
|---|
| w/o objectness | 26.14 | 24.41 | 5.54 |
| w/o graspness | 34.78 | 30.86 | 11.28 |
| w/o spike | 25.86 | 24.84 | 8.59 |
| पूर्ण मॉडल | 38.84 | 34.84 | 15.39 |
विभिन्न प्रशिक्षण डेटा अनुपातों के तहत, SpikeGrasp सभी आधारभूत विधियों से लगातार आगे निकल जाता है, और डेटा की कमी के समय लाभ अधिक स्पष्ट है, मजबूत सामान्यीकरण क्षमता प्रदर्शित करता है।
RSNN ANN की तुलना में 2.3 गुना कम फ्लोटिंग-पॉइंट ऑपरेशन करता है, कम्प्यूटेशनल बचत 82.5% तक पहुंचती है, मुख्य रूप से विरलता के माध्यम से महत्वपूर्ण कम्प्यूटेशनल बचत प्राप्त करता है।
- नमूनाकरण-मूल्यांकन पाइपलाइन: GPD, PointNetGPD आदि उम्मीदवार ग्रास्प उत्पन्न करते हैं और रैंक करते हैं
- अंत-से-अंत विधियां: GraspNet की भिन्नात्मक प्रस्ताव पीढ़ी, वॉल्यूमेट्रिक या बिंदु-आधारित भविष्यवक्ता
- संदर्भ तर्क: VoteGrasp आदि दृश्य जागरूकता को बढ़ाते हैं
- छवि प्रत्यक्ष पूर्वानुमान: बहु-दृश्य संकेत या तंत्रिका दृश्य एन्कोडिंग से ग्रास्प का अनुमान लगाता है
- न्यूरोमॉर्फिक सेंसिंग: इवेंट/स्पाइक कैमरों द्वारा संचालित ग्रास्पिंग अनुमान का उपयोग करता है
- छवि पुनर्निर्माण: स्पाइक से छवि पुनर्निर्माण की विभिन्न विधियां
- कंप्यूटर विजन कार्य: वस्तु डिटेक्शन, ऑप्टिकल प्रवाह अनुमान, गहराई अनुमान आदि
- व्यवहार्यता सत्यापन: पहली बार स्पाइक स्ट्रीम्स से सीधे 6-DoF ग्रास्प डिटेक्शन की व्यवहार्यता को सिद्ध किया
- प्रदर्शन लाभ: सिंथेटिक डेटासेट पर पारंपरिक बिंदु क्लाउड-आधारित विधियों से आगे निकल जाता है
- जैविक तर्कसंगतता: तंत्रिका-प्रेरित अंत-से-अंत ग्रास्प डिटेक्शन प्रतिमान प्रदान करता है
- सिंथेटिक डेटा सीमा: प्रयोग सिंथेटिक डेटासेट पर आधारित हैं, वास्तविक डेटा के साथ डोमेन अंतर मौजूद है
- स्थिर दृश्य: वर्तमान विधि स्थिर दृश्यों पर स्थापित है, अभी तक स्पाइक कैमरे के गतिशील लाभों का पूरी तरह से उपयोग नहीं किया गया है
- हार्डवेयर निर्भरता: विशेष स्पाइक कैमरा हार्डवेयर की आवश्यकता है
- वास्तविक डेटा संग्रह: वास्तविक स्पाइक स्ट्रीम डेटासेट का निर्माण करना
- डोमेन अनुकूलन: मिश्रित डोमेन स्थानांतरण और कमजोर पर्यवेक्षण सूक्ष्म-ट्यूनिंग की खोज करना
- गतिशील दृश्य विस्तार: स्पाइक कैमरे के गतिशील वातावरण में लाभों का पूरी तरह से उपयोग करना
- मजबूत नवाचार: पहली बार स्पाइक कैमरे को 6-DoF ग्रास्प डिटेक्शन में लागू किया, नई अनुसंधान दिशा खोली
- जैविक-प्रेरित डिजाइन: आर्किटेक्चर डिजाइन अच्छी जैविक तर्कसंगतता रखता है
- व्यापक प्रयोग: व्यापक तुलनात्मक प्रयोग, विलोपन अध्ययन और डेटा दक्षता विश्लेषण शामिल हैं
- डेटासेट योगदान: निर्मित बड़े पैमाने पर सिंथेटिक डेटासेट क्षेत्र विकास के लिए महत्वपूर्ण संसाधन प्रदान करता है
- वास्तविक दृश्य सत्यापन अपर्याप्त: वास्तविक वातावरण में सत्यापन प्रयोगों की कमी है
- कम्प्यूटेशनल जटिलता: हालांकि सैद्धांतिक रूप से अधिक कुशल है, लेकिन वास्तविक तैनाती के लिए हार्डवेयर आवश्यकताएं अधिक हैं
- गतिशील लाभ अप्रदर्शित: स्थिर दृश्य प्रयोग स्पाइक कैमरे की गतिशील सेंसिंग क्षमता को पूरी तरह से प्रदर्शित नहीं करते हैं
- शैक्षणिक मूल्य: न्यूरोमॉर्फिक दृश्य के रोबोटिक्स में अनुप्रयोग के लिए महत्वपूर्ण संदर्भ प्रदान करता है
- व्यावहारिक संभावना: उच्च-गति, गतिशील ग्रास्पिंग कार्यों के लिए नया तकनीकी पथ प्रदान करता है
- तकनीकी प्रचार: रोबोटिक सेंसिंग में स्पाइक कैमरे के व्यापक अनुप्रयोग को बढ़ावा दे सकता है
- उच्च-गति गतिशील दृश्य: पारंपरिक कैमरे के लिए कठिन तेजी से गतिशील वातावरण
- कम-शक्ति अनुप्रयोग: मोबाइल रोबोट प्लेटफॉर्म पर कुशल कम्प्यूटिंग की आवश्यकता
- विशेष प्रकाश स्थितियां: उच्च गतिशील रेंज या कम प्रकाश वातावरण
पेपर संबंधित कार्यों के विस्तृत संदर्भ उद्धृत करता है, जिसमें शामिल हैं:
- पारंपरिक ग्रास्प डिटेक्शन विधियां (GraspNet, GSNet आदि)
- स्पाइक कैमरा संबंधित अनुसंधान (छवि पुनर्निर्माण, वस्तु डिटेक्शन आदि)
- न्यूरोमॉर्फिक कंप्यूटिंग और स्पाइकिंग न्यूरल नेटवर्क अनुसंधान
समग्र मूल्यांकन: यह एक ऐतिहासिक महत्व का पेपर है जो स्पाइक कैमरे जैसी उभरती संवेदन तकनीक को रोबोटिक ग्रास्पिंग क्षेत्र में लाता है, एक जैविक-प्रेरित अंत-से-अंत समाधान प्रस्तावित करता है। हालांकि वर्तमान में सिंथेटिक डेटा सत्यापन तक सीमित है, लेकिन भविष्य के गतिशील, कुशल रोबोटिक ग्रास्पिंग सिस्टम के लिए महत्वपूर्ण आधार स्थापित करता है। पेपर की तकनीकी योगदान, प्रयोग डिजाइन और डेटासेट निर्माण सभी उच्च गुणवत्ता के हैं, न्यूरोमॉर्फिक दृश्य और रोबोटिक्स के अंतःविषय क्षेत्र में महत्वपूर्ण प्रगति है।