Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.
- معرّف الورقة: 2510.10602
- العنوان: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
- المؤلفون: Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang
- التصنيف: cs.RO (الروبوتات)، cs.CV (رؤية الحاسوب)
- تاريخ النشر: 12 أكتوبر 2025 (نسخة arXiv المسبقة)
- رابط الورقة: https://arxiv.org/abs/2510.10602
تعتمد أنظمة الإمساك الروبوتية التقليدية عادة على تحويل بيانات المستشعرات إلى سحب نقاط ثلاثية الأبعاد صريحة، وهي خطوة حسابية غير موجودة في الذكاء البيولوجي. تستكشف هذه الورقة نموذجاً جذرياً مختلفاً، مستوحى من الأعصاب، لكشف وضعية الإمساك ذات ستة درجات حرية. يقدم البحث إطار عمل SpikeGrasp، الذي يحاكي مسار الحركة البصرية البيولوجية، ويعالج الأحداث غير المتزامنة الخام من كاميرات spike المجسمة (مشابهة للشبكية)، مع الاستدلال المباشر على وضعية الإمساك. يدمج النموذج تدفقات spike المجسمة، باستخدام شبكات عصبية نبضية تكرارية (مشابهة لمعالجة الرؤية المتقدمة) لتحسين فرضيات الإمساك بشكل متكرر، دون الحاجة إلى إعادة بناء سحب النقاط. للتحقق من هذه الطريقة، قام البحث ببناء مجموعة بيانات معيار قياسي اصطناعية واسعة النطاق. تُظهر التجارب أن SpikeGrasp يتفوق على طرق الأساس التقليدية القائمة على سحب النقاط، خاصة في المشاهد المزدحمة والخالية من النسيج، ويُظهر كفاءة بيانات متفوقة.
تواجه أنظمة الإمساك الروبوتية التقليدية مشكلة أساسية تتمثل في الاعتماد على خط أنابيب معالجة "الهندسة أولاً": التقاط المشهد → إعادة بناء النموذج الهندسي ثلاثي الأبعاد (عادة سحابة نقاط) → تحليل النموذج للبحث عن عمليات إمساك قابلة للتطبيق. بينما يكون هذا النموذج معقولاً من منظور رسومات الحاسوب، إلا أنه يختلف اختلافاً كبيراً عن طريقة عمل الأنظمة البيولوجية.
- غياب الإلهام البيولوجي: الدماغ لا يحسب أو يخزن سحب نقاط صريحة لتقرير كيفية الإمساك بالأشياء، بل يعالج تدفقات المعلومات الحسية المستمرة من خلال معماريات عصبية فعالة
- التعقيد الحسابي: إعادة بناء سحب النقاط كثيفة الاستخدام للموارد وهشة، وحساسة لضوضاء المستشعرات وظروف الإضاءة
- قيود البيئات الديناميكية: تتمتع الطرق التقليدية بمتانة محدودة عند التفاعل مع البيئات الديناميكية
- الطرق القائمة على سحب النقاط: تتطلب خطوة إعادة بناء ثلاثية الأبعاد صريحة، مع نفقات حسابية كبيرة
- طرق التعلم العميق التقليدية: تفتقر إلى المعقولية البيولوجية، وتصعب معالجة المشاهد الديناميكية العالية
- تطبيقات كاميرات الأحداث: على الرغم من الاستكشاف في مجال الاستشعار العصبي الشكلي، إلا أنه يفتقر إلى معيار قياسي موحد وعمارة خاصة بالمهمة لكشف الإمساك ذي ستة درجات حرية
استكشاف مسار مختلف مستوحى من كفاءة وأناقة نظام الحركة البصرية في الدماغ، مع الاستدلال المباشر على وضعية الإمساك من تدفقات spike، دون المرور عبر تمثيل هندسي وسيط.
- اقتراح معمارية SpikeGrasp مستوحاة من البيولوجيا: معالجة البيانات النبضية غير المتزامنة من خلال التحديثات التكرارية، تتفوق على جودة الكشف على مجموعات البيانات الاصطناعية
- بناء أول مجموعة بيانات spike اصطناعية واسعة النطاق: لكشف وضعية الإمساك ذي ستة درجات حرية، توفير معيار قياسي للتقييم في هذا المجال الناشئ
- التحقق من كفاءة البيانات للإطار: إظهار قدرة التعميم القوية حتى مع عينات تدريب محدودة
بالنظر إلى تدفق spike ثنائي القيمة المستمر St1N∈{0,1}H×W×N، الهدف هو تقدير وضعية الإمساك ذات ستة درجات حرية المقابلة للحظة الزمنية t1. يتم تمثيل وضعية الإمساك على النحو التالي:
G=(R,t,w)
حيث R∈R3×3 مصفوفة الدوران، t∈R3×1 متجه الترجمة، w∈R عرض الملقط.
تحاكي كاميرا spike معمارية التكامل والتفريغ في المنطقة المركزية للشبكية. يحتوي كل بكسل على مستقبل ضوئي ومدمج ومقارن. عندما تتجاوز القيمة المتراكمة الحد الأدنى θ، يصدر البكسل حدثاً ثنائي القيمة:
A(x,y,t)=(∫0tI(x,y,s)ds)modθ
- استخراج ميزات Spike: استخدام الالتفاف 7×7 وكتل البقايا لمعالجة تدفقات spike اليسرى واليمنى Sl,Sr
- حساب حجم الارتباط: بناء هرم ارتباط متعدد المقاييس
Ci,j,k=∑hfhli,jfhri,k
- التحديث التكراري: الحفاظ على حقل الحالة المخفية h، التحديث من خلال RSNN:
hk+1=hk+Δh
فك تشفير حالة مخفية نهائية hK لإنشاء خريطة احتمالية ثنائية القناة M∈R2×H×W:
- القناة الأولى: objectness (موضوعية الكائن)
- القناة الثانية: graspness (قابلية الإمساك)
اعتماد استراتيجية crop-and-refine، التنبؤ بتكوين إمساك كامل ذي ستة درجات حرية من الحالة المخفية ومواقع القابلية للإمساك.
- معالجة spike من طرف إلى طرف: الاستدلال المباشر على وضعية الإمساك من تدفقات spike الخام، دون الحاجة إلى إعادة بناء سحب النقاط
- معمارية مستوحاة من البيولوجيا: محاكاة المعالجة الهرمية لنظام الرؤية في الرئيسيات
- شبكات عصبية نبضية تكرارية: الاستفادة من قدرة RSNN على النمذجة الزمنية
- مطابقة ارتباط متعددة المقاييس: تحقيق مطابقة من الخشن إلى الدقيق من خلال هرم الارتباط
بناء مجموعة بيانات اصطناعية واسعة النطاق:
- مجموعة التدريب: 100 مشهد، 51,000 تدفق spike، 25,600 خريطة objectness/graspness
- مجموعة الاختبار: 90 مشهد، مقسمة إلى ثلاث مجموعات فرعية
- Seen: 30 مشهد (كائنات مرئية)
- Similar: 30 مشهد (كائنات متشابهة)
- Novel: 30 مشهد (كائنات جديدة)
- الحجم: أكثر من 1.1 مليار وضعية إمساك، باستخدام 88 نموذج كائن
- Average Precision (AP): متوسط الدقة عبر معاملات احتكاك متعددة
- AP0.8 و AP0.4: الدقة عند معاملات احتكاك محددة
- Success Rate: معدل النجاح في بيئة المحاكاة
تشمل 9 طرق تمثيلية:
- طرق ثنائية الأبعاد: GG-CNN
- طرق ذات ستة درجات حرية: GraspNet, GSNet, GraspFast, KGNv2 وغيرها
- طرق متعددة الآراء: ASGrasp, GraspNeRF
- التدريب: 18 حقبة، محسّن Adam، معدل تعلم 2×10⁻⁴
- الأجهزة: وحدة معالجة رسومات NVIDIA RTX 4090
- حجم الدفعة: 4
- عدد التكرارات: 16 تكرار تحديث
| الطريقة | Seen | | | Similar | | | Novel | | |
|---|
| AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 |
| GraspNet | 27.56 | 33.43 | 16.59 | 26.11 | 34.18 | 14.23 | 10.55 | 11.25 | 3.98 |
| GSNet | 34.52 | 48.36 | 20.80 | 30.11 | 36.22 | 18.71 | 14.11 | 20.52 | 14.23 |
| GraspFast | 38.46 | 44.25 | 28.66 | 33.83 | 40.05 | 21.32 | 14.63 | 21.05 | 12.85 |
| SpikeGrasp | 38.84 | 47.27 | 29.57 | 34.84 | 40.32 | 25.48 | 15.39 | 18.09 | 9.80 |
- الأداء الإجمالي: يحقق SpikeGrasp أعلى دقة على معظم المجموعات الفرعية
- معدل النجاح Top-1: Seen (78.53%)، Similar (72.18%)، Novel (36.79%)
- التحقق من المحاكاة: معدلات النجاح في Isaac Sim هي 91.3%، 85.8%، 70.9% على التوالي
| التكوين | Seen | Similar | Novel |
|---|
| بدون objectness | 26.14 | 24.41 | 5.54 |
| بدون graspness | 34.78 | 30.86 | 11.28 |
| بدون spike | 25.86 | 24.84 | 8.59 |
| النموذج الكامل | 38.84 | 34.84 | 15.39 |
عند نسب بيانات تدريب مختلفة، يتفوق SpikeGrasp باستمرار على جميع طرق الأساس، مع ميزة أكثر وضوحاً عندما تكون البيانات نادرة، مما يُظهر قدرة تعميم قوية.
يقلل RSNN من العمليات الحسابية بالنسبة إلى ANN بمعامل 2.3، مع توفير حسابي بنسبة 82.5%، يتحقق بشكل أساسي من خلال الندرة.
- خط أنابيب العينة والتقييم: GPD, PointNetGPD وغيرها تولد مرشحي الإمساك وترتبهم
- الطرق من طرف إلى طرف: توليد الاقتراحات المتغيرة في GraspNet، المتنبئات القائمة على الحجم أو النقاط
- الاستدلال السياقي: VoteGrasp وغيرها تعزز الوعي بالمشهد
- التنبؤ المباشر بالصور: الاستدلال على الإمساك من الأدلة متعددة الآراء أو ترميز المشهد العصبي
- الاستشعار العصبي الشكلي: استخدام كاميرات الأحداث/spike لقيادة الاستدلال على الإمساك
- إعادة بناء الصور: طرق مختلفة لإعادة بناء الصور من spike
- مهام رؤية الحاسوب: كشف الأشياء، تقدير التدفق البصري، تقدير العمق وغيرها
- التحقق من الجدوى: إثبات أول مرة لجدوى كشف الإمساك ذي ستة درجات حرية مباشرة من تدفقات spike
- مزايا الأداء: التفوق على الطرق التقليدية القائمة على سحب النقاط على مجموعة البيانات الاصطناعية
- المعقولية البيولوجية: توفير نموذج كشف إمساك من طرف إلى طرف مستوحى من الأعصاب
- قيود البيانات الاصطناعية: تستند التجارب إلى مجموعة بيانات اصطناعية، مع وجود فجوة مجال مع البيانات الحقيقية
- المشاهد الثابتة: الطريقة الحالية مبنية على مشاهد ثابتة، لم تستفد بعد بشكل كامل من المزايا الديناميكية لكاميرا spike
- الاعتماد على الأجهزة: تتطلب أجهزة كاميرا spike متخصصة
- جمع البيانات الحقيقية: بناء مجموعة بيانات تدفق spike حقيقية
- التكيف مع المجال: استكشاف نقل المجال المختلط والضبط الدقيق الضعيف الإشراف
- توسيع المشاهد الديناميكية: الاستفادة الكاملة من مزايا كاميرا spike في البيئات الديناميكية
- ابتكار قوي: أول تطبيق لكاميرا spike في كشف الإمساك ذي ستة درجات حرية، فتح اتجاه بحثي جديد
- تصميم مستوحى من البيولوجيا: تصميم المعمارية يتمتع بمعقولية بيولوجية جيدة
- تجارب شاملة: تشمل تجارب مقارنة شاملة، دراسات استئصال، وتحليل كفاءة البيانات
- مساهمة مجموعة البيانات: توفر مجموعة البيانات الاصطناعية الكبيرة المبنية موارد مهمة لتطور المجال
- التحقق من المشاهد الحقيقية غير كافٍ: غياب تجارب التحقق في بيئات حقيقية
- التعقيد الحسابي: على الرغم من أنه أكثر كفاءة نظرياً، إلا أن متطلبات الأجهزة للنشر الفعلي أعلى نسبياً
- عدم إظهار المزايا الديناميكية: لم تُظهر تجارب المشاهد الثابتة بشكل كامل مزايا الاستشعار الديناميكي لكاميرا spike
- القيمة الأكاديمية: توفير مرجع مهم لتطبيق الرؤية العصبية الشكلية في الروبوتات
- الآفاق العملية: توفير مسار تقني جديد لمهام الإمساك الديناميكية عالية السرعة
- دفع التكنولوجيا: قد تعزز التطبيق الأوسع لكاميرات spike في إدراك الروبوتات
- المشاهد الديناميكية عالية السرعة: بيئات الحركة السريعة التي يصعب على الكاميرات التقليدية التعامل معها
- التطبيقات منخفضة الطاقة: منصات الروبوتات المحمولة التي تتطلب حسابات فعالة
- ظروف الإضاءة الخاصة: بيئات النطاق الديناميكي العالي أو الإضاءة المنخفضة
تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:
- طرق كشف الإمساك التقليدية (GraspNet, GSNet وغيرها)
- الأبحاث المتعلقة بكاميرا Spike (إعادة بناء الصور، كشف الأشياء وغيرها)
- أبحاث الحوسبة العصبية الشكلية والشبكات العصبية النبضية
التقييم الإجمالي: هذه ورقة ذات أهمية رائدة، تقدم تقنية الاستشعار الناشئة لكاميرات spike إلى مجال الإمساك الروبوتي، وتقترح حلاً من طرف إلى طرف مستوحى من البيولوجيا. على الرغم من أنها حالياً محدودة بالتحقق من البيانات الاصطناعية، إلا أنها تضع أساساً مهماً لأنظمة الإمساك الروبوتية الديناميكية والفعالة في المستقبل. المساهمات التقنية للورقة وتصميم التجارب وبناء مجموعة البيانات كلها ذات جودة عالية، وتمثل تقدماً مهماً في المجال المتقاطع بين الرؤية العصبية الشكلية والروبوتات.