2025-11-19T14:07:14.700954

SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams

Gao, Zhang, Xie et al.

Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.

academic

SpikeGrasp: معيار قياسي لكشف وضعية الإمساك ثنائي الاتجاه من تدفقات Spike المجسمة

المعلومات الأساسية

معرّف الورقة: 2510.10602
العنوان: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
المؤلفون: Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang
التصنيف: cs.RO (الروبوتات)، cs.CV (رؤية الحاسوب)
تاريخ النشر: 12 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.10602

الملخص

تعتمد أنظمة الإمساك الروبوتية التقليدية عادة على تحويل بيانات المستشعرات إلى سحب نقاط ثلاثية الأبعاد صريحة، وهي خطوة حسابية غير موجودة في الذكاء البيولوجي. تستكشف هذه الورقة نموذجاً جذرياً مختلفاً، مستوحى من الأعصاب، لكشف وضعية الإمساك ذات ستة درجات حرية. يقدم البحث إطار عمل SpikeGrasp، الذي يحاكي مسار الحركة البصرية البيولوجية، ويعالج الأحداث غير المتزامنة الخام من كاميرات spike المجسمة (مشابهة للشبكية)، مع الاستدلال المباشر على وضعية الإمساك. يدمج النموذج تدفقات spike المجسمة، باستخدام شبكات عصبية نبضية تكرارية (مشابهة لمعالجة الرؤية المتقدمة) لتحسين فرضيات الإمساك بشكل متكرر، دون الحاجة إلى إعادة بناء سحب النقاط. للتحقق من هذه الطريقة، قام البحث ببناء مجموعة بيانات معيار قياسي اصطناعية واسعة النطاق. تُظهر التجارب أن SpikeGrasp يتفوق على طرق الأساس التقليدية القائمة على سحب النقاط، خاصة في المشاهد المزدحمة والخالية من النسيج، ويُظهر كفاءة بيانات متفوقة.

خلفية البحث والدافع

المشكلة الأساسية

تواجه أنظمة الإمساك الروبوتية التقليدية مشكلة أساسية تتمثل في الاعتماد على خط أنابيب معالجة "الهندسة أولاً": التقاط المشهد → إعادة بناء النموذج الهندسي ثلاثي الأبعاد (عادة سحابة نقاط) → تحليل النموذج للبحث عن عمليات إمساك قابلة للتطبيق. بينما يكون هذا النموذج معقولاً من منظور رسومات الحاسوب، إلا أنه يختلف اختلافاً كبيراً عن طريقة عمل الأنظمة البيولوجية.

أهمية المشكلة

غياب الإلهام البيولوجي: الدماغ لا يحسب أو يخزن سحب نقاط صريحة لتقرير كيفية الإمساك بالأشياء، بل يعالج تدفقات المعلومات الحسية المستمرة من خلال معماريات عصبية فعالة
التعقيد الحسابي: إعادة بناء سحب النقاط كثيفة الاستخدام للموارد وهشة، وحساسة لضوضاء المستشعرات وظروف الإضاءة
قيود البيئات الديناميكية: تتمتع الطرق التقليدية بمتانة محدودة عند التفاعل مع البيئات الديناميكية

قيود الطرق الموجودة

الطرق القائمة على سحب النقاط: تتطلب خطوة إعادة بناء ثلاثية الأبعاد صريحة، مع نفقات حسابية كبيرة
طرق التعلم العميق التقليدية: تفتقر إلى المعقولية البيولوجية، وتصعب معالجة المشاهد الديناميكية العالية
تطبيقات كاميرات الأحداث: على الرغم من الاستكشاف في مجال الاستشعار العصبي الشكلي، إلا أنه يفتقر إلى معيار قياسي موحد وعمارة خاصة بالمهمة لكشف الإمساك ذي ستة درجات حرية

دافع البحث

استكشاف مسار مختلف مستوحى من كفاءة وأناقة نظام الحركة البصرية في الدماغ، مع الاستدلال المباشر على وضعية الإمساك من تدفقات spike، دون المرور عبر تمثيل هندسي وسيط.

المساهمات الأساسية

اقتراح معمارية SpikeGrasp مستوحاة من البيولوجيا: معالجة البيانات النبضية غير المتزامنة من خلال التحديثات التكرارية، تتفوق على جودة الكشف على مجموعات البيانات الاصطناعية
بناء أول مجموعة بيانات spike اصطناعية واسعة النطاق: لكشف وضعية الإمساك ذي ستة درجات حرية، توفير معيار قياسي للتقييم في هذا المجال الناشئ
التحقق من كفاءة البيانات للإطار: إظهار قدرة التعميم القوية حتى مع عينات تدريب محدودة

شرح الطريقة

تعريف المهمة

بالنظر إلى تدفق spike ثنائي القيمة المستمر $S_{t_1}^N \in \{0,1\}^{H \times W \times N}$ ، الهدف هو تقدير وضعية الإمساك ذات ستة درجات حرية المقابلة للحظة الزمنية $t_1$ . يتم تمثيل وضعية الإمساك على النحو التالي: $G = (R, t, w)$ حيث $R \in \mathbb{R}^{3 \times 3}$ مصفوفة الدوران، $t \in \mathbb{R}^{3 \times 1}$ متجه الترجمة، $w \in \mathbb{R}$ عرض الملقط.

معمارية النموذج

1. مبدأ كاميرا Spike

تحاكي كاميرا spike معمارية التكامل والتفريغ في المنطقة المركزية للشبكية. يحتوي كل بكسل على مستقبل ضوئي ومدمج ومقارن. عندما تتجاوز القيمة المتراكمة الحد الأدنى θ، يصدر البكسل حدثاً ثنائي القيمة: $A(x,y,t) = \left(\int_0^t I(x,y,s)ds\right) \bmod \theta$

2. شبكة المسار البصري (Visual Pathway Network)

استخراج ميزات Spike: استخدام الالتفاف 7×7 وكتل البقايا لمعالجة تدفقات spike اليسرى واليمنى $S_l, S_r$
حساب حجم الارتباط: بناء هرم ارتباط متعدد المقاييس $C_{i,j,k} = \sum_h f_h^l{}_{i,j} f_h^r{}_{i,k}$
التحديث التكراري: الحفاظ على حقل الحالة المخفية $h$ ، التحديث من خلال RSNN: $h^{k+1} = h^k + \Delta h$

3. شبكة القابلية للإمساك (Graspable Network)

فك تشفير حالة مخفية نهائية $h^K$ لإنشاء خريطة احتمالية ثنائية القناة $M \in \mathbb{R}^{2 \times H \times W}$ :

القناة الأولى: objectness (موضوعية الكائن)
القناة الثانية: graspness (قابلية الإمساك)

4. شبكة كشف الإمساك (Grasp Detection Network)

اعتماد استراتيجية crop-and-refine، التنبؤ بتكوين إمساك كامل ذي ستة درجات حرية من الحالة المخفية ومواقع القابلية للإمساك.

نقاط الابتكار التقني

معالجة spike من طرف إلى طرف: الاستدلال المباشر على وضعية الإمساك من تدفقات spike الخام، دون الحاجة إلى إعادة بناء سحب النقاط
معمارية مستوحاة من البيولوجيا: محاكاة المعالجة الهرمية لنظام الرؤية في الرئيسيات
شبكات عصبية نبضية تكرارية: الاستفادة من قدرة RSNN على النمذجة الزمنية
مطابقة ارتباط متعددة المقاييس: تحقيق مطابقة من الخشن إلى الدقيق من خلال هرم الارتباط

إعداد التجارب

مجموعة البيانات

بناء مجموعة بيانات اصطناعية واسعة النطاق:

مجموعة التدريب: 100 مشهد، 51,000 تدفق spike، 25,600 خريطة objectness/graspness
مجموعة الاختبار: 90 مشهد، مقسمة إلى ثلاث مجموعات فرعية
- Seen: 30 مشهد (كائنات مرئية)
- Similar: 30 مشهد (كائنات متشابهة)
- Novel: 30 مشهد (كائنات جديدة)
الحجم: أكثر من 1.1 مليار وضعية إمساك، باستخدام 88 نموذج كائن

مقاييس التقييم

Average Precision (AP): متوسط الدقة عبر معاملات احتكاك متعددة
AP0.8 و AP0.4: الدقة عند معاملات احتكاك محددة
Success Rate: معدل النجاح في بيئة المحاكاة

طرق المقارنة

تشمل 9 طرق تمثيلية:

طرق ثنائية الأبعاد: GG-CNN
طرق ذات ستة درجات حرية: GraspNet, GSNet, GraspFast, KGNv2 وغيرها
طرق متعددة الآراء: ASGrasp, GraspNeRF

تفاصيل التنفيذ

التدريب: 18 حقبة، محسّن Adam، معدل تعلم 2×10⁻⁴
الأجهزة: وحدة معالجة رسومات NVIDIA RTX 4090
حجم الدفعة: 4
عدد التكرارات: 16 تكرار تحديث

نتائج التجارب

النتائج الرئيسية

الطريقة	Seen			Similar			Novel
	AP	AP0.8	AP0.4	AP	AP0.8	AP0.4	AP	AP0.8	AP0.4
GraspNet	27.56	33.43	16.59	26.11	34.18	14.23	10.55	11.25	3.98
GSNet	34.52	48.36	20.80	30.11	36.22	18.71	14.11	20.52	14.23
GraspFast	38.46	44.25	28.66	33.83	40.05	21.32	14.63	21.05	12.85
SpikeGrasp	38.84	47.27	29.57	34.84	40.32	25.48	15.39	18.09	9.80

النتائج الرئيسية

الأداء الإجمالي: يحقق SpikeGrasp أعلى دقة على معظم المجموعات الفرعية
معدل النجاح Top-1: Seen (78.53%)، Similar (72.18%)، Novel (36.79%)
التحقق من المحاكاة: معدلات النجاح في Isaac Sim هي 91.3%، 85.8%، 70.9% على التوالي

دراسات الاستئصال

التكوين	Seen	Similar	Novel
بدون objectness	26.14	24.41	5.54
بدون graspness	34.78	30.86	11.28
بدون spike	25.86	24.84	8.59
النموذج الكامل	38.84	34.84	15.39

تحليل كفاءة البيانات

عند نسب بيانات تدريب مختلفة، يتفوق SpikeGrasp باستمرار على جميع طرق الأساس، مع ميزة أكثر وضوحاً عندما تكون البيانات نادرة، مما يُظهر قدرة تعميم قوية.

الكفاءة الحسابية

يقلل RSNN من العمليات الحسابية بالنسبة إلى ANN بمعامل 2.3، مع توفير حسابي بنسبة 82.5%، يتحقق بشكل أساسي من خلال الندرة.

الأعمال ذات الصلة

الطرق القائمة على سحب النقاط

خط أنابيب العينة والتقييم: GPD, PointNetGPD وغيرها تولد مرشحي الإمساك وترتبهم
الطرق من طرف إلى طرف: توليد الاقتراحات المتغيرة في GraspNet، المتنبئات القائمة على الحجم أو النقاط
الاستدلال السياقي: VoteGrasp وغيرها تعزز الوعي بالمشهد

الطرق بدون سحب نقاط صريح

التنبؤ المباشر بالصور: الاستدلال على الإمساك من الأدلة متعددة الآراء أو ترميز المشهد العصبي
الاستشعار العصبي الشكلي: استخدام كاميرات الأحداث/spike لقيادة الاستدلال على الإمساك

تطبيقات كاميرا Spike

إعادة بناء الصور: طرق مختلفة لإعادة بناء الصور من spike
مهام رؤية الحاسوب: كشف الأشياء، تقدير التدفق البصري، تقدير العمق وغيرها

الخلاصة والمناقشة

الاستنتاجات الرئيسية

التحقق من الجدوى: إثبات أول مرة لجدوى كشف الإمساك ذي ستة درجات حرية مباشرة من تدفقات spike
مزايا الأداء: التفوق على الطرق التقليدية القائمة على سحب النقاط على مجموعة البيانات الاصطناعية
المعقولية البيولوجية: توفير نموذج كشف إمساك من طرف إلى طرف مستوحى من الأعصاب

القيود

قيود البيانات الاصطناعية: تستند التجارب إلى مجموعة بيانات اصطناعية، مع وجود فجوة مجال مع البيانات الحقيقية
المشاهد الثابتة: الطريقة الحالية مبنية على مشاهد ثابتة، لم تستفد بعد بشكل كامل من المزايا الديناميكية لكاميرا spike
الاعتماد على الأجهزة: تتطلب أجهزة كاميرا spike متخصصة

الاتجاهات المستقبلية

جمع البيانات الحقيقية: بناء مجموعة بيانات تدفق spike حقيقية
التكيف مع المجال: استكشاف نقل المجال المختلط والضبط الدقيق الضعيف الإشراف
توسيع المشاهد الديناميكية: الاستفادة الكاملة من مزايا كاميرا spike في البيئات الديناميكية

التقييم المتعمق

المزايا

ابتكار قوي: أول تطبيق لكاميرا spike في كشف الإمساك ذي ستة درجات حرية، فتح اتجاه بحثي جديد
تصميم مستوحى من البيولوجيا: تصميم المعمارية يتمتع بمعقولية بيولوجية جيدة
تجارب شاملة: تشمل تجارب مقارنة شاملة، دراسات استئصال، وتحليل كفاءة البيانات
مساهمة مجموعة البيانات: توفر مجموعة البيانات الاصطناعية الكبيرة المبنية موارد مهمة لتطور المجال

أوجه القصور

التحقق من المشاهد الحقيقية غير كافٍ: غياب تجارب التحقق في بيئات حقيقية
التعقيد الحسابي: على الرغم من أنه أكثر كفاءة نظرياً، إلا أن متطلبات الأجهزة للنشر الفعلي أعلى نسبياً
عدم إظهار المزايا الديناميكية: لم تُظهر تجارب المشاهد الثابتة بشكل كامل مزايا الاستشعار الديناميكي لكاميرا spike

التأثير

القيمة الأكاديمية: توفير مرجع مهم لتطبيق الرؤية العصبية الشكلية في الروبوتات
الآفاق العملية: توفير مسار تقني جديد لمهام الإمساك الديناميكية عالية السرعة
دفع التكنولوجيا: قد تعزز التطبيق الأوسع لكاميرات spike في إدراك الروبوتات

السيناريوهات المعمول بها

المشاهد الديناميكية عالية السرعة: بيئات الحركة السريعة التي يصعب على الكاميرات التقليدية التعامل معها
التطبيقات منخفضة الطاقة: منصات الروبوتات المحمولة التي تتطلب حسابات فعالة
ظروف الإضاءة الخاصة: بيئات النطاق الديناميكي العالي أو الإضاءة المنخفضة

المراجع

تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، بما في ذلك:

طرق كشف الإمساك التقليدية (GraspNet, GSNet وغيرها)
الأبحاث المتعلقة بكاميرا Spike (إعادة بناء الصور، كشف الأشياء وغيرها)
أبحاث الحوسبة العصبية الشكلية والشبكات العصبية النبضية

التقييم الإجمالي: هذه ورقة ذات أهمية رائدة، تقدم تقنية الاستشعار الناشئة لكاميرات spike إلى مجال الإمساك الروبوتي، وتقترح حلاً من طرف إلى طرف مستوحى من البيولوجيا. على الرغم من أنها حالياً محدودة بالتحقق من البيانات الاصطناعية، إلا أنها تضع أساساً مهماً لأنظمة الإمساك الروبوتية الديناميكية والفعالة في المستقبل. المساهمات التقنية للورقة وتصميم التجارب وبناء مجموعة البيانات كلها ذات جودة عالية، وتمثل تقدماً مهماً في المجال المتقاطع بين الرؤية العصبية الشكلية والروبوتات.