2025-11-19T14:07:14.700954

SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams

Gao, Zhang, Xie et al.

Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.

academic

SpikeGrasp: স্টেরিও স্পাইক স্ট্রিম থেকে 6-DoF গ্রাস্প পোজ ডিটেকশনের জন্য একটি বেঞ্চমার্ক

মৌলিক তথ্য

পেপার আইডি: 2510.10602
শিরোনাম: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
লেখক: Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang
শ্রেণীবিভাগ: cs.RO (রোবটিক্স), cs.CV (কম্পিউটার ভিশন)
প্রকাশনার সময়: ২০২৫ সালের ১২ অক্টোবর (arXiv প্রি-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.10602

সারসংক্ষেপ

ঐতিহ্যবাহী রোবোটিক গ্রাস্পিং সিস্টেম সাধারণত সেন্সর ডেটাকে স্পষ্ট 3D পয়েন্ট ক্লাউডে রূপান্তরিত করার উপর নির্ভর করে, যা জৈব বুদ্ধিমত্তায় বিদ্যমান নয়। এই পেপারটি একটি মৌলিকভাবে ভিন্ন, নিউরাল-অনুপ্রাণিত 6-স্বাধীনতা-ডিগ্রি গ্রাস্প ডিটেকশন প্যারাডাইম অন্বেষণ করে। গবেষণা SpikeGrasp ফ্রেমওয়ার্ক উপস্থাপন করে, যা জৈব ভিজ্যুয়াল-মোটর পথ অনুকরণ করে, স্টেরিও স্পাইক ক্যামেরা থেকে কাঁচা অ্যাসিঙ্ক্রোনাস ইভেন্ট (রেটিনার মতো) প্রক্রিয়া করে এবং সরাসরি গ্রাস্প পোজ অনুমান করে। মডেল স্টেরিও স্পাইক স্ট্রিম একীভূত করে, পুনরাবৃত্তিমূলক স্পাইকিং নিউরাল নেটওয়ার্ক (উন্নত ভিজ্যুয়াল প্রসেসিংয়ের মতো) ব্যবহার করে গ্রাস্প অনুমান পুনরাবৃত্তিমূলকভাবে অপ্টিমাইজ করে, পয়েন্ট ক্লাউড পুনর্নির্মাণ ছাড়াই। পদ্ধতি যাচাই করতে, গবেষণা একটি বড় আকারের সিন্থেটিক বেঞ্চমার্ক ডেটাসেট তৈরি করে। পরীক্ষা-নিরীক্ষা দেখায় যে SpikeGrasp ঐতিহ্যবাহী পয়েন্ট ক্লাউড-ভিত্তিক বেসলাইন পদ্ধতিগুলিকে অতিক্রম করে, বিশেষত বিশৃঙ্খল এবং টেক্সচারবিহীন দৃশ্যে, এবং উচ্চতর ডেটা দক্ষতা প্রদর্শন করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

ঐতিহ্যবাহী রোবোটিক গ্রাস্পিং সিস্টেম যে মৌলিক সমস্যার সম্মুখীন হয় তা হল "জ্যামিতি-প্রথম" প্রসেসিং পাইপলাইনের উপর নির্ভরতা: দৃশ্য ক্যাপচার করুন → 3D জ্যামিতি মডেল পুনর্নির্মাণ করুন (সাধারণত পয়েন্ট ক্লাউড) → সম্ভাব্য গ্রাস্প খুঁজতে মডেল বিশ্লেষণ করুন। এই প্যারাডাইম কম্পিউটার গ্রাফিক্স দৃষ্টিকোণ থেকে যুক্তিসঙ্গত হলেও, জৈব সিস্টেমের কাজ করার পদ্ধতির সাথে উল্লেখযোগ্য পার্থক্য রয়েছে।

সমস্যার গুরুত্ব

জৈব-অনুপ্রেরণা অনুপস্থিতি: মস্তিষ্ক কীভাবে কোনো বস্তু গ্রাস্প করতে হবে তা সিদ্ধান্ত নিতে স্পষ্ট পয়েন্ট ক্লাউড গণনা বা সংরক্ষণ করে না, বরং ক্রমাগত সংবেদনশীল তথ্য প্রবাহ প্রক্রিয়া করার জন্য দক্ষ নিউরাল আর্কিটেকচার ব্যবহার করে
গণনামূলক জটিলতা: পয়েন্ট ক্লাউড পুনর্নির্মাণ গণনা-নিবিড় এবং ভঙ্গুর, সেন্সর শব্দ এবং আলোর অবস্থার প্রতি সংবেদনশীল
গতিশীল পরিবেশের সীমাবদ্ধতা: ঐতিহ্যবাহী পদ্ধতি গতিশীল পরিবেশের সাথে মিথস্ক্রিয়ায় সীমিত শক্তিশালীতা রয়েছে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

পয়েন্ট ক্লাউড-ভিত্তিক পদ্ধতি: স্পষ্ট 3D পুনর্নির্মাণ পদক্ষেপের প্রয়োজন, বড় গণনামূলক ওভারহেড
ঐতিহ্যবাহী গভীর শিক্ষা পদ্ধতি: জৈব সত্যতার অভাব, উচ্চ-গতিশীল দৃশ্য পরিচালনা করা কঠিন
ইভেন্ট ক্যামেরা প্রয়োগ: নিউরোমরফিক সেন্সিং অন্বেষণ থাকলেও, 6-DoF গ্রাস্পিংয়ের জন্য মানক্রমিত বেঞ্চমার্ক এবং কাজ-নির্দিষ্ট আর্কিটেকচার অনুপস্থিত

গবেষণা প্রেরণা

মস্তিষ্কের ভিজ্যুয়াল-মোটর সিস্টেমের দক্ষতা এবং কমনীয়তা দ্বারা অনুপ্রাণিত একটি ভিন্ন পথ অন্বেষণ করা, মধ্যবর্তী জ্যামিতিক প্রতিনিধিত্বের মাধ্যমে না গিয়ে স্পাইক স্ট্রিম থেকে সরাসরি গ্রাস্প পোজ অনুমান করা।

মূল অবদান

জৈব-অনুপ্রাণিত SpikeGrasp আর্কিটেকচার প্রস্তাব করা: অ্যাসিঙ্ক্রোনাস স্পাইক ডেটা পুনরাবৃত্তিমূলক আপডেটের মাধ্যমে প্রক্রিয়া করে, সিন্থেটিক ডেটাসেটে ডিটেকশন গুণমান পূর্ববর্তী পদ্ধতি অতিক্রম করে
প্রথম বড় আকারের সিন্থেটিক স্পাইক স্ট্রিম ডেটাসেট তৈরি করা: 6-DoF গ্রাস্প পোজ ডিটেকশনের জন্য, এই উদীয়মান ক্ষেত্রের জন্য মূল্যায়ন বেঞ্চমার্ক প্রদান করে
ফ্রেমওয়ার্কের ডেটা দক্ষতা যাচাই করা: সীমিত প্রশিক্ষণ নমুনার অধীনেও শক্তিশালী সাধারণীকরণ ক্ষমতা প্রদর্শন করে

পদ্ধতি বিবরণ

কাজের সংজ্ঞা

ক্রমাগত বাইনারি স্পাইক স্ট্রিম $S_{t_1}^N \in \{0,1\}^{H \times W \times N}$ দেওয়া, লক্ষ্য হল সময় $t_1$ এর সাথে সংশ্লিষ্ট 6-DoF গ্রাস্প পোজ অনুমান করা। গ্রাস্প পোজ নিম্নরূপ প্রকাশ করা হয়: $G = (R, t, w)$ যেখানে $R \in \mathbb{R}^{3 \times 3}$ ঘূর্ণন ম্যাট্রিক্স, $t \in \mathbb{R}^{3 \times 1}$ অনুবাদ ভেক্টর, এবং $w \in \mathbb{R}$ গ্রিপার প্রস্থ।

মডেল আর্কিটেকচার

1. স্পাইক ক্যামেরা নীতি

স্পাইক ক্যামেরা রেটিনার ফোভিয়ার সমন্বয়-এবং-নিঃসরণ আর্কিটেকচার অনুকরণ করে। প্রতিটি পিক্সেলে ফটোরিসেপ্টর, ইন্টিগ্রেটর এবং তুলনাকারী থাকে। যখন সঞ্চিত মান থ্রেশহোল্ড θ অতিক্রম করে, পিক্সেল একটি বাইনারি ইভেন্ট নির্গত করে: $A(x,y,t) = \left(\int_0^t I(x,y,s)ds\right) \bmod \theta$

2. ভিজ্যুয়াল পাথওয়ে নেটওয়ার্ক (Visual Pathway Network)

স্পাইক বৈশিষ্ট্য নিষ্কাশন: বাম এবং ডান স্পাইক স্ট্রিম $S_l, S_r$ প্রক্রিয়া করতে 7×7 কনভোলিউশন এবং অবশিষ্ট ব্লক ব্যবহার করা
সম্পর্ক ভলিউম গণনা: বহু-স্কেল সম্পর্ক পিরামিড তৈরি করা $C_{i,j,k} = \sum_h f_h^l{}_{i,j} f_h^r{}_{i,k}$
পুনরাবৃত্তিমূলক আপডেট: লুকানো অবস্থা ক্ষেত্র $h$ বজায় রাখা, RSNN এর মাধ্যমে আপডেট করা: $h^{k+1} = h^k + \Delta h$

3. গ্রাস্পযোগ্যতা নেটওয়ার্ক (Graspable Network)

চূড়ান্ত লুকানো অবস্থা $h^K$ ডিকোড করে দুই-চ্যানেল সম্ভাব্যতা মানচিত্র $M \in \mathbb{R}^{2 \times H \times W}$ উৎপন্ন করা:

প্রথম চ্যানেল: objectness (বস্তুত্ব)
দ্বিতীয় চ্যানেল: graspness (গ্রাস্পযোগ্যতা)

4. গ্রাস্প ডিটেকশন নেটওয়ার্ক (Grasp Detection Network)

ক্রপ-এবং-পরিমার্জন কৌশল গ্রহণ করে, লুকানো অবস্থা এবং গ্রাস্পযোগ্য অবস্থান থেকে সম্পূর্ণ 6-DoF গ্রাস্প কনফিগারেশন পূর্বাভাস দেওয়া।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

এন্ড-টু-এন্ড স্পাইক প্রসেসিং: কাঁচা স্পাইক স্ট্রিম থেকে সরাসরি গ্রাস্প পোজ অনুমান করা, পয়েন্ট ক্লাউড পুনর্নির্মাণের প্রয়োজন নেই
জৈব-অনুপ্রাণিত আর্কিটেকচার: প্রাইমেট ভিজ্যুয়াল সিস্টেমের স্তরযুক্ত প্রসেসিং অনুকরণ করা
পুনরাবৃত্তিমূলক স্পাইকিং নিউরাল নেটওয়ার্ক: RSNN এর সময়গত মডেলিং ক্ষমতা ব্যবহার করা
বহু-স্কেল সম্পর্ক ম্যাচিং: সম্পর্ক পিরামিডের মাধ্যমে মোটা থেকে সূক্ষ্ম ম্যাচিং বাস্তবায়ন করা

পরীক্ষা-নিরীক্ষা সেটআপ

ডেটাসেট

বড় আকারের সিন্থেটিক ডেটাসেট তৈরি করা:

প্রশিক্ষণ সেট: 100টি দৃশ্য, 51,000টি স্পাইক স্ট্রিম, 25,600টি objectness/graspness মানচিত্র
পরীক্ষা সেট: 90টি দৃশ্য, তিনটি উপসেটে বিভক্ত
- Seen: 30টি দৃশ্য (দেখা বস্তু)
- Similar: 30টি দৃশ্য (অনুরূপ বস্তু)
- Novel: 30টি দৃশ্য (নতুন বস্তু)
স্কেল: 11 বিলিয়নেরও বেশি গ্রাস্প পোজ, 88টি বস্তু মডেল ব্যবহার করে

মূল্যায়ন মেট্রিক্স

গড় নির্ভুলতা (Average Precision - AP): একাধিক ঘর্ষণ সহগের অধীনে গড় নির্ভুলতা
AP0.8 এবং AP0.4: নির্দিষ্ট ঘর্ষণ সহগের অধীনে নির্ভুলতা
সাফল্যের হার (Success Rate): সিমুলেশন পরিবেশে সাফল্যের হার

তুলনামূলক পদ্ধতি

9টি প্রতিনিধিত্বমূলক পদ্ধতি অন্তর্ভুক্ত:

2D পদ্ধতি: GG-CNN
6-DoF পদ্ধতি: GraspNet, GSNet, GraspFast, KGNv2 ইত্যাদি
মাল্টি-ভিউ পদ্ধতি: ASGrasp, GraspNeRF

বাস্তবায়ন বিবরণ

প্রশিক্ষণ: 18টি epoch, Adam অপ্টিমাইজার, শিক্ষার হার 2×10⁻⁴
হার্ডওয়্যার: NVIDIA RTX 4090 GPU
ব্যাচ আকার: 4
পুনরাবৃত্তি সংখ্যা: 16টি আপডেট পুনরাবৃত্তি

পরীক্ষা-নিরীক্ষার ফলাফল

প্রধান ফলাফল

পদ্ধতি	Seen			Similar			Novel
	AP	AP0.8	AP0.4	AP	AP0.8	AP0.4	AP	AP0.8	AP0.4
GraspNet	27.56	33.43	16.59	26.11	34.18	14.23	10.55	11.25	3.98
GSNet	34.52	48.36	20.80	30.11	36.22	18.71	14.11	20.52	14.23
GraspFast	38.46	44.25	28.66	33.83	40.05	21.32	14.63	21.05	12.85
SpikeGrasp	38.84	47.27	29.57	34.84	40.32	25.48	15.39	18.09	9.80

মূল আবিষ্কার

সামগ্রিক কর্মক্ষমতা: SpikeGrasp বেশিরভাগ উপসেটে সর্বোচ্চ নির্ভুলতা অর্জন করে
শীর্ষ-1 সাফল্যের হার: Seen (78.53%), Similar (72.18%), Novel (36.79%)
সিমুলেশন যাচাইকরণ: Isaac Sim-এ সাফল্যের হার যথাক্রমে 91.3%, 85.8%, 70.9%

বিলোপন পরীক্ষা-নিরীক্ষা

কনফিগারেশন	Seen	Similar	Novel
w/o objectness	26.14	24.41	5.54
w/o graspness	34.78	30.86	11.28
w/o spike	25.86	24.84	8.59
সম্পূর্ণ মডেল	38.84	34.84	15.39

ডেটা দক্ষতা বিশ্লেষণ

বিভিন্ন প্রশিক্ষণ ডেটা অনুপাতে, SpikeGrasp সর্বদা সমস্ত বেসলাইন পদ্ধতি অতিক্রম করে, এবং ডেটা স্বল্পতার সময় সুবিধা আরও স্পষ্ট, শক্তিশালী সাধারণীকরণ ক্ষমতা প্রদর্শন করে।

গণনামূলক দক্ষতা

RSNN ANN এর তুলনায় 2.3 গুণ কম ফ্লোটিং-পয়েন্ট অপারেশন হ্রাস করে, গণনা সাশ্রয় 82.5% এ পৌঁছায়, প্রধানত বিরলতার মাধ্যমে উল্লেখযোগ্য গণনা সাশ্রয় অর্জন করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

সম্ভাব্যতা যাচাইকরণ: স্পাইক স্ট্রিম থেকে সরাসরি 6-DoF গ্রাস্প ডিটেকশনের সম্ভাব্যতা প্রথমবারের মতো প্রমাণ করা
কর্মক্ষমতা সুবিধা: সিন্থেটিক ডেটাসেটে ঐতিহ্যবাহী পয়েন্ট ক্লাউড-ভিত্তিক পদ্ধতি অতিক্রম করা
জৈব সত্যতা: নিউরাল-অনুপ্রাণিত এন্ড-টু-এন্ড গ্রাস্প ডিটেকশন প্যারাডাইম প্রদান করা

সীমাবদ্ধতা

সিন্থেটিক ডেটা সীমাবদ্ধতা: পরীক্ষা-নিরীক্ষা সিন্থেটিক ডেটাসেটের উপর ভিত্তি করে, বাস্তব ডেটার সাথে ডোমেইন ব্যবধান বিদ্যমান
স্থির দৃশ্য: বর্তমান পদ্ধতি স্থির দৃশ্যে প্রতিষ্ঠিত, এখনও স্পাইক ক্যামেরার গতিশীল সুবিধা সম্পূর্ণভাবে ব্যবহার করা হয়নি
হার্ডওয়্যার নির্ভরতা: বিশেষ স্পাইক ক্যামেরা হার্ডওয়্যারের প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

বাস্তব ডেটা সংগ্রহ: বাস্তব স্পাইক স্ট্রিম ডেটাসেট তৈরি করা
ডোমেইন অভিযোজন: মিশ্র ডোমেইন স্থানান্তর এবং দুর্বল তত্ত্বাবধান সূক্ষ্ম-সুর অন্বেষণ করা
গতিশীল দৃশ্য সম্প্রসারণ: গতিশীল পরিবেশে স্পাইক ক্যামেরার সুবিধা সম্পূর্ণভাবে ব্যবহার করা

গভীর মূল্যায়ন

শক্তি

শক্তিশালী উদ্ভাবনী: স্পাইক ক্যামেরা প্রথমবারের মতো 6-DoF গ্রাস্প ডিটেকশনে প্রয়োগ করা, নতুন গবেষণা দিক উন্মোচন করা
জৈব-অনুপ্রাণিত ডিজাইন: আর্কিটেকচার ডিজাইন ভাল জৈব সত্যতা রয়েছে
ব্যাপক পরীক্ষা-নিরীক্ষা: সম্পূর্ণ তুলনামূলক পরীক্ষা, বিলোপন গবেষণা এবং ডেটা দক্ষতা বিশ্লেষণ অন্তর্ভুক্ত
ডেটাসেট অবদান: নির্মিত বড় আকারের সিন্থেটিক ডেটাসেট ক্ষেত্র উন্নয়নের জন্য গুরুত্বপূর্ণ সম্পদ প্রদান করে

অপূর্ণতা

বাস্তব দৃশ্য যাচাইকরণ অপর্যাপ্ত: বাস্তব পরিবেশে যাচাইকরণ পরীক্ষা অনুপস্থিত
গণনামূলক জটিলতা: তাত্ত্বিকভাবে আরও দক্ষ হলেও, প্রকৃত স্থাপনার হার্ডওয়্যার প্রয়োজনীয়তা তুলনামূলকভাবে বেশি
গতিশীল সুবিধা অপ্রকাশিত: স্থির দৃশ্য পরীক্ষা-নিরীক্ষা স্পাইক ক্যামেরার গতিশীল সেন্সিং সুবিধা সম্পূর্ণভাবে প্রদর্শন করে না

প্রভাব

একাডেমিক মূল্য: নিউরোমরফিক ভিশনের রোবটিক্সে প্রয়োগের জন্য গুরুত্বপূর্ণ রেফারেন্স প্রদান করে
ব্যবহারিক সম্ভাবনা: উচ্চ-গতি, গতিশীল গ্রাস্পিং কাজের জন্য নতুন প্রযুক্তিগত পথ প্রদান করে
প্রযুক্তি প্রচার: রোবোটিক সেন্সিংয়ে স্পাইক ক্যামেরার আরও ব্যাপক প্রয়োগ চালিত করতে পারে

প্রযোজ্য দৃশ্য

উচ্চ-গতি গতিশীল দৃশ্য: ঐতিহ্যবাহী ক্যামেরা পরিচালনা করা কঠিন দ্রুত গতিশীল পরিবেশ
কম-শক্তি প্রয়োগ: মোবাইল রোবোট প্ল্যাটফর্মে দক্ষ গণনা প্রয়োজন
বিশেষ আলো অবস্থা: উচ্চ গতিশীল পরিসীমা বা কম আলো পরিবেশ

সংদর্ভ

পেপারটি বিস্তৃত সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

ঐতিহ্যবাহী গ্রাস্প ডিটেকশন পদ্ধতি (GraspNet, GSNet ইত্যাদি)
স্পাইক ক্যামেরা সম্পর্কিত গবেষণা (চিত্র পুনর্নির্মাণ, লক্ষ্য সনাক্তকরণ ইত্যাদি)
নিউরোমরফিক কম্পিউটিং এবং স্পাইকিং নিউরাল নেটওয়ার্ক গবেষণা

সামগ্রিক মূল্যায়ন: এটি একটি যুগান্তকারী তাৎপর্যের পেপার, যা স্পাইক ক্যামেরা এই নতুন সেন্সিং প্রযুক্তি রোবোটিক গ্রাস্পিং ক্ষেত্রে প্রবর্তন করে, জৈব-অনুপ্রাণিত এন্ড-টু-এন্ড সমাধান প্রস্তাব করে। যদিও বর্তমানে সিন্থেটিক ডেটা যাচাইকরণে সীমাবদ্ধ, এটি ভবিষ্যতের গতিশীল, দক্ষ রোবোটিক গ্রাস্পিং সিস্টেমের জন্য গুরুত্বপূর্ণ ভিত্তি স্থাপন করে। পেপারের প্রযুক্তিগত অবদান, পরীক্ষা-নিরীক্ষা ডিজাইন এবং ডেটাসেট নির্মাণ সবই উচ্চ মানের, নিউরোমরফিক ভিশন এবং রোবটিক্সের ক্রস-ডিসিপ্লিনারি ক্ষেত্রে গুরুত্বপূর্ণ অগ্রগতি।