Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.
- পেপার আইডি: 2510.10602
- শিরোনাম: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
- লেখক: Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang
- শ্রেণীবিভাগ: cs.RO (রোবটিক্স), cs.CV (কম্পিউটার ভিশন)
- প্রকাশনার সময়: ২০২৫ সালের ১২ অক্টোবর (arXiv প্রি-প্রিন্ট)
- পেপার লিঙ্ক: https://arxiv.org/abs/2510.10602
ঐতিহ্যবাহী রোবোটিক গ্রাস্পিং সিস্টেম সাধারণত সেন্সর ডেটাকে স্পষ্ট 3D পয়েন্ট ক্লাউডে রূপান্তরিত করার উপর নির্ভর করে, যা জৈব বুদ্ধিমত্তায় বিদ্যমান নয়। এই পেপারটি একটি মৌলিকভাবে ভিন্ন, নিউরাল-অনুপ্রাণিত 6-স্বাধীনতা-ডিগ্রি গ্রাস্প ডিটেকশন প্যারাডাইম অন্বেষণ করে। গবেষণা SpikeGrasp ফ্রেমওয়ার্ক উপস্থাপন করে, যা জৈব ভিজ্যুয়াল-মোটর পথ অনুকরণ করে, স্টেরিও স্পাইক ক্যামেরা থেকে কাঁচা অ্যাসিঙ্ক্রোনাস ইভেন্ট (রেটিনার মতো) প্রক্রিয়া করে এবং সরাসরি গ্রাস্প পোজ অনুমান করে। মডেল স্টেরিও স্পাইক স্ট্রিম একীভূত করে, পুনরাবৃত্তিমূলক স্পাইকিং নিউরাল নেটওয়ার্ক (উন্নত ভিজ্যুয়াল প্রসেসিংয়ের মতো) ব্যবহার করে গ্রাস্প অনুমান পুনরাবৃত্তিমূলকভাবে অপ্টিমাইজ করে, পয়েন্ট ক্লাউড পুনর্নির্মাণ ছাড়াই। পদ্ধতি যাচাই করতে, গবেষণা একটি বড় আকারের সিন্থেটিক বেঞ্চমার্ক ডেটাসেট তৈরি করে। পরীক্ষা-নিরীক্ষা দেখায় যে SpikeGrasp ঐতিহ্যবাহী পয়েন্ট ক্লাউড-ভিত্তিক বেসলাইন পদ্ধতিগুলিকে অতিক্রম করে, বিশেষত বিশৃঙ্খল এবং টেক্সচারবিহীন দৃশ্যে, এবং উচ্চতর ডেটা দক্ষতা প্রদর্শন করে।
ঐতিহ্যবাহী রোবোটিক গ্রাস্পিং সিস্টেম যে মৌলিক সমস্যার সম্মুখীন হয় তা হল "জ্যামিতি-প্রথম" প্রসেসিং পাইপলাইনের উপর নির্ভরতা: দৃশ্য ক্যাপচার করুন → 3D জ্যামিতি মডেল পুনর্নির্মাণ করুন (সাধারণত পয়েন্ট ক্লাউড) → সম্ভাব্য গ্রাস্প খুঁজতে মডেল বিশ্লেষণ করুন। এই প্যারাডাইম কম্পিউটার গ্রাফিক্স দৃষ্টিকোণ থেকে যুক্তিসঙ্গত হলেও, জৈব সিস্টেমের কাজ করার পদ্ধতির সাথে উল্লেখযোগ্য পার্থক্য রয়েছে।
- জৈব-অনুপ্রেরণা অনুপস্থিতি: মস্তিষ্ক কীভাবে কোনো বস্তু গ্রাস্প করতে হবে তা সিদ্ধান্ত নিতে স্পষ্ট পয়েন্ট ক্লাউড গণনা বা সংরক্ষণ করে না, বরং ক্রমাগত সংবেদনশীল তথ্য প্রবাহ প্রক্রিয়া করার জন্য দক্ষ নিউরাল আর্কিটেকচার ব্যবহার করে
- গণনামূলক জটিলতা: পয়েন্ট ক্লাউড পুনর্নির্মাণ গণনা-নিবিড় এবং ভঙ্গুর, সেন্সর শব্দ এবং আলোর অবস্থার প্রতি সংবেদনশীল
- গতিশীল পরিবেশের সীমাবদ্ধতা: ঐতিহ্যবাহী পদ্ধতি গতিশীল পরিবেশের সাথে মিথস্ক্রিয়ায় সীমিত শক্তিশালীতা রয়েছে
- পয়েন্ট ক্লাউড-ভিত্তিক পদ্ধতি: স্পষ্ট 3D পুনর্নির্মাণ পদক্ষেপের প্রয়োজন, বড় গণনামূলক ওভারহেড
- ঐতিহ্যবাহী গভীর শিক্ষা পদ্ধতি: জৈব সত্যতার অভাব, উচ্চ-গতিশীল দৃশ্য পরিচালনা করা কঠিন
- ইভেন্ট ক্যামেরা প্রয়োগ: নিউরোমরফিক সেন্সিং অন্বেষণ থাকলেও, 6-DoF গ্রাস্পিংয়ের জন্য মানক্রমিত বেঞ্চমার্ক এবং কাজ-নির্দিষ্ট আর্কিটেকচার অনুপস্থিত
মস্তিষ্কের ভিজ্যুয়াল-মোটর সিস্টেমের দক্ষতা এবং কমনীয়তা দ্বারা অনুপ্রাণিত একটি ভিন্ন পথ অন্বেষণ করা, মধ্যবর্তী জ্যামিতিক প্রতিনিধিত্বের মাধ্যমে না গিয়ে স্পাইক স্ট্রিম থেকে সরাসরি গ্রাস্প পোজ অনুমান করা।
- জৈব-অনুপ্রাণিত SpikeGrasp আর্কিটেকচার প্রস্তাব করা: অ্যাসিঙ্ক্রোনাস স্পাইক ডেটা পুনরাবৃত্তিমূলক আপডেটের মাধ্যমে প্রক্রিয়া করে, সিন্থেটিক ডেটাসেটে ডিটেকশন গুণমান পূর্ববর্তী পদ্ধতি অতিক্রম করে
- প্রথম বড় আকারের সিন্থেটিক স্পাইক স্ট্রিম ডেটাসেট তৈরি করা: 6-DoF গ্রাস্প পোজ ডিটেকশনের জন্য, এই উদীয়মান ক্ষেত্রের জন্য মূল্যায়ন বেঞ্চমার্ক প্রদান করে
- ফ্রেমওয়ার্কের ডেটা দক্ষতা যাচাই করা: সীমিত প্রশিক্ষণ নমুনার অধীনেও শক্তিশালী সাধারণীকরণ ক্ষমতা প্রদর্শন করে
ক্রমাগত বাইনারি স্পাইক স্ট্রিম St1N∈{0,1}H×W×N দেওয়া, লক্ষ্য হল সময় t1 এর সাথে সংশ্লিষ্ট 6-DoF গ্রাস্প পোজ অনুমান করা। গ্রাস্প পোজ নিম্নরূপ প্রকাশ করা হয়:
G=(R,t,w)
যেখানে R∈R3×3 ঘূর্ণন ম্যাট্রিক্স, t∈R3×1 অনুবাদ ভেক্টর, এবং w∈R গ্রিপার প্রস্থ।
স্পাইক ক্যামেরা রেটিনার ফোভিয়ার সমন্বয়-এবং-নিঃসরণ আর্কিটেকচার অনুকরণ করে। প্রতিটি পিক্সেলে ফটোরিসেপ্টর, ইন্টিগ্রেটর এবং তুলনাকারী থাকে। যখন সঞ্চিত মান থ্রেশহোল্ড θ অতিক্রম করে, পিক্সেল একটি বাইনারি ইভেন্ট নির্গত করে:
A(x,y,t)=(∫0tI(x,y,s)ds)modθ
- স্পাইক বৈশিষ্ট্য নিষ্কাশন: বাম এবং ডান স্পাইক স্ট্রিম Sl,Sr প্রক্রিয়া করতে 7×7 কনভোলিউশন এবং অবশিষ্ট ব্লক ব্যবহার করা
- সম্পর্ক ভলিউম গণনা: বহু-স্কেল সম্পর্ক পিরামিড তৈরি করা
Ci,j,k=∑hfhli,jfhri,k
- পুনরাবৃত্তিমূলক আপডেট: লুকানো অবস্থা ক্ষেত্র h বজায় রাখা, RSNN এর মাধ্যমে আপডেট করা:
hk+1=hk+Δh
চূড়ান্ত লুকানো অবস্থা hK ডিকোড করে দুই-চ্যানেল সম্ভাব্যতা মানচিত্র M∈R2×H×W উৎপন্ন করা:
- প্রথম চ্যানেল: objectness (বস্তুত্ব)
- দ্বিতীয় চ্যানেল: graspness (গ্রাস্পযোগ্যতা)
ক্রপ-এবং-পরিমার্জন কৌশল গ্রহণ করে, লুকানো অবস্থা এবং গ্রাস্পযোগ্য অবস্থান থেকে সম্পূর্ণ 6-DoF গ্রাস্প কনফিগারেশন পূর্বাভাস দেওয়া।
- এন্ড-টু-এন্ড স্পাইক প্রসেসিং: কাঁচা স্পাইক স্ট্রিম থেকে সরাসরি গ্রাস্প পোজ অনুমান করা, পয়েন্ট ক্লাউড পুনর্নির্মাণের প্রয়োজন নেই
- জৈব-অনুপ্রাণিত আর্কিটেকচার: প্রাইমেট ভিজ্যুয়াল সিস্টেমের স্তরযুক্ত প্রসেসিং অনুকরণ করা
- পুনরাবৃত্তিমূলক স্পাইকিং নিউরাল নেটওয়ার্ক: RSNN এর সময়গত মডেলিং ক্ষমতা ব্যবহার করা
- বহু-স্কেল সম্পর্ক ম্যাচিং: সম্পর্ক পিরামিডের মাধ্যমে মোটা থেকে সূক্ষ্ম ম্যাচিং বাস্তবায়ন করা
বড় আকারের সিন্থেটিক ডেটাসেট তৈরি করা:
- প্রশিক্ষণ সেট: 100টি দৃশ্য, 51,000টি স্পাইক স্ট্রিম, 25,600টি objectness/graspness মানচিত্র
- পরীক্ষা সেট: 90টি দৃশ্য, তিনটি উপসেটে বিভক্ত
- Seen: 30টি দৃশ্য (দেখা বস্তু)
- Similar: 30টি দৃশ্য (অনুরূপ বস্তু)
- Novel: 30টি দৃশ্য (নতুন বস্তু)
- স্কেল: 11 বিলিয়নেরও বেশি গ্রাস্প পোজ, 88টি বস্তু মডেল ব্যবহার করে
- গড় নির্ভুলতা (Average Precision - AP): একাধিক ঘর্ষণ সহগের অধীনে গড় নির্ভুলতা
- AP0.8 এবং AP0.4: নির্দিষ্ট ঘর্ষণ সহগের অধীনে নির্ভুলতা
- সাফল্যের হার (Success Rate): সিমুলেশন পরিবেশে সাফল্যের হার
9টি প্রতিনিধিত্বমূলক পদ্ধতি অন্তর্ভুক্ত:
- 2D পদ্ধতি: GG-CNN
- 6-DoF পদ্ধতি: GraspNet, GSNet, GraspFast, KGNv2 ইত্যাদি
- মাল্টি-ভিউ পদ্ধতি: ASGrasp, GraspNeRF
- প্রশিক্ষণ: 18টি epoch, Adam অপ্টিমাইজার, শিক্ষার হার 2×10⁻⁴
- হার্ডওয়্যার: NVIDIA RTX 4090 GPU
- ব্যাচ আকার: 4
- পুনরাবৃত্তি সংখ্যা: 16টি আপডেট পুনরাবৃত্তি
| পদ্ধতি | Seen | | | Similar | | | Novel | | |
|---|
| AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 |
| GraspNet | 27.56 | 33.43 | 16.59 | 26.11 | 34.18 | 14.23 | 10.55 | 11.25 | 3.98 |
| GSNet | 34.52 | 48.36 | 20.80 | 30.11 | 36.22 | 18.71 | 14.11 | 20.52 | 14.23 |
| GraspFast | 38.46 | 44.25 | 28.66 | 33.83 | 40.05 | 21.32 | 14.63 | 21.05 | 12.85 |
| SpikeGrasp | 38.84 | 47.27 | 29.57 | 34.84 | 40.32 | 25.48 | 15.39 | 18.09 | 9.80 |
- সামগ্রিক কর্মক্ষমতা: SpikeGrasp বেশিরভাগ উপসেটে সর্বোচ্চ নির্ভুলতা অর্জন করে
- শীর্ষ-1 সাফল্যের হার: Seen (78.53%), Similar (72.18%), Novel (36.79%)
- সিমুলেশন যাচাইকরণ: Isaac Sim-এ সাফল্যের হার যথাক্রমে 91.3%, 85.8%, 70.9%
| কনফিগারেশন | Seen | Similar | Novel |
|---|
| w/o objectness | 26.14 | 24.41 | 5.54 |
| w/o graspness | 34.78 | 30.86 | 11.28 |
| w/o spike | 25.86 | 24.84 | 8.59 |
| সম্পূর্ণ মডেল | 38.84 | 34.84 | 15.39 |
বিভিন্ন প্রশিক্ষণ ডেটা অনুপাতে, SpikeGrasp সর্বদা সমস্ত বেসলাইন পদ্ধতি অতিক্রম করে, এবং ডেটা স্বল্পতার সময় সুবিধা আরও স্পষ্ট, শক্তিশালী সাধারণীকরণ ক্ষমতা প্রদর্শন করে।
RSNN ANN এর তুলনায় 2.3 গুণ কম ফ্লোটিং-পয়েন্ট অপারেশন হ্রাস করে, গণনা সাশ্রয় 82.5% এ পৌঁছায়, প্রধানত বিরলতার মাধ্যমে উল্লেখযোগ্য গণনা সাশ্রয় অর্জন করে।
- নমুনা-মূল্যায়ন পাইপলাইন: GPD, PointNetGPD ইত্যাদি প্রার্থী গ্রাস্প উৎপন্ন করে এবং র্যাঙ্ক করে
- এন্ড-টু-এন্ড পদ্ধতি: GraspNet এর পরিবর্তনশীল প্রস্তাব প্রজন্ম, ভলিউমেট্রিক বা পয়েন্ট-ভিত্তিক পূর্বাভাসক
- প্রসঙ্গ অনুমান: VoteGrasp ইত্যাদি দৃশ্য সচেতনতা বৃদ্ধি করে
- চিত্র সরাসরি পূর্বাভাস: মাল্টি-ভিউ সংকেত বা নিউরাল দৃশ্য এনকোডিং থেকে গ্রাস্প অনুমান করা
- নিউরোমরফিক সেন্সিং: ইভেন্ট/স্পাইক ক্যামেরা চালিত গ্রাস্প অনুমান ব্যবহার করা
- চিত্র পুনর্নির্মাণ: স্পাইক থেকে চিত্র পুনর্নির্মাণের বিভিন্ন পদ্ধতি
- কম্পিউটার ভিশন কাজ: লক্ষ্য সনাক্তকরণ, অপটিক্যাল প্রবাহ অনুমান, গভীরতা অনুমান ইত্যাদি
- সম্ভাব্যতা যাচাইকরণ: স্পাইক স্ট্রিম থেকে সরাসরি 6-DoF গ্রাস্প ডিটেকশনের সম্ভাব্যতা প্রথমবারের মতো প্রমাণ করা
- কর্মক্ষমতা সুবিধা: সিন্থেটিক ডেটাসেটে ঐতিহ্যবাহী পয়েন্ট ক্লাউড-ভিত্তিক পদ্ধতি অতিক্রম করা
- জৈব সত্যতা: নিউরাল-অনুপ্রাণিত এন্ড-টু-এন্ড গ্রাস্প ডিটেকশন প্যারাডাইম প্রদান করা
- সিন্থেটিক ডেটা সীমাবদ্ধতা: পরীক্ষা-নিরীক্ষা সিন্থেটিক ডেটাসেটের উপর ভিত্তি করে, বাস্তব ডেটার সাথে ডোমেইন ব্যবধান বিদ্যমান
- স্থির দৃশ্য: বর্তমান পদ্ধতি স্থির দৃশ্যে প্রতিষ্ঠিত, এখনও স্পাইক ক্যামেরার গতিশীল সুবিধা সম্পূর্ণভাবে ব্যবহার করা হয়নি
- হার্ডওয়্যার নির্ভরতা: বিশেষ স্পাইক ক্যামেরা হার্ডওয়্যারের প্রয়োজন
- বাস্তব ডেটা সংগ্রহ: বাস্তব স্পাইক স্ট্রিম ডেটাসেট তৈরি করা
- ডোমেইন অভিযোজন: মিশ্র ডোমেইন স্থানান্তর এবং দুর্বল তত্ত্বাবধান সূক্ষ্ম-সুর অন্বেষণ করা
- গতিশীল দৃশ্য সম্প্রসারণ: গতিশীল পরিবেশে স্পাইক ক্যামেরার সুবিধা সম্পূর্ণভাবে ব্যবহার করা
- শক্তিশালী উদ্ভাবনী: স্পাইক ক্যামেরা প্রথমবারের মতো 6-DoF গ্রাস্প ডিটেকশনে প্রয়োগ করা, নতুন গবেষণা দিক উন্মোচন করা
- জৈব-অনুপ্রাণিত ডিজাইন: আর্কিটেকচার ডিজাইন ভাল জৈব সত্যতা রয়েছে
- ব্যাপক পরীক্ষা-নিরীক্ষা: সম্পূর্ণ তুলনামূলক পরীক্ষা, বিলোপন গবেষণা এবং ডেটা দক্ষতা বিশ্লেষণ অন্তর্ভুক্ত
- ডেটাসেট অবদান: নির্মিত বড় আকারের সিন্থেটিক ডেটাসেট ক্ষেত্র উন্নয়নের জন্য গুরুত্বপূর্ণ সম্পদ প্রদান করে
- বাস্তব দৃশ্য যাচাইকরণ অপর্যাপ্ত: বাস্তব পরিবেশে যাচাইকরণ পরীক্ষা অনুপস্থিত
- গণনামূলক জটিলতা: তাত্ত্বিকভাবে আরও দক্ষ হলেও, প্রকৃত স্থাপনার হার্ডওয়্যার প্রয়োজনীয়তা তুলনামূলকভাবে বেশি
- গতিশীল সুবিধা অপ্রকাশিত: স্থির দৃশ্য পরীক্ষা-নিরীক্ষা স্পাইক ক্যামেরার গতিশীল সেন্সিং সুবিধা সম্পূর্ণভাবে প্রদর্শন করে না
- একাডেমিক মূল্য: নিউরোমরফিক ভিশনের রোবটিক্সে প্রয়োগের জন্য গুরুত্বপূর্ণ রেফারেন্স প্রদান করে
- ব্যবহারিক সম্ভাবনা: উচ্চ-গতি, গতিশীল গ্রাস্পিং কাজের জন্য নতুন প্রযুক্তিগত পথ প্রদান করে
- প্রযুক্তি প্রচার: রোবোটিক সেন্সিংয়ে স্পাইক ক্যামেরার আরও ব্যাপক প্রয়োগ চালিত করতে পারে
- উচ্চ-গতি গতিশীল দৃশ্য: ঐতিহ্যবাহী ক্যামেরা পরিচালনা করা কঠিন দ্রুত গতিশীল পরিবেশ
- কম-শক্তি প্রয়োগ: মোবাইল রোবোট প্ল্যাটফর্মে দক্ষ গণনা প্রয়োজন
- বিশেষ আলো অবস্থা: উচ্চ গতিশীল পরিসীমা বা কম আলো পরিবেশ
পেপারটি বিস্তৃত সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
- ঐতিহ্যবাহী গ্রাস্প ডিটেকশন পদ্ধতি (GraspNet, GSNet ইত্যাদি)
- স্পাইক ক্যামেরা সম্পর্কিত গবেষণা (চিত্র পুনর্নির্মাণ, লক্ষ্য সনাক্তকরণ ইত্যাদি)
- নিউরোমরফিক কম্পিউটিং এবং স্পাইকিং নিউরাল নেটওয়ার্ক গবেষণা
সামগ্রিক মূল্যায়ন: এটি একটি যুগান্তকারী তাৎপর্যের পেপার, যা স্পাইক ক্যামেরা এই নতুন সেন্সিং প্রযুক্তি রোবোটিক গ্রাস্পিং ক্ষেত্রে প্রবর্তন করে, জৈব-অনুপ্রাণিত এন্ড-টু-এন্ড সমাধান প্রস্তাব করে। যদিও বর্তমানে সিন্থেটিক ডেটা যাচাইকরণে সীমাবদ্ধ, এটি ভবিষ্যতের গতিশীল, দক্ষ রোবোটিক গ্রাস্পিং সিস্টেমের জন্য গুরুত্বপূর্ণ ভিত্তি স্থাপন করে। পেপারের প্রযুক্তিগত অবদান, পরীক্ষা-নিরীক্ষা ডিজাইন এবং ডেটাসেট নির্মাণ সবই উচ্চ মানের, নিউরোমরফিক ভিশন এবং রোবটিক্সের ক্রস-ডিসিপ্লিনারি ক্ষেত্রে গুরুত্বপূর্ণ অগ্রগতি।