Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.
- ID Articolo: 2510.10602
- Titolo: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
- Autori: Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang
- Classificazione: cs.RO (Robotica), cs.CV (Visione Artificiale)
- Data di Pubblicazione: 12 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.10602
I sistemi tradizionali di afferraggio robotico dipendono generalmente dalla conversione dei dati sensoriali in nuvole di punti 3D esplicite, un passaggio computazionale assente nell'intelligenza biologica. Questo articolo esplora un paradigma fondamentalmente diverso e ispirato alla neurobiologia per la rilevazione dell'afferraggio a 6 gradi di libertà. Lo studio introduce il framework SpikeGrasp, che imita il percorso visivo-motorio biologico, elaborando eventi asincroni grezzi provenienti da telecamere spike stereo (analogamente alla retina), per inferire direttamente la posa di afferraggio. Il modello fonde flussi spike stereo, utilizzando reti neurali spike ricorrenti (analogamente all'elaborazione visiva superiore) per ottimizzare iterativamente le ipotesi di afferraggio, senza necessità di ricostruzione di nuvole di punti. Per convalidare il metodo, lo studio costruisce un ampio dataset benchmark sintetico. Gli esperimenti dimostrano che SpikeGrasp supera i metodi baseline tradizionali basati su nuvole di punti, in particolare in scene disordinate e prive di texture, e dimostra un'eccezionale efficienza dei dati.
Il problema fondamentale affrontato dai sistemi tradizionali di afferraggio robotico è la dipendenza da una pipeline di elaborazione "geometry-first": acquisire la scena → ricostruire il modello geometrico 3D (solitamente nuvola di punti) → analizzare il modello per trovare afferramenti fattibili. Sebbene questo paradigma sia razionale dal punto di vista della computer grafica, differisce significativamente dal modo in cui operano i sistemi biologici.
- Mancanza di Ispirazione Biologica: Il cervello non calcola né memorizza nuvole di punti esplicite per decidere come afferrare un oggetto, ma elabora flussi di informazioni sensoriali continue attraverso architetture neurali efficienti
- Complessità Computazionale: La ricostruzione di nuvole di punti è computazionalmente intensiva e fragile, sensibile al rumore dei sensori e alle condizioni di illuminazione
- Limitazioni in Ambienti Dinamici: I metodi tradizionali hanno robustezza limitata nell'interazione con ambienti dinamici
- Metodi Basati su Nuvole di Punti: Richiedono un passaggio esplicito di ricostruzione 3D con elevato overhead computazionale
- Metodi Tradizionali di Deep Learning: Mancano di plausibilità biologica e faticano a gestire scene ad alta dinamica
- Applicazioni di Telecamere di Eventi: Sebbene vi siano esplorazioni nel sensing neuromorfico, mancano benchmark standardizzati e architetture specifiche per il compito dell'afferraggio 6-DoF
Esplorare un percorso diverso, ispirato all'efficienza ed eleganza del sistema visivo-motorio cerebrale, per inferire direttamente la posa di afferraggio dai flussi spike, senza passare attraverso rappresentazioni geometriche intermedie.
- Propone l'architettura SpikeGrasp ispirata alla biologia: Elabora dati spike asincroni attraverso aggiornamenti iterativi, superando i metodi precedenti in qualità di rilevazione sul dataset sintetico
- Costruisce il primo ampio dataset sintetico di flussi spike: Per la rilevazione della posa di afferraggio 6-DoF, fornendo un benchmark di valutazione per questo campo emergente
- Verifica l'efficienza dei dati del framework: Dimostra una forte capacità di generalizzazione anche con campioni di addestramento limitati
Dato un flusso spike binario continuo St1N∈{0,1}H×W×N, l'obiettivo è stimare la posa di afferraggio 6-DoF corrispondente al momento t1. La posa di afferraggio è rappresentata come:
G=(R,t,w)
dove R∈R3×3 è la matrice di rotazione, t∈R3×1 è il vettore di traslazione, e w∈R è la larghezza della pinza.
La telecamera spike simula l'architettura di integrazione-scarica della fovea retinica. Ogni pixel contiene un fotocettore, un integratore e un comparatore. Quando il valore accumulato supera la soglia θ, il pixel emette un evento binario:
A(x,y,t)=(∫0tI(x,y,s)ds)modθ
- Estrazione di Caratteristiche Spike: Utilizza convoluzione 7×7 e blocchi residui per elaborare i flussi spike sinistro e destro Sl,Sr
- Calcolo del Volume di Correlazione: Costruisce una piramide di correlazione multi-scala
Ci,j,k=∑hfhli,jfhri,k
- Aggiornamento Iterativo: Mantiene un campo di stato nascosto h, aggiornato tramite RSNN:
hk+1=hk+Δh
Decodifica lo stato nascosto finale hK per generare una mappa di probabilità a due canali M∈R2×H×W:
- Primo canale: objectness (oggettività)
- Secondo canale: graspness (afferrabilità)
Adotta una strategia crop-and-refine, prevedendo la configurazione completa di afferraggio 6-DoF dallo stato nascosto e dalle posizioni afferrabili.
- Elaborazione End-to-End di Spike: Inferisce la posa di afferraggio direttamente dai flussi spike grezzi, senza ricostruzione di nuvole di punti
- Architettura Ispirata alla Biologia: Imita l'elaborazione gerarchica del sistema visivo dei primati
- Reti Neurali Spike Ricorrenti: Sfrutta la capacità di modellazione temporale delle RSNN
- Matching di Correlazione Multi-scala: Realizza matching da grossolano a fine attraverso piramidi di correlazione
Dataset sintetico su larga scala costruito:
- Set di Addestramento: 100 scene, 51.000 flussi spike, 25.600 mappe objectness/graspness
- Set di Test: 90 scene, divise in tre sottoinsiemi
- Seen: 30 scene (oggetti visti)
- Similar: 30 scene (oggetti simili)
- Novel: 30 scene (oggetti nuovi)
- Scala: Oltre 1,1 miliardi di pose di afferraggio, utilizzando 88 modelli di oggetti
- Average Precision (AP): Precisione media su molteplici coefficienti di attrito
- AP0.8 e AP0.4: Precisione a coefficienti di attrito specifici
- Success Rate: Tasso di successo nell'ambiente di simulazione
Include 9 metodi rappresentativi:
- Metodi 2D: GG-CNN
- Metodi 6-DoF: GraspNet, GSNet, GraspFast, KGNv2, ecc.
- Metodi Multi-vista: ASGrasp, GraspNeRF
- Addestramento: 18 epoch, ottimizzatore Adam, tasso di apprendimento 2×10⁻⁴
- Hardware: GPU NVIDIA RTX 4090
- Dimensione del Batch: 4
- Numero di Iterazioni: 16 iterazioni di aggiornamento
| Metodo | Seen | | | Similar | | | Novel | | |
|---|
| AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 |
| GraspNet | 27.56 | 33.43 | 16.59 | 26.11 | 34.18 | 14.23 | 10.55 | 11.25 | 3.98 |
| GSNet | 34.52 | 48.36 | 20.80 | 30.11 | 36.22 | 18.71 | 14.11 | 20.52 | 14.23 |
| GraspFast | 38.46 | 44.25 | 28.66 | 33.83 | 40.05 | 21.32 | 14.63 | 21.05 | 12.85 |
| SpikeGrasp | 38.84 | 47.27 | 29.57 | 34.84 | 40.32 | 25.48 | 15.39 | 18.09 | 9.80 |
- Prestazioni Complessive: SpikeGrasp raggiunge la massima precisione sulla maggior parte dei sottoinsiemi
- Tasso di Successo Top-1: Seen (78.53%), Similar (72.18%), Novel (36.79%)
- Verifica in Simulazione: Tassi di successo in Isaac Sim rispettivamente di 91.3%, 85.8%, 70.9%
| Configurazione | Seen | Similar | Novel |
|---|
| w/o objectness | 26.14 | 24.41 | 5.54 |
| w/o graspness | 34.78 | 30.86 | 11.28 |
| w/o spike | 25.86 | 24.84 | 8.59 |
| Modello Completo | 38.84 | 34.84 | 15.39 |
Con diverse proporzioni di dati di addestramento, SpikeGrasp supera costantemente tutti i metodi baseline, con vantaggi ancora più evidenti quando i dati sono scarsi, dimostrando una forte capacità di generalizzazione.
Le RSNN rispetto alle ANN riducono le operazioni in virgola mobile di 2,3 volte, con risparmi computazionali dell'82.5%, principalmente realizzati attraverso la sparsità.
- Pipeline di Campionamento-Valutazione: GPD, PointNetGPD e altri generano e ordinano candidati di afferraggio
- Metodi End-to-End: Generazione di proposte variazionali di GraspNet, predittori volumetrici o basati su punti
- Ragionamento Contestuale: VoteGrasp e altri migliorano la consapevolezza della scena
- Predizione Diretta da Immagine: Inferenza di afferraggio da indizi multi-vista o codifiche di scene neurali
- Sensing Neuromorfico: Utilizzo di telecamere di eventi/spike per il ragionamento di afferraggio
- Ricostruzione di Immagini: Vari metodi per ricostruire immagini da spike
- Compiti di Visione Artificiale: Rilevamento di oggetti, stima del flusso ottico, stima della profondità, ecc.
- Verifica della Fattibilità: Dimostra per la prima volta la fattibilità della rilevazione di afferraggio 6-DoF direttamente dai flussi spike
- Vantaggi di Prestazione: Supera i metodi tradizionali basati su nuvole di punti sul dataset sintetico
- Plausibilità Biologica: Fornisce un paradigma di rilevazione di afferraggio end-to-end ispirato alla neurobiologia
- Limitazioni dei Dati Sintetici: Gli esperimenti si basano su dataset sintetici, con gap di dominio rispetto ai dati reali
- Scene Statiche: Il metodo attuale è costruito su scene statiche, non sfrutta ancora pienamente i vantaggi dinamici delle telecamere spike
- Dipendenza dall'Hardware: Richiede hardware specializzato di telecamere spike
- Raccolta di Dati Reali: Costruire dataset di flussi spike reali
- Adattamento di Dominio: Esplorare trasferimento di dominio misto e fine-tuning debolmente supervisionato
- Estensione a Scene Dinamiche: Sfruttare pienamente i vantaggi delle telecamere spike in ambienti dinamici
- Forte Innovatività: Prima applicazione di telecamere spike alla rilevazione di afferraggio 6-DoF, aprendo una nuova direzione di ricerca
- Design Ispirato alla Biologia: L'architettura ha buona plausibilità biologica
- Esperimenti Completi: Include esperimenti di confronto completi, studi di ablazione e analisi dell'efficienza dei dati
- Contributo del Dataset: Il dataset sintetico su larga scala costruito fornisce risorse importanti per lo sviluppo del campo
- Verifica Insufficiente in Scenari Reali: Mancanza di esperimenti di verifica in ambienti reali
- Complessità Computazionale: Sebbene teoricamente più efficiente, i requisiti hardware per il deployment effettivo sono elevati
- Vantaggi Dinamici Non Evidenti: Gli esperimenti in scene statiche non mostrano pienamente i vantaggi di sensing dinamico delle telecamere spike
- Valore Accademico: Fornisce un riferimento importante per l'applicazione della visione neuromorfica nella robotica
- Prospettive Pratiche: Fornisce un nuovo percorso tecnologico per compiti di afferraggio ad alta velocità e dinamici
- Spinta Tecnologica: Potrebbe promuovere applicazioni più ampie delle telecamere spike nella percezione robotica
- Scene ad Alta Velocità Dinamica: Ambienti con movimento rapido difficili da gestire per telecamere tradizionali
- Applicazioni a Basso Consumo Energetico: Piattaforme robotiche mobili che richiedono calcolo efficiente
- Condizioni di Illuminazione Speciali: Ambienti ad alto intervallo dinamico o a bassa illuminazione
L'articolo cita numerosi lavori correlati, inclusi:
- Metodi tradizionali di rilevazione di afferraggio (GraspNet, GSNet, ecc.)
- Ricerche correlate alle telecamere spike (ricostruzione di immagini, rilevamento di oggetti, ecc.)
- Ricerche su calcolo neuromorfico e reti neurali spike
Valutazione Complessiva: Questo è un articolo di significato pioneristico che introduce la tecnologia emergente delle telecamere spike nel campo dell'afferraggio robotico, proponendo una soluzione end-to-end ispirata alla biologia. Sebbene attualmente limitato alla verifica su dati sintetici, getta le basi importanti per futuri sistemi di afferraggio robotico dinamici ed efficienti. I contributi tecnici, il design sperimentale e la costruzione del dataset dell'articolo hanno tutti una qualità elevata, rappresentando un importante progresso nell'intersezione tra visione neuromorfica e robotica.