Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.
- Papier-ID: 2510.10602
- Titel: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
- Autoren: Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang
- Klassifizierung: cs.RO (Robotik), cs.CV (Computervision)
- Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2510.10602
Traditionelle Robotergreifersysteme verlassen sich normalerweise auf die Umwandlung von Sensordaten in explizite 3D-Punktwolken, einen Rechenschritt, der in der biologischen Intelligenz nicht vorhanden ist. Dieses Papier erforscht ein grundlegend anderes, neuromorphes 6-Freiheitsgrad-Greiferkennungsparadigma. Die Forschung führt das SpikeGrasp-Framework ein, das den biologischen visuomotorischen Pfad nachahmt und asynchrone Rohereignisse aus Stereo-Spike-Kameras (ähnlich der Netzhaut) verarbeitet, um Greiferposen direkt abzuleiten. Das Modell fusioniert Stereo-Spike-Ströme und nutzt rekurrente Spike-Neuronale Netze (ähnlich der höheren visuellen Verarbeitung), um Greiferhypothesen iterativ zu optimieren, ohne Punktwolken zu rekonstruieren. Zur Validierung dieser Methode wurde ein großflächiger synthetischer Benchmark-Datensatz konstruiert. Experimente zeigen, dass SpikeGrasp traditionelle punktwolkenbasierte Baseline-Methoden übertrifft, besonders in ungeordneten und strukturlosen Szenen, und zeigt überlegene Dateneffizienz.
Das grundlegende Problem, dem sich traditionelle Robotergreifersysteme gegenübersehen, ist die Abhängigkeit von einer "geometrie-zentrierten" Verarbeitungspipeline: Szene erfassen → 3D-Geometriemodell rekonstruieren (normalerweise Punktwolke) → Modell analysieren, um machbare Griffe zu finden. Obwohl dieses Paradigma aus der Computergraphik-Perspektive sinnvoll ist, unterscheidet es sich erheblich von der Funktionsweise biologischer Systeme.
- Fehlende biologische Inspiration: Das Gehirn berechnet oder speichert keine expliziten Punktwolken, um zu entscheiden, wie man einen Gegenstand greift, sondern verarbeitet kontinuierliche Sinnesströme durch effiziente neuronale Architekturen
- Rechenkomplexität: Punktwolkenrekonstruktion ist rechnerintensiv und fehleranfällig, empfindlich gegenüber Sensorrauschen und Lichtverhältnissen
- Einschränkungen in dynamischen Umgebungen: Traditionelle Methoden haben begrenzte Robustheit bei der Interaktion mit dynamischen Umgebungen
- Punktwolkenbasierte Methoden: Erfordern explizite 3D-Rekonstruktionsschritte mit großem Rechenaufwand
- Traditionelle Deep-Learning-Methoden: Mangelnde biologische Plausibilität, schwierig bei hochdynamischen Szenen
- Anwendungen von Ereigniskameras: Obwohl neuromorphe Sensorik erforscht wird, fehlen standardisierte Benchmarks und aufgabenspezifische Architekturen für 6-DoF-Greifen
Erkundung eines alternativen Pfads, inspiriert durch die Effizienz und Eleganz des visuomotorischen Systems des Gehirns, um Greiferposen direkt aus Spike-Strömen abzuleiten, ohne Zwischengeometrie-Darstellungen.
- Vorschlag der biologisch inspirierten SpikeGrasp-Architektur: Verarbeitet asynchrone Spike-Daten durch iterative Aktualisierungen und übertrifft frühere Methoden in der Erkennungsqualität auf synthetischen Datensätzen
- Konstruktion des ersten großflächigen synthetischen Spike-Ströme-Datensatzes: Für die 6-DoF-Greifposenerkennung, bereitstellung eines Bewertungs-Benchmarks für dieses aufstrebende Feld
- Validierung der Dateneffizienz des Frameworks: Demonstriert starke Verallgemeinerungsfähigkeit auch mit begrenzten Trainingsproben
Gegeben ein kontinuierlicher binärer Spike-Strom St1N∈{0,1}H×W×N, besteht das Ziel darin, die 6-DoF-Greifpose zum Zeitpunkt t1 zu schätzen. Die Greifpose wird dargestellt als:
G=(R,t,w)
wobei R∈R3×3 die Rotationsmatrix ist, t∈R3×1 der Translationsvektor und w∈R die Greifer-Breite.
Spike-Kameras simulieren die Integrations-Entladungs-Architektur der Fovea in der Netzhaut. Jedes Pixel enthält einen Lichtsensor, einen Integrator und einen Komparator. Wenn der akkumulierte Wert den Schwellenwert θ überschreitet, gibt das Pixel ein binäres Ereignis aus:
A(x,y,t)=(∫0tI(x,y,s)ds)modθ
- Spike-Merkmalsextraktion: Verwendet 7×7-Faltung und Residualblöcke zur Verarbeitung von linken und rechten Spike-Strömen Sl,Sr
- Korrelationsvolumen-Berechnung: Konstruiert Multi-Skalen-Korrelationspyramide
Ci,j,k=∑hfhli,jfhri,k
- Iterative Aktualisierung: Erhält versteckte Zustandsfeld h, aktualisiert durch RSNN:
hk+1=hk+Δh
Dekodiert den endgültigen versteckten Zustand hK zur Erzeugung einer zweikanaligen Wahrscheinlichkeitskarte M∈R2×H×W:
- Erster Kanal: Objekthaftigkeit (objectness)
- Zweiter Kanal: Greifbarkeit (graspness)
Verwendet eine Crop-and-Refine-Strategie zur Vorhersage vollständiger 6-DoF-Greiferkonfigurationen aus versteckten Zuständen und greifbaren Positionen.
- End-to-End-Spike-Verarbeitung: Leitet Greiferposen direkt aus Rohdaten-Spike-Strömen ab, ohne Punktwolkenrekonstruktion
- Biologisch inspirierte Architektur: Ahmt die hierarchische Verarbeitung des Primatensichtsystems nach
- Rekurrente Spike-Neuronale Netze: Nutzt die zeitliche Modellierungsfähigkeit von RSNN
- Multi-Skalen-Korrelations-Matching: Erreicht grobes bis feines Matching durch Korrelationspyramide
Konstruktion eines großflächigen synthetischen Datensatzes:
- Trainingssatz: 100 Szenen, 51.000 Spike-Ströme, 25.600 Objekthaftigkeit/Greifbarkeitskarten
- Testsatz: 90 Szenen, unterteilt in drei Untergruppen
- Seen (Gesehen): 30 Szenen (bekannte Objekte)
- Similar (Ähnlich): 30 Szenen (ähnliche Objekte)
- Novel (Neuartig): 30 Szenen (neue Objekte)
- Umfang: Über 1,1 Milliarden Greiferposen mit 88 Objektmodellen
- Average Precision (AP): Durchschnittliche Genauigkeit über mehrere Reibungskoeffizienten
- AP0.8 und AP0.4: Genauigkeit bei spezifischen Reibungskoeffizienten
- Success Rate: Erfolgsquote in der Simulationsumgebung
Umfasst 9 repräsentative Methoden:
- 2D-Methoden: GG-CNN
- 6-DoF-Methoden: GraspNet, GSNet, GraspFast, KGNv2 usw.
- Multi-View-Methoden: ASGrasp, GraspNeRF
- Training: 18 Epochen, Adam-Optimierer, Lernrate 2×10⁻⁴
- Hardware: NVIDIA RTX 4090 GPU
- Batch-Größe: 4
- Iterationen: 16 Aktualisierungsiterationen
| Methode | Seen | | | Similar | | | Novel | | |
|---|
| AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 |
| GraspNet | 27,56 | 33,43 | 16,59 | 26,11 | 34,18 | 14,23 | 10,55 | 11,25 | 3,98 |
| GSNet | 34,52 | 48,36 | 20,80 | 30,11 | 36,22 | 18,71 | 14,11 | 20,52 | 14,23 |
| GraspFast | 38,46 | 44,25 | 28,66 | 33,83 | 40,05 | 21,32 | 14,63 | 21,05 | 12,85 |
| SpikeGrasp | 38,84 | 47,27 | 29,57 | 34,84 | 40,32 | 25,48 | 15,39 | 18,09 | 9,80 |
- Gesamtleistung: SpikeGrasp erreicht höchste Genauigkeit in den meisten Untergruppen
- Top-1-Erfolgsquote: Seen (78,53%), Similar (72,18%), Novel (36,79%)
- Simulationsvalidierung: Erfolgsquoten in Isaac Sim betragen 91,3%, 85,8%, 70,9%
| Konfiguration | Seen | Similar | Novel |
|---|
| ohne Objekthaftigkeit | 26,14 | 24,41 | 5,54 |
| ohne Greifbarkeit | 34,78 | 30,86 | 11,28 |
| ohne Spike | 25,86 | 24,84 | 8,59 |
| Vollständiges Modell | 38,84 | 34,84 | 15,39 |
Bei verschiedenen Trainings-Datenverhältnissen übertrifft SpikeGrasp konsistent alle Baseline-Methoden, mit deutlicheren Vorteilen bei Datenmangel und zeigt starke Verallgemeinerungsfähigkeit.
RSNN reduziert Gleitkommaoperationen um das 2,3-fache im Vergleich zu ANN, mit Recheneinsparungen von 82,5%, hauptsächlich durch Sparsität erreicht.
- Sampling-Bewertungs-Pipeline: GPD, PointNetGPD usw. generieren Greiferkandidaten und ordnen sie
- End-to-End-Methoden: Variationelle Vorschlagsgenerierung von GraspNet, volumetrische oder punktbasierte Prädiktoren
- Kontextuelle Inferenz: VoteGrasp usw. verbessern Szenenbewusstsein
- Direkte Bildvorhersage: Ableitung von Greifern aus Multi-View-Hinweisen oder neuronalen Szenenkodierungen
- Neuromorphe Wahrnehmung: Verwendung von Ereignis-/Spike-Kameras für Greifer-Inferenz
- Bildrekonstruktion: Verschiedene Methoden zur Rekonstruktion von Bildern aus Spikes
- Computervisions-Aufgaben: Objekterkennung, optischer Fluss, Tiefenschätzung usw.
- Machbarkeitsvalidierung: Erstmals Nachweis der Machbarkeit der direkten 6-DoF-Greifererkennung aus Spike-Strömen
- Leistungsvorteil: Übertrifft traditionelle punktwolkenbasierte Methoden auf synthetischen Datensätzen
- Biologische Plausibilität: Bietet ein neuromorphes End-to-End-Greifer-Erkennungsparadigma
- Synthetische Datenbeschränkung: Experimente basieren auf synthetischen Datensätzen mit Domänenlücke zu echten Daten
- Statische Szenen: Aktuelle Methode auf statischen Szenen etabliert, nutzt noch nicht vollständig die dynamischen Vorteile von Spike-Kameras
- Hardware-Abhängigkeit: Erfordert spezialisierte Spike-Kamera-Hardware
- Echte Datenerfassung: Konstruktion echter Spike-Ströme-Datensätze
- Domänenanpassung: Erkundung von gemischter Domänentransfer und schwach überwachter Feinabstimmung
- Erweiterung auf dynamische Szenen: Vollständige Nutzung der Spike-Kamera-Vorteile in dynamischen Umgebungen
- Starke Innovation: Erste Anwendung von Spike-Kameras auf 6-DoF-Greifererkennung, eröffnet neue Forschungsrichtung
- Biologisch inspiriertes Design: Architektur-Design mit guter biologischer Plausibilität
- Umfassende Experimente: Enthält umfassende Vergleichsexperimente, Ablationsstudien und Dateneffizienzanalyse
- Datensatz-Beitrag: Der konstruierte großflächige synthetische Datensatz bietet wichtige Ressourcen für Feldentwicklung
- Unzureichende Validierung in echten Szenen: Mangel an Verifikationsexperimenten in realen Umgebungen
- Rechenkomplexität: Obwohl theoretisch effizienter, sind praktische Bereitstellungsanforderungen höher
- Dynamische Vorteile nicht demonstriert: Statische Szenen-Experimente zeigen nicht vollständig die dynamischen Wahrnehmungsvorteile von Spike-Kameras
- Akademischer Wert: Bietet wichtige Referenz für Anwendung neuromorpher Bildgebung in der Robotik
- Praktische Perspektiven: Bietet neuen technologischen Pfad für hochgeschwindige, dynamische Greifer-Aufgaben
- Technologischer Fortschritt: Kann breitere Anwendung von Spike-Kameras in der Roboter-Wahrnehmung fördern
- Hochgeschwindige dynamische Szenen: Schnelle Bewegungsumgebungen, die traditionelle Kameras schwer verarbeiten können
- Energieeffiziente Anwendungen: Mobile Roboter-Plattformen, die effiziente Berechnung erfordern
- Spezielle Lichtverhältnisse: Hochdynamik-Bereich oder schwach beleuchtete Umgebungen
Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:
- Traditionelle Greifer-Erkennungsmethoden (GraspNet, GSNet usw.)
- Spike-Kamera-bezogene Forschung (Bildrekonstruktion, Objekterkennung usw.)
- Neuromorphe Computertechnik und Spike-Neuronale-Netzwerk-Forschung
Gesamtbewertung: Dies ist ein bahnbrechendes Papier, das die aufstrebende Spike-Kamera-Sensortechnologie in das Roboter-Greifer-Feld einführt und eine biologisch inspirierte End-to-End-Lösung vorschlägt. Obwohl derzeit auf synthetische Datenvalidierung beschränkt, legt es wichtige Grundlagen für zukünftige dynamische, effiziente Roboter-Greifer-Systeme. Die technischen Beiträge, das experimentelle Design und die Datensatz-Konstruktion des Papiers sind von hoher Qualität und stellen wichtige Fortschritte in der Schnittstellendisziplin neuromorpher Bildgebung und Robotik dar.