2025-11-19T14:07:14.700954

SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams

Gao, Zhang, Xie et al.
Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.
academic

SpikeGrasp : Un Benchmark pour la Détection de Pose de Préhension 6-DoF à partir de Flux Stéréo Spike

Informations de Base

  • ID de l'article : 2510.10602
  • Titre : SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
  • Auteurs : Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang
  • Classification : cs.RO (Robotique), cs.CV (Vision par Ordinateur)
  • Date de publication : 12 octobre 2025 (préimpression arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.10602

Résumé

Les systèmes de préhension robotique traditionnels dépendent généralement de la conversion des données de capteurs en nuages de points 3D explicites, une étape de calcul inexistante dans l'intelligence biologique. Cet article explore un paradigme fondamentalement différent et inspiré par les neurosciences pour la détection de préhension 6-DoF. L'étude introduit le cadre SpikeGrasp, qui imite la voie visuo-motrice biologique, traitant les événements asynchrones bruts provenant de caméras spike stéréo (similaires à la rétine), pour déduire directement la pose de préhension. Le modèle fusionne les flux spike stéréo, utilisant des réseaux de neurones impulsionnels récurrents (similaires au traitement visuel supérieur) pour optimiser itérativement les hypothèses de préhension, sans nécessiter de reconstruction de nuage de points. Pour valider cette approche, l'étude construit un grand ensemble de données de benchmark synthétique. Les expériences montrent que SpikeGrasp surpasse les méthodes de base traditionnelles basées sur les nuages de points, particulièrement dans les scènes encombrées et sans texture, et démontre une efficacité de données supérieure.

Contexte et Motivation de la Recherche

Problème Central

Le problème fondamental auquel font face les systèmes de préhension robotique traditionnels est leur dépendance à un pipeline de traitement « géométrie d'abord » : capturer la scène → reconstruire le modèle géométrique 3D (généralement un nuage de points) → analyser le modèle pour trouver des préhensions viables. Bien que ce paradigme soit raisonnable du point de vue de l'infographie, il diffère considérablement du fonctionnement des systèmes biologiques.

Importance du Problème

  1. Absence d'inspiration biologique : Le cerveau ne calcule ni ne stocke de nuages de points explicites pour décider comment saisir un objet, mais traite plutôt des flux d'informations sensorielles continus par le biais d'architectures neurales efficaces
  2. Complexité computationnelle : La reconstruction de nuages de points est intensive en calcul et fragile, sensible au bruit des capteurs et aux conditions d'éclairage
  3. Limitations dans les environnements dynamiques : Les méthodes traditionnelles ont une robustesse limitée lors de l'interaction avec des environnements dynamiques

Limitations des Approches Existantes

  1. Méthodes basées sur les nuages de points : Nécessitent une étape de reconstruction 3D explicite, avec un surcoût computationnel important
  2. Méthodes d'apprentissage profond traditionnelles : Manquent de plausibilité biologique, difficiles à traiter dans les scènes hautement dynamiques
  3. Applications de caméras d'événements : Bien qu'il existe des explorations de la détection neuromorphe, il manque un benchmark normalisé et une architecture spécifique à la tâche pour la préhension 6-DoF

Motivation de la Recherche

Explorer une voie différente inspirée par l'efficacité et l'élégance du système visuo-moteur du cerveau, en déduisant directement la pose de préhension à partir des flux spike, sans passer par une représentation géométrique intermédiaire.

Contributions Principales

  1. Proposition de l'architecture SpikeGrasp inspirée par la biologie : Traitement des données spike asynchrones par mise à jour itérative, dépassant les méthodes antérieures en qualité de détection sur l'ensemble de données synthétique
  2. Construction du premier grand ensemble de données synthétique de flux spike : Pour la détection de pose de préhension 6-DoF, fournissant un benchmark d'évaluation pour ce domaine émergent
  3. Vérification de l'efficacité des données du cadre : Démonstration d'une forte capacité de généralisation même avec un nombre limité d'échantillons d'entraînement

Détails de la Méthode

Définition de la Tâche

Étant donné un flux spike binaire continu St1N{0,1}H×W×NS_{t_1}^N \in \{0,1\}^{H \times W \times N}, l'objectif est d'estimer la pose de préhension 6-DoF correspondant au moment t1t_1. La pose de préhension est représentée comme : G=(R,t,w)G = (R, t, w)RR3×3R \in \mathbb{R}^{3 \times 3} est la matrice de rotation, tR3×1t \in \mathbb{R}^{3 \times 1} est le vecteur de translation, et wRw \in \mathbb{R} est la largeur de la pince.

Architecture du Modèle

1. Principes de la Caméra Spike

La caméra spike imite l'architecture d'intégration-décharge de la fovéa rétinienne. Chaque pixel contient un photodétecteur, un intégrateur et un comparateur. Lorsque la valeur accumulée dépasse le seuil θ, le pixel émet un événement binaire : A(x,y,t)=(0tI(x,y,s)ds)modθA(x,y,t) = \left(\int_0^t I(x,y,s)ds\right) \bmod \theta

2. Réseau de Voie Visuelle (Visual Pathway Network)

  • Extraction de caractéristiques Spike : Utilisation de convolutions 7×7 et de blocs résiduels pour traiter les flux spike gauche et droit Sl,SrS_l, S_r
  • Calcul du volume de corrélation : Construction d'une pyramide de corrélation multi-échelle Ci,j,k=hfhli,jfhri,kC_{i,j,k} = \sum_h f_h^l{}_{i,j} f_h^r{}_{i,k}
  • Mise à jour itérative : Maintien d'un champ d'état caché hh, mis à jour via RSNN : hk+1=hk+Δhh^{k+1} = h^k + \Delta h

3. Réseau de Préhensibilité (Graspable Network)

Décodage de l'état caché final hKh^K pour générer une carte de probabilité à deux canaux MR2×H×WM \in \mathbb{R}^{2 \times H \times W} :

  • Premier canal : objectness (objectivité)
  • Deuxième canal : graspness (préhensibilité)

4. Réseau de Détection de Préhension (Grasp Detection Network)

Adoption d'une stratégie crop-and-refine, prédisant la configuration complète de préhension 6-DoF à partir de l'état caché et des emplacements préhensibles.

Points d'Innovation Technique

  1. Traitement spike de bout en bout : Déduction directe de la pose de préhension à partir des flux spike bruts, sans reconstruction de nuage de points
  2. Architecture inspirée par la biologie : Imitation du traitement hiérarchique du système visuel des primates
  3. Réseau de neurones impulsionnels récurrents : Exploitation de la capacité de modélisation temporelle du RSNN
  4. Appariement de corrélation multi-échelle : Réalisation d'un appariement du grossier au fin via pyramide de corrélation

Configuration Expérimentale

Ensemble de Données

Construction d'un grand ensemble de données synthétique :

  • Ensemble d'entraînement : 100 scènes, 51 000 flux spike, 25 600 cartes objectness/graspness
  • Ensemble de test : 90 scènes, divisées en trois sous-ensembles
    • Seen : 30 scènes (objets vus)
    • Similar : 30 scènes (objets similaires)
    • Novel : 30 scènes (objets nouveaux)
  • Échelle : Plus de 1,1 milliard de poses de préhension, utilisant 88 modèles d'objets

Métriques d'Évaluation

  • Average Precision (AP) : Précision moyenne sur plusieurs coefficients de friction
  • AP0.8 et AP0.4 : Précision sous coefficients de friction spécifiques
  • Success Rate : Taux de réussite dans l'environnement de simulation

Méthodes de Comparaison

Incluant 9 méthodes représentatives :

  • Méthodes 2D : GG-CNN
  • Méthodes 6-DoF : GraspNet, GSNet, GraspFast, KGNv2, etc.
  • Méthodes multi-vues : ASGrasp, GraspNeRF

Détails d'Implémentation

  • Entraînement : 18 epochs, optimiseur Adam, taux d'apprentissage 2×10⁻⁴
  • Matériel : GPU NVIDIA RTX 4090
  • Taille de batch : 4
  • Nombre d'itérations : 16 itérations de mise à jour

Résultats Expérimentaux

Résultats Principaux

MéthodeSeenSimilarNovel
APAP0.8AP0.4APAP0.8AP0.4APAP0.8AP0.4
GraspNet27.5633.4316.5926.1134.1814.2310.5511.253.98
GSNet34.5248.3620.8030.1136.2218.7114.1120.5214.23
GraspFast38.4644.2528.6633.8340.0521.3214.6321.0512.85
SpikeGrasp38.8447.2729.5734.8440.3225.4815.3918.099.80

Résultats Clés

  1. Performance globale : SpikeGrasp atteint la précision la plus élevée sur la plupart des sous-ensembles
  2. Taux de réussite Top-1 : Seen (78.53%), Similar (72.18%), Novel (36.79%)
  3. Vérification en simulation : Taux de réussite dans Isaac Sim respectivement de 91.3%, 85.8%, 70.9%

Étude d'Ablation

ConfigurationSeenSimilarNovel
w/o objectness26.1424.415.54
w/o graspness34.7830.8611.28
w/o spike25.8624.848.59
Modèle complet38.8434.8415.39

Analyse de l'Efficacité des Données

Avec différentes proportions de données d'entraînement, SpikeGrasp surpasse constamment toutes les méthodes de base, avec des avantages plus marqués en cas de rareté de données, démontrant une forte capacité de généralisation.

Efficacité Computationnelle

Le RSNN réduit les opérations en virgule flottante de 2,3 fois par rapport aux ANN, avec des économies de calcul de 82,5%, réalisant des économies de calcul significatives principalement par la parcimonie.

Travaux Connexes

Méthodes Basées sur les Nuages de Points

  • Pipeline d'échantillonnage-évaluation : GPD, PointNetGPD et autres générant et classant les candidats de préhension
  • Méthodes de bout en bout : Génération de propositions variationnelles de GraspNet, prédicteurs volumétriques ou basés sur les points
  • Inférence contextuelle : VoteGrasp et autres améliorant la conscience de la scène

Méthodes sans Nuage de Points Explicite

  • Prédiction directe à partir d'images : Déduction de préhensions à partir d'indices multi-vues ou d'encodages de scènes neurales
  • Détection neuromorphe : Utilisation de caméras d'événements/spike pour l'inférence de préhension

Applications de Caméras Spike

  • Reconstruction d'images : Diverses méthodes de reconstruction d'images à partir de spike
  • Tâches de vision par ordinateur : Détection d'objets, estimation du flux optique, estimation de profondeur, etc.

Conclusion et Discussion

Conclusions Principales

  1. Vérification de la faisabilité : Première démonstration de la faisabilité de la détection de préhension 6-DoF directement à partir de flux spike
  2. Avantages de performance : Dépassement des méthodes traditionnelles basées sur les nuages de points sur l'ensemble de données synthétique
  3. Plausibilité biologique : Fourniture d'un paradigme de détection de préhension de bout en bout inspiré par les neurosciences

Limitations

  1. Limitations des données synthétiques : Les expériences sont basées sur un ensemble de données synthétique, avec un écart de domaine par rapport aux données réelles
  2. Scènes statiques : La méthode actuelle est établie sur des scènes statiques, n'exploitant pas encore pleinement les avantages dynamiques de la caméra spike
  3. Dépendance matérielle : Nécessite un matériel de caméra spike spécialisé

Directions Futures

  1. Collecte de données réelles : Construction d'un ensemble de données de flux spike réels
  2. Adaptation de domaine : Exploration du transfert de domaine mixte et du réglage fin faiblement supervisé
  3. Extension aux scènes dynamiques : Exploitation complète des avantages de la caméra spike dans les environnements dynamiques

Évaluation Approfondie

Points Forts

  1. Innovation forte : Première application de caméras spike à la détection de pose de préhension 6-DoF, ouvrant une nouvelle direction de recherche
  2. Conception inspirée par la biologie : La conception de l'architecture possède une bonne plausibilité biologique
  3. Expériences complètes : Incluant des expériences de comparaison complètes, des études d'ablation et une analyse de l'efficacité des données
  4. Contribution d'ensemble de données : L'ensemble de données synthétique à grande échelle construit fournit une ressource importante pour le développement du domaine

Insuffisances

  1. Vérification insuffisante en scènes réelles : Manque d'expériences de vérification dans des environnements réels
  2. Complexité computationnelle : Bien que théoriquement plus efficace, les exigences matérielles pour le déploiement réel sont relativement élevées
  3. Avantages dynamiques non manifestes : Les expériences en scènes statiques n'ont pas pleinement démontré les avantages de détection dynamique de la caméra spike

Impact

  1. Valeur académique : Fournit une référence importante pour l'application de la vision neuromorphe en robotique
  2. Perspectives pratiques : Fournit une nouvelle voie technologique pour les tâches de préhension haute vitesse et dynamique
  3. Promotion technologique : Peut promouvoir une application plus large des caméras spike dans la perception robotique

Scénarios d'Application

  1. Scènes hautement dynamiques : Environnements de mouvement rapide difficiles à traiter pour les caméras traditionnelles
  2. Applications basse consommation : Plateformes de robots mobiles nécessitant un calcul efficace
  3. Conditions d'éclairage spéciales : Environnements à plage dynamique élevée ou faible luminosité

Références

L'article cite un grand nombre de travaux connexes, incluant :

  • Méthodes traditionnelles de détection de préhension (GraspNet, GSNet, etc.)
  • Recherches connexes sur les caméras spike (reconstruction d'images, détection d'objets, etc.)
  • Recherches sur le calcul neuromorphe et les réseaux de neurones impulsionnels

Évaluation Globale : Cet article est d'une importance pionnière, introduisant la technologie de capteur spike émergente dans le domaine de la préhension robotique, proposant une solution de bout en bout inspirée par la biologie. Bien que actuellement limité à la vérification sur données synthétiques, il jette des bases importantes pour les futurs systèmes de préhension robotique dynamiques et efficaces. Les contributions techniques, la conception expérimentale et la construction d'ensemble de données de l'article sont tous de haute qualité, représentant un progrès important dans le domaine interdisciplinaire de la vision neuromorphe et de la robotique.