2025-11-19T14:07:14.700954

SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams

Gao, Zhang, Xie et al.

Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.

academic

SpikeGrasp: Un Benchmark para Detección de Postura de Agarre 6-DoF desde Flujos de Spike Estéreo

Información Básica

ID del Artículo: 2510.10602
Título: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
Autores: Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang
Clasificación: cs.RO (Robótica), cs.CV (Visión por Computadora)
Fecha de Publicación: 12 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10602

Resumen

Los sistemas tradicionales de agarre robótico generalmente dependen de la conversión de datos de sensores en nubes de puntos 3D explícitas, un paso computacional que no existe en la inteligencia biológica. Este artículo explora un paradigma fundamentalmente diferente e inspirado en la neurobiología para la detección de agarre de 6 grados de libertad. Se introduce el marco SpikeGrasp, que imita la vía visuomotora biológica, procesando eventos asincróicos brutos de cámaras spike estéreo (similares a la retina) para inferir directamente la postura de agarre. El modelo fusiona flujos spike estéreo, utilizando redes neuronales pulsantes recurrentes (similares al procesamiento visual de alto nivel) para optimizar iterativamente hipótesis de agarre sin necesidad de reconstrucción de nubes de puntos. Para validar el método, se construyó un conjunto de datos de benchmark sintético a gran escala. Los experimentos demuestran que SpikeGrasp supera los métodos de referencia tradicionales basados en nubes de puntos, particularmente en escenas desordenadas y sin textura, y exhibe una eficiencia de datos superior.

Antecedentes de Investigación y Motivación

Problema Central

El problema fundamental que enfrentan los sistemas tradicionales de agarre robótico es la dependencia de un pipeline de procesamiento "primero la geometría": capturar la escena → reconstruir el modelo geométrico 3D (típicamente nubes de puntos) → analizar el modelo para encontrar agarres viables. Aunque este paradigma es razonable desde la perspectiva de la gráfica por computadora, difiere significativamente de cómo operan los sistemas biológicos.

Importancia del Problema

Falta de Inspiración Biológica: El cerebro no calcula ni almacena nubes de puntos explícitas para decidir cómo agarrar objetos, sino que procesa flujos de información sensorial continua mediante arquitecturas neuronales eficientes
Complejidad Computacional: La reconstrucción de nubes de puntos es computacionalmente intensiva y frágil, sensible al ruido del sensor y condiciones de iluminación
Limitaciones en Entornos Dinámicos: Los métodos tradicionales tienen robustez limitada al interactuar con entornos dinámicos

Limitaciones de Métodos Existentes

Métodos Basados en Nubes de Puntos: Requieren un paso explícito de reconstrucción 3D con gran carga computacional
Métodos Tradicionales de Aprendizaje Profundo: Carecen de plausibilidad biológica y tienen dificultades para procesar escenas de alto dinamismo
Aplicaciones de Cámaras de Eventos: Aunque hay exploración de sensores neuromórficos, falta un benchmark estandarizado y arquitectura específica para tareas de agarre 6-DoF

Motivación de la Investigación

Explorar una ruta diferente inspirada en la eficiencia y elegancia del sistema visuomotor del cerebro, infiriendo directamente la postura de agarre desde flujos spike sin pasar por representaciones geométricas intermedias.

Contribuciones Principales

Propone la Arquitectura SpikeGrasp Inspirada en Biología: Procesa datos spike asincróicos mediante actualización iterativa, superando métodos anteriores en calidad de detección en conjuntos de datos sintéticos
Construye el Primer Conjunto de Datos Sintético a Gran Escala de Flujos Spike: Para detección de postura de agarre 6-DoF, proporcionando un benchmark de evaluación para este campo emergente
Verifica la Eficiencia de Datos del Marco: Demuestra una fuerte capacidad de generalización incluso con muestras de entrenamiento limitadas

Explicación Detallada del Método

Definición de la Tarea

Dado un flujo spike binario continuo $S_{t_1}^N \in \{0,1\}^{H \times W \times N}$ , el objetivo es estimar la postura de agarre 6-DoF correspondiente al momento $t_1$ . La postura de agarre se representa como: $G = (R, t, w)$ donde $R \in \mathbb{R}^{3 \times 3}$ es la matriz de rotación, $t \in \mathbb{R}^{3 \times 1}$ es el vector de traslación, y $w \in \mathbb{R}$ es el ancho de la pinza.

Arquitectura del Modelo

1. Principio de la Cámara Spike

La cámara spike simula la arquitectura de integración-disparo de la fóvea retiniana. Cada píxel contiene un fotorreceptor, integrador y comparador. Cuando el valor acumulado excede el umbral θ, el píxel emite un evento binario: $A(x,y,t) = \left(\int_0^t I(x,y,s)ds\right) \bmod \theta$

2. Red de Vía Visual (Visual Pathway Network)

Extracción de Características Spike: Utiliza convoluciones 7×7 y bloques residuales para procesar flujos spike izquierdo y derecho $S_l, S_r$
Cálculo del Volumen de Correlación: Construye una pirámide de correlación multiescala $C_{i,j,k} = \sum_h f_h^l{}_{i,j} f_h^r{}_{i,k}$
Actualización Iterativa: Mantiene un campo de estado oculto $h$ , actualizado mediante RSNN: $h^{k+1} = h^k + \Delta h$

3. Red de Agarrabilidad (Graspable Network)

Decodifica el estado oculto final $h^K$ para generar un mapa de probabilidad de dos canales $M \in \mathbb{R}^{2 \times H \times W}$ :

Primer canal: objetividad (objectness)
Segundo canal: agarrabilidad (graspness)

4. Red de Detección de Agarre (Grasp Detection Network)

Adopta una estrategia de recorte y refinamiento, prediciendo la configuración completa de agarre 6-DoF a partir del estado oculto y ubicaciones agarrables.

Puntos de Innovación Técnica

Procesamiento de Spike de Extremo a Extremo: Infiere directamente la postura de agarre desde flujos spike brutos sin necesidad de reconstrucción de nubes de puntos
Arquitectura Inspirada en Biología: Imita el procesamiento jerárquico del sistema visual de primates
Red Neuronal Pulsante Recurrente: Aprovecha la capacidad de modelado temporal de RSNN
Coincidencia de Correlación Multiescala: Logra coincidencia de grueso a fino mediante pirámide de correlación

Configuración Experimental

Conjunto de Datos

Se construyó un conjunto de datos sintético a gran escala:

Conjunto de Entrenamiento: 100 escenas, 51,000 flujos spike, 25,600 mapas de objetividad/agarrabilidad
Conjunto de Prueba: 90 escenas, divididas en tres subconjuntos
- Visto (Seen): 30 escenas (objetos vistos)
- Similar: 30 escenas (objetos similares)
- Novedoso (Novel): 30 escenas (objetos nuevos)
Escala: Más de 1.1 mil millones de posturas de agarre, utilizando 88 modelos de objetos

Métricas de Evaluación

Precisión Promedio (AP): Precisión promedio bajo múltiples coeficientes de fricción
AP0.8 y AP0.4: Precisión bajo coeficientes de fricción específicos
Tasa de Éxito: Tasa de éxito en entorno de simulación

Métodos de Comparación

Incluye 9 métodos representativos:

Métodos 2D: GG-CNN
Métodos 6-DoF: GraspNet, GSNet, GraspFast, KGNv2, etc.
Métodos Multivista: ASGrasp, GraspNeRF

Detalles de Implementación

Entrenamiento: 18 épocas, optimizador Adam, tasa de aprendizaje 2×10⁻⁴
Hardware: GPU NVIDIA RTX 4090
Tamaño de Lote: 4
Número de Iteraciones: 16 iteraciones de actualización

Resultados Experimentales

Resultados Principales

Método	Visto			Similar			Novedoso
	AP	AP0.8	AP0.4	AP	AP0.8	AP0.4	AP	AP0.8	AP0.4
GraspNet	27.56	33.43	16.59	26.11	34.18	14.23	10.55	11.25	3.98
GSNet	34.52	48.36	20.80	30.11	36.22	18.71	14.11	20.52	14.23
GraspFast	38.46	44.25	28.66	33.83	40.05	21.32	14.63	21.05	12.85
SpikeGrasp	38.84	47.27	29.57	34.84	40.32	25.48	15.39	18.09	9.80

Hallazgos Clave

Rendimiento General: SpikeGrasp logra la máxima precisión en la mayoría de subconjuntos
Tasa de Éxito Top-1: Visto (78.53%), Similar (72.18%), Novedoso (36.79%)
Verificación en Simulación: Tasas de éxito en Isaac Sim de 91.3%, 85.8%, 70.9% respectivamente

Experimentos de Ablación

Configuración	Visto	Similar	Novedoso
sin objetividad	26.14	24.41	5.54
sin agarrabilidad	34.78	30.86	11.28
sin spike	25.86	24.84	8.59
Modelo Completo	38.84	34.84	15.39

Análisis de Eficiencia de Datos

Con diferentes proporciones de datos de entrenamiento, SpikeGrasp consistentemente supera todos los métodos de referencia, con ventajas más evidentes cuando los datos son escasos, demostrando una fuerte capacidad de generalización.

Eficiencia Computacional

RSNN en comparación con ANN reduce las operaciones de punto flotante en 2.3 veces, logrando ahorros computacionales del 82.5%, principalmente mediante la implementación de esparsidad.

Trabajos Relacionados

Métodos Basados en Nubes de Puntos

Pipeline de Muestreo-Evaluación: GPD, PointNetGPD y otros generan y clasifican candidatos de agarre
Métodos de Extremo a Extremo: Generación de propuestas variacionales de GraspNet, predictores volumétricos o basados en puntos
Razonamiento Contextual: VoteGrasp y otros mejoran la conciencia de escena

Métodos sin Nubes de Puntos Explícitas

Predicción Directa de Imagen: Inferencia de agarre desde pistas multivista o codificación de escena neural
Sensores Neuromórficos: Uso de cámaras de eventos/spike para razonamiento de agarre

Aplicaciones de Cámaras Spike

Reconstrucción de Imagen: Diversos métodos para reconstruir imágenes desde spike
Tareas de Visión por Computadora: Detección de objetos, estimación de flujo óptico, estimación de profundidad, etc.

Conclusiones y Discusión

Conclusiones Principales

Verificación de Viabilidad: Primera demostración de la viabilidad de detección de agarre 6-DoF directamente desde flujos spike
Ventajas de Rendimiento: Supera métodos tradicionales basados en nubes de puntos en conjuntos de datos sintéticos
Plausibilidad Biológica: Proporciona un paradigma de detección de agarre de extremo a extremo inspirado en neurobiología

Limitaciones

Restricciones de Datos Sintéticos: Los experimentos se basan en conjuntos de datos sintéticos, con brecha de dominio respecto a datos reales
Escenas Estáticas: El método actual se establece en escenas estáticas, sin aprovechar completamente las ventajas dinámicas de las cámaras spike
Dependencia de Hardware: Requiere hardware especializado de cámara spike

Direcciones Futuras

Recopilación de Datos Reales: Construir conjuntos de datos de flujos spike reales
Adaptación de Dominio: Explorar transferencia de dominio mixto y ajuste fino débilmente supervisado
Extensión a Escenas Dinámicas: Aprovechar completamente las ventajas de las cámaras spike en entornos dinámicos

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera aplicación de cámaras spike a detección de agarre 6-DoF, abriendo una nueva dirección de investigación
Diseño Inspirado en Biología: El diseño de la arquitectura posee buena plausibilidad biológica
Experimentos Completos: Incluye experimentos de comparación exhaustivos, estudios de ablación y análisis de eficiencia de datos
Contribución de Conjunto de Datos: El conjunto de datos sintético a gran escala construido proporciona un recurso importante para el desarrollo del campo

Insuficiencias

Verificación Insuficiente en Escenas Reales: Carece de experimentos de validación en entornos reales
Complejidad Computacional: Aunque teóricamente más eficiente, los requisitos de hardware para implementación práctica son relativamente altos
Ventajas Dinámicas No Demostradas: Los experimentos en escenas estáticas no demuestran completamente las ventajas de sensibilidad dinámica de las cámaras spike

Impacto

Valor Académico: Proporciona referencia importante para aplicaciones de visión neuromórfica en robótica
Perspectivas Prácticas: Proporciona una nueva ruta tecnológica para tareas de agarre de alta velocidad y dinámicas
Impulso Tecnológico: Puede promover aplicaciones más amplias de cámaras spike en percepción robótica

Escenarios Aplicables

Escenas Dinámicas de Alta Velocidad: Entornos de movimiento rápido difíciles de procesar con cámaras tradicionales
Aplicaciones de Bajo Consumo: Plataformas de robots móviles que requieren computación eficiente
Condiciones de Iluminación Especial: Entornos de rango dinámico alto o baja iluminación

Referencias

El artículo cita abundantes trabajos relacionados, incluyendo:

Métodos tradicionales de detección de agarre (GraspNet, GSNet, etc.)
Investigación relacionada con cámaras spike (reconstrucción de imagen, detección de objetos, etc.)
Investigación en computación neuromórfica y redes neuronales pulsantes

Evaluación General: Este es un artículo de importancia pionera que introduce la tecnología de sensores spike, una tecnología emergente, al campo de agarre robótico, proponiendo una solución de extremo a extremo inspirada en biología. Aunque actualmente se limita a validación en datos sintéticos, sienta una base importante para futuros sistemas de agarre robótico dinámicos y eficientes. Las contribuciones técnicas del artículo, diseño experimental y construcción de conjuntos de datos poseen alta calidad, representando un progreso importante en el campo interdisciplinario de visión neuromórfica y robótica.