Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.
- ID del Artículo: 2510.10602
- Título: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
- Autores: Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang
- Clasificación: cs.RO (Robótica), cs.CV (Visión por Computadora)
- Fecha de Publicación: 12 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.10602
Los sistemas tradicionales de agarre robótico generalmente dependen de la conversión de datos de sensores en nubes de puntos 3D explícitas, un paso computacional que no existe en la inteligencia biológica. Este artículo explora un paradigma fundamentalmente diferente e inspirado en la neurobiología para la detección de agarre de 6 grados de libertad. Se introduce el marco SpikeGrasp, que imita la vía visuomotora biológica, procesando eventos asincróicos brutos de cámaras spike estéreo (similares a la retina) para inferir directamente la postura de agarre. El modelo fusiona flujos spike estéreo, utilizando redes neuronales pulsantes recurrentes (similares al procesamiento visual de alto nivel) para optimizar iterativamente hipótesis de agarre sin necesidad de reconstrucción de nubes de puntos. Para validar el método, se construyó un conjunto de datos de benchmark sintético a gran escala. Los experimentos demuestran que SpikeGrasp supera los métodos de referencia tradicionales basados en nubes de puntos, particularmente en escenas desordenadas y sin textura, y exhibe una eficiencia de datos superior.
El problema fundamental que enfrentan los sistemas tradicionales de agarre robótico es la dependencia de un pipeline de procesamiento "primero la geometría": capturar la escena → reconstruir el modelo geométrico 3D (típicamente nubes de puntos) → analizar el modelo para encontrar agarres viables. Aunque este paradigma es razonable desde la perspectiva de la gráfica por computadora, difiere significativamente de cómo operan los sistemas biológicos.
- Falta de Inspiración Biológica: El cerebro no calcula ni almacena nubes de puntos explícitas para decidir cómo agarrar objetos, sino que procesa flujos de información sensorial continua mediante arquitecturas neuronales eficientes
- Complejidad Computacional: La reconstrucción de nubes de puntos es computacionalmente intensiva y frágil, sensible al ruido del sensor y condiciones de iluminación
- Limitaciones en Entornos Dinámicos: Los métodos tradicionales tienen robustez limitada al interactuar con entornos dinámicos
- Métodos Basados en Nubes de Puntos: Requieren un paso explícito de reconstrucción 3D con gran carga computacional
- Métodos Tradicionales de Aprendizaje Profundo: Carecen de plausibilidad biológica y tienen dificultades para procesar escenas de alto dinamismo
- Aplicaciones de Cámaras de Eventos: Aunque hay exploración de sensores neuromórficos, falta un benchmark estandarizado y arquitectura específica para tareas de agarre 6-DoF
Explorar una ruta diferente inspirada en la eficiencia y elegancia del sistema visuomotor del cerebro, infiriendo directamente la postura de agarre desde flujos spike sin pasar por representaciones geométricas intermedias.
- Propone la Arquitectura SpikeGrasp Inspirada en Biología: Procesa datos spike asincróicos mediante actualización iterativa, superando métodos anteriores en calidad de detección en conjuntos de datos sintéticos
- Construye el Primer Conjunto de Datos Sintético a Gran Escala de Flujos Spike: Para detección de postura de agarre 6-DoF, proporcionando un benchmark de evaluación para este campo emergente
- Verifica la Eficiencia de Datos del Marco: Demuestra una fuerte capacidad de generalización incluso con muestras de entrenamiento limitadas
Dado un flujo spike binario continuo St1N∈{0,1}H×W×N, el objetivo es estimar la postura de agarre 6-DoF correspondiente al momento t1. La postura de agarre se representa como:
G=(R,t,w)
donde R∈R3×3 es la matriz de rotación, t∈R3×1 es el vector de traslación, y w∈R es el ancho de la pinza.
La cámara spike simula la arquitectura de integración-disparo de la fóvea retiniana. Cada píxel contiene un fotorreceptor, integrador y comparador. Cuando el valor acumulado excede el umbral θ, el píxel emite un evento binario:
A(x,y,t)=(∫0tI(x,y,s)ds)modθ
- Extracción de Características Spike: Utiliza convoluciones 7×7 y bloques residuales para procesar flujos spike izquierdo y derecho Sl,Sr
- Cálculo del Volumen de Correlación: Construye una pirámide de correlación multiescala
Ci,j,k=∑hfhli,jfhri,k
- Actualización Iterativa: Mantiene un campo de estado oculto h, actualizado mediante RSNN:
hk+1=hk+Δh
Decodifica el estado oculto final hK para generar un mapa de probabilidad de dos canales M∈R2×H×W:
- Primer canal: objetividad (objectness)
- Segundo canal: agarrabilidad (graspness)
Adopta una estrategia de recorte y refinamiento, prediciendo la configuración completa de agarre 6-DoF a partir del estado oculto y ubicaciones agarrables.
- Procesamiento de Spike de Extremo a Extremo: Infiere directamente la postura de agarre desde flujos spike brutos sin necesidad de reconstrucción de nubes de puntos
- Arquitectura Inspirada en Biología: Imita el procesamiento jerárquico del sistema visual de primates
- Red Neuronal Pulsante Recurrente: Aprovecha la capacidad de modelado temporal de RSNN
- Coincidencia de Correlación Multiescala: Logra coincidencia de grueso a fino mediante pirámide de correlación
Se construyó un conjunto de datos sintético a gran escala:
- Conjunto de Entrenamiento: 100 escenas, 51,000 flujos spike, 25,600 mapas de objetividad/agarrabilidad
- Conjunto de Prueba: 90 escenas, divididas en tres subconjuntos
- Visto (Seen): 30 escenas (objetos vistos)
- Similar: 30 escenas (objetos similares)
- Novedoso (Novel): 30 escenas (objetos nuevos)
- Escala: Más de 1.1 mil millones de posturas de agarre, utilizando 88 modelos de objetos
- Precisión Promedio (AP): Precisión promedio bajo múltiples coeficientes de fricción
- AP0.8 y AP0.4: Precisión bajo coeficientes de fricción específicos
- Tasa de Éxito: Tasa de éxito en entorno de simulación
Incluye 9 métodos representativos:
- Métodos 2D: GG-CNN
- Métodos 6-DoF: GraspNet, GSNet, GraspFast, KGNv2, etc.
- Métodos Multivista: ASGrasp, GraspNeRF
- Entrenamiento: 18 épocas, optimizador Adam, tasa de aprendizaje 2×10⁻⁴
- Hardware: GPU NVIDIA RTX 4090
- Tamaño de Lote: 4
- Número de Iteraciones: 16 iteraciones de actualización
| Método | Visto | | | Similar | | | Novedoso | | |
|---|
| AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 |
| GraspNet | 27.56 | 33.43 | 16.59 | 26.11 | 34.18 | 14.23 | 10.55 | 11.25 | 3.98 |
| GSNet | 34.52 | 48.36 | 20.80 | 30.11 | 36.22 | 18.71 | 14.11 | 20.52 | 14.23 |
| GraspFast | 38.46 | 44.25 | 28.66 | 33.83 | 40.05 | 21.32 | 14.63 | 21.05 | 12.85 |
| SpikeGrasp | 38.84 | 47.27 | 29.57 | 34.84 | 40.32 | 25.48 | 15.39 | 18.09 | 9.80 |
- Rendimiento General: SpikeGrasp logra la máxima precisión en la mayoría de subconjuntos
- Tasa de Éxito Top-1: Visto (78.53%), Similar (72.18%), Novedoso (36.79%)
- Verificación en Simulación: Tasas de éxito en Isaac Sim de 91.3%, 85.8%, 70.9% respectivamente
| Configuración | Visto | Similar | Novedoso |
|---|
| sin objetividad | 26.14 | 24.41 | 5.54 |
| sin agarrabilidad | 34.78 | 30.86 | 11.28 |
| sin spike | 25.86 | 24.84 | 8.59 |
| Modelo Completo | 38.84 | 34.84 | 15.39 |
Con diferentes proporciones de datos de entrenamiento, SpikeGrasp consistentemente supera todos los métodos de referencia, con ventajas más evidentes cuando los datos son escasos, demostrando una fuerte capacidad de generalización.
RSNN en comparación con ANN reduce las operaciones de punto flotante en 2.3 veces, logrando ahorros computacionales del 82.5%, principalmente mediante la implementación de esparsidad.
- Pipeline de Muestreo-Evaluación: GPD, PointNetGPD y otros generan y clasifican candidatos de agarre
- Métodos de Extremo a Extremo: Generación de propuestas variacionales de GraspNet, predictores volumétricos o basados en puntos
- Razonamiento Contextual: VoteGrasp y otros mejoran la conciencia de escena
- Predicción Directa de Imagen: Inferencia de agarre desde pistas multivista o codificación de escena neural
- Sensores Neuromórficos: Uso de cámaras de eventos/spike para razonamiento de agarre
- Reconstrucción de Imagen: Diversos métodos para reconstruir imágenes desde spike
- Tareas de Visión por Computadora: Detección de objetos, estimación de flujo óptico, estimación de profundidad, etc.
- Verificación de Viabilidad: Primera demostración de la viabilidad de detección de agarre 6-DoF directamente desde flujos spike
- Ventajas de Rendimiento: Supera métodos tradicionales basados en nubes de puntos en conjuntos de datos sintéticos
- Plausibilidad Biológica: Proporciona un paradigma de detección de agarre de extremo a extremo inspirado en neurobiología
- Restricciones de Datos Sintéticos: Los experimentos se basan en conjuntos de datos sintéticos, con brecha de dominio respecto a datos reales
- Escenas Estáticas: El método actual se establece en escenas estáticas, sin aprovechar completamente las ventajas dinámicas de las cámaras spike
- Dependencia de Hardware: Requiere hardware especializado de cámara spike
- Recopilación de Datos Reales: Construir conjuntos de datos de flujos spike reales
- Adaptación de Dominio: Explorar transferencia de dominio mixto y ajuste fino débilmente supervisado
- Extensión a Escenas Dinámicas: Aprovechar completamente las ventajas de las cámaras spike en entornos dinámicos
- Innovación Fuerte: Primera aplicación de cámaras spike a detección de agarre 6-DoF, abriendo una nueva dirección de investigación
- Diseño Inspirado en Biología: El diseño de la arquitectura posee buena plausibilidad biológica
- Experimentos Completos: Incluye experimentos de comparación exhaustivos, estudios de ablación y análisis de eficiencia de datos
- Contribución de Conjunto de Datos: El conjunto de datos sintético a gran escala construido proporciona un recurso importante para el desarrollo del campo
- Verificación Insuficiente en Escenas Reales: Carece de experimentos de validación en entornos reales
- Complejidad Computacional: Aunque teóricamente más eficiente, los requisitos de hardware para implementación práctica son relativamente altos
- Ventajas Dinámicas No Demostradas: Los experimentos en escenas estáticas no demuestran completamente las ventajas de sensibilidad dinámica de las cámaras spike
- Valor Académico: Proporciona referencia importante para aplicaciones de visión neuromórfica en robótica
- Perspectivas Prácticas: Proporciona una nueva ruta tecnológica para tareas de agarre de alta velocidad y dinámicas
- Impulso Tecnológico: Puede promover aplicaciones más amplias de cámaras spike en percepción robótica
- Escenas Dinámicas de Alta Velocidad: Entornos de movimiento rápido difíciles de procesar con cámaras tradicionales
- Aplicaciones de Bajo Consumo: Plataformas de robots móviles que requieren computación eficiente
- Condiciones de Iluminación Especial: Entornos de rango dinámico alto o baja iluminación
El artículo cita abundantes trabajos relacionados, incluyendo:
- Métodos tradicionales de detección de agarre (GraspNet, GSNet, etc.)
- Investigación relacionada con cámaras spike (reconstrucción de imagen, detección de objetos, etc.)
- Investigación en computación neuromórfica y redes neuronales pulsantes
Evaluación General: Este es un artículo de importancia pionera que introduce la tecnología de sensores spike, una tecnología emergente, al campo de agarre robótico, proponiendo una solución de extremo a extremo inspirada en biología. Aunque actualmente se limita a validación en datos sintéticos, sienta una base importante para futuros sistemas de agarre robótico dinámicos y eficientes. Las contribuciones técnicas del artículo, diseño experimental y construcción de conjuntos de datos poseen alta calidad, representando un progreso importante en el campo interdisciplinario de visión neuromórfica y robótica.