2025-11-19T14:07:14.700954

SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams

Gao, Zhang, Xie et al.
Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.
academic

SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams

基本信息

  • 论文ID: 2510.10602
  • 标题: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
  • 作者: Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang
  • 分类: cs.RO (Robotics), cs.CV (Computer Vision)
  • 发表时间: 2025年10月12日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.10602

摘要

传统机器人抓取系统通常依赖将传感器数据转换为显式的3D点云,这是生物智能中不存在的计算步骤。本文探索了一种根本不同的、受神经启发的6自由度抓取检测范式。研究引入了SpikeGrasp框架,该框架模仿生物视觉运动通路,处理来自立体spike相机的原始异步事件(类似于视网膜),直接推断抓取姿态。模型融合立体spike流,使用递归脉冲神经网络(类似于高级视觉处理)迭代优化抓取假设,而无需重建点云。为验证该方法,研究构建了大规模合成基准数据集。实验表明,SpikeGrasp超越了传统的基于点云的基线方法,特别是在杂乱和无纹理场景中,并展现出卓越的数据效率。

研究背景与动机

核心问题

传统机器人抓取系统面临的根本问题是依赖"几何优先"的处理管道:捕获场景→重建3D几何模型(通常是点云)→分析模型以寻找可行抓取。这种范式虽然从计算机图形学角度合理,但与生物系统的运作方式存在显著差异。

问题重要性

  1. 生物启发性缺失:大脑不会计算或存储显式点云来决定如何抓取物体,而是通过高效的神经架构处理连续的感觉信息流
  2. 计算复杂性:点云重建计算密集且脆弱,对传感器噪声和光照条件敏感
  3. 动态环境局限:传统方法在与动态环境交互时鲁棒性有限

现有方法局限性

  1. 基于点云的方法:需要显式3D重建步骤,计算开销大
  2. 传统深度学习方法:缺乏生物合理性,难以处理高动态场景
  3. 事件相机应用:虽然有neuromorphic sensing的探索,但缺乏针对6-DoF抓取的标准化benchmark和任务特定架构

研究动机

探索一种受大脑视觉-运动系统效率和优雅性启发的不同路径,直接从spike流中推断抓取姿态,而不通过中间几何表示。

核心贡献

  1. 提出了生物启发的SpikeGrasp架构:通过迭代更新处理异步spike数据,在合成数据集上的检测质量超越了以往方法
  2. 构建了首个大规模合成spike流数据集:用于6-DoF抓取姿态检测,为这一新兴领域提供评估基准
  3. 验证了框架的数据效率:展现了即使在有限训练样本下也具有强泛化能力

方法详解

任务定义

给定连续二值spike流 St1N{0,1}H×W×NS_{t_1}^N \in \{0,1\}^{H \times W \times N},目标是估计对应于时刻 t1t_1 的6-DoF抓取姿态。抓取姿态表示为: G=(R,t,w)G = (R, t, w) 其中 RR3×3R \in \mathbb{R}^{3 \times 3} 是旋转矩阵,tR3×1t \in \mathbb{R}^{3 \times 1} 是平移向量,wRw \in \mathbb{R} 是夹爪宽度。

模型架构

1. Spike相机原理

Spike相机模拟视网膜中央凹的积分-放电架构。每个像素包含光感受器、积分器和比较器。当累积值超过阈值θ时,像素发出二值事件: A(x,y,t)=(0tI(x,y,s)ds)modθA(x,y,t) = \left(\int_0^t I(x,y,s)ds\right) \bmod \theta

2. 视觉通路网络(Visual Pathway Network)

  • Spike特征提取:使用7×7卷积和残差块处理左右spike流 Sl,SrS_l, S_r
  • 相关体积计算:构建多尺度相关金字塔 Ci,j,k=hfhli,jfhri,kC_{i,j,k} = \sum_h f_h^l{}_{i,j} f_h^r{}_{i,k}
  • 迭代更新:维护隐状态场 hh,通过RSNN更新: hk+1=hk+Δhh^{k+1} = h^k + \Delta h

3. 可抓取性网络(Graspable Network)

解码最终隐状态 hKh^K 生成二通道概率图 MR2×H×WM \in \mathbb{R}^{2 \times H \times W}

  • 第一通道:objectness(物体性)
  • 第二通道:graspness(可抓取性)

4. 抓取检测网络(Grasp Detection Network)

采用crop-and-refine策略,从隐状态和可抓取位置预测完整6-DoF抓取配置。

技术创新点

  1. 端到端spike处理:直接从原始spike流推断抓取姿态,无需点云重建
  2. 生物启发架构:模仿灵长类视觉系统的层次化处理
  3. 递归脉冲神经网络:利用RSNN的时序建模能力
  4. 多尺度相关匹配:通过相关金字塔实现粗到细的匹配

实验设置

数据集

构建了大规模合成数据集:

  • 训练集:100个场景,51,000个spike流,25,600个objectness/graspness图
  • 测试集:90个场景,分为三个子集
    • Seen:30个场景(已见物体)
    • Similar:30个场景(相似物体)
    • Novel:30个场景(新颖物体)
  • 规模:超过11亿个抓取姿态,使用88个物体模型

评价指标

  • Average Precision (AP):多摩擦系数下的平均精度
  • AP0.8和AP0.4:特定摩擦系数下的精度
  • Success Rate:仿真环境中的成功率

对比方法

包括9个代表性方法:

  • 2D方法:GG-CNN
  • 6-DoF方法:GraspNet, GSNet, GraspFast, KGNv2等
  • 多视图方法:ASGrasp, GraspNeRF

实现细节

  • 训练:18个epoch,Adam优化器,学习率2×10⁻⁴
  • 硬件:NVIDIA RTX 4090 GPU
  • 批大小:4
  • 迭代次数:16次更新迭代

实验结果

主要结果

方法SeenSimilarNovel
APAP0.8AP0.4APAP0.8AP0.4APAP0.8AP0.4
GraspNet27.5633.4316.5926.1134.1814.2310.5511.253.98
GSNet34.5248.3620.8030.1136.2218.7114.1120.5214.23
GraspFast38.4644.2528.6633.8340.0521.3214.6321.0512.85
SpikeGrasp38.8447.2729.5734.8440.3225.4815.3918.099.80

关键发现

  1. 整体性能:SpikeGrasp在大多数子集上达到最高精度
  2. Top-1成功率:Seen (78.53%), Similar (72.18%), Novel (36.79%)
  3. 仿真验证:Isaac Sim中成功率分别为91.3%, 85.8%, 70.9%

消融实验

配置SeenSimilarNovel
w/o objectness26.1424.415.54
w/o graspness34.7830.8611.28
w/o spike25.8624.848.59
完整模型38.8434.8415.39

数据效率分析

在不同训练数据比例下,SpikeGrasp始终超越所有基线方法,且在数据稀缺时优势更明显,展现出强泛化能力。

计算效率

RSNN相比ANN减少了2.3倍的浮点运算,计算节省达82.5%,主要通过稀疏性实现显著计算节省。

相关工作

基于点云的方法

  • 采样-评估管道:GPD, PointNetGPD等生成候选抓取并排序
  • 端到端方法:GraspNet的变分提议生成,体积或点基预测器
  • 上下文推理:VoteGrasp等增强场景感知

无显式点云的方法

  • 图像直接预测:从多视图线索或神经场景编码推断抓取
  • 神经形态感知:使用事件/spike相机驱动抓取推理

Spike相机应用

  • 图像重建:从spike重建图像的各种方法
  • 计算机视觉任务:目标检测、光流估计、深度估计等

结论与讨论

主要结论

  1. 可行性验证:首次证明了直接从spike流进行6-DoF抓取检测的可行性
  2. 性能优势:在合成数据集上超越传统基于点云的方法
  3. 生物合理性:提供了神经启发的端到端抓取检测范式

局限性

  1. 合成数据限制:实验基于合成数据集,存在与真实数据的领域差距
  2. 静态场景:当前方法在静态场景上建立,尚未充分利用spike相机的动态优势
  3. 硬件依赖:需要专门的spike相机硬件

未来方向

  1. 真实数据收集:构建真实spike流数据集
  2. 领域自适应:探索混合领域迁移和弱监督微调
  3. 动态场景扩展:充分利用spike相机在动态环境中的优势

深度评价

优点

  1. 创新性强:首次将spike相机应用于6-DoF抓取检测,开辟了新的研究方向
  2. 生物启发设计:架构设计具有良好的生物合理性
  3. 实验充分:包含全面的对比实验、消融研究和数据效率分析
  4. 数据集贡献:构建的大规模合成数据集为领域发展提供了重要资源

不足

  1. 真实场景验证不足:缺乏真实环境下的验证实验
  2. 计算复杂度:虽然理论上更高效,但实际部署的硬件要求较高
  3. 动态优势未体现:静态场景实验未充分展现spike相机的动态感知优势

影响力

  1. 学术价值:为神经形态视觉在机器人学中的应用提供了重要参考
  2. 实用前景:为高速、动态抓取任务提供了新的技术路径
  3. 技术推动:可能推动spike相机在机器人感知中的更广泛应用

适用场景

  1. 高速动态场景:传统相机难以处理的快速运动环境
  2. 低功耗应用:需要高效计算的移动机器人平台
  3. 特殊光照条件:高动态范围或低光照环境

参考文献

论文引用了大量相关工作,包括:

  • 传统抓取检测方法(GraspNet, GSNet等)
  • Spike相机相关研究(图像重建、目标检测等)
  • 神经形态计算和脉冲神经网络研究

总体评价:这是一篇具有开创性意义的论文,将spike相机这一新兴传感技术引入到机器人抓取领域,提出了生物启发的端到端解决方案。虽然目前仍局限于合成数据验证,但为未来的动态、高效机器人抓取系统奠定了重要基础。论文的技术贡献、实验设计和数据集构建都具有较高质量,是神经形态视觉与机器人学交叉领域的重要进展。