2025-11-19T14:07:14.700954

SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams

Gao, Zhang, Xie et al.
Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.
academic

SpikeGrasp: Бенчмарк для обнаружения позы захвата 6-DoF из стереопотоков Spike

Основная информация

  • ID статьи: 2510.10602
  • Название: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
  • Авторы: Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang
  • Категория: cs.RO (Робототехника), cs.CV (Компьютерное зрение)
  • Дата публикации: 12 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.10602

Аннотация

Традиционные системы робототехнического захвата обычно полагаются на преобразование данных датчиков в явные облака точек 3D, что является вычислительным этапом, отсутствующим в биологическом интеллекте. В данной работе исследуется принципиально иная, вдохновленная нейронауками парадигма обнаружения позы захвата 6-DoF. Исследование представляет фреймворк SpikeGrasp, который имитирует биологический визуально-моторный путь, обрабатывая необработанные асинхронные события из стереокамер spike (аналогично сетчатке) для прямого вывода позы захвата. Модель объединяет стереопотоки spike, используя рекуррентные импульсные нейронные сети (аналогично высокоуровневой визуальной обработке) для итеративной оптимизации гипотез захвата без реконструкции облака точек. Для валидации метода исследователи построили крупномасштабный синтетический набор данных бенчмарка. Эксперименты показывают, что SpikeGrasp превосходит традиционные методы на основе облаков точек, особенно в загроможденных и безтекстурных сценах, и демонстрирует превосходную эффективность данных.

Исследовательский контекст и мотивация

Основная проблема

Фундаментальная проблема, с которой сталкиваются традиционные системы робототехнического захвата, заключается в зависимости от конвейера обработки "геометрия в приоритете": захват сцены → реконструкция 3D геометрии (обычно облако точек) → анализ модели для поиска возможных захватов. Хотя эта парадигма разумна с точки зрения компьютерной графики, она существенно отличается от того, как работают биологические системы.

Важность проблемы

  1. Отсутствие биологической вдохновленности: Мозг не вычисляет и не хранит явные облака точек для принятия решений о захвате объектов, а обрабатывает непрерывные потоки сенсорной информации через эффективные нейронные архитектуры
  2. Вычислительная сложность: Реконструкция облака точек требует больших вычислительных ресурсов и уязвима к шуму датчика и условиям освещения
  3. Ограничения в динамических средах: Традиционные методы имеют ограниченную робастность при взаимодействии с динамическими окружающими средами

Ограничения существующих методов

  1. Методы на основе облаков точек: Требуют явного этапа 3D реконструкции с большими вычислительными затратами
  2. Традиционные методы глубокого обучения: Лишены биологической обоснованности, сложны в обработке высокодинамичных сцен
  3. Применение камер событий: Хотя существуют исследования нейроморфного зондирования, отсутствуют стандартизированные бенчмарки и архитектуры, специфичные для задач 6-DoF захвата

Исследовательская мотивация

Исследование альтернативного пути, вдохновленного эффективностью и элегантностью визуально-моторной системы мозга, для прямого вывода позы захвата из потоков spike без промежуточного геометрического представления.

Основные вклады

  1. Предложена биологически вдохновленная архитектура SpikeGrasp: Обработка асинхронных данных spike через итеративные обновления, превосходящая предыдущие методы по качеству обнаружения на синтетическом наборе данных
  2. Построен первый крупномасштабный синтетический набор данных потоков spike: Для обнаружения позы захвата 6-DoF, предоставляющий оценочный бенчмарк для этой развивающейся области
  3. Подтверждена эффективность данных фреймворка: Демонстрирует сильную способность к обобщению даже при ограниченных обучающих выборках

Подробное описание метода

Определение задачи

Учитывая непрерывный бинарный поток spike St1N{0,1}H×W×NS_{t_1}^N \in \{0,1\}^{H \times W \times N}, целью является оценка позы захвата 6-DoF, соответствующей моменту времени t1t_1. Поза захвата представляется как: G=(R,t,w)G = (R, t, w) где RR3×3R \in \mathbb{R}^{3 \times 3} — матрица вращения, tR3×1t \in \mathbb{R}^{3 \times 1} — вектор трансляции, wRw \in \mathbb{R} — ширина захватывающего устройства.

Архитектура модели

1. Принцип работы камеры Spike

Камера spike имитирует архитектуру интегрирования-разряда центральной ямки сетчатки. Каждый пиксель содержит фоторецептор, интегратор и компаратор. Когда накопленное значение превышает пороговое значение θ, пиксель генерирует бинарное событие: A(x,y,t)=(0tI(x,y,s)ds)modθA(x,y,t) = \left(\int_0^t I(x,y,s)ds\right) \bmod \theta

2. Сеть визуального пути (Visual Pathway Network)

  • Извлечение признаков Spike: Использование свертки 7×7 и остаточных блоков для обработки левого и правого потоков spike Sl,SrS_l, S_r
  • Вычисление объема корреляции: Построение многомасштабной пирамиды корреляции Ci,j,k=hfhli,jfhri,kC_{i,j,k} = \sum_h f_h^l{}_{i,j} f_h^r{}_{i,k}
  • Итеративное обновление: Поддержание скрытого поля состояния hh, обновляемого через RSNN: hk+1=hk+Δhh^{k+1} = h^k + \Delta h

3. Сеть захватываемости (Graspable Network)

Декодирование финального скрытого состояния hKh^K для генерации двухканальной карты вероятностей MR2×H×WM \in \mathbb{R}^{2 \times H \times W}:

  • Первый канал: objectness (объектность)
  • Второй канал: graspness (захватываемость)

4. Сеть обнаружения захвата (Grasp Detection Network)

Использование стратегии crop-and-refine для предсказания полной конфигурации захвата 6-DoF из скрытого состояния и позиций захватываемости.

Технические инновации

  1. Сквозная обработка spike: Прямой вывод позы захвата из необработанных потоков spike без реконструкции облака точек
  2. Биологически вдохновленная архитектура: Имитация иерархической обработки в визуальной системе приматов
  3. Рекуррентные импульсные нейронные сети: Использование возможностей RSNN для временного моделирования
  4. Многомасштабное согласованное сопоставление: Реализация грубого к точному сопоставления через пирамиду корреляции

Экспериментальная установка

Набор данных

Построен крупномасштабный синтетический набор данных:

  • Обучающий набор: 100 сцен, 51 000 потоков spike, 25 600 карт objectness/graspness
  • Тестовый набор: 90 сцен, разделенный на три подмножества
    • Seen: 30 сцен (видимые объекты)
    • Similar: 30 сцен (похожие объекты)
    • Novel: 30 сцен (новые объекты)
  • Масштаб: Более 1,1 миллиарда поз захвата, использующих 88 моделей объектов

Метрики оценки

  • Average Precision (AP): Средняя точность при множественных коэффициентах трения
  • AP0.8 и AP0.4: Точность при специфических коэффициентах трения
  • Success Rate: Коэффициент успеха в симуляционной среде

Методы сравнения

Включает 9 репрезентативных методов:

  • 2D методы: GG-CNN
  • 6-DoF методы: GraspNet, GSNet, GraspFast, KGNv2 и др.
  • Многовидовые методы: ASGrasp, GraspNeRF

Детали реализации

  • Обучение: 18 эпох, оптимизатор Adam, скорость обучения 2×10⁻⁴
  • Оборудование: GPU NVIDIA RTX 4090
  • Размер пакета: 4
  • Количество итераций: 16 итераций обновления

Результаты экспериментов

Основные результаты

МетодSeenSimilarNovel
APAP0.8AP0.4APAP0.8AP0.4APAP0.8AP0.4
GraspNet27.5633.4316.5926.1134.1814.2310.5511.253.98
GSNet34.5248.3620.8030.1136.2218.7114.1120.5214.23
GraspFast38.4644.2528.6633.8340.0521.3214.6321.0512.85
SpikeGrasp38.8447.2729.5734.8440.3225.4815.3918.099.80

Ключевые находки

  1. Общая производительность: SpikeGrasp достигает наивысшей точности на большинстве подмножеств
  2. Коэффициент успеха Top-1: Seen (78.53%), Similar (72.18%), Novel (36.79%)
  3. Симуляционная верификация: Коэффициенты успеха в Isaac Sim составляют 91.3%, 85.8%, 70.9% соответственно

Исследование абляции

КонфигурацияSeenSimilarNovel
без objectness26.1424.415.54
без graspness34.7830.8611.28
без spike25.8624.848.59
Полная модель38.8434.8415.39

Анализ эффективности данных

При различных пропорциях обучающих данных SpikeGrasp постоянно превосходит все методы-базовые линии, с еще большим преимуществом при нехватке данных, демонстрируя сильную способность к обобщению.

Вычислительная эффективность

RSNN по сравнению с ANN снижает количество операций с плавающей точкой в 2.3 раза, достигая экономии вычислений на 82.5%, в основном благодаря разреженности.

Связанные работы

Методы на основе облаков точек

  • Конвейер выборки-оценки: GPD, PointNetGPD и другие генерируют кандидатов захватов и их ранжируют
  • Сквозные методы: Вариационная генерация предложений GraspNet, объемные или точечные предсказатели
  • Контекстное рассуждение: VoteGrasp и другие усиливают осведомленность о сцене

Методы без явного облака точек

  • Прямое предсказание из изображения: Вывод захватов из многовидовых подсказок или кодирования нейронной сцены
  • Нейроморфное зондирование: Использование камер событий/spike для управления выводом захвата

Применение камер Spike

  • Реконструкция изображения: Различные методы реконструкции изображений из spike
  • Задачи компьютерного зрения: Обнаружение объектов, оценка оптического потока, оценка глубины и др.

Заключение и обсуждение

Основные выводы

  1. Верификация осуществимости: Впервые доказана осуществимость обнаружения позы захвата 6-DoF непосредственно из потоков spike
  2. Преимущества производительности: Превосходство над традиционными методами на основе облаков точек на синтетическом наборе данных
  3. Биологическая обоснованность: Предоставление нейробиологически вдохновленной сквозной парадигмы обнаружения захвата

Ограничения

  1. Ограничения синтетических данных: Эксперименты основаны на синтетическом наборе данных с потенциальным разрывом между синтетическими и реальными данными
  2. Статические сцены: Текущий метод разработан для статических сцен и еще не полностью использует динамические преимущества камер spike
  3. Зависимость от оборудования: Требует специализированного оборудования камеры spike

Будущие направления

  1. Сбор реальных данных: Построение набора данных реальных потоков spike
  2. Адаптация к доменам: Исследование гибридной передачи между доменами и слабо контролируемой тонкой настройки
  3. Расширение на динамические сцены: Полное использование преимуществ камер spike в динамических окружающих средах

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первое применение камер spike для обнаружения позы захвата 6-DoF, открывающее новое направление исследований
  2. Биологически вдохновленный дизайн: Архитектура обладает хорошей биологической обоснованностью
  3. Полные эксперименты: Включает комплексные сравнительные эксперименты, исследования абляции и анализ эффективности данных
  4. Вклад набора данных: Построенный крупномасштабный синтетический набор данных предоставляет важный ресурс для развития области

Недостатки

  1. Недостаточная верификация в реальных сценах: Отсутствие экспериментальной верификации в реальных окружающих средах
  2. Вычислительная сложность: Хотя теоретически более эффективно, практическое развертывание требует высоких требований к оборудованию
  3. Неиспользованные динамические преимущества: Эксперименты на статических сценах не полностью демонстрируют динамические преимущества восприятия камер spike

Влияние

  1. Академическая ценность: Предоставляет важный справочный материал для применения нейроморфного зрения в робототехнике
  2. Практические перспективы: Предоставляет новый технологический путь для высокоскоростных динамических задач захвата
  3. Технологический прогресс: Может способствовать более широкому применению камер spike в робототехническом восприятии

Применимые сценарии

  1. Высокоскоростные динамические сцены: Окружающие среды с быстрым движением, которые сложны для традиционных камер
  2. Приложения с низким энергопотреблением: Платформы мобильных роботов, требующие эффективных вычислений
  3. Специальные условия освещения: Окружающие среды с высоким динамическим диапазоном или низкой освещенностью

Библиография

Статья цитирует большое количество связанных работ, включая:

  • Традиционные методы обнаружения захватов (GraspNet, GSNet и др.)
  • Исследования, связанные с камерами spike (реконструкция изображений, обнаружение объектов и др.)
  • Исследования нейроморфных вычислений и импульсных нейронных сетей

Общая оценка: Это статья с открывающим новые горизонты значением, которая вводит эту новую технологию зондирования — камеры spike — в область робототехнического захвата, предлагая биологически вдохновленное сквозное решение. Хотя в настоящее время она ограничена верификацией на синтетических данных, она закладывает важную основу для будущих динамических и эффективных систем робототехнического захвата. Технический вклад статьи, дизайн экспериментов и построение набора данных имеют высокое качество и представляют собой важный прогресс в междисциплинарной области нейроморфного зрения и робототехники.