Most robotic grasping systems rely on converting sensor data into explicit 3D point clouds, which is a computational step not found in biological intelligence. This paper explores a fundamentally different, neuro-inspired paradigm for 6-DoF grasp detection. We introduce SpikeGrasp, a framework that mimics the biological visuomotor pathway, processing raw, asynchronous events from stereo spike cameras, similarly to retinas, to directly infer grasp poses. Our model fuses these stereo spike streams and uses a recurrent spiking neural network, analogous to high-level visual processing, to iteratively refine grasp hypotheses without ever reconstructing a point cloud. To validate this approach, we built a large-scale synthetic benchmark dataset. Experiments show that SpikeGrasp surpasses traditional point-cloud-based baselines, especially in cluttered and textureless scenes, and demonstrates remarkable data efficiency. By establishing the viability of this end-to-end, neuro-inspired approach, SpikeGrasp paves the way for future systems capable of the fluid and efficient manipulation seen in nature, particularly for dynamic objects.
- ID статьи: 2510.10602
- Название: SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams
- Авторы: Zhuoheng Gao, Jiyao Zhang, Zhiyong Xie, Hao Dong, Zhaofei Yu, Rongmei Chen, Guozhang Chen, Tiejun Huang
- Категория: cs.RO (Робототехника), cs.CV (Компьютерное зрение)
- Дата публикации: 12 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.10602
Традиционные системы робототехнического захвата обычно полагаются на преобразование данных датчиков в явные облака точек 3D, что является вычислительным этапом, отсутствующим в биологическом интеллекте. В данной работе исследуется принципиально иная, вдохновленная нейронауками парадигма обнаружения позы захвата 6-DoF. Исследование представляет фреймворк SpikeGrasp, который имитирует биологический визуально-моторный путь, обрабатывая необработанные асинхронные события из стереокамер spike (аналогично сетчатке) для прямого вывода позы захвата. Модель объединяет стереопотоки spike, используя рекуррентные импульсные нейронные сети (аналогично высокоуровневой визуальной обработке) для итеративной оптимизации гипотез захвата без реконструкции облака точек. Для валидации метода исследователи построили крупномасштабный синтетический набор данных бенчмарка. Эксперименты показывают, что SpikeGrasp превосходит традиционные методы на основе облаков точек, особенно в загроможденных и безтекстурных сценах, и демонстрирует превосходную эффективность данных.
Фундаментальная проблема, с которой сталкиваются традиционные системы робототехнического захвата, заключается в зависимости от конвейера обработки "геометрия в приоритете": захват сцены → реконструкция 3D геометрии (обычно облако точек) → анализ модели для поиска возможных захватов. Хотя эта парадигма разумна с точки зрения компьютерной графики, она существенно отличается от того, как работают биологические системы.
- Отсутствие биологической вдохновленности: Мозг не вычисляет и не хранит явные облака точек для принятия решений о захвате объектов, а обрабатывает непрерывные потоки сенсорной информации через эффективные нейронные архитектуры
- Вычислительная сложность: Реконструкция облака точек требует больших вычислительных ресурсов и уязвима к шуму датчика и условиям освещения
- Ограничения в динамических средах: Традиционные методы имеют ограниченную робастность при взаимодействии с динамическими окружающими средами
- Методы на основе облаков точек: Требуют явного этапа 3D реконструкции с большими вычислительными затратами
- Традиционные методы глубокого обучения: Лишены биологической обоснованности, сложны в обработке высокодинамичных сцен
- Применение камер событий: Хотя существуют исследования нейроморфного зондирования, отсутствуют стандартизированные бенчмарки и архитектуры, специфичные для задач 6-DoF захвата
Исследование альтернативного пути, вдохновленного эффективностью и элегантностью визуально-моторной системы мозга, для прямого вывода позы захвата из потоков spike без промежуточного геометрического представления.
- Предложена биологически вдохновленная архитектура SpikeGrasp: Обработка асинхронных данных spike через итеративные обновления, превосходящая предыдущие методы по качеству обнаружения на синтетическом наборе данных
- Построен первый крупномасштабный синтетический набор данных потоков spike: Для обнаружения позы захвата 6-DoF, предоставляющий оценочный бенчмарк для этой развивающейся области
- Подтверждена эффективность данных фреймворка: Демонстрирует сильную способность к обобщению даже при ограниченных обучающих выборках
Учитывая непрерывный бинарный поток spike St1N∈{0,1}H×W×N, целью является оценка позы захвата 6-DoF, соответствующей моменту времени t1. Поза захвата представляется как:
G=(R,t,w)
где R∈R3×3 — матрица вращения, t∈R3×1 — вектор трансляции, w∈R — ширина захватывающего устройства.
Камера spike имитирует архитектуру интегрирования-разряда центральной ямки сетчатки. Каждый пиксель содержит фоторецептор, интегратор и компаратор. Когда накопленное значение превышает пороговое значение θ, пиксель генерирует бинарное событие:
A(x,y,t)=(∫0tI(x,y,s)ds)modθ
- Извлечение признаков Spike: Использование свертки 7×7 и остаточных блоков для обработки левого и правого потоков spike Sl,Sr
- Вычисление объема корреляции: Построение многомасштабной пирамиды корреляции
Ci,j,k=∑hfhli,jfhri,k
- Итеративное обновление: Поддержание скрытого поля состояния h, обновляемого через RSNN:
hk+1=hk+Δh
Декодирование финального скрытого состояния hK для генерации двухканальной карты вероятностей M∈R2×H×W:
- Первый канал: objectness (объектность)
- Второй канал: graspness (захватываемость)
Использование стратегии crop-and-refine для предсказания полной конфигурации захвата 6-DoF из скрытого состояния и позиций захватываемости.
- Сквозная обработка spike: Прямой вывод позы захвата из необработанных потоков spike без реконструкции облака точек
- Биологически вдохновленная архитектура: Имитация иерархической обработки в визуальной системе приматов
- Рекуррентные импульсные нейронные сети: Использование возможностей RSNN для временного моделирования
- Многомасштабное согласованное сопоставление: Реализация грубого к точному сопоставления через пирамиду корреляции
Построен крупномасштабный синтетический набор данных:
- Обучающий набор: 100 сцен, 51 000 потоков spike, 25 600 карт objectness/graspness
- Тестовый набор: 90 сцен, разделенный на три подмножества
- Seen: 30 сцен (видимые объекты)
- Similar: 30 сцен (похожие объекты)
- Novel: 30 сцен (новые объекты)
- Масштаб: Более 1,1 миллиарда поз захвата, использующих 88 моделей объектов
- Average Precision (AP): Средняя точность при множественных коэффициентах трения
- AP0.8 и AP0.4: Точность при специфических коэффициентах трения
- Success Rate: Коэффициент успеха в симуляционной среде
Включает 9 репрезентативных методов:
- 2D методы: GG-CNN
- 6-DoF методы: GraspNet, GSNet, GraspFast, KGNv2 и др.
- Многовидовые методы: ASGrasp, GraspNeRF
- Обучение: 18 эпох, оптимизатор Adam, скорость обучения 2×10⁻⁴
- Оборудование: GPU NVIDIA RTX 4090
- Размер пакета: 4
- Количество итераций: 16 итераций обновления
| Метод | Seen | | | Similar | | | Novel | | |
|---|
| AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 | AP | AP0.8 | AP0.4 |
| GraspNet | 27.56 | 33.43 | 16.59 | 26.11 | 34.18 | 14.23 | 10.55 | 11.25 | 3.98 |
| GSNet | 34.52 | 48.36 | 20.80 | 30.11 | 36.22 | 18.71 | 14.11 | 20.52 | 14.23 |
| GraspFast | 38.46 | 44.25 | 28.66 | 33.83 | 40.05 | 21.32 | 14.63 | 21.05 | 12.85 |
| SpikeGrasp | 38.84 | 47.27 | 29.57 | 34.84 | 40.32 | 25.48 | 15.39 | 18.09 | 9.80 |
- Общая производительность: SpikeGrasp достигает наивысшей точности на большинстве подмножеств
- Коэффициент успеха Top-1: Seen (78.53%), Similar (72.18%), Novel (36.79%)
- Симуляционная верификация: Коэффициенты успеха в Isaac Sim составляют 91.3%, 85.8%, 70.9% соответственно
| Конфигурация | Seen | Similar | Novel |
|---|
| без objectness | 26.14 | 24.41 | 5.54 |
| без graspness | 34.78 | 30.86 | 11.28 |
| без spike | 25.86 | 24.84 | 8.59 |
| Полная модель | 38.84 | 34.84 | 15.39 |
При различных пропорциях обучающих данных SpikeGrasp постоянно превосходит все методы-базовые линии, с еще большим преимуществом при нехватке данных, демонстрируя сильную способность к обобщению.
RSNN по сравнению с ANN снижает количество операций с плавающей точкой в 2.3 раза, достигая экономии вычислений на 82.5%, в основном благодаря разреженности.
- Конвейер выборки-оценки: GPD, PointNetGPD и другие генерируют кандидатов захватов и их ранжируют
- Сквозные методы: Вариационная генерация предложений GraspNet, объемные или точечные предсказатели
- Контекстное рассуждение: VoteGrasp и другие усиливают осведомленность о сцене
- Прямое предсказание из изображения: Вывод захватов из многовидовых подсказок или кодирования нейронной сцены
- Нейроморфное зондирование: Использование камер событий/spike для управления выводом захвата
- Реконструкция изображения: Различные методы реконструкции изображений из spike
- Задачи компьютерного зрения: Обнаружение объектов, оценка оптического потока, оценка глубины и др.
- Верификация осуществимости: Впервые доказана осуществимость обнаружения позы захвата 6-DoF непосредственно из потоков spike
- Преимущества производительности: Превосходство над традиционными методами на основе облаков точек на синтетическом наборе данных
- Биологическая обоснованность: Предоставление нейробиологически вдохновленной сквозной парадигмы обнаружения захвата
- Ограничения синтетических данных: Эксперименты основаны на синтетическом наборе данных с потенциальным разрывом между синтетическими и реальными данными
- Статические сцены: Текущий метод разработан для статических сцен и еще не полностью использует динамические преимущества камер spike
- Зависимость от оборудования: Требует специализированного оборудования камеры spike
- Сбор реальных данных: Построение набора данных реальных потоков spike
- Адаптация к доменам: Исследование гибридной передачи между доменами и слабо контролируемой тонкой настройки
- Расширение на динамические сцены: Полное использование преимуществ камер spike в динамических окружающих средах
- Высокая инновационность: Первое применение камер spike для обнаружения позы захвата 6-DoF, открывающее новое направление исследований
- Биологически вдохновленный дизайн: Архитектура обладает хорошей биологической обоснованностью
- Полные эксперименты: Включает комплексные сравнительные эксперименты, исследования абляции и анализ эффективности данных
- Вклад набора данных: Построенный крупномасштабный синтетический набор данных предоставляет важный ресурс для развития области
- Недостаточная верификация в реальных сценах: Отсутствие экспериментальной верификации в реальных окружающих средах
- Вычислительная сложность: Хотя теоретически более эффективно, практическое развертывание требует высоких требований к оборудованию
- Неиспользованные динамические преимущества: Эксперименты на статических сценах не полностью демонстрируют динамические преимущества восприятия камер spike
- Академическая ценность: Предоставляет важный справочный материал для применения нейроморфного зрения в робототехнике
- Практические перспективы: Предоставляет новый технологический путь для высокоскоростных динамических задач захвата
- Технологический прогресс: Может способствовать более широкому применению камер spike в робототехническом восприятии
- Высокоскоростные динамические сцены: Окружающие среды с быстрым движением, которые сложны для традиционных камер
- Приложения с низким энергопотреблением: Платформы мобильных роботов, требующие эффективных вычислений
- Специальные условия освещения: Окружающие среды с высоким динамическим диапазоном или низкой освещенностью
Статья цитирует большое количество связанных работ, включая:
- Традиционные методы обнаружения захватов (GraspNet, GSNet и др.)
- Исследования, связанные с камерами spike (реконструкция изображений, обнаружение объектов и др.)
- Исследования нейроморфных вычислений и импульсных нейронных сетей
Общая оценка: Это статья с открывающим новые горизонты значением, которая вводит эту новую технологию зондирования — камеры spike — в область робототехнического захвата, предлагая биологически вдохновленное сквозное решение. Хотя в настоящее время она ограничена верификацией на синтетических данных, она закладывает важную основу для будущих динамических и эффективных систем робототехнического захвата. Технический вклад статьи, дизайн экспериментов и построение набора данных имеют высокое качество и представляют собой важный прогресс в междисциплинарной области нейроморфного зрения и робототехники.