This paper presents a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, with a focus on improving precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.
- ID статьи: 2508.17466
- Название: Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
- Авторы: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
- Классификация: cs.RO cs.AI cs.CV cs.LG cs.SY eess.SY
- Дата публикации: 11 октября 2025 г. (arXiv v2)
- Ссылка на статью: https://arxiv.org/abs/2508.17466v2
- Финансирующие организации: Petróleo Brasileiro S/A - Petrobras
В данной работе предлагается фреймворк глубокого обучения, направленный на повышение способности четвероногих роботов, оснащённых манипуляторами, к захвату объектов с акцентом на точность и адаптивность. Методология основана на подходе «симуляция-в-реальность» (sim-to-real), что минимизирует зависимость от сбора физических данных. Авторы разработали конвейер в среде симуляции Genesis, генерирующий синтетический набор данных попыток захвата обычных объектов. Путём моделирования тысяч взаимодействий с различных точек зрения создаются карты качества захвата с пиксельной аннотацией в качестве эталонных значений для модели. Этот набор данных используется для обучения пользовательской свёрточной нейронной сети (CNN) с архитектурой типа U-Net, обрабатывающей многомодальные входные данные с бортовых RGB и глубинных камер, включая RGB-изображения, карты глубины, маски сегментации и карты нормалей поверхности. Обученная модель выдаёт тепловые карты качества захвата для определения оптимальных точек захвата. Авторы проверили полный фреймворк на четвероногом роботе, демонстрируя успешное выполнение полной задачи мобильной манипуляции: автономную навигацию к целевому объекту, восприятие объекта датчиками, использование модели для предсказания оптимальной позы захвата и выполнение точного захвата.
Точный и адаптивный захват объектов четвероногими роботами в сложных неструктурированных средах остаётся значительной проблемой. Традиционные методы обычно требуют большого объёма реальной калибровки и предварительно запрограммированных конфигураций захвата, что ограничивает их гибкость.
- Прикладная ценность: Четвероногие роботы, оснащённые манипуляторами, могут реализовать локо-манипуляцию, имеющую важное применение в промышленной автоматизации, поисково-спасательных операциях и вспомогательных технологиях
- Технические вызовы: Требуется обеспечить надёжное распознавание объектов в динамических сценах, точное планирование захвата и плавную интеграцию с системой движения
- Адаптивность к окружающей среде: Способность эффективно функционировать в непредсказуемых неструктурированных средах
- Зависимость от предопределённых конфигураций: Традиционные методы полагаются на предопределённые конфигурации захвата или интенсивную ручную калибровку
- Отсутствие способности к обобщению: Существующие решения обычно привязаны к конкретному контексту и не обладают адаптивностью между сценариями
- Стоимость сбора данных: Требуется большой объём сбора данных в реальном мире, что дорого и отнимает много времени
Авторы вдохновлены недавними успешными применениями глубокого обучения в области робототехнического захвата и предлагают фреймворк глубокого обучения, специально разработанный для четвероногих роботов, преодолевающий ограничения традиционных методов посредством обучения на симуляции.
- Разработан конвейер обучения на основе симулятора Genesis, обеспечивающий крупномасштабный параллельный сбор данных без необходимости в реальных данных
- Интегрированы передовые методы восприятия (такие как D2NT), повышающие точность захвата на основе глубины и снижающие вычислительные затраты на выполнение ML
- Разработан гибкий фреймворк, способный интегрироваться с высокоуровневыми API управления и коммерческими роботами без доступа на низком уровне
- Проверена эффективность метода на физическом роботе, подтверждающая его применимость в сценариях реального мира
Входные данные: RGB-D данные камеры (RGB-изображение, карта глубины, маска сегментации, карта нормалей поверхности)
Выходные данные: Тепловая карта качества захвата, определяющая 3D координаты и ориентацию оптимальной точки захвата
Ограничения: Обеспечение точного захвата в сценарии мобильной манипуляции четвероногого робота
- Использование фреймворка Genesis для физической симуляции
- Выбор 3D модели водяной бутылки в качестве целевого объекта захвата
- Конфигурация виртуальной RGB-D камеры для извлечения изображений объекта
- Выборка 1000 различных позиций на 2D сетке
- 100 и 10 точек на осях X и Z соответственно (диапазон от -0,5 м до 0,5 м)
- Ось Y зафиксирована на y = 0,5 м
- Добавление случайных возмущений к каждой позиции (X, Y: ±0,03 м, Z: 0-0,09 м)
Для каждого пикселя выполняется попытка захвата:
- Преобразование координат пикселя в глобальную систему координат
- Вычисление соответствующего вектора нормали поверхности
- Начало с расстояния 1,0 м от объекта, попытка захвата на расстоянии 0,35 м от поверхности
- Определение успеха (1) или неудачи (0) захвата на основе обнаружения столкновений
- Маркировка областей вне объекта как неопределённые (-1)
- Архитектура: Полносвёрточная структура кодировщик-декодировщик на основе U-Net
- Кодировщик: Использование MobileNetV2 в качестве базовой сети
- Входные данные: 480×640×8 каналов (RGB + глубина + карта нормалей + маска сегментации)
- Выходные данные: Одноканальная карта качества захвата
- Количество параметров: Примерно 5,44 млн обучаемых параметров
- Использование GroupNorm для повышения стабильности обучения
- Пропускные соединения для слияния тонкозернистых признаков кодировщика
- Транспонированные свёртки для повышающей дискретизации
- Свёртки 1×1 для генерации финального выхода
- Многомодальное слияние: Эффективное объединение информации RGB, глубины, нормалей и сегментации
- Передача симуляция-в-реальность: Полное обучение на симуляционных данных с успешным развёртыванием на реальном роботе
- Сквозной конвейер: Полностью автоматизированный процесс от восприятия к выполнению
- Интеграция нормалей поверхности: Использование алгоритма D2NT для оценки нормалей поверхности из карты глубины
- Симуляционные данные: Синтетические данные, генерируемые в среде Genesis с 1000 точек зрения
- Разрешение: 480×640 пикселей
- Способ аннотации: Пиксельная аннотация качества захвата (успех/неудача/неопределённо)
- Тип объекта: Модель водяной бутылки (позже расширена на термос)
- Коэффициент успеха захвата
- Точность локализации
- Характеристики производительности в реальном времени
- Робот: Четвероногий робот Boston Dynamics Spot
- Датчики: RGB-D камера на конечном исполнительном органе
- Управление: Boston Dynamics SDK
- Обнаружение объектов: Предварительно обученная модель YOLOv11
- Внутренние параметры камеры: fx, fy ≈ 554,26 пикселей, главная точка (u0=320, v0=240)
- Максимальный крутящий момент: 3,0 Нм
- Расстояние захвата: 0,35 м от поверхности объекта
- Управление силой: Управление с ограничением силы на основе SDK
Статья успешно демонстрирует полную задачу мобильной манипуляции:
- Автономная навигация: Робот успешно идентифицирует и приближается к целевому объекту
- Точность восприятия: RGB-D данные успешно получены и обработаны
- Предсказание захвата: Модель CNN точно предсказывает оптимальную точку захвата
- Успешное выполнение: Физический робот успешно захватывает термос
- Обработка в реальном времени: Способность обрабатывать многомодальные входные данные разрешением 480×640 в реальном времени
- Надёжность: Демонстрирует хорошую адаптивность в реальной среде
- Точность: Успешно реализует точное управление силой при захвате
Из рисунка 8 видно:
- RGB-изображение чётко захватывает целевой объект
- Карта глубины обеспечивает точную пространственную информацию
- YOLO-11 генерирует точную маску сегментации
- Алгоритм D2NT успешно генерирует карту нормалей поверхности
- Выходная тепловая карта захвата модели точно определяет оптимальные области
- Ранние исследования сосредоточены на разработке стабильных систем движения и базовой интеграции конечного исполнительного органа
- Традиционные методы основаны на жёстких кинематических моделях и стратегиях управления с фиксированными правилами
- Недавний прогресс включает высокоточные датчики, технологии компьютерного зрения и архитектуры планирования движения
- Алгоритмы машинного обучения обычно возвращают раскрытие конечного исполнительного органа, ориентацию и качество захвата
- Методы глубокого обучения способны изучать обобщённые стратегии захвата из данных
- Передача симуляция-в-реальность становится важным направлением для снижения затрат на сбор данных
- Четвероногие роботы демонстрируют превосходные характеристики при навигации по сложной местности
- При оснащении манипулятором они получают способность к мобильной манипуляции
- Широкие перспективы применения в промышленной автоматизации, поисково-спасательных операциях и вспомогательных технологиях
- Эффективность метода: Метод глубокого обучения на основе симуляции успешно реализует точный захват четвероногим роботом
- Техническая осуществимость: Комбинация многомодального восприятия и предсказания CNN подтверждает осуществимость технического подхода
- Практическая ценность: Полный конвейер мобильной манипуляции предоставляет практическое решение для реальных приложений
- Ограниченная способность к обобщению: Обобщение модели ограничено вариациями геометрии и текстуры объектов
- Качество датчиков: Низкое качество датчика глубины на конечном исполнительном органе приводит к шуму в карте глубины
- Согласованность предварительной обработки: Изменение размера маски сегментации иногда влияет на согласованность предварительной обработки
- Разнообразие объектов: В настоящее время ориентирован в основном на объекты определённой формы (бутылки)
- Расширение набора данных: Включение более разнообразных форм, размеров и текстур объектов
- Улучшение датчиков: Реализация фильтров сглаживания для удаления шума из карты глубины или специализированных ML моделей
- Стратегии управления: Исследование стратегий движения и манипуляции, выходящих за рамки инструментов SDK
- Сложные среды: Тестирование в сложных средах с несколькими объектами и неправильными поверхностями
- Высокая инновационность: Успешное применение метода симуляция-в-реальность к захвату четвероногим роботом
- Полнота системы: Сквозное решение от восприятия к выполнению
- Хорошая практичность: Проверка эффективности метода на реальном роботе
- Передовые технологии: Эффективное слияние многомодальной информации и современных технологий глубокого обучения
- Ограниченная оценка: Отсутствие количественной статистики коэффициента успеха и сравнения с другими методами
- Единообразие объектов: В основном ориентирован на объекты в форме бутылок, способность к обобщению требует дальнейшей проверки
- Простота окружающей среды: Экспериментальная среда относительно проста, производительность в сложных сценариях неизвестна
- Теоретический анализ: Отсутствует глубокий анализ теоретических основ метода и случаев отказа
- Академический вклад: Предоставляет новый технический путь для мобильной манипуляции четвероногих роботов
- Практическая ценность: Предоставляет справочный материал для промышленных приложений и разработки служебных роботов
- Воспроизводимость: Предоставляет репозиторий GitHub, способствующий воспроизведению и расширению исследований
- Междисциплинарное влияние: Объединяет несколько областей: робототехнику, компьютерное зрение и глубокое обучение
- Промышленная автоматизация: Обработка и манипуляция материалами в сложных средах
- Поисково-спасательные операции: Распознавание объектов и спасательные операции на местах катастроф
- Служебные роботы: Манипуляция объектами в домашних и офисных средах
- Исследовательская платформа: Платформа разработки и проверки алгоритмов мобильной манипуляции
Статья ссылается на 14 связанных работ, охватывающих ключевые области мобильной манипуляции, четвероногих роботов и глубокого обучения захвату, предоставляя прочную теоретическую основу для исследования.
Общая оценка: Это прикладная исследовательская работа с чётким техническим подходом и полной реализацией. Хотя она имеет некоторые недостатки в теоретических инновациях и всеобъемлющей оценке, её полная системная реализация и проверка на реальном роботе представляют ценный вклад в исследование мобильной манипуляции четвероногих роботов. Данная работа закладывает хорошую основу для последующих исследований, особенно в области передачи симуляция-в-реальность и слияния многомодального восприятия.