2025-11-22T23:46:16.732962

Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

Almeida, Lazzarini, Negri et al.

This paper presents a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, with a focus on improving precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.

academic

Оптимизация захвата в четвероногих роботах: подход глубокого обучения к локо-манипуляции

Основная информация

ID статьи: 2508.17466
Название: Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
Авторы: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
Классификация: cs.RO cs.AI cs.CV cs.LG cs.SY eess.SY
Дата публикации: 11 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2508.17466v2
Финансирующие организации: Petróleo Brasileiro S/A - Petrobras

Аннотация

В данной работе предлагается фреймворк глубокого обучения, направленный на повышение способности четвероногих роботов, оснащённых манипуляторами, к захвату объектов с акцентом на точность и адаптивность. Методология основана на подходе «симуляция-в-реальность» (sim-to-real), что минимизирует зависимость от сбора физических данных. Авторы разработали конвейер в среде симуляции Genesis, генерирующий синтетический набор данных попыток захвата обычных объектов. Путём моделирования тысяч взаимодействий с различных точек зрения создаются карты качества захвата с пиксельной аннотацией в качестве эталонных значений для модели. Этот набор данных используется для обучения пользовательской свёрточной нейронной сети (CNN) с архитектурой типа U-Net, обрабатывающей многомодальные входные данные с бортовых RGB и глубинных камер, включая RGB-изображения, карты глубины, маски сегментации и карты нормалей поверхности. Обученная модель выдаёт тепловые карты качества захвата для определения оптимальных точек захвата. Авторы проверили полный фреймворк на четвероногом роботе, демонстрируя успешное выполнение полной задачи мобильной манипуляции: автономную навигацию к целевому объекту, восприятие объекта датчиками, использование модели для предсказания оптимальной позы захвата и выполнение точного захвата.

Исследовательский контекст и мотивация

Определение проблемы

Точный и адаптивный захват объектов четвероногими роботами в сложных неструктурированных средах остаётся значительной проблемой. Традиционные методы обычно требуют большого объёма реальной калибровки и предварительно запрограммированных конфигураций захвата, что ограничивает их гибкость.

Значимость

Прикладная ценность: Четвероногие роботы, оснащённые манипуляторами, могут реализовать локо-манипуляцию, имеющую важное применение в промышленной автоматизации, поисково-спасательных операциях и вспомогательных технологиях
Технические вызовы: Требуется обеспечить надёжное распознавание объектов в динамических сценах, точное планирование захвата и плавную интеграцию с системой движения
Адаптивность к окружающей среде: Способность эффективно функционировать в непредсказуемых неструктурированных средах

Ограничения существующих методов

Зависимость от предопределённых конфигураций: Традиционные методы полагаются на предопределённые конфигурации захвата или интенсивную ручную калибровку
Отсутствие способности к обобщению: Существующие решения обычно привязаны к конкретному контексту и не обладают адаптивностью между сценариями
Стоимость сбора данных: Требуется большой объём сбора данных в реальном мире, что дорого и отнимает много времени

Исследовательская мотивация

Авторы вдохновлены недавними успешными применениями глубокого обучения в области робототехнического захвата и предлагают фреймворк глубокого обучения, специально разработанный для четвероногих роботов, преодолевающий ограничения традиционных методов посредством обучения на симуляции.

Основные вклады

Разработан конвейер обучения на основе симулятора Genesis, обеспечивающий крупномасштабный параллельный сбор данных без необходимости в реальных данных
Интегрированы передовые методы восприятия (такие как D2NT), повышающие точность захвата на основе глубины и снижающие вычислительные затраты на выполнение ML
Разработан гибкий фреймворк, способный интегрироваться с высокоуровневыми API управления и коммерческими роботами без доступа на низком уровне
Проверена эффективность метода на физическом роботе, подтверждающая его применимость в сценариях реального мира

Подробное описание методологии

Определение задачи

Входные данные: RGB-D данные камеры (RGB-изображение, карта глубины, маска сегментации, карта нормалей поверхности) Выходные данные: Тепловая карта качества захвата, определяющая 3D координаты и ориентацию оптимальной точки захвата Ограничения: Обеспечение точного захвата в сценарии мобильной манипуляции четвероногого робота

Генерация набора данных

Настройка среды симуляции

Использование фреймворка Genesis для физической симуляции
Выбор 3D модели водяной бутылки в качестве целевого объекта захвата
Конфигурация виртуальной RGB-D камеры для извлечения изображений объекта

Выборка позиций камеры

Выборка 1000 различных позиций на 2D сетке
100 и 10 точек на осях X и Z соответственно (диапазон от -0,5 м до 0,5 м)
Ось Y зафиксирована на y = 0,5 м
Добавление случайных возмущений к каждой позиции (X, Y: ±0,03 м, Z: 0-0,09 м)

Генерация аннотаций захвата

Для каждого пикселя выполняется попытка захвата:

Преобразование координат пикселя в глобальную систему координат
Вычисление соответствующего вектора нормали поверхности
Начало с расстояния 1,0 м от объекта, попытка захвата на расстоянии 0,35 м от поверхности
Определение успеха (1) или неудачи (0) захвата на основе обнаружения столкновений
Маркировка областей вне объекта как неопределённые (-1)

Архитектура модели

Конструкция сети

Архитектура: Полносвёрточная структура кодировщик-декодировщик на основе U-Net
Кодировщик: Использование MobileNetV2 в качестве базовой сети
Входные данные: 480×640×8 каналов (RGB + глубина + карта нормалей + маска сегментации)
Выходные данные: Одноканальная карта качества захвата
Количество параметров: Примерно 5,44 млн обучаемых параметров

Ключевые технические детали

Использование GroupNorm для повышения стабильности обучения
Пропускные соединения для слияния тонкозернистых признаков кодировщика
Транспонированные свёртки для повышающей дискретизации
Свёртки 1×1 для генерации финального выхода

Технические инновации

Многомодальное слияние: Эффективное объединение информации RGB, глубины, нормалей и сегментации
Передача симуляция-в-реальность: Полное обучение на симуляционных данных с успешным развёртыванием на реальном роботе
Сквозной конвейер: Полностью автоматизированный процесс от восприятия к выполнению
Интеграция нормалей поверхности: Использование алгоритма D2NT для оценки нормалей поверхности из карты глубины

Экспериментальная установка

Набор данных

Симуляционные данные: Синтетические данные, генерируемые в среде Genesis с 1000 точек зрения
Разрешение: 480×640 пикселей
Способ аннотации: Пиксельная аннотация качества захвата (успех/неудача/неопределённо)
Тип объекта: Модель водяной бутылки (позже расширена на термос)

Метрики оценки

Коэффициент успеха захвата
Точность локализации
Характеристики производительности в реальном времени

Экспериментальная платформа

Робот: Четвероногий робот Boston Dynamics Spot
Датчики: RGB-D камера на конечном исполнительном органе
Управление: Boston Dynamics SDK
Обнаружение объектов: Предварительно обученная модель YOLOv11

Детали реализации

Внутренние параметры камеры: fx, fy ≈ 554,26 пикселей, главная точка (u0=320, v0=240)
Максимальный крутящий момент: 3,0 Нм
Расстояние захвата: 0,35 м от поверхности объекта
Управление силой: Управление с ограничением силы на основе SDK

Результаты экспериментов

Основные результаты

Статья успешно демонстрирует полную задачу мобильной манипуляции:

Автономная навигация: Робот успешно идентифицирует и приближается к целевому объекту
Точность восприятия: RGB-D данные успешно получены и обработаны
Предсказание захвата: Модель CNN точно предсказывает оптимальную точку захвата
Успешное выполнение: Физический робот успешно захватывает термос

Производительность системы

Обработка в реальном времени: Способность обрабатывать многомодальные входные данные разрешением 480×640 в реальном времени
Надёжность: Демонстрирует хорошую адаптивность в реальной среде
Точность: Успешно реализует точное управление силой при захвате

Анализ примеров

Из рисунка 8 видно:

RGB-изображение чётко захватывает целевой объект
Карта глубины обеспечивает точную пространственную информацию
YOLO-11 генерирует точную маску сегментации
Алгоритм D2NT успешно генерирует карту нормалей поверхности
Выходная тепловая карта захвата модели точно определяет оптимальные области

Связанные работы

Исследования мобильной манипуляции

Ранние исследования сосредоточены на разработке стабильных систем движения и базовой интеграции конечного исполнительного органа
Традиционные методы основаны на жёстких кинематических моделях и стратегиях управления с фиксированными правилами
Недавний прогресс включает высокоточные датчики, технологии компьютерного зрения и архитектуры планирования движения

Применение глубокого обучения в захвате

Алгоритмы машинного обучения обычно возвращают раскрытие конечного исполнительного органа, ориентацию и качество захвата
Методы глубокого обучения способны изучать обобщённые стратегии захвата из данных
Передача симуляция-в-реальность становится важным направлением для снижения затрат на сбор данных

Манипуляция четвероногими роботами

Четвероногие роботы демонстрируют превосходные характеристики при навигации по сложной местности
При оснащении манипулятором они получают способность к мобильной манипуляции
Широкие перспективы применения в промышленной автоматизации, поисково-спасательных операциях и вспомогательных технологиях

Заключение и обсуждение

Основные выводы

Эффективность метода: Метод глубокого обучения на основе симуляции успешно реализует точный захват четвероногим роботом
Техническая осуществимость: Комбинация многомодального восприятия и предсказания CNN подтверждает осуществимость технического подхода
Практическая ценность: Полный конвейер мобильной манипуляции предоставляет практическое решение для реальных приложений

Ограничения

Ограниченная способность к обобщению: Обобщение модели ограничено вариациями геометрии и текстуры объектов
Качество датчиков: Низкое качество датчика глубины на конечном исполнительном органе приводит к шуму в карте глубины
Согласованность предварительной обработки: Изменение размера маски сегментации иногда влияет на согласованность предварительной обработки
Разнообразие объектов: В настоящее время ориентирован в основном на объекты определённой формы (бутылки)

Направления будущих исследований

Расширение набора данных: Включение более разнообразных форм, размеров и текстур объектов
Улучшение датчиков: Реализация фильтров сглаживания для удаления шума из карты глубины или специализированных ML моделей
Стратегии управления: Исследование стратегий движения и манипуляции, выходящих за рамки инструментов SDK
Сложные среды: Тестирование в сложных средах с несколькими объектами и неправильными поверхностями

Глубокая оценка

Преимущества

Высокая инновационность: Успешное применение метода симуляция-в-реальность к захвату четвероногим роботом
Полнота системы: Сквозное решение от восприятия к выполнению
Хорошая практичность: Проверка эффективности метода на реальном роботе
Передовые технологии: Эффективное слияние многомодальной информации и современных технологий глубокого обучения

Недостатки

Ограниченная оценка: Отсутствие количественной статистики коэффициента успеха и сравнения с другими методами
Единообразие объектов: В основном ориентирован на объекты в форме бутылок, способность к обобщению требует дальнейшей проверки
Простота окружающей среды: Экспериментальная среда относительно проста, производительность в сложных сценариях неизвестна
Теоретический анализ: Отсутствует глубокий анализ теоретических основ метода и случаев отказа

Влияние

Академический вклад: Предоставляет новый технический путь для мобильной манипуляции четвероногих роботов
Практическая ценность: Предоставляет справочный материал для промышленных приложений и разработки служебных роботов
Воспроизводимость: Предоставляет репозиторий GitHub, способствующий воспроизведению и расширению исследований
Междисциплинарное влияние: Объединяет несколько областей: робототехнику, компьютерное зрение и глубокое обучение

Применимые сценарии

Промышленная автоматизация: Обработка и манипуляция материалами в сложных средах
Поисково-спасательные операции: Распознавание объектов и спасательные операции на местах катастроф
Служебные роботы: Манипуляция объектами в домашних и офисных средах
Исследовательская платформа: Платформа разработки и проверки алгоритмов мобильной манипуляции

Библиография

Статья ссылается на 14 связанных работ, охватывающих ключевые области мобильной манипуляции, четвероногих роботов и глубокого обучения захвату, предоставляя прочную теоретическую основу для исследования.

Общая оценка: Это прикладная исследовательская работа с чётким техническим подходом и полной реализацией. Хотя она имеет некоторые недостатки в теоретических инновациях и всеобъемлющей оценке, её полная системная реализация и проверка на реальном роботе представляют ценный вклад в исследование мобильной манипуляции четвероногих роботов. Данная работа закладывает хорошую основу для последующих исследований, особенно в области передачи симуляция-в-реальность и слияния многомодального восприятия.