2025-11-22T23:46:16.732962

Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

Almeida, Lazzarini, Negri et al.

This paper presents a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, with a focus on improving precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.

academic

Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

基本信息

论文ID: 2508.17466
标题: Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
作者: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
分类: cs.RO cs.AI cs.CV cs.LG cs.SY eess.SY
发表时间: 2025年10月11日 (arXiv v2)
论文链接: https://arxiv.org/abs/2508.17466v2
资助机构: Petróleo Brasileiro S/A - Petrobras

摘要

本文提出了一个深度学习框架，旨在增强配备机械臂的四足机器人的抓取能力，重点提高精度和适应性。该方法采用仿真到现实(sim-to-real)的方法论，最大限度地减少对物理数据收集的依赖。作者在Genesis仿真环境中开发了一个管道，生成常见物体抓取尝试的合成数据集。通过从各种视角模拟数千次交互，创建了像素级标注的抓取质量图作为模型的真值。该数据集用于训练具有U-Net类架构的自定义CNN，处理来自车载RGB和深度相机的多模态输入，包括RGB图像、深度图、分割掩码和表面法向量图。训练后的模型输出抓取质量热图以识别最优抓取点。作者在四足机器人上验证了完整框架，系统成功执行了完整的移动操作任务：自主导航到目标物体、用传感器感知物体、使用模型预测最优抓取姿态并执行精确抓取。

研究背景与动机

问题定义

四足机器人在复杂非结构化环境中的精确和适应性抓取仍然是一个重大挑战，传统方法通常需要大量的现实世界校准和预编程的抓取配置，这限制了其灵活性。

重要性

应用价值: 四足机器人配备机械臂后可以实现移动操作(loco-manipulation)，在工业自动化、搜救任务和辅助技术等领域具有重要应用价值
技术挑战: 需要在动态场景中实现稳健的物体识别、准确的抓取规划和与运动系统的流畅集成
环境适应性: 能够在不可预测的非结构化环境中有效操作

现有方法局限性

依赖预定义配置: 传统方法依赖预定义的抓取配置或密集的手动校准
缺乏泛化能力: 现有解决方案通常与特定上下文相关，缺乏跨场景的适应性
数据收集成本: 需要大量真实世界数据收集，成本高且耗时

研究动机

作者受到近期深度学习在机器人抓取领域成功应用的启发，提出了专门针对四足机器人的深度学习框架，通过仿真训练克服传统方法的限制。

核心贡献

开发了基于Genesis仿真器的训练管道，实现大规模并行数据收集，无需真实数据
集成了先进的感知方法(如D2NT)，提高基于深度的抓取精度并降低ML执行的计算成本
开发了灵活的框架，能够与高级控制API和缺乏低级访问的商用机器人集成
在物理机器人上验证了方法的有效性，证明了该方法在真实世界场景中的effectiveness

方法详解

任务定义

输入: RGB-D相机数据(RGB图像、深度图、分割掩码、表面法向量图) 输出: 抓取质量热图，标识最优抓取点的3D坐标和方向约束: 在四足机器人移动操作场景下实现精确抓取

数据集生成

仿真环境设置

使用Genesis框架进行物理仿真
选择水瓶3D模型作为抓取目标
配置虚拟RGB-D相机提取物体图像

相机位置采样

在2D网格上采样1000个不同位置
X轴和Z轴各100个和10个点(范围-0.5m到0.5m)
Y轴固定在y=0.5m
每个位置添加随机扰动(X,Y: ±0.03m, Z: 0-0.09m)

抓取标注生成

对每个像素执行抓取尝试：

将像素坐标转换为全局坐标系
计算对应的表面法向量
末端执行器距离物体1.0m开始，距离表面0.35m处尝试抓取
基于碰撞检测判断抓取成功(1)或失败(0)
物体外区域标记为不确定(-1)

模型架构

网络设计

架构: 基于U-Net的全卷积编码器-解码器结构
编码器: 使用MobileNetV2作为骨干网络
输入: 480×640×8通道(RGB + 深度 + 法向量图 + 分割掩码)
输出: 单通道抓取质量图
参数量: 约544万个可训练参数

关键技术细节

使用GroupNorm提高训练稳定性
跳跃连接融合编码器的细粒度特征
转置卷积进行上采样
1×1卷积生成最终输出

技术创新点

多模态融合: 有效结合RGB、深度、法向量和分割信息
仿真到现实转移: 完全基于仿真数据训练，成功部署到真实机器人
端到端管道: 从感知到执行的完整自动化流程
表面法向量集成: 利用D2NT算法从深度图估计表面法向量

实验设置

数据集

仿真数据: 在Genesis环境中生成1000个视角的合成数据
分辨率: 480×640像素
标注方式: 像素级抓取质量标注(成功/失败/不确定)
物体类型: 水瓶模型(后续扩展到保温瓶)

评价指标

抓取成功率
定位精度
实时性能表现

实验平台

机器人: Boston Dynamics Spot四足机器人
传感器: 末端执行器RGB-D相机
控制: Boston Dynamics SDK
物体检测: YOLOv11预训练模型

实现细节

相机内参: fx, fy ≈ 554.26像素, 主点(u0=320, v0=240)
最大扭矩: 3.0 Nm
抓取距离: 距离物体表面0.35m
力控制: 基于SDK的力限制控制

实验结果

主要结果

论文成功演示了完整的移动操作任务：

自主导航: 机器人成功识别并接近目标物体
感知准确性: RGB-D数据成功获取并处理
抓取预测: CNN模型准确预测最优抓取点
执行成功: 物理机器人成功抓取保温瓶

系统性能

实时处理: 能够实时处理480×640分辨率的多模态输入
鲁棒性: 在真实环境中展现良好的适应性
精确性: 成功实现精确的力控制抓取

案例分析

从图8可以看出：

RGB图像清晰捕获目标物体
深度图提供准确的空间信息
YOLO-11生成精确的分割掩码
D2NT算法成功生成表面法向量图
模型输出的抓取热图准确标识最优区域

相关工作

移动操作研究

早期研究专注于稳定运动系统开发和基础末端执行器集成
传统方法基于刚性运动学模型和固定规则的控制策略
近期进展包括高精度传感器、计算机视觉技术和运动规划架构

深度学习在抓取中的应用

机器学习算法通常返回末端执行器开度、方向和抓取质量
深度学习方法能够从数据中学习泛化的抓取策略
仿真到现实转移成为降低数据收集成本的重要方向

四足机器人操作

四足机器人在复杂地形导航方面表现出色
配备机械臂后实现移动操作能力
在工业自动化、搜救和辅助技术领域应用前景广阔

结论与讨论

主要结论

方法有效性: 基于仿真的深度学习方法成功实现四足机器人精确抓取
技术可行性: 多模态感知和CNN预测的结合证明了技术路线的可行性
实用价值: 完整的移动操作管道为实际应用提供了可行方案

局限性

泛化能力有限: 模型泛化受物体几何形状和纹理变化限制
传感器质量: 末端执行器深度传感器质量较低，导致深度图噪声
预处理一致性: 分割掩码调整大小偶尔影响预处理一致性
物体多样性: 当前主要针对特定形状物体(瓶子类)

未来方向

数据集扩展: 包含更多样化的物体形状、尺寸和纹理
传感器改进: 实现深度图去噪的平滑滤波器或专用ML模型
控制策略: 探索超越SDK工具的运动和操作策略
复杂环境: 在多物体和不规则表面的复杂环境中测试

深度评价

优点

创新性强: 将仿真到现实方法成功应用于四足机器人抓取
系统完整: 从感知到执行的端到端解决方案
实用性好: 在真实机器人上验证了方法的有效性
技术先进: 有效融合多模态信息和现代深度学习技术

不足

评估有限: 缺乏定量的成功率统计和与其他方法的对比
物体单一: 主要针对瓶状物体，泛化能力需要进一步验证
环境简单: 实验环境相对简单，复杂场景下的性能未知
理论分析: 缺乏对方法理论基础和失败案例的深入分析

影响力

学术贡献: 为四足机器人移动操作提供了新的技术路径
实用价值: 为工业应用和服务机器人开发提供参考
可复现性: 提供了GitHub仓库，有助于研究复现和扩展
跨学科影响: 结合了机器人学、计算机视觉和深度学习多个领域

适用场景

工业自动化: 复杂环境下的物料搬运和操作
搜救任务: 灾难现场的物体识别和救援操作
服务机器人: 家庭和办公环境中的物体操作
研究平台: 移动操作算法的开发和验证平台

参考文献

论文引用了14篇相关文献，涵盖了移动操作、四足机器人、深度学习抓取等关键领域的重要工作，为研究提供了坚实的理论基础。

总体评价: 这是一篇技术路线清晰、实现完整的应用型研究论文。虽然在理论创新和全面评估方面有所不足，但其完整的系统实现和真实机器人验证为四足机器人移动操作研究提供了有价值的贡献。该工作为后续研究奠定了良好基础，特别是在仿真到现实转移和多模态感知融合方面。