This paper presents a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, with a focus on improving precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.
- ID del Artículo: 2508.17466
- Título: Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
- Autores: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
- Clasificación: cs.RO cs.AI cs.CV cs.LG cs.SY eess.SY
- Fecha de Publicación: 11 de octubre de 2025 (arXiv v2)
- Enlace del Artículo: https://arxiv.org/abs/2508.17466v2
- Institución Financiadora: Petróleo Brasileiro S/A - Petrobras
Este artículo propone un marco de aprendizaje profundo destinado a mejorar las capacidades de agarre de robots cuadrúpedos equipados con brazos mecánicos, enfatizando la precisión y adaptabilidad. El método adopta una metodología de simulación a realidad (sim-to-real), minimizando la dependencia de la recopilación de datos físicos. Los autores desarrollaron un pipeline en el entorno de simulación Genesis que genera conjuntos de datos sintéticos de intentos de agarre de objetos comunes. Mediante la simulación de miles de interacciones desde diversas perspectivas, se crearon mapas de calidad de agarre anotados a nivel de píxel como valores de verdad para el modelo. Este conjunto de datos se utilizó para entrenar una CNN personalizada con arquitectura tipo U-Net, procesando entradas multimodales de cámaras RGB y de profundidad a bordo, incluyendo imágenes RGB, mapas de profundidad, máscaras de segmentación y mapas de vectores normales de superficie. El modelo entrenado genera mapamientos de calidad de agarre para identificar puntos de agarre óptimos. Los autores validaron el marco completo en un robot cuadrúpedo, demostrando que el sistema ejecutó exitosamente una tarea completa de manipulación móvil: navegación autónoma hacia el objeto objetivo, percepción del objeto con sensores, predicción de la postura de agarre óptima utilizando el modelo y ejecución de un agarre preciso.
El agarre preciso y adaptativo de robots cuadrúpedos en entornos complejos no estructurados sigue siendo un desafío significativo, ya que los métodos tradicionales generalmente requieren calibración extensiva en el mundo real y configuraciones de agarre preprogramadas, lo que limita su flexibilidad.
- Valor de Aplicación: Los robots cuadrúpedos equipados con brazos mecánicos pueden lograr manipulación móvil (loco-manipulation), con aplicaciones importantes en automatización industrial, tareas de búsqueda y rescate y tecnologías de asistencia
- Desafíos Técnicos: Requiere lograr reconocimiento robusto de objetos en escenas dinámicas, planificación de agarre precisa e integración fluida con sistemas de movimiento
- Adaptabilidad Ambiental: Capacidad de operar efectivamente en entornos impredecibles no estructurados
- Dependencia de Configuraciones Predefinidas: Los métodos tradicionales dependen de configuraciones de agarre predefinidas o calibración manual intensiva
- Falta de Capacidad de Generalización: Las soluciones existentes generalmente están vinculadas a contextos específicos, careciendo de adaptabilidad entre escenarios
- Costo de Recopilación de Datos: Requiere recopilación extensiva de datos del mundo real, costosa y que consume tiempo
Los autores fueron inspirados por aplicaciones exitosas recientes de aprendizaje profundo en el campo de agarre robótico, proponiendo un marco de aprendizaje profundo especializado para robots cuadrúpedos que supera las limitaciones de los métodos tradicionales mediante entrenamiento en simulación.
- Desarrollo de un pipeline de entrenamiento basado en el simulador Genesis, que permite recopilación de datos paralela a gran escala sin necesidad de datos reales
- Integración de métodos de percepción avanzados (como D2NT), mejorando la precisión de agarre basada en profundidad y reduciendo el costo computacional de ejecución de ML
- Desarrollo de un marco flexible capaz de integrarse con API de control de alto nivel y robots comerciales que carecen de acceso de bajo nivel
- Validación de la efectividad del método en robots físicos, demostrando la efectividad del enfoque en escenarios del mundo real
Entrada: Datos de cámara RGB-D (imágenes RGB, mapas de profundidad, máscaras de segmentación, mapas de vectores normales de superficie)
Salida: Mapeo de calidad de agarre que identifica coordenadas 3D y orientación del punto de agarre óptimo
Restricciones: Lograr agarre preciso en escenarios de manipulación móvil de robots cuadrúpedos
- Utilización del marco Genesis para simulación física
- Selección de modelo 3D de botella de agua como objetivo de agarre
- Configuración de cámara RGB-D virtual para extracción de imágenes de objetos
- Muestreo de 1000 posiciones diferentes en una cuadrícula 2D
- 100 y 10 puntos en los ejes X y Z respectivamente (rango -0.5m a 0.5m)
- Eje Y fijo en y=0.5m
- Adición de perturbación aleatoria a cada posición (X,Y: ±0.03m, Z: 0-0.09m)
Para cada píxel se ejecuta un intento de agarre:
- Conversión de coordenadas de píxel al sistema de coordenadas global
- Cálculo del vector normal de superficie correspondiente
- Intento de agarre comenzando a 1.0m del objeto, a 0.35m de la superficie
- Determinación del éxito de agarre (1) o fracaso (0) basado en detección de colisiones
- Marcado de áreas fuera del objeto como inciertas (-1)
- Arquitectura: Estructura codificador-decodificador completamente convolucional basada en U-Net
- Codificador: Utilización de MobileNetV2 como red troncal
- Entrada: 480×640×8 canales (RGB + profundidad + mapa de vectores normales + máscara de segmentación)
- Salida: Mapa de calidad de agarre de un solo canal
- Cantidad de Parámetros: Aproximadamente 5.44 millones de parámetros entrenables
- Utilización de GroupNorm para mejorar la estabilidad del entrenamiento
- Conexiones de salto que fusionan características de grano fino del codificador
- Convoluciones transpuestas para sobremuestreo
- Convoluciones 1×1 para generar salida final
- Fusión Multimodal: Combinación efectiva de información RGB, profundidad, vectores normales y segmentación
- Transferencia de Simulación a Realidad: Entrenamiento completamente basado en datos de simulación, despliegue exitoso en robots reales
- Pipeline Extremo a Extremo: Proceso completamente automatizado desde percepción hasta ejecución
- Integración de Vectores Normales de Superficie: Utilización del algoritmo D2NT para estimar vectores normales de superficie a partir de mapas de profundidad
- Datos de Simulación: Generados en el entorno Genesis desde 1000 perspectivas
- Resolución: 480×640 píxeles
- Método de Anotación: Anotación de calidad de agarre a nivel de píxel (éxito/fracaso/incierto)
- Tipo de Objeto: Modelo de botella de agua (posteriormente extendido a botellas térmicas)
- Tasa de éxito de agarre
- Precisión de localización
- Desempeño en tiempo real
- Robot: Robot cuadrúpedo Boston Dynamics Spot
- Sensores: Cámara RGB-D en el efector final
- Control: SDK de Boston Dynamics
- Detección de Objetos: Modelo preentrenado YOLOv11
- Parámetros de Cámara: fx, fy ≈ 554.26 píxeles, punto principal (u0=320, v0=240)
- Torque Máximo: 3.0 Nm
- Distancia de Agarre: 0.35m de la superficie del objeto
- Control de Fuerza: Control limitado por fuerza basado en SDK
El artículo demuestra exitosamente una tarea completa de manipulación móvil:
- Navegación Autónoma: El robot identifica y se acerca exitosamente al objeto objetivo
- Precisión de Percepción: Los datos RGB-D se adquieren y procesan exitosamente
- Predicción de Agarre: El modelo CNN predice con precisión el punto de agarre óptimo
- Ejecución Exitosa: El robot físico agarra exitosamente la botella térmica
- Procesamiento en Tiempo Real: Capacidad de procesar en tiempo real entradas multimodales de resolución 480×640
- Robustez: Demuestra buena adaptabilidad en entornos reales
- Precisión: Logra control de fuerza de agarre preciso
De la Figura 8 se puede observar:
- Imagen RGB captura claramente el objeto objetivo
- Mapa de profundidad proporciona información espacial precisa
- YOLO-11 genera máscara de segmentación precisa
- Algoritmo D2NT genera exitosamente mapa de vectores normales de superficie
- Mapa de calidad de agarre de salida del modelo identifica con precisión la región óptima
- Investigación temprana enfocada en desarrollo de sistemas de movimiento estable e integración de efector final básico
- Métodos tradicionales basados en modelos cinemáticos rígidos y estrategias de control con reglas fijas
- Avances recientes incluyen sensores de alta precisión, tecnología de visión por computadora y arquitecturas de planificación de movimiento
- Los algoritmos de aprendizaje automático típicamente retornan apertura del efector final, orientación y calidad de agarre
- Los métodos de aprendizaje profundo pueden aprender estrategias de agarre generalizadas a partir de datos
- La transferencia de simulación a realidad se ha convertido en una dirección importante para reducir costos de recopilación de datos
- Los robots cuadrúpedos demuestran excelente desempeño en navegación en terrenos complejos
- Equipados con brazos mecánicos logran capacidades de manipulación móvil
- Amplias perspectivas de aplicación en automatización industrial, búsqueda y rescate y tecnologías de asistencia
- Efectividad del Método: El método de aprendizaje profundo basado en simulación logra exitosamente agarre preciso en robots cuadrúpedos
- Viabilidad Técnica: La combinación de percepción multimodal y predicción CNN demuestra la viabilidad de la ruta técnica
- Valor Práctico: El pipeline completo de manipulación móvil proporciona una solución viable para aplicaciones prácticas
- Capacidad de Generalización Limitada: La generalización del modelo está limitada por variaciones en geometría y textura de objetos
- Calidad del Sensor: La calidad inferior del sensor de profundidad del efector final resulta en ruido en mapas de profundidad
- Consistencia de Preprocesamiento: El redimensionamiento de máscaras de segmentación ocasionalmente afecta la consistencia del preprocesamiento
- Diversidad de Objetos: Actualmente enfocado principalmente en objetos de forma específica (tipo botella)
- Expansión de Conjunto de Datos: Inclusión de formas de objetos, tamaños y texturas más diversas
- Mejora de Sensores: Implementación de filtros de suavizado para reducción de ruido de profundidad o modelos ML especializados
- Estrategias de Control: Exploración de estrategias de movimiento y manipulación más allá de herramientas SDK
- Entornos Complejos: Prueba en entornos complejos con múltiples objetos y superficies irregulares
- Innovación Fuerte: Aplicación exitosa del método de simulación a realidad en agarre de robots cuadrúpedos
- Sistema Completo: Solución extremo a extremo desde percepción hasta ejecución
- Buena Practicidad: Validación de la efectividad del método en robots reales
- Tecnología Avanzada: Fusión efectiva de información multimodal y técnicas modernas de aprendizaje profundo
- Evaluación Limitada: Carencia de estadísticas cuantitativas de tasa de éxito y comparación con otros métodos
- Objeto Único: Enfocado principalmente en objetos tipo botella, necesitando verificación adicional de capacidad de generalización
- Entorno Simple: Entorno experimental relativamente simple, desempeño en escenarios complejos desconocido
- Análisis Teórico: Carencia de análisis profundo de fundamentos teóricos del método y casos de fracaso
- Contribución Académica: Proporciona nueva ruta técnica para manipulación móvil de robots cuadrúpedos
- Valor Práctico: Proporciona referencia para desarrollo de aplicaciones industriales y robots de servicio
- Reproducibilidad: Proporciona repositorio GitHub, facilitando reproducción y extensión de investigación
- Impacto Interdisciplinario: Combina múltiples campos incluyendo robótica, visión por computadora y aprendizaje profundo
- Automatización Industrial: Manipulación y operación de materiales en entornos complejos
- Tareas de Búsqueda y Rescate: Reconocimiento de objetos y operación de rescate en sitios de desastres
- Robots de Servicio: Operación de objetos en entornos domésticos y de oficina
- Plataforma de Investigación: Plataforma de desarrollo y validación de algoritmos de manipulación móvil
El artículo cita 14 referencias relacionadas, abarcando trabajos importantes en manipulación móvil, robots cuadrúpedos, agarre con aprendizaje profundo y otros campos clave, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo de investigación aplicada con ruta técnica clara e implementación completa. Aunque tiene algunas insuficiencias en innovación teórica y evaluación integral, su implementación completa del sistema y validación en robots reales proporciona una contribución valiosa a la investigación de manipulación móvil de robots cuadrúpedos. Este trabajo establece una base sólida para investigación posterior, particularmente en transferencia de simulación a realidad y fusión de percepción multimodal.