2025-11-22T23:46:16.732962

Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

Almeida, Lazzarini, Negri et al.

This paper presents a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, with a focus on improving precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.

academic

Optimización de Agarre en Robots Cuadrúpedos: Un Enfoque de Aprendizaje Profundo para Loco-Manipulación

Información Básica

ID del Artículo: 2508.17466
Título: Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
Autores: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
Clasificación: cs.RO cs.AI cs.CV cs.LG cs.SY eess.SY
Fecha de Publicación: 11 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2508.17466v2
Institución Financiadora: Petróleo Brasileiro S/A - Petrobras

Resumen

Este artículo propone un marco de aprendizaje profundo destinado a mejorar las capacidades de agarre de robots cuadrúpedos equipados con brazos mecánicos, enfatizando la precisión y adaptabilidad. El método adopta una metodología de simulación a realidad (sim-to-real), minimizando la dependencia de la recopilación de datos físicos. Los autores desarrollaron un pipeline en el entorno de simulación Genesis que genera conjuntos de datos sintéticos de intentos de agarre de objetos comunes. Mediante la simulación de miles de interacciones desde diversas perspectivas, se crearon mapas de calidad de agarre anotados a nivel de píxel como valores de verdad para el modelo. Este conjunto de datos se utilizó para entrenar una CNN personalizada con arquitectura tipo U-Net, procesando entradas multimodales de cámaras RGB y de profundidad a bordo, incluyendo imágenes RGB, mapas de profundidad, máscaras de segmentación y mapas de vectores normales de superficie. El modelo entrenado genera mapamientos de calidad de agarre para identificar puntos de agarre óptimos. Los autores validaron el marco completo en un robot cuadrúpedo, demostrando que el sistema ejecutó exitosamente una tarea completa de manipulación móvil: navegación autónoma hacia el objeto objetivo, percepción del objeto con sensores, predicción de la postura de agarre óptima utilizando el modelo y ejecución de un agarre preciso.

Antecedentes de Investigación y Motivación

Definición del Problema

El agarre preciso y adaptativo de robots cuadrúpedos en entornos complejos no estructurados sigue siendo un desafío significativo, ya que los métodos tradicionales generalmente requieren calibración extensiva en el mundo real y configuraciones de agarre preprogramadas, lo que limita su flexibilidad.

Importancia

Valor de Aplicación: Los robots cuadrúpedos equipados con brazos mecánicos pueden lograr manipulación móvil (loco-manipulation), con aplicaciones importantes en automatización industrial, tareas de búsqueda y rescate y tecnologías de asistencia
Desafíos Técnicos: Requiere lograr reconocimiento robusto de objetos en escenas dinámicas, planificación de agarre precisa e integración fluida con sistemas de movimiento
Adaptabilidad Ambiental: Capacidad de operar efectivamente en entornos impredecibles no estructurados

Limitaciones de Métodos Existentes

Dependencia de Configuraciones Predefinidas: Los métodos tradicionales dependen de configuraciones de agarre predefinidas o calibración manual intensiva
Falta de Capacidad de Generalización: Las soluciones existentes generalmente están vinculadas a contextos específicos, careciendo de adaptabilidad entre escenarios
Costo de Recopilación de Datos: Requiere recopilación extensiva de datos del mundo real, costosa y que consume tiempo

Motivación de la Investigación

Los autores fueron inspirados por aplicaciones exitosas recientes de aprendizaje profundo en el campo de agarre robótico, proponiendo un marco de aprendizaje profundo especializado para robots cuadrúpedos que supera las limitaciones de los métodos tradicionales mediante entrenamiento en simulación.

Contribuciones Principales

Desarrollo de un pipeline de entrenamiento basado en el simulador Genesis, que permite recopilación de datos paralela a gran escala sin necesidad de datos reales
Integración de métodos de percepción avanzados (como D2NT), mejorando la precisión de agarre basada en profundidad y reduciendo el costo computacional de ejecución de ML
Desarrollo de un marco flexible capaz de integrarse con API de control de alto nivel y robots comerciales que carecen de acceso de bajo nivel
Validación de la efectividad del método en robots físicos, demostrando la efectividad del enfoque en escenarios del mundo real

Explicación Detallada del Método

Definición de la Tarea

Entrada: Datos de cámara RGB-D (imágenes RGB, mapas de profundidad, máscaras de segmentación, mapas de vectores normales de superficie) Salida: Mapeo de calidad de agarre que identifica coordenadas 3D y orientación del punto de agarre óptimo Restricciones: Lograr agarre preciso en escenarios de manipulación móvil de robots cuadrúpedos

Generación de Conjunto de Datos

Configuración del Entorno de Simulación

Utilización del marco Genesis para simulación física
Selección de modelo 3D de botella de agua como objetivo de agarre
Configuración de cámara RGB-D virtual para extracción de imágenes de objetos

Muestreo de Posición de Cámara

Muestreo de 1000 posiciones diferentes en una cuadrícula 2D
100 y 10 puntos en los ejes X y Z respectivamente (rango -0.5m a 0.5m)
Eje Y fijo en y=0.5m
Adición de perturbación aleatoria a cada posición (X,Y: ±0.03m, Z: 0-0.09m)

Generación de Anotaciones de Agarre

Para cada píxel se ejecuta un intento de agarre:

Conversión de coordenadas de píxel al sistema de coordenadas global
Cálculo del vector normal de superficie correspondiente
Intento de agarre comenzando a 1.0m del objeto, a 0.35m de la superficie
Determinación del éxito de agarre (1) o fracaso (0) basado en detección de colisiones
Marcado de áreas fuera del objeto como inciertas (-1)

Arquitectura del Modelo

Diseño de Red

Arquitectura: Estructura codificador-decodificador completamente convolucional basada en U-Net
Codificador: Utilización de MobileNetV2 como red troncal
Entrada: 480×640×8 canales (RGB + profundidad + mapa de vectores normales + máscara de segmentación)
Salida: Mapa de calidad de agarre de un solo canal
Cantidad de Parámetros: Aproximadamente 5.44 millones de parámetros entrenables

Detalles Técnicos Clave

Utilización de GroupNorm para mejorar la estabilidad del entrenamiento
Conexiones de salto que fusionan características de grano fino del codificador
Convoluciones transpuestas para sobremuestreo
Convoluciones 1×1 para generar salida final

Puntos de Innovación Técnica

Fusión Multimodal: Combinación efectiva de información RGB, profundidad, vectores normales y segmentación
Transferencia de Simulación a Realidad: Entrenamiento completamente basado en datos de simulación, despliegue exitoso en robots reales
Pipeline Extremo a Extremo: Proceso completamente automatizado desde percepción hasta ejecución
Integración de Vectores Normales de Superficie: Utilización del algoritmo D2NT para estimar vectores normales de superficie a partir de mapas de profundidad

Configuración Experimental

Conjunto de Datos

Datos de Simulación: Generados en el entorno Genesis desde 1000 perspectivas
Resolución: 480×640 píxeles
Método de Anotación: Anotación de calidad de agarre a nivel de píxel (éxito/fracaso/incierto)
Tipo de Objeto: Modelo de botella de agua (posteriormente extendido a botellas térmicas)

Métricas de Evaluación

Tasa de éxito de agarre
Precisión de localización
Desempeño en tiempo real

Plataforma Experimental

Robot: Robot cuadrúpedo Boston Dynamics Spot
Sensores: Cámara RGB-D en el efector final
Control: SDK de Boston Dynamics
Detección de Objetos: Modelo preentrenado YOLOv11

Detalles de Implementación

Parámetros de Cámara: fx, fy ≈ 554.26 píxeles, punto principal (u0=320, v0=240)
Torque Máximo: 3.0 Nm
Distancia de Agarre: 0.35m de la superficie del objeto
Control de Fuerza: Control limitado por fuerza basado en SDK

Resultados Experimentales

Resultados Principales

El artículo demuestra exitosamente una tarea completa de manipulación móvil:

Navegación Autónoma: El robot identifica y se acerca exitosamente al objeto objetivo
Precisión de Percepción: Los datos RGB-D se adquieren y procesan exitosamente
Predicción de Agarre: El modelo CNN predice con precisión el punto de agarre óptimo
Ejecución Exitosa: El robot físico agarra exitosamente la botella térmica

Desempeño del Sistema

Procesamiento en Tiempo Real: Capacidad de procesar en tiempo real entradas multimodales de resolución 480×640
Robustez: Demuestra buena adaptabilidad en entornos reales
Precisión: Logra control de fuerza de agarre preciso

Análisis de Casos

De la Figura 8 se puede observar:

Imagen RGB captura claramente el objeto objetivo
Mapa de profundidad proporciona información espacial precisa
YOLO-11 genera máscara de segmentación precisa
Algoritmo D2NT genera exitosamente mapa de vectores normales de superficie
Mapa de calidad de agarre de salida del modelo identifica con precisión la región óptima

Trabajo Relacionado

Investigación en Manipulación Móvil

Investigación temprana enfocada en desarrollo de sistemas de movimiento estable e integración de efector final básico
Métodos tradicionales basados en modelos cinemáticos rígidos y estrategias de control con reglas fijas
Avances recientes incluyen sensores de alta precisión, tecnología de visión por computadora y arquitecturas de planificación de movimiento

Aplicación de Aprendizaje Profundo en Agarre

Los algoritmos de aprendizaje automático típicamente retornan apertura del efector final, orientación y calidad de agarre
Los métodos de aprendizaje profundo pueden aprender estrategias de agarre generalizadas a partir de datos
La transferencia de simulación a realidad se ha convertido en una dirección importante para reducir costos de recopilación de datos

Operación de Robots Cuadrúpedos

Los robots cuadrúpedos demuestran excelente desempeño en navegación en terrenos complejos
Equipados con brazos mecánicos logran capacidades de manipulación móvil
Amplias perspectivas de aplicación en automatización industrial, búsqueda y rescate y tecnologías de asistencia

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Método: El método de aprendizaje profundo basado en simulación logra exitosamente agarre preciso en robots cuadrúpedos
Viabilidad Técnica: La combinación de percepción multimodal y predicción CNN demuestra la viabilidad de la ruta técnica
Valor Práctico: El pipeline completo de manipulación móvil proporciona una solución viable para aplicaciones prácticas

Limitaciones

Capacidad de Generalización Limitada: La generalización del modelo está limitada por variaciones en geometría y textura de objetos
Calidad del Sensor: La calidad inferior del sensor de profundidad del efector final resulta en ruido en mapas de profundidad
Consistencia de Preprocesamiento: El redimensionamiento de máscaras de segmentación ocasionalmente afecta la consistencia del preprocesamiento
Diversidad de Objetos: Actualmente enfocado principalmente en objetos de forma específica (tipo botella)

Direcciones Futuras

Expansión de Conjunto de Datos: Inclusión de formas de objetos, tamaños y texturas más diversas
Mejora de Sensores: Implementación de filtros de suavizado para reducción de ruido de profundidad o modelos ML especializados
Estrategias de Control: Exploración de estrategias de movimiento y manipulación más allá de herramientas SDK
Entornos Complejos: Prueba en entornos complejos con múltiples objetos y superficies irregulares

Evaluación Profunda

Fortalezas

Innovación Fuerte: Aplicación exitosa del método de simulación a realidad en agarre de robots cuadrúpedos
Sistema Completo: Solución extremo a extremo desde percepción hasta ejecución
Buena Practicidad: Validación de la efectividad del método en robots reales
Tecnología Avanzada: Fusión efectiva de información multimodal y técnicas modernas de aprendizaje profundo

Insuficiencias

Evaluación Limitada: Carencia de estadísticas cuantitativas de tasa de éxito y comparación con otros métodos
Objeto Único: Enfocado principalmente en objetos tipo botella, necesitando verificación adicional de capacidad de generalización
Entorno Simple: Entorno experimental relativamente simple, desempeño en escenarios complejos desconocido
Análisis Teórico: Carencia de análisis profundo de fundamentos teóricos del método y casos de fracaso

Impacto

Contribución Académica: Proporciona nueva ruta técnica para manipulación móvil de robots cuadrúpedos
Valor Práctico: Proporciona referencia para desarrollo de aplicaciones industriales y robots de servicio
Reproducibilidad: Proporciona repositorio GitHub, facilitando reproducción y extensión de investigación
Impacto Interdisciplinario: Combina múltiples campos incluyendo robótica, visión por computadora y aprendizaje profundo

Escenarios Aplicables

Automatización Industrial: Manipulación y operación de materiales en entornos complejos
Tareas de Búsqueda y Rescate: Reconocimiento de objetos y operación de rescate en sitios de desastres
Robots de Servicio: Operación de objetos en entornos domésticos y de oficina
Plataforma de Investigación: Plataforma de desarrollo y validación de algoritmos de manipulación móvil

Referencias

El artículo cita 14 referencias relacionadas, abarcando trabajos importantes en manipulación móvil, robots cuadrúpedos, agarre con aprendizaje profundo y otros campos clave, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación aplicada con ruta técnica clara e implementación completa. Aunque tiene algunas insuficiencias en innovación teórica y evaluación integral, su implementación completa del sistema y validación en robots reales proporciona una contribución valiosa a la investigación de manipulación móvil de robots cuadrúpedos. Este trabajo establece una base sólida para investigación posterior, particularmente en transferencia de simulación a realidad y fusión de percepción multimodal.