2025-11-22T23:46:16.732962

Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

Almeida, Lazzarini, Negri et al.
This paper presents a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, with a focus on improving precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.
academic

Optimisation de la Préhension dans les Robots Quadrupèdes : Une Approche d'Apprentissage Profond pour la Loco-Manipulation

Informations Fondamentales

  • ID de l'article: 2508.17466
  • Titre: Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
  • Auteurs: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
  • Classification: cs.RO cs.AI cs.CV cs.LG cs.SY eess.SY
  • Date de publication: 11 octobre 2025 (arXiv v2)
  • Lien de l'article: https://arxiv.org/abs/2508.17466v2
  • Organisme de financement: Petróleo Brasileiro S/A - Petrobras

Résumé

Cet article propose un cadre d'apprentissage profond visant à améliorer les capacités de préhension des robots quadrupèdes équipés de bras manipulateurs, en mettant l'accent sur la précision et l'adaptabilité. La méthode adopte une approche de simulation vers la réalité (sim-to-real) minimisant la dépendance à la collecte de données physiques. Les auteurs ont développé un pipeline dans l'environnement de simulation Genesis, générant un ensemble de données synthétiques de tentatives de préhension d'objets courants. En simulant des milliers d'interactions à partir de diverses perspectives, des cartes de qualité de préhension annotées au niveau des pixels ont été créées comme vérité de base pour le modèle. Cet ensemble de données a été utilisé pour entraîner un CNN personnalisé avec une architecture de type U-Net, traitant les entrées multimodales provenant de caméras RGB et de profondeur embarquées, incluant les images RGB, les cartes de profondeur, les masques de segmentation et les cartes de vecteurs normaux de surface. Le modèle entraîné produit des cartes thermiques de qualité de préhension pour identifier les points de préhension optimaux. Les auteurs ont validé le cadre complet sur un robot quadrupède, le système exécutant avec succès une tâche de manipulation mobile complète : navigation autonome vers l'objet cible, perception de l'objet avec des capteurs, utilisation du modèle pour prédire la pose de préhension optimale et exécution d'une préhension précise.

Contexte et Motivation de la Recherche

Définition du Problème

La préhension précise et adaptative des robots quadrupèdes dans des environnements complexes non structurés reste un défi majeur, les méthodes traditionnelles nécessitant généralement un calibrage important en monde réel et des configurations de préhension préprogrammées, ce qui limite leur flexibilité.

Importance

  1. Valeur applicative: Les robots quadrupèdes équipés de bras manipulateurs peuvent réaliser la loco-manipulation, avec des applications importantes dans l'automatisation industrielle, les missions de recherche et sauvetage et les technologies d'assistance
  2. Défis techniques: Nécessite la réalisation d'une reconnaissance d'objets robuste, d'une planification de préhension précise et d'une intégration fluide avec les systèmes de locomotion dans des scènes dynamiques
  3. Adaptabilité environnementale: Capacité à fonctionner efficacement dans des environnements imprévisibles et non structurés

Limitations des Approches Existantes

  1. Dépendance aux configurations prédéfinies: Les méthodes traditionnelles reposent sur des configurations de préhension prédéfinies ou un calibrage manuel intensif
  2. Manque de capacité de généralisation: Les solutions existantes sont généralement liées à des contextes spécifiques, manquant d'adaptabilité entre scènes
  3. Coût de collecte de données: Nécessite une collecte importante de données en monde réel, coûteuse et chronophage

Motivation de la Recherche

Les auteurs, inspirés par les applications récentes réussies de l'apprentissage profond dans le domaine de la préhension robotique, proposent un cadre d'apprentissage profond spécialement conçu pour les robots quadrupèdes, surmontant les limitations des méthodes traditionnelles par l'entraînement en simulation.

Contributions Principales

  1. Développement d'un pipeline d'entraînement basé sur le simulateur Genesis, réalisant la collecte de données parallèle à grande échelle sans données réelles
  2. Intégration de méthodes de perception avancées (telles que D2NT), améliorant la précision de la préhension basée sur la profondeur et réduisant le coût de calcul de l'exécution ML
  3. Développement d'un cadre flexible capable de s'intégrer avec des API de contrôle avancées et des robots commerciaux manquant d'accès bas niveau
  4. Validation de l'efficacité de la méthode sur un robot physique, démontrant l'efficacité de l'approche dans des scénarios du monde réel

Détails de la Méthode

Définition de la Tâche

Entrée: Données de caméra RGB-D (images RGB, cartes de profondeur, masques de segmentation, cartes de vecteurs normaux de surface) Sortie: Cartes thermiques de qualité de préhension, identifiant les coordonnées 3D et l'orientation des points de préhension optimaux Contraintes: Réaliser une préhension précise dans un scénario de manipulation mobile de robot quadrupède

Génération d'Ensemble de Données

Configuration de l'Environnement de Simulation

  • Utilisation du framework Genesis pour la simulation physique
  • Sélection d'un modèle 3D de bouteille d'eau comme cible de préhension
  • Configuration d'une caméra RGB-D virtuelle pour l'extraction d'images d'objets

Échantillonnage des Positions de Caméra

  • Échantillonnage de 1000 positions différentes sur une grille 2D
  • 100 et 10 points respectivement sur les axes X et Z (plage -0,5 m à 0,5 m)
  • Axe Y fixé à y = 0,5 m
  • Ajout de perturbations aléatoires à chaque position (X, Y : ±0,03 m, Z : 0-0,09 m)

Génération d'Annotations de Préhension

Exécution d'une tentative de préhension pour chaque pixel :

  • Conversion des coordonnées de pixel au système de coordonnées global
  • Calcul du vecteur normal de surface correspondant
  • Tentative de préhension commençant à 1,0 m de l'objet, à 0,35 m de la surface
  • Jugement du succès (1) ou de l'échec (0) de la préhension basé sur la détection de collision
  • Marquage des zones en dehors de l'objet comme incertaines (-1)

Architecture du Modèle

Conception du Réseau

  • Architecture: Structure d'encodeur-décodeur entièrement convolutive basée sur U-Net
  • Encodeur: Utilisation de MobileNetV2 comme réseau de base
  • Entrée: 480×640×8 canaux (RGB + profondeur + cartes de vecteurs normaux + masque de segmentation)
  • Sortie: Carte de qualité de préhension à canal unique
  • Nombre de paramètres: Environ 5,44 millions de paramètres entraînables

Détails Techniques Clés

  • Utilisation de GroupNorm pour améliorer la stabilité de l'entraînement
  • Connexions de saut fusionnant les caractéristiques granulaires de l'encodeur
  • Convolutions transposées pour le suréchantillonnage
  • Convolutions 1×1 générant la sortie finale

Points d'Innovation Technique

  1. Fusion multimodale: Combinaison efficace des informations RGB, profondeur, vecteurs normaux et segmentation
  2. Transfert de simulation à réalité: Entraînement entièrement basé sur des données de simulation, déploiement réussi sur un robot réel
  3. Pipeline bout à bout: Processus d'automatisation complète de la perception à l'exécution
  4. Intégration de vecteurs normaux de surface: Utilisation de l'algorithme D2NT pour estimer les vecteurs normaux de surface à partir de cartes de profondeur

Configuration Expérimentale

Ensemble de Données

  • Données de simulation: Génération de données synthétiques à partir de 1000 perspectives dans l'environnement Genesis
  • Résolution: 480×640 pixels
  • Méthode d'annotation: Annotation de qualité de préhension au niveau des pixels (succès/échec/incertain)
  • Type d'objet: Modèle de bouteille d'eau (extension ultérieure à des bouteilles isothermes)

Indicateurs d'Évaluation

  • Taux de succès de préhension
  • Précision de localisation
  • Performance en temps réel

Plateforme Expérimentale

  • Robot: Robot quadrupède Boston Dynamics Spot
  • Capteurs: Caméra RGB-D du préhenseur
  • Contrôle: SDK Boston Dynamics
  • Détection d'objets: Modèle pré-entraîné YOLOv11

Détails d'Implémentation

  • Paramètres intrinsèques de la caméra: fx, fy ≈ 554,26 pixels, point principal (u0=320, v0=240)
  • Couple maximal: 3,0 Nm
  • Distance de préhension: 0,35 m de la surface de l'objet
  • Contrôle de force: Contrôle de limitation de force basé sur le SDK

Résultats Expérimentaux

Résultats Principaux

L'article démontre avec succès une tâche de manipulation mobile complète :

  1. Navigation autonome: Le robot identifie et s'approche avec succès de l'objet cible
  2. Précision de perception: Les données RGB-D sont acquises et traitées avec succès
  3. Prédiction de préhension: Le modèle CNN prédit avec précision les points de préhension optimaux
  4. Exécution réussie: Le robot physique saisit avec succès une bouteille isotherme

Performance du Système

  • Traitement en temps réel: Capable de traiter en temps réel les entrées multimodales de résolution 480×640
  • Robustesse: Démonstration d'une bonne adaptabilité dans des environnements réels
  • Précision: Réalisation réussie d'un contrôle de force de préhension précis

Analyse de Cas

Comme le montre la figure 8 :

  • L'image RGB capture clairement l'objet cible
  • La carte de profondeur fournit des informations spatiales précises
  • YOLO-11 génère un masque de segmentation précis
  • L'algorithme D2NT génère avec succès une carte de vecteurs normaux de surface
  • La carte thermique de préhension générée par le modèle identifie avec précision les zones optimales

Travaux Connexes

Recherche en Manipulation Mobile

  • Les premières recherches se sont concentrées sur le développement de systèmes de locomotion stables et l'intégration de base des préhenseurs
  • Les méthodes traditionnelles reposent sur des modèles cinématiques rigides et des stratégies de contrôle basées sur des règles fixes
  • Les progrès récents incluent les capteurs haute précision, les technologies de vision par ordinateur et les architectures de planification de mouvement

Application de l'Apprentissage Profond à la Préhension

  • Les algorithmes d'apprentissage automatique retournent généralement l'ouverture du préhenseur, l'orientation et la qualité de préhension
  • Les méthodes d'apprentissage profond peuvent apprendre des stratégies de préhension généralisées à partir des données
  • Le transfert de simulation à réalité devient une direction importante pour réduire les coûts de collecte de données

Opération de Robots Quadrupèdes

  • Les robots quadrupèdes excellent dans la navigation en terrain complexe
  • Équipés de bras manipulateurs, ils réalisent des capacités de manipulation mobile
  • Perspectives d'application larges dans l'automatisation industrielle, les missions de recherche et sauvetage et les technologies d'assistance

Conclusions et Discussion

Conclusions Principales

  1. Efficacité de la méthode: La méthode d'apprentissage profond basée sur la simulation réalise avec succès une préhension précise des robots quadrupèdes
  2. Faisabilité technique: La combinaison de la perception multimodale et de la prédiction CNN démontre la faisabilité du parcours technique
  3. Valeur pratique: Le pipeline de manipulation mobile complet fournit une solution viable pour les applications pratiques

Limitations

  1. Capacité de généralisation limitée: La généralisation du modèle est limitée par les variations de géométrie et de texture des objets
  2. Qualité des capteurs: La qualité inférieure du capteur de profondeur du préhenseur entraîne du bruit dans les cartes de profondeur
  3. Cohérence du prétraitement: L'ajustement de la taille du masque de segmentation affecte occasionnellement la cohérence du prétraitement
  4. Diversité des objets: Actuellement principalement ciblé sur des objets de forme spécifique (type bouteille)

Directions Futures

  1. Extension de l'ensemble de données: Inclusion de formes, tailles et textures d'objets plus diversifiées
  2. Amélioration des capteurs: Implémentation de filtres de lissage pour la suppression du bruit des cartes de profondeur ou de modèles ML dédiés
  3. Stratégies de contrôle: Exploration de stratégies de mouvement et de manipulation au-delà des outils SDK
  4. Environnements complexes: Test dans des environnements complexes avec plusieurs objets et surfaces irrégulières

Évaluation Approfondie

Points Forts

  1. Innovation forte: Application réussie de la méthode sim-to-real à la préhension des robots quadrupèdes
  2. Système complet: Solution bout à bout de la perception à l'exécution
  3. Bonne praticité: Validation de l'efficacité de la méthode sur un robot réel
  4. Technologie avancée: Fusion efficace d'informations multimodales et technologie d'apprentissage profond moderne

Insuffisances

  1. Évaluation limitée: Manque de statistiques quantitatives de taux de succès et de comparaison avec d'autres méthodes
  2. Objets uniques: Principalement ciblé sur les objets de type bouteille, la capacité de généralisation nécessite une vérification supplémentaire
  3. Environnement simple: L'environnement expérimental est relativement simple, les performances dans des scènes complexes sont inconnues
  4. Analyse théorique: Manque d'analyse approfondie des fondements théoriques de la méthode et des cas d'échec

Impact

  1. Contribution académique: Fournit une nouvelle voie technique pour la manipulation mobile des robots quadrupèdes
  2. Valeur pratique: Fournit une référence pour le développement d'applications industrielles et de robots de service
  3. Reproductibilité: Fournit un référentiel GitHub, facilitant la reproduction et l'extension de la recherche
  4. Impact interdisciplinaire: Combine plusieurs domaines : robotique, vision par ordinateur et apprentissage profond

Scénarios Applicables

  1. Automatisation industrielle: Manutention et manipulation de matériaux dans des environnements complexes
  2. Missions de recherche et sauvetage: Reconnaissance d'objets et opérations de sauvetage sur les sites de catastrophe
  3. Robots de service: Manipulation d'objets dans les environnements domestiques et de bureau
  4. Plateforme de recherche: Plateforme de développement et de validation d'algorithmes de manipulation mobile

Références

L'article cite 14 références connexes, couvrant les travaux importants dans les domaines clés de la manipulation mobile, des robots quadrupèdes et de la préhension par apprentissage profond, fournissant une base théorique solide pour la recherche.


Évaluation Globale: Ceci est un article de recherche appliquée avec une ligne technique claire et une implémentation complète. Bien qu'il présente certaines insuffisances en matière d'innovation théorique et d'évaluation complète, son implémentation système complète et sa validation sur robot réel apportent une contribution précieuse à la recherche en manipulation mobile des robots quadrupèdes. Ce travail jette une base solide pour les recherches ultérieures, particulièrement dans les domaines du transfert sim-to-real et de la fusion de perception multimodale.