Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.
HANDO : Navigation Autonome Hiérarchique et Manipulation Omni-loco-dextérité
- ID de l'article : 2510.09221
- Titre : HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
- Auteurs : Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
- Classification : cs.RO (Robotique)
- Date de publication : 10 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.09221
- Démonstration vidéo : https://youtu.be/YD0qx3vRsfc
Cet article propose HANDO (Navigation Autonome Hiérarchique et Manipulation Omni-loco-dextérité), un cadre à deux niveaux conçu pour les robots quadrupèdes équipés de bras manipulateurs afin d'exécuter des tâches de manipulation mobile centrées sur l'humain. Le premier niveau utilise une stratégie d'exploration autonome conditionnée par l'objectif, guidant le robot vers des cibles spécifiées sémantiquement ; le deuxième niveau utilise une stratégie de manipulation mobile du corps entier unifiée, coordonnant le bras manipulateur et les pattes pour les tâches d'interaction précises. Les auteurs ont complété le déploiement préliminaire du module de navigation et poursuivront l'affinement du déploiement de la manipulation mobile du corps entier.
Cette recherche vise à résoudre le problème de la manipulation mobile transparente dans des environnements non structurés, en particulier les défis d'interaction homme-machine dans les scénarios de livraison du dernier kilomètre. Les méthodes de livraison traditionnelles dépendent de cartes préconstruites et de la localisation précise, ce qui est coûteux et offre une scalabilité limitée dans les environnements dynamiques ou personnalisés.
La livraison du dernier kilomètre est une application critique pour les robots de service, exigeant que le robot non seulement traverse des environnements complexes, mais interagisse également physiquement avec les humains. Les plateformes de robots quadrupèdes équipées de bras manipulateurs combinent les capacités de mouvement agile et les fonctionnalités de manipulation, offrant une plateforme de réalisation idéale pour les scénarios de livraison complexes.
- Navigation : La plupart des stratégies de livraison dépendent toujours de cartes et fonctionnent mal dans les environnements qui changent fréquemment ou se déploient rapidement
- Manipulation : Manque de contrôle de coordination du corps entier efficace, difficulté à réaliser des interactions homme-machine complexes
- Défis d'intégration : L'écart de perception, les variations de terrain et les contraintes matérielles existent lors du déploiement du monde réel à partir de la simulation
Développer un cadre hiérarchique et intégré qui unifie la navigation sans carte avec la manipulation mobile du corps entier dans un système déployable, réalisant l'autonomie complète de la navigation dans des espaces inconnus et l'exécution d'actions de manipulation dextérieuses.
- Proposition d'un nouveau module de navigation sans carte : Utilisant des modèles vision-langage pour le raisonnement inter-scènes et l'appariement de graphes, conduisant une stratégie d'exploration en trois étapes, réalisant une navigation à coût zéro
- Conception d'une stratégie de manipulation mobile : Fusionnant le mouvement quadrupède et le contrôle du bras manipulateur, réalisant des comportements d'interaction du corps entier par guidage de trajectoire de l'effecteur terminal
- Intégration et Validation du Système : Intégration et validation du système sur une plateforme réelle de robot quadrupède avec bras manipulateur, démontrant la livraison du dernier kilomètre de bout en bout combinant la navigation sémantique et l'interaction du corps entier
Le cadre HANDO vise à permettre aux robots quadrupèdes équipés de bras manipulateurs d'exécuter des tâches de livraison complètes dans des environnements non structurés, incluant :
- Entrées : Description sémantique de l'objectif (par exemple, « chaise de bureau noire »), données de perception de l'environnement, trajectoire de la main humaine
- Sorties : Commandes de contrôle du mouvement du robot, commandes des articulations du bras manipulateur
- Contraintes : Pas de carte préconstruite, exigences de temps réel, contraintes de sécurité
Processus d'Exploration en Trois Étapes :
- Phase d'Exploration Initiale : Lorsque le score d'appariement st<σ1, le système décompose le graphe d'objectif sémantique Gg en sous-objectifs, adoptant une stratégie d'exploration basée sur les limites
- Phase d'Alignement et de Projection de Coordonnées : Lorsque σ1≤st<σ2, aligner le graphe d'objectif Gg et le graphe de scène actuel Gt
- Phase de Validation d'Objectif : Lorsque st≥σ2, exécuter la validation d'objectif et la correction du graphe de scène
Génération d'Actions : Le décodeur d'actions basé sur VLM sélectionne des actions discrètes at∈{avancer, tourner aˋ gauche, tourner aˋ droite, arreˆter}, mappées en commandes de vitesse continues :
(0.1ms−1,π/12rad s−1,−π/12rad s−1,0)
Générateur de Trajectoire de Main :
- Détection de la main de l'opérateur, sélection de cadres clés via les vallées de vitesse de la main
- Redirection de la position/orientation de la main vers le point central d'outil (TCP) de la pince du robot :
xttcp=SE(3)(Tcam→world)⋅SE(3)(ht)⋅tcpThand
Stratégie de Manipulation Mobile du Corps Entier :
- Espace d'État : Incluant l'action précédente, l'état des pattes, l'état du bras manipulateur, l'état de la base et la trajectoire de l'effecteur terminal
- Espace d'Action : Utilisant le contrôle PD en position, position cible qt∗=qdefault+Δqt
- Fonction de Récompense :
- Récompense de suivi TCP : rtrack=exp(−σp∥pttcp−pttar∥)⋅exp(−σo∠(Rttcp(Rttar)T))
- Récompense de régularisation : rreg=−λτ∥τt∥2−λΔq∥at−at−1∥2−λq¨∥q¨t∥2
- Compréhension de Scène Multimodale : Combinaison de modèles vision-langage pour un mappage direct de l'objectif sémantique au comportement de navigation
- Architecture de Contrôle Hiérarchique : Séparation efficace du raisonnement sémantique de haut niveau et du contrôle moteur de bas niveau
- Intégration du Suivi de Main en Temps Réel : Guidage de l'effecteur terminal du robot par la trajectoire de la main humaine, améliorant la naturalité de l'interaction homme-machine
- Contrôle Unifié du Corps Entier : Coordination du mouvement des pattes et de la manipulation du bras dans un cadre de stratégie unique
- Plateforme Robotique : Robot quadrupède Unitree Go1 EDU + Bras manipulateur léger AGILEX PIPER
- Équipement de Calcul : GPU NVIDIA RTX 4090
- Fréquence de Contrôle : Stratégie de mouvement et stratégie de manipulation mobile du corps entier s'exécutant à 50 Hz
- Mode de Communication : Connexion Ethernet filaire, supportant un déploiement fiable à faible latence
Évaluation en monde réel dans un café, caractérisé par :
- Disposition non structurée, tables, chaises et objets disposés de manière irrégulière
- Observabilité partielle : le robot n'a pas de connaissance préalable de la position de l'objectif
- Dépendance uniquement des entrées visuelles et des instructions sémantiques
- Taux de succès de navigation
- Fluidité et continuité de la trajectoire
- Précision de localisation de l'objectif
- Stabilité et robustesse du système
Le niveau de navigation sans carte orientée vers l'objectif montre d'excellentes performances dans l'environnement réel :
- Exploration réussie de l'environnement et approche de l'objectif
- Trajectoires de base enregistrées lisses et continues
- Maintien d'une performance de navigation stable et robuste malgré la disposition irrégulière
- Validation du Module de Navigation : Déploiement préliminaire réussi, prouvant la faisabilité de la navigation sans carte
- Intégration du Système : Réalisation d'une opération en temps réel par contrôle multi-thread
- Adaptabilité Environnementale : Démonstration d'une bonne capacité d'adaptation dans les environnements dynamiques et non structurés
- Méthodes Traditionnelles : Approches basées sur cartes utilisant SLAM et planification de graphes, efficaces dans les environnements statiques structurés mais coûteuses
- Méthodes sans Carte : Cadres comme UniGoal et NaviLa exploitant les indices linguistiques et visuels pour guider la navigation, réduisant significativement les coûts de déploiement
- ACT : Utilisant un réseau backbone Transformer et un encodeur d'image
- Diffusion Policy : Introduction de processus de diffusion génératifs modélisant les distributions d'actions multimodales
- RISE : Exploitation d'encodeurs de nuages de points clairsemés pour le contrôle continu
- Méthodes Précoces : Planification de pas basée sur l'optimisation et génération de trajectoires du corps entier, coûteuses en calcul
- Méthodes d'Apprentissage par Renforcement : Contrôle de bout en bout de multiples tâches de manipulation mobile
- MLM : Combinaison de bibliothèques de trajectoires et d'inférence basée sur stratégies de diffusion
Le cadre HANDO réussit à établir un pont entre la compréhension des tâches sémantiques et le contrôle physique de bas niveau, fournissant une solution efficace pour les tâches complexes de livraison du dernier kilomètre dans les environnements non structurés et humains.
- Module de Manipulation Non Entièrement Implémenté : Le contrôle de manipulation mobile du corps entier est toujours en développement
- Portée Expérimentale Limitée : Validation principalement de la fonction de navigation, les fonctionnalités de manipulation nécessitent des tests supplémentaires
- Complexité Environnementale : La capacité d'adaptation aux environnements extrêmement dynamiques reste à vérifier
- Affinement de la Manipulation Mobile du Corps Entier : Perfectionnement du contrôle de coordination de la saisie et de la remise
- Intégration du Suivi de Main en Temps Réel : Amélioration de la sécurité, de la robustesse et de la naturalité de l'interaction homme-machine
- Extension des Scénarios d'Application : Validation des performances dans des environnements réels plus complexes
- Conception Systématique : Proposition d'un cadre complet et hiérarchique, séparant efficacement le raisonnement de haut niveau et le contrôle de bas niveau
- Forte Praticité : Conception ciblant des scénarios d'application réels (livraison du dernier kilomètre)
- Innovation Technique : Combinaison organique de la navigation sans carte et du contrôle du corps entier
- Validation Réelle : Validation préliminaire sur une plateforme matérielle réelle
- Complétude Insuffisante : Le module de manipulation est toujours en phase de conception, manquant de démonstration système complète
- Profondeur Expérimentale Limitée : Démonstration principalement de la fonction de navigation, manquant d'analyse de performance quantitative
- Absence d'Expériences Comparatives : Pas de comparaison détaillée avec les méthodes existantes
- Analyse de Robustesse Insuffisante : Analyse limitée des cas d'échec et des conditions limites
- Valeur Académique : Fournit de nouvelles perspectives architecturales pour les robots de manipulation mobile
- Valeur Pratique : Potentiel d'application dans les domaines des robots de service et des robots de livraison
- Reproductibilité : Fournit une description technique détaillée, mais manque de code open source
- Services de livraison du dernier kilomètre
- Applications de robots de service en intérieur
- Tâches de collaboration homme-machine
- Tâches de manipulation mobile dans des environnements non structurés
L'article cite plusieurs travaux connexes importants, incluant :
- UniGoal 5 : Navigation orientée vers l'objectif zéro-shot universelle
- NaviLa 3 : Modèle de navigation vision-langage-action pour robots quadrupèdes
- MLM 7 : Apprentissage de contrôle du corps entier pour manipulation mobile multi-tâches
- Diffusion Policy 8 : Apprentissage de stratégies visuomotrices basées sur la diffusion
Évaluation Globale : Ceci est un travail systématique possédant une valeur pratique, proposant une conception de cadre complet pour les robots de manipulation mobile. Bien que le module de manipulation soit toujours en développement, le déploiement réussi du module de navigation prouve la faisabilité de la méthode. Les principales contributions de l'article résident dans la conception architecturale du système et la validation préliminaire en monde réel, jetant les bases pour le développement ultérieur du domaine.