2025-11-15T09:37:11.895501

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

Sun, Wang, Zhang et al.

Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.

academic

HANDO : Navigation Autonome Hiérarchique et Manipulation Omni-loco-dextérité

Informations Fondamentales

ID de l'article : 2510.09221
Titre : HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
Auteurs : Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
Classification : cs.RO (Robotique)
Date de publication : 10 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.09221
Démonstration vidéo : https://youtu.be/YD0qx3vRsfc

Résumé

Cet article propose HANDO (Navigation Autonome Hiérarchique et Manipulation Omni-loco-dextérité), un cadre à deux niveaux conçu pour les robots quadrupèdes équipés de bras manipulateurs afin d'exécuter des tâches de manipulation mobile centrées sur l'humain. Le premier niveau utilise une stratégie d'exploration autonome conditionnée par l'objectif, guidant le robot vers des cibles spécifiées sémantiquement ; le deuxième niveau utilise une stratégie de manipulation mobile du corps entier unifiée, coordonnant le bras manipulateur et les pattes pour les tâches d'interaction précises. Les auteurs ont complété le déploiement préliminaire du module de navigation et poursuivront l'affinement du déploiement de la manipulation mobile du corps entier.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche vise à résoudre le problème de la manipulation mobile transparente dans des environnements non structurés, en particulier les défis d'interaction homme-machine dans les scénarios de livraison du dernier kilomètre. Les méthodes de livraison traditionnelles dépendent de cartes préconstruites et de la localisation précise, ce qui est coûteux et offre une scalabilité limitée dans les environnements dynamiques ou personnalisés.

Importance

La livraison du dernier kilomètre est une application critique pour les robots de service, exigeant que le robot non seulement traverse des environnements complexes, mais interagisse également physiquement avec les humains. Les plateformes de robots quadrupèdes équipées de bras manipulateurs combinent les capacités de mouvement agile et les fonctionnalités de manipulation, offrant une plateforme de réalisation idéale pour les scénarios de livraison complexes.

Limitations des Approches Existantes

Navigation : La plupart des stratégies de livraison dépendent toujours de cartes et fonctionnent mal dans les environnements qui changent fréquemment ou se déploient rapidement
Manipulation : Manque de contrôle de coordination du corps entier efficace, difficulté à réaliser des interactions homme-machine complexes
Défis d'intégration : L'écart de perception, les variations de terrain et les contraintes matérielles existent lors du déploiement du monde réel à partir de la simulation

Motivation de la Recherche

Développer un cadre hiérarchique et intégré qui unifie la navigation sans carte avec la manipulation mobile du corps entier dans un système déployable, réalisant l'autonomie complète de la navigation dans des espaces inconnus et l'exécution d'actions de manipulation dextérieuses.

Contributions Principales

Proposition d'un nouveau module de navigation sans carte : Utilisant des modèles vision-langage pour le raisonnement inter-scènes et l'appariement de graphes, conduisant une stratégie d'exploration en trois étapes, réalisant une navigation à coût zéro
Conception d'une stratégie de manipulation mobile : Fusionnant le mouvement quadrupède et le contrôle du bras manipulateur, réalisant des comportements d'interaction du corps entier par guidage de trajectoire de l'effecteur terminal
Intégration et Validation du Système : Intégration et validation du système sur une plateforme réelle de robot quadrupède avec bras manipulateur, démontrant la livraison du dernier kilomètre de bout en bout combinant la navigation sémantique et l'interaction du corps entier

Détails de la Méthode

Définition de la Tâche

Le cadre HANDO vise à permettre aux robots quadrupèdes équipés de bras manipulateurs d'exécuter des tâches de livraison complètes dans des environnements non structurés, incluant :

Entrées : Description sémantique de l'objectif (par exemple, « chaise de bureau noire »), données de perception de l'environnement, trajectoire de la main humaine
Sorties : Commandes de contrôle du mouvement du robot, commandes des articulations du bras manipulateur
Contraintes : Pas de carte préconstruite, exigences de temps réel, contraintes de sécurité

Architecture du Modèle

Niveau Un : Navigation sans Carte Orientée vers l'Objectif

Processus d'Exploration en Trois Étapes :

Phase d'Exploration Initiale : Lorsque le score d'appariement $s_t < \sigma_1$ , le système décompose le graphe d'objectif sémantique $G_g$ en sous-objectifs, adoptant une stratégie d'exploration basée sur les limites
Phase d'Alignement et de Projection de Coordonnées : Lorsque $\sigma_1 \leq s_t < \sigma_2$ , aligner le graphe d'objectif $G_g$ et le graphe de scène actuel $G_t$
Phase de Validation d'Objectif : Lorsque $s_t \geq \sigma_2$ , exécuter la validation d'objectif et la correction du graphe de scène

Génération d'Actions : Le décodeur d'actions basé sur VLM sélectionne des actions discrètes $a_t \in \{\text{avancer, tourner à gauche, tourner à droite, arrêter}\}$ , mappées en commandes de vitesse continues : $(0.1 \text{ms}^{-1}, \pi/12 \text{rad s}^{-1}, -\pi/12 \text{rad s}^{-1}, 0)$

Niveau Deux : Stratégie de Manipulation Mobile du Corps Entier

Générateur de Trajectoire de Main :

Détection de la main de l'opérateur, sélection de cadres clés via les vallées de vitesse de la main
Redirection de la position/orientation de la main vers le point central d'outil (TCP) de la pince du robot : $x^{tcp}_t = SE(3)(T_{cam \rightarrow world}) \cdot SE(3)(h_t) \cdot {}^{tcp}T_{hand}$

Stratégie de Manipulation Mobile du Corps Entier :

Espace d'État : Incluant l'action précédente, l'état des pattes, l'état du bras manipulateur, l'état de la base et la trajectoire de l'effecteur terminal
Espace d'Action : Utilisant le contrôle PD en position, position cible $q^*_t = q_{default} + \Delta q_t$
Fonction de Récompense :
- Récompense de suivi TCP : $r_{track} = \exp\left(-\frac{\|p^{tcp}_t - p^{tar}_t\|}{\sigma_p}\right) \cdot \exp\left(-\frac{\angle(R^{tcp}_t(R^{tar}_t)^T)}{\sigma_o}\right)$
- Récompense de régularisation : $r_{reg} = -\lambda_\tau\|\tau_t\|^2 - \lambda_{\Delta q}\|a_t - a_{t-1}\|^2 - \lambda_{\ddot{q}}\|\ddot{q}_t\|^2$

Points d'Innovation Technique

Compréhension de Scène Multimodale : Combinaison de modèles vision-langage pour un mappage direct de l'objectif sémantique au comportement de navigation
Architecture de Contrôle Hiérarchique : Séparation efficace du raisonnement sémantique de haut niveau et du contrôle moteur de bas niveau
Intégration du Suivi de Main en Temps Réel : Guidage de l'effecteur terminal du robot par la trajectoire de la main humaine, améliorant la naturalité de l'interaction homme-machine
Contrôle Unifié du Corps Entier : Coordination du mouvement des pattes et de la manipulation du bras dans un cadre de stratégie unique

Configuration Expérimentale

Plateforme Matérielle

Plateforme Robotique : Robot quadrupède Unitree Go1 EDU + Bras manipulateur léger AGILEX PIPER
Équipement de Calcul : GPU NVIDIA RTX 4090
Fréquence de Contrôle : Stratégie de mouvement et stratégie de manipulation mobile du corps entier s'exécutant à 50 Hz
Mode de Communication : Connexion Ethernet filaire, supportant un déploiement fiable à faible latence

Environnement Expérimental

Évaluation en monde réel dans un café, caractérisé par :

Disposition non structurée, tables, chaises et objets disposés de manière irrégulière
Observabilité partielle : le robot n'a pas de connaissance préalable de la position de l'objectif
Dépendance uniquement des entrées visuelles et des instructions sémantiques

Métriques d'Évaluation

Taux de succès de navigation
Fluidité et continuité de la trajectoire
Précision de localisation de l'objectif
Stabilité et robustesse du système

Résultats Expérimentaux

Résultats Principaux

Le niveau de navigation sans carte orientée vers l'objectif montre d'excellentes performances dans l'environnement réel :

Exploration réussie de l'environnement et approche de l'objectif
Trajectoires de base enregistrées lisses et continues
Maintien d'une performance de navigation stable et robuste malgré la disposition irrégulière

Résultats Expérimentaux

Validation du Module de Navigation : Déploiement préliminaire réussi, prouvant la faisabilité de la navigation sans carte
Intégration du Système : Réalisation d'une opération en temps réel par contrôle multi-thread
Adaptabilité Environnementale : Démonstration d'une bonne capacité d'adaptation dans les environnements dynamiques et non structurés

Travaux Connexes

Navigation Autonome

Méthodes Traditionnelles : Approches basées sur cartes utilisant SLAM et planification de graphes, efficaces dans les environnements statiques structurés mais coûteuses
Méthodes sans Carte : Cadres comme UniGoal et NaviLa exploitant les indices linguistiques et visuels pour guider la navigation, réduisant significativement les coûts de déploiement

Apprentissage par Imitation de Bout en Bout

ACT : Utilisant un réseau backbone Transformer et un encodeur d'image
Diffusion Policy : Introduction de processus de diffusion génératifs modélisant les distributions d'actions multimodales
RISE : Exploitation d'encodeurs de nuages de points clairsemés pour le contrôle continu

Manipulation Mobile

Méthodes Précoces : Planification de pas basée sur l'optimisation et génération de trajectoires du corps entier, coûteuses en calcul
Méthodes d'Apprentissage par Renforcement : Contrôle de bout en bout de multiples tâches de manipulation mobile
MLM : Combinaison de bibliothèques de trajectoires et d'inférence basée sur stratégies de diffusion

Conclusion et Discussion

Conclusions Principales

Le cadre HANDO réussit à établir un pont entre la compréhension des tâches sémantiques et le contrôle physique de bas niveau, fournissant une solution efficace pour les tâches complexes de livraison du dernier kilomètre dans les environnements non structurés et humains.

Limitations

Module de Manipulation Non Entièrement Implémenté : Le contrôle de manipulation mobile du corps entier est toujours en développement
Portée Expérimentale Limitée : Validation principalement de la fonction de navigation, les fonctionnalités de manipulation nécessitent des tests supplémentaires
Complexité Environnementale : La capacité d'adaptation aux environnements extrêmement dynamiques reste à vérifier

Directions Futures

Affinement de la Manipulation Mobile du Corps Entier : Perfectionnement du contrôle de coordination de la saisie et de la remise
Intégration du Suivi de Main en Temps Réel : Amélioration de la sécurité, de la robustesse et de la naturalité de l'interaction homme-machine
Extension des Scénarios d'Application : Validation des performances dans des environnements réels plus complexes

Évaluation Approfondie

Points Forts

Conception Systématique : Proposition d'un cadre complet et hiérarchique, séparant efficacement le raisonnement de haut niveau et le contrôle de bas niveau
Forte Praticité : Conception ciblant des scénarios d'application réels (livraison du dernier kilomètre)
Innovation Technique : Combinaison organique de la navigation sans carte et du contrôle du corps entier
Validation Réelle : Validation préliminaire sur une plateforme matérielle réelle

Insuffisances

Complétude Insuffisante : Le module de manipulation est toujours en phase de conception, manquant de démonstration système complète
Profondeur Expérimentale Limitée : Démonstration principalement de la fonction de navigation, manquant d'analyse de performance quantitative
Absence d'Expériences Comparatives : Pas de comparaison détaillée avec les méthodes existantes
Analyse de Robustesse Insuffisante : Analyse limitée des cas d'échec et des conditions limites

Impact

Valeur Académique : Fournit de nouvelles perspectives architecturales pour les robots de manipulation mobile
Valeur Pratique : Potentiel d'application dans les domaines des robots de service et des robots de livraison
Reproductibilité : Fournit une description technique détaillée, mais manque de code open source

Scénarios Applicables

Services de livraison du dernier kilomètre
Applications de robots de service en intérieur
Tâches de collaboration homme-machine
Tâches de manipulation mobile dans des environnements non structurés

Références

L'article cite plusieurs travaux connexes importants, incluant :

UniGoal 5 : Navigation orientée vers l'objectif zéro-shot universelle
NaviLa 3 : Modèle de navigation vision-langage-action pour robots quadrupèdes
MLM 7 : Apprentissage de contrôle du corps entier pour manipulation mobile multi-tâches
Diffusion Policy 8 : Apprentissage de stratégies visuomotrices basées sur la diffusion

Évaluation Globale : Ceci est un travail systématique possédant une valeur pratique, proposant une conception de cadre complet pour les robots de manipulation mobile. Bien que le module de manipulation soit toujours en développement, le déploiement réussi du module de navigation prouve la faisabilité de la méthode. Les principales contributions de l'article résident dans la conception architecturale du système et la validation préliminaire en monde réel, jetant les bases pour le développement ultérieur du domaine.