2025-11-15T09:37:11.895501

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

Sun, Wang, Zhang et al.

Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.

academic

HANDO: Hierarchische autonome Navigation und geschickte Omni-Lokomotions-Manipulation

Grundinformationen

Paper-ID: 2510.09221
Titel: HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
Autoren: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
Kategorie: cs.RO (Robotik)
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.09221
Video-Demonstration: https://youtu.be/YD0qx3vRsfc

Zusammenfassung

Dieses Papier präsentiert HANDO (Hierarchische autonome Navigation und geschickte Omni-Lokomotions-Manipulation), ein zweischichtiges Framework für Laufroboter mit Roboterarmen zur Ausführung von menschenzentrierten Manipulationsaufgaben mit Bewegung. Die erste Schicht nutzt eine zielbedingte autonome Explorationsstrategie, um den Roboter zu semantisch definierten Zielen zu führen; die zweite Schicht verwendet eine einheitliche Ganzkörper-Manipulationsstrategie, die Roboterarme und Beine für präzise Interaktionsaufgaben koordiniert. Die Autoren haben eine vorläufige Bereitstellung des Navigationsmoduls abgeschlossen und werden die Verfeinerung der Ganzkörper-Manipulationsstrategie fortsetzen.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung zielt darauf ab, das Problem der nahtlosen Manipulationsnavigation in unstrukturierten Umgebungen zu lösen, insbesondere die Herausforderungen der Mensch-Roboter-Interaktion in Szenarien der letzten Meile. Traditionelle Liefermethoden sind auf vorgefertigte Karten und präzise Lokalisierung angewiesen, was in dynamischen oder maßgeschneiderten Umgebungen kostspielig und skalierbar begrenzt ist.

Bedeutung

Die Lieferung der letzten Meile ist eine kritische Anwendung für Serviceroboter und erfordert, dass Roboter nicht nur komplexe Umgebungen durchqueren, sondern auch physisch mit Menschen interagieren können. Vierbeinige Roboterplattformen mit Roboterarmen kombinieren agile Bewegungsfähigkeiten mit Manipulationsfunktionalität und bieten eine ideale Implementierungsplattform für komplexe Lieferszenarios.

Einschränkungen bestehender Methoden

Navigation: Die meisten Lieferstrategien sind immer noch kartenabhängig und funktionieren in häufig wechselnden oder schnell bereitgestellten Umgebungen schlecht
Manipulation: Mangel an effektiver Ganzkörper-Koordinationskontrolle, was komplexe Mensch-Roboter-Interaktionen erschwert
Integrationschallenges: Wahrnehmungslücken, Geländeveränderungen und Hardwarebeschränkungen bei der Bereitstellung von der Simulation zur realen Welt

Forschungsmotivation

Entwicklung eines hierarchischen und integrierten Frameworks, das kartenlose Navigation mit Ganzkörper-Manipulationsbewegung in einem bereitstellbaren System vereint und umfassende Autonomie für die Navigation unbekannter Räume und die Ausführung geschickter Manipulationsbewegungen ermöglicht.

Kernbeiträge

Neuartiges kartenloses Navigationsmodul: Nutzt Vision-Language-Modelle für szenenübergreifendes Reasoning und Graph-Matching, das eine dreistufige Explorationsstrategie antreibt und kostenlose Navigation ermöglicht
Manipulationsstrategie mit Bewegung: Integriert vierbeinige Fortbewegung und Roboterarmbewegung und realisiert Ganzkörper-Interaktionsverhalten durch Endeffektortrajektorienlenkung
Systemintegration und Validierung: Integration und Validierung des Systems auf einer echten vierbeinigen Roboterarmbewegungsplattform, demonstriert End-to-End-Lieferung der letzten Meile mit semantischer Navigation und Ganzkörper-Interaktion

Methodische Details

Aufgabendefinition

Das HANDO-Framework ermöglicht es vierbeinigen Robotern mit Roboterarmen, vollständige Lieferaufgaben in unstrukturierten Umgebungen auszuführen, einschließlich:

Eingabe: Semantische Zielbezeichnungen (z. B. „schwarzer Bürostuhl"), Umgebungswahrnehmungsdaten, menschliche Handtrajektorien
Ausgabe: Roboterbewegungskontrollbefehle, Roboterarmbefehle
Einschränkungen: Keine vorgefertigten Karten, Echtzeitanforderungen, Sicherheitseinschränkungen

Modellarchitektur

Schicht 1: Zielorientierte kartenlose Navigation

Dreistufiger Explorationsprozess:

Anfängliche Explorationsphase: Wenn der Matching-Score $s_t < \sigma_1$ ist, zerlegt das System das semantische Zielgraph $G_g$ in Teilziele und verwendet eine grenzbasierte Explorationsstrategie
Koordinatenprojektion und Ausrichtungsphase: Wenn $\sigma_1 \leq s_t < \sigma_2$ ist, werden das Zielgraph $G_g$ und das aktuelle Szenengraph $G_t$ ausgerichtet
Zielvalidierungsphase: Wenn $s_t \geq \sigma_2$ ist, werden Zielvalidierung und Szenengraph-Korrektur durchgeführt

Aktionsgenerierung: Der VLM-basierte Aktionsdekoder wählt diskrete Aktionen $a_t \in \{\text{vorwärts bewegen, links drehen, rechts drehen, stoppen}\}$ und ordnet sie kontinuierlichen Geschwindigkeitsbefehlen zu: $(0.1 \text{ms}^{-1}, \pi/12 \text{rad s}^{-1}, -\pi/12 \text{rad s}^{-1}, 0)$

Schicht 2: Ganzkörper-Manipulationsstrategie mit Bewegung

Handtrajektoriengenerator:

Erkennt die Hand des Bedieners und wählt Keyframes durch Handgeschwindigkeitstäler aus
Leitet die Handposition/Orientierung zum Tool-Center-Point (TCP) des Robotergreifers um: $x^{tcp}_t = SE(3)(T_{cam \rightarrow world}) \cdot SE(3)(h_t) \cdot {}^{tcp}T_{hand}$

Ganzkörper-Manipulationsstrategie mit Bewegung:

Zustandsraum: Umfasst vorherige Aktion, Beinzustand, Roboterarmbewegungszustand, Basisstation und Endeffektortrajektorie
Aktionsraum: Verwendet Positions-PD-Regelung mit Zielposition $q^*_t = q_{default} + \Delta q_t$
Belohnungsfunktion:
- TCP-Verfolgungsbelohnung: $r_{track} = \exp\left(-\frac{\|p^{tcp}_t - p^{tar}_t\|}{\sigma_p}\right) \cdot \exp\left(-\frac{\angle(R^{tcp}_t(R^{tar}_t)^T)}{\sigma_o}\right)$
- Regularisierungsbelohnung: $r_{reg} = -\lambda_\tau\|\tau_t\|^2 - \lambda_{\Delta q}\|a_t - a_{t-1}\|^2 - \lambda_{\ddot{q}}\|\ddot{q}_t\|^2$

Technische Innovationen

Multimodale Szenenerkennung: Kombiniert Vision-Language-Modelle für direkte Abbildung von semantischen Zielen auf Navigationsverhalten
Hierarchische Kontrollarchitektur: Effektive Trennung von hochstufigem semantischem Reasoning und niedrigstufiger Bewegungskontrolle
Echtzeit-Handverfolgungsintegration: Lenkt den Endeffektors des Roboters durch menschliche Handtrajektorien und verbessert die Natürlichkeit der Mensch-Roboter-Interaktion
Einheitliche Ganzkörperkontrolle: Koordiniert Beinbewegung und Roboterarmbewegung innerhalb eines einzigen Strategierahmens

Experimentelle Einrichtung

Hardware-Plattform

Roboterplattform: Unitree Go1 EDU vierbeiniger Roboter + AGILEX PIPER leichter Roboterarmbewegung
Rechengerät: NVIDIA RTX 4090 GPU
Kontrollfrequenz: Bewegungsstrategie und Ganzkörper-Manipulationsstrategie laufen beide bei 50 Hz
Kommunikationsmethode: Verdrahtete Ethernet-Verbindung mit Unterstützung für Bereitstellung mit niedriger Latenz

Experimentelle Umgebung

Echtwelt-Evaluierung in einem Café mit folgenden Merkmalen:

Unstrukturiertes Layout mit unregelmäßig angeordneten Tischen, Stühlen und Gegenständen
Teilweise Beobachtbarkeit: Der Roboter hat kein Vorwissen über die Zielposition
Abhängig nur von visueller Eingabe und semantischen Befehlen

Bewertungsmetriken

Navigationserfolgquote
Trajektorienglätte und Kontinuität
Zielpositionierungsgenauigkeit
Systemstabilität und Robustheit

Experimentelle Ergebnisse

Hauptergebnisse

Die zielorientierte kartenlose Navigationsschicht zeigt hervorragende Leistung in realen Umgebungen:

Erfolgreiche Umgebungserkundung und Annäherung an Ziele
Aufgezeichnete Basisstationstrajektorien sind glatt und kontinuierlich
Trotz unregelmäßigen Layouts stabile und robuste Navigationsleistung

Experimentelle Erkenntnisse

Navigationsmodulvalidierung: Erfolgreiche vorläufige Bereitstellung beweist die Machbarkeit der kartenlosen Navigation
Systemintegration: Multi-Thread-Kontrolle ermöglicht Echtzeitbetrieb
Umgebungsanpassung: Zeigt gute Anpassungsfähigkeit in dynamischen, unstrukturierten Umgebungen

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Das HANDO-Framework überbrückt erfolgreich das Verständnis semantischer Aufgaben und die Kontrolle auf niedriger physikalischer Ebene und bietet eine effektive Lösung für komplexe Lieferaufgaben der letzten Meile in unstrukturierten und menschlichen Umgebungen.

Einschränkungen

Manipulationsmodul nicht vollständig implementiert: Die Ganzkörper-Manipulationskontrolle mit Bewegung ist noch in Entwicklung
Begrenzte Experimentierreichweite: Hauptsächlich Validierung der Navigationsfunktion, Manipulationsfunktion erfordert weitere Tests
Umgebungskomplexität: Die Anpassungsfähigkeit an extrem dynamische Umgebungen muss noch überprüft werden

Zukünftige Richtungen

Verfeinerung der Ganzkörper-Manipulationsbewegung: Verbesserung der Koordinationskontrolle von Greifen und Übergabe
Echtzeit-Handverfolgungsintegration: Verbesserung der Sicherheit, Robustheit und Natürlichkeit der Mensch-Roboter-Interaktion
Erweiterung von Anwendungsszenarien: Validierung der Leistung in komplexeren realen Umgebungen

Tiefgreifende Bewertung

Stärken

Systematisches Design: Präsentiert ein vollständiges hierarchisches Framework, das hochstufiges Reasoning und niedrigstufige Kontrolle effektiv trennt
Starke Praktikabilität: Für praktische Anwendungsszenarien (Lieferung der letzten Meile) konzipiert
Technische Innovation: Organische Kombination von kartenlosen Navigation und Ganzkörperkontrolle
Echtwelt-Validierung: Vorläufige Validierung auf echter Hardware-Plattform

Mängel

Unvollständigkeit: Manipulationsmodul befindet sich noch in der Designphase, fehlt vollständige Systemdemonstration
Begrenzte Experimentiertiefe: Hauptsächlich Demonstration der Navigationsfunktion, mangelnde quantitative Leistungsanalyse
Fehlende Vergleichsexperimente: Keine detaillierten Vergleiche mit bestehenden Methoden
Unzureichende Robustheitsanalyse: Begrenzte Analyse von Fehlerfällen und Randbedingungen

Einflussfähigkeit

Akademischer Wert: Bietet neue Systemarchitektur-Ideen für Manipulationsnavigationsroboter
Praktischer Wert: Hat Anwendungspotenzial in Serviceroboter- und Lieferroboter-Bereichen
Reproduzierbarkeit: Bietet detaillierte technische Beschreibungen, aber fehlender Open-Source-Code

Anwendbare Szenarien

Lieferdienste der letzten Meile
Anwendungen von Servicerobotern in Innenräumen
Mensch-Roboter-Kooperationsaufgaben
Manipulationsnavigationsaufgaben in unstrukturierten Umgebungen

Referenzen

Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

UniGoal 5: Universelle Zero-Shot-Zielorientierte Navigation
NaviLa 3: Vision-Language-Action-Navigationsmodell für Laufroboter
MLM 7: Ganzkörper-Kontrolllernen für Multi-Task-Manipulationsnavigation
Diffusion Policy 8: Diffusionsbasiertes Lernen von Vision-Motion-Strategien

Gesamtbewertung: Dies ist eine praktisch wertvolle systematische Arbeit, die ein vollständiges Framework-Design für Manipulationsnavigationsroboter präsentiert. Obwohl das Manipulationsmodul noch in Entwicklung ist, beweist die erfolgreiche Bereitstellung des Navigationsmoduls die Machbarkeit der Methode. Der Hauptbeitrag des Papiers liegt in der Systemarchitektur-Gestaltung und der vorläufigen Echtwelt-Validierung, die eine Grundlage für die weitere Entwicklung in diesem Bereich schafft.