Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.
HANDO: Hierarchische autonome Navigation und geschickte Omni-Lokomotions-Manipulation
- Paper-ID: 2510.09221
- Titel: HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
- Autoren: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
- Kategorie: cs.RO (Robotik)
- Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2510.09221
- Video-Demonstration: https://youtu.be/YD0qx3vRsfc
Dieses Papier präsentiert HANDO (Hierarchische autonome Navigation und geschickte Omni-Lokomotions-Manipulation), ein zweischichtiges Framework für Laufroboter mit Roboterarmen zur Ausführung von menschenzentrierten Manipulationsaufgaben mit Bewegung. Die erste Schicht nutzt eine zielbedingte autonome Explorationsstrategie, um den Roboter zu semantisch definierten Zielen zu führen; die zweite Schicht verwendet eine einheitliche Ganzkörper-Manipulationsstrategie, die Roboterarme und Beine für präzise Interaktionsaufgaben koordiniert. Die Autoren haben eine vorläufige Bereitstellung des Navigationsmoduls abgeschlossen und werden die Verfeinerung der Ganzkörper-Manipulationsstrategie fortsetzen.
Diese Forschung zielt darauf ab, das Problem der nahtlosen Manipulationsnavigation in unstrukturierten Umgebungen zu lösen, insbesondere die Herausforderungen der Mensch-Roboter-Interaktion in Szenarien der letzten Meile. Traditionelle Liefermethoden sind auf vorgefertigte Karten und präzise Lokalisierung angewiesen, was in dynamischen oder maßgeschneiderten Umgebungen kostspielig und skalierbar begrenzt ist.
Die Lieferung der letzten Meile ist eine kritische Anwendung für Serviceroboter und erfordert, dass Roboter nicht nur komplexe Umgebungen durchqueren, sondern auch physisch mit Menschen interagieren können. Vierbeinige Roboterplattformen mit Roboterarmen kombinieren agile Bewegungsfähigkeiten mit Manipulationsfunktionalität und bieten eine ideale Implementierungsplattform für komplexe Lieferszenarios.
- Navigation: Die meisten Lieferstrategien sind immer noch kartenabhängig und funktionieren in häufig wechselnden oder schnell bereitgestellten Umgebungen schlecht
- Manipulation: Mangel an effektiver Ganzkörper-Koordinationskontrolle, was komplexe Mensch-Roboter-Interaktionen erschwert
- Integrationschallenges: Wahrnehmungslücken, Geländeveränderungen und Hardwarebeschränkungen bei der Bereitstellung von der Simulation zur realen Welt
Entwicklung eines hierarchischen und integrierten Frameworks, das kartenlose Navigation mit Ganzkörper-Manipulationsbewegung in einem bereitstellbaren System vereint und umfassende Autonomie für die Navigation unbekannter Räume und die Ausführung geschickter Manipulationsbewegungen ermöglicht.
- Neuartiges kartenloses Navigationsmodul: Nutzt Vision-Language-Modelle für szenenübergreifendes Reasoning und Graph-Matching, das eine dreistufige Explorationsstrategie antreibt und kostenlose Navigation ermöglicht
- Manipulationsstrategie mit Bewegung: Integriert vierbeinige Fortbewegung und Roboterarmbewegung und realisiert Ganzkörper-Interaktionsverhalten durch Endeffektortrajektorienlenkung
- Systemintegration und Validierung: Integration und Validierung des Systems auf einer echten vierbeinigen Roboterarmbewegungsplattform, demonstriert End-to-End-Lieferung der letzten Meile mit semantischer Navigation und Ganzkörper-Interaktion
Das HANDO-Framework ermöglicht es vierbeinigen Robotern mit Roboterarmen, vollständige Lieferaufgaben in unstrukturierten Umgebungen auszuführen, einschließlich:
- Eingabe: Semantische Zielbezeichnungen (z. B. „schwarzer Bürostuhl"), Umgebungswahrnehmungsdaten, menschliche Handtrajektorien
- Ausgabe: Roboterbewegungskontrollbefehle, Roboterarmbefehle
- Einschränkungen: Keine vorgefertigten Karten, Echtzeitanforderungen, Sicherheitseinschränkungen
Dreistufiger Explorationsprozess:
- Anfängliche Explorationsphase: Wenn der Matching-Score st<σ1 ist, zerlegt das System das semantische Zielgraph Gg in Teilziele und verwendet eine grenzbasierte Explorationsstrategie
- Koordinatenprojektion und Ausrichtungsphase: Wenn σ1≤st<σ2 ist, werden das Zielgraph Gg und das aktuelle Szenengraph Gt ausgerichtet
- Zielvalidierungsphase: Wenn st≥σ2 ist, werden Zielvalidierung und Szenengraph-Korrektur durchgeführt
Aktionsgenerierung: Der VLM-basierte Aktionsdekoder wählt diskrete Aktionen at∈{vorwa¨rts bewegen, links drehen, rechts drehen, stoppen} und ordnet sie kontinuierlichen Geschwindigkeitsbefehlen zu:
(0.1ms−1,π/12rad s−1,−π/12rad s−1,0)
Handtrajektoriengenerator:
- Erkennt die Hand des Bedieners und wählt Keyframes durch Handgeschwindigkeitstäler aus
- Leitet die Handposition/Orientierung zum Tool-Center-Point (TCP) des Robotergreifers um:
xttcp=SE(3)(Tcam→world)⋅SE(3)(ht)⋅tcpThand
Ganzkörper-Manipulationsstrategie mit Bewegung:
- Zustandsraum: Umfasst vorherige Aktion, Beinzustand, Roboterarmbewegungszustand, Basisstation und Endeffektortrajektorie
- Aktionsraum: Verwendet Positions-PD-Regelung mit Zielposition qt∗=qdefault+Δqt
- Belohnungsfunktion:
- TCP-Verfolgungsbelohnung: rtrack=exp(−σp∥pttcp−pttar∥)⋅exp(−σo∠(Rttcp(Rttar)T))
- Regularisierungsbelohnung: rreg=−λτ∥τt∥2−λΔq∥at−at−1∥2−λq¨∥q¨t∥2
- Multimodale Szenenerkennung: Kombiniert Vision-Language-Modelle für direkte Abbildung von semantischen Zielen auf Navigationsverhalten
- Hierarchische Kontrollarchitektur: Effektive Trennung von hochstufigem semantischem Reasoning und niedrigstufiger Bewegungskontrolle
- Echtzeit-Handverfolgungsintegration: Lenkt den Endeffektors des Roboters durch menschliche Handtrajektorien und verbessert die Natürlichkeit der Mensch-Roboter-Interaktion
- Einheitliche Ganzkörperkontrolle: Koordiniert Beinbewegung und Roboterarmbewegung innerhalb eines einzigen Strategierahmens
- Roboterplattform: Unitree Go1 EDU vierbeiniger Roboter + AGILEX PIPER leichter Roboterarmbewegung
- Rechengerät: NVIDIA RTX 4090 GPU
- Kontrollfrequenz: Bewegungsstrategie und Ganzkörper-Manipulationsstrategie laufen beide bei 50 Hz
- Kommunikationsmethode: Verdrahtete Ethernet-Verbindung mit Unterstützung für Bereitstellung mit niedriger Latenz
Echtwelt-Evaluierung in einem Café mit folgenden Merkmalen:
- Unstrukturiertes Layout mit unregelmäßig angeordneten Tischen, Stühlen und Gegenständen
- Teilweise Beobachtbarkeit: Der Roboter hat kein Vorwissen über die Zielposition
- Abhängig nur von visueller Eingabe und semantischen Befehlen
- Navigationserfolgquote
- Trajektorienglätte und Kontinuität
- Zielpositionierungsgenauigkeit
- Systemstabilität und Robustheit
Die zielorientierte kartenlose Navigationsschicht zeigt hervorragende Leistung in realen Umgebungen:
- Erfolgreiche Umgebungserkundung und Annäherung an Ziele
- Aufgezeichnete Basisstationstrajektorien sind glatt und kontinuierlich
- Trotz unregelmäßigen Layouts stabile und robuste Navigationsleistung
- Navigationsmodulvalidierung: Erfolgreiche vorläufige Bereitstellung beweist die Machbarkeit der kartenlosen Navigation
- Systemintegration: Multi-Thread-Kontrolle ermöglicht Echtzeitbetrieb
- Umgebungsanpassung: Zeigt gute Anpassungsfähigkeit in dynamischen, unstrukturierten Umgebungen
- Traditionelle Methoden: Kartenbasierte Methoden mit SLAM und Graphenplanung, effektiv in statischen strukturierten Umgebungen, aber kostspielig
- Kartenlose Methoden: Frameworks wie UniGoal und NaviLa nutzen Sprach- und Sehhinweise zur Navigationsleitung und senken die Bereitstellungskosten erheblich
- ACT: Nutzt Transformer-Backbone-Netzwerk und Bildencoder
- Diffusion Policy: Führt generative Diffusionsprozesse zur Modellierung multimodaler Aktionsverteilungen ein
- RISE: Nutzt spärliche Punktwolken-Encoder für kontinuierliche Kontrolle
- Frühe Methoden: Optimierungsbasierte Fußschrittplanung und Ganzkörper-Trajektoriengenerierung mit hohen Rechenkosten
- Reinforcement-Learning-Methoden: End-to-End-Kontrolle mehrerer Manipulationsnavigationsaufgaben
- MLM: Kombiniert Trajektorienbibliotheken mit diffusionsbasiertem Strategiereasoning
Das HANDO-Framework überbrückt erfolgreich das Verständnis semantischer Aufgaben und die Kontrolle auf niedriger physikalischer Ebene und bietet eine effektive Lösung für komplexe Lieferaufgaben der letzten Meile in unstrukturierten und menschlichen Umgebungen.
- Manipulationsmodul nicht vollständig implementiert: Die Ganzkörper-Manipulationskontrolle mit Bewegung ist noch in Entwicklung
- Begrenzte Experimentierreichweite: Hauptsächlich Validierung der Navigationsfunktion, Manipulationsfunktion erfordert weitere Tests
- Umgebungskomplexität: Die Anpassungsfähigkeit an extrem dynamische Umgebungen muss noch überprüft werden
- Verfeinerung der Ganzkörper-Manipulationsbewegung: Verbesserung der Koordinationskontrolle von Greifen und Übergabe
- Echtzeit-Handverfolgungsintegration: Verbesserung der Sicherheit, Robustheit und Natürlichkeit der Mensch-Roboter-Interaktion
- Erweiterung von Anwendungsszenarien: Validierung der Leistung in komplexeren realen Umgebungen
- Systematisches Design: Präsentiert ein vollständiges hierarchisches Framework, das hochstufiges Reasoning und niedrigstufige Kontrolle effektiv trennt
- Starke Praktikabilität: Für praktische Anwendungsszenarien (Lieferung der letzten Meile) konzipiert
- Technische Innovation: Organische Kombination von kartenlosen Navigation und Ganzkörperkontrolle
- Echtwelt-Validierung: Vorläufige Validierung auf echter Hardware-Plattform
- Unvollständigkeit: Manipulationsmodul befindet sich noch in der Designphase, fehlt vollständige Systemdemonstration
- Begrenzte Experimentiertiefe: Hauptsächlich Demonstration der Navigationsfunktion, mangelnde quantitative Leistungsanalyse
- Fehlende Vergleichsexperimente: Keine detaillierten Vergleiche mit bestehenden Methoden
- Unzureichende Robustheitsanalyse: Begrenzte Analyse von Fehlerfällen und Randbedingungen
- Akademischer Wert: Bietet neue Systemarchitektur-Ideen für Manipulationsnavigationsroboter
- Praktischer Wert: Hat Anwendungspotenzial in Serviceroboter- und Lieferroboter-Bereichen
- Reproduzierbarkeit: Bietet detaillierte technische Beschreibungen, aber fehlender Open-Source-Code
- Lieferdienste der letzten Meile
- Anwendungen von Servicerobotern in Innenräumen
- Mensch-Roboter-Kooperationsaufgaben
- Manipulationsnavigationsaufgaben in unstrukturierten Umgebungen
Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:
- UniGoal 5: Universelle Zero-Shot-Zielorientierte Navigation
- NaviLa 3: Vision-Language-Action-Navigationsmodell für Laufroboter
- MLM 7: Ganzkörper-Kontrolllernen für Multi-Task-Manipulationsnavigation
- Diffusion Policy 8: Diffusionsbasiertes Lernen von Vision-Motion-Strategien
Gesamtbewertung: Dies ist eine praktisch wertvolle systematische Arbeit, die ein vollständiges Framework-Design für Manipulationsnavigationsroboter präsentiert. Obwohl das Manipulationsmodul noch in Entwicklung ist, beweist die erfolgreiche Bereitstellung des Navigationsmoduls die Machbarkeit der Methode. Der Hauptbeitrag des Papiers liegt in der Systemarchitektur-Gestaltung und der vorläufigen Echtwelt-Validierung, die eine Grundlage für die weitere Entwicklung in diesem Bereich schafft.