2025-11-15T09:37:11.895501

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

Sun, Wang, Zhang et al.
Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.
academic

HANDO: Hierarchische autonome Navigation und geschickte Omni-Lokomotions-Manipulation

Grundinformationen

  • Paper-ID: 2510.09221
  • Titel: HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
  • Autoren: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
  • Kategorie: cs.RO (Robotik)
  • Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.09221
  • Video-Demonstration: https://youtu.be/YD0qx3vRsfc

Zusammenfassung

Dieses Papier präsentiert HANDO (Hierarchische autonome Navigation und geschickte Omni-Lokomotions-Manipulation), ein zweischichtiges Framework für Laufroboter mit Roboterarmen zur Ausführung von menschenzentrierten Manipulationsaufgaben mit Bewegung. Die erste Schicht nutzt eine zielbedingte autonome Explorationsstrategie, um den Roboter zu semantisch definierten Zielen zu führen; die zweite Schicht verwendet eine einheitliche Ganzkörper-Manipulationsstrategie, die Roboterarme und Beine für präzise Interaktionsaufgaben koordiniert. Die Autoren haben eine vorläufige Bereitstellung des Navigationsmoduls abgeschlossen und werden die Verfeinerung der Ganzkörper-Manipulationsstrategie fortsetzen.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung zielt darauf ab, das Problem der nahtlosen Manipulationsnavigation in unstrukturierten Umgebungen zu lösen, insbesondere die Herausforderungen der Mensch-Roboter-Interaktion in Szenarien der letzten Meile. Traditionelle Liefermethoden sind auf vorgefertigte Karten und präzise Lokalisierung angewiesen, was in dynamischen oder maßgeschneiderten Umgebungen kostspielig und skalierbar begrenzt ist.

Bedeutung

Die Lieferung der letzten Meile ist eine kritische Anwendung für Serviceroboter und erfordert, dass Roboter nicht nur komplexe Umgebungen durchqueren, sondern auch physisch mit Menschen interagieren können. Vierbeinige Roboterplattformen mit Roboterarmen kombinieren agile Bewegungsfähigkeiten mit Manipulationsfunktionalität und bieten eine ideale Implementierungsplattform für komplexe Lieferszenarios.

Einschränkungen bestehender Methoden

  1. Navigation: Die meisten Lieferstrategien sind immer noch kartenabhängig und funktionieren in häufig wechselnden oder schnell bereitgestellten Umgebungen schlecht
  2. Manipulation: Mangel an effektiver Ganzkörper-Koordinationskontrolle, was komplexe Mensch-Roboter-Interaktionen erschwert
  3. Integrationschallenges: Wahrnehmungslücken, Geländeveränderungen und Hardwarebeschränkungen bei der Bereitstellung von der Simulation zur realen Welt

Forschungsmotivation

Entwicklung eines hierarchischen und integrierten Frameworks, das kartenlose Navigation mit Ganzkörper-Manipulationsbewegung in einem bereitstellbaren System vereint und umfassende Autonomie für die Navigation unbekannter Räume und die Ausführung geschickter Manipulationsbewegungen ermöglicht.

Kernbeiträge

  1. Neuartiges kartenloses Navigationsmodul: Nutzt Vision-Language-Modelle für szenenübergreifendes Reasoning und Graph-Matching, das eine dreistufige Explorationsstrategie antreibt und kostenlose Navigation ermöglicht
  2. Manipulationsstrategie mit Bewegung: Integriert vierbeinige Fortbewegung und Roboterarmbewegung und realisiert Ganzkörper-Interaktionsverhalten durch Endeffektortrajektorienlenkung
  3. Systemintegration und Validierung: Integration und Validierung des Systems auf einer echten vierbeinigen Roboterarmbewegungsplattform, demonstriert End-to-End-Lieferung der letzten Meile mit semantischer Navigation und Ganzkörper-Interaktion

Methodische Details

Aufgabendefinition

Das HANDO-Framework ermöglicht es vierbeinigen Robotern mit Roboterarmen, vollständige Lieferaufgaben in unstrukturierten Umgebungen auszuführen, einschließlich:

  • Eingabe: Semantische Zielbezeichnungen (z. B. „schwarzer Bürostuhl"), Umgebungswahrnehmungsdaten, menschliche Handtrajektorien
  • Ausgabe: Roboterbewegungskontrollbefehle, Roboterarmbefehle
  • Einschränkungen: Keine vorgefertigten Karten, Echtzeitanforderungen, Sicherheitseinschränkungen

Modellarchitektur

Schicht 1: Zielorientierte kartenlose Navigation

Dreistufiger Explorationsprozess:

  1. Anfängliche Explorationsphase: Wenn der Matching-Score st<σ1s_t < \sigma_1 ist, zerlegt das System das semantische Zielgraph GgG_g in Teilziele und verwendet eine grenzbasierte Explorationsstrategie
  2. Koordinatenprojektion und Ausrichtungsphase: Wenn σ1st<σ2\sigma_1 \leq s_t < \sigma_2 ist, werden das Zielgraph GgG_g und das aktuelle Szenengraph GtG_t ausgerichtet
  3. Zielvalidierungsphase: Wenn stσ2s_t \geq \sigma_2 ist, werden Zielvalidierung und Szenengraph-Korrektur durchgeführt

Aktionsgenerierung: Der VLM-basierte Aktionsdekoder wählt diskrete Aktionen at{vorwa¨rts bewegen, links drehen, rechts drehen, stoppen}a_t \in \{\text{vorwärts bewegen, links drehen, rechts drehen, stoppen}\} und ordnet sie kontinuierlichen Geschwindigkeitsbefehlen zu: (0.1ms1,π/12rad s1,π/12rad s1,0)(0.1 \text{ms}^{-1}, \pi/12 \text{rad s}^{-1}, -\pi/12 \text{rad s}^{-1}, 0)

Schicht 2: Ganzkörper-Manipulationsstrategie mit Bewegung

Handtrajektoriengenerator:

  • Erkennt die Hand des Bedieners und wählt Keyframes durch Handgeschwindigkeitstäler aus
  • Leitet die Handposition/Orientierung zum Tool-Center-Point (TCP) des Robotergreifers um: xttcp=SE(3)(Tcamworld)SE(3)(ht)tcpThandx^{tcp}_t = SE(3)(T_{cam \rightarrow world}) \cdot SE(3)(h_t) \cdot {}^{tcp}T_{hand}

Ganzkörper-Manipulationsstrategie mit Bewegung:

  • Zustandsraum: Umfasst vorherige Aktion, Beinzustand, Roboterarmbewegungszustand, Basisstation und Endeffektortrajektorie
  • Aktionsraum: Verwendet Positions-PD-Regelung mit Zielposition qt=qdefault+Δqtq^*_t = q_{default} + \Delta q_t
  • Belohnungsfunktion:
    • TCP-Verfolgungsbelohnung: rtrack=exp(pttcppttarσp)exp((Rttcp(Rttar)T)σo)r_{track} = \exp\left(-\frac{\|p^{tcp}_t - p^{tar}_t\|}{\sigma_p}\right) \cdot \exp\left(-\frac{\angle(R^{tcp}_t(R^{tar}_t)^T)}{\sigma_o}\right)
    • Regularisierungsbelohnung: rreg=λττt2λΔqatat12λq¨q¨t2r_{reg} = -\lambda_\tau\|\tau_t\|^2 - \lambda_{\Delta q}\|a_t - a_{t-1}\|^2 - \lambda_{\ddot{q}}\|\ddot{q}_t\|^2

Technische Innovationen

  1. Multimodale Szenenerkennung: Kombiniert Vision-Language-Modelle für direkte Abbildung von semantischen Zielen auf Navigationsverhalten
  2. Hierarchische Kontrollarchitektur: Effektive Trennung von hochstufigem semantischem Reasoning und niedrigstufiger Bewegungskontrolle
  3. Echtzeit-Handverfolgungsintegration: Lenkt den Endeffektors des Roboters durch menschliche Handtrajektorien und verbessert die Natürlichkeit der Mensch-Roboter-Interaktion
  4. Einheitliche Ganzkörperkontrolle: Koordiniert Beinbewegung und Roboterarmbewegung innerhalb eines einzigen Strategierahmens

Experimentelle Einrichtung

Hardware-Plattform

  • Roboterplattform: Unitree Go1 EDU vierbeiniger Roboter + AGILEX PIPER leichter Roboterarmbewegung
  • Rechengerät: NVIDIA RTX 4090 GPU
  • Kontrollfrequenz: Bewegungsstrategie und Ganzkörper-Manipulationsstrategie laufen beide bei 50 Hz
  • Kommunikationsmethode: Verdrahtete Ethernet-Verbindung mit Unterstützung für Bereitstellung mit niedriger Latenz

Experimentelle Umgebung

Echtwelt-Evaluierung in einem Café mit folgenden Merkmalen:

  • Unstrukturiertes Layout mit unregelmäßig angeordneten Tischen, Stühlen und Gegenständen
  • Teilweise Beobachtbarkeit: Der Roboter hat kein Vorwissen über die Zielposition
  • Abhängig nur von visueller Eingabe und semantischen Befehlen

Bewertungsmetriken

  • Navigationserfolgquote
  • Trajektorienglätte und Kontinuität
  • Zielpositionierungsgenauigkeit
  • Systemstabilität und Robustheit

Experimentelle Ergebnisse

Hauptergebnisse

Die zielorientierte kartenlose Navigationsschicht zeigt hervorragende Leistung in realen Umgebungen:

  • Erfolgreiche Umgebungserkundung und Annäherung an Ziele
  • Aufgezeichnete Basisstationstrajektorien sind glatt und kontinuierlich
  • Trotz unregelmäßigen Layouts stabile und robuste Navigationsleistung

Experimentelle Erkenntnisse

  1. Navigationsmodulvalidierung: Erfolgreiche vorläufige Bereitstellung beweist die Machbarkeit der kartenlosen Navigation
  2. Systemintegration: Multi-Thread-Kontrolle ermöglicht Echtzeitbetrieb
  3. Umgebungsanpassung: Zeigt gute Anpassungsfähigkeit in dynamischen, unstrukturierten Umgebungen

Verwandte Arbeiten

Autonome Navigation

  • Traditionelle Methoden: Kartenbasierte Methoden mit SLAM und Graphenplanung, effektiv in statischen strukturierten Umgebungen, aber kostspielig
  • Kartenlose Methoden: Frameworks wie UniGoal und NaviLa nutzen Sprach- und Sehhinweise zur Navigationsleitung und senken die Bereitstellungskosten erheblich

End-to-End-Imitationslernen

  • ACT: Nutzt Transformer-Backbone-Netzwerk und Bildencoder
  • Diffusion Policy: Führt generative Diffusionsprozesse zur Modellierung multimodaler Aktionsverteilungen ein
  • RISE: Nutzt spärliche Punktwolken-Encoder für kontinuierliche Kontrolle

Manipulationsnavigation

  • Frühe Methoden: Optimierungsbasierte Fußschrittplanung und Ganzkörper-Trajektoriengenerierung mit hohen Rechenkosten
  • Reinforcement-Learning-Methoden: End-to-End-Kontrolle mehrerer Manipulationsnavigationsaufgaben
  • MLM: Kombiniert Trajektorienbibliotheken mit diffusionsbasiertem Strategiereasoning

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Das HANDO-Framework überbrückt erfolgreich das Verständnis semantischer Aufgaben und die Kontrolle auf niedriger physikalischer Ebene und bietet eine effektive Lösung für komplexe Lieferaufgaben der letzten Meile in unstrukturierten und menschlichen Umgebungen.

Einschränkungen

  1. Manipulationsmodul nicht vollständig implementiert: Die Ganzkörper-Manipulationskontrolle mit Bewegung ist noch in Entwicklung
  2. Begrenzte Experimentierreichweite: Hauptsächlich Validierung der Navigationsfunktion, Manipulationsfunktion erfordert weitere Tests
  3. Umgebungskomplexität: Die Anpassungsfähigkeit an extrem dynamische Umgebungen muss noch überprüft werden

Zukünftige Richtungen

  1. Verfeinerung der Ganzkörper-Manipulationsbewegung: Verbesserung der Koordinationskontrolle von Greifen und Übergabe
  2. Echtzeit-Handverfolgungsintegration: Verbesserung der Sicherheit, Robustheit und Natürlichkeit der Mensch-Roboter-Interaktion
  3. Erweiterung von Anwendungsszenarien: Validierung der Leistung in komplexeren realen Umgebungen

Tiefgreifende Bewertung

Stärken

  1. Systematisches Design: Präsentiert ein vollständiges hierarchisches Framework, das hochstufiges Reasoning und niedrigstufige Kontrolle effektiv trennt
  2. Starke Praktikabilität: Für praktische Anwendungsszenarien (Lieferung der letzten Meile) konzipiert
  3. Technische Innovation: Organische Kombination von kartenlosen Navigation und Ganzkörperkontrolle
  4. Echtwelt-Validierung: Vorläufige Validierung auf echter Hardware-Plattform

Mängel

  1. Unvollständigkeit: Manipulationsmodul befindet sich noch in der Designphase, fehlt vollständige Systemdemonstration
  2. Begrenzte Experimentiertiefe: Hauptsächlich Demonstration der Navigationsfunktion, mangelnde quantitative Leistungsanalyse
  3. Fehlende Vergleichsexperimente: Keine detaillierten Vergleiche mit bestehenden Methoden
  4. Unzureichende Robustheitsanalyse: Begrenzte Analyse von Fehlerfällen und Randbedingungen

Einflussfähigkeit

  1. Akademischer Wert: Bietet neue Systemarchitektur-Ideen für Manipulationsnavigationsroboter
  2. Praktischer Wert: Hat Anwendungspotenzial in Serviceroboter- und Lieferroboter-Bereichen
  3. Reproduzierbarkeit: Bietet detaillierte technische Beschreibungen, aber fehlender Open-Source-Code

Anwendbare Szenarien

  • Lieferdienste der letzten Meile
  • Anwendungen von Servicerobotern in Innenräumen
  • Mensch-Roboter-Kooperationsaufgaben
  • Manipulationsnavigationsaufgaben in unstrukturierten Umgebungen

Referenzen

Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

  • UniGoal 5: Universelle Zero-Shot-Zielorientierte Navigation
  • NaviLa 3: Vision-Language-Action-Navigationsmodell für Laufroboter
  • MLM 7: Ganzkörper-Kontrolllernen für Multi-Task-Manipulationsnavigation
  • Diffusion Policy 8: Diffusionsbasiertes Lernen von Vision-Motion-Strategien

Gesamtbewertung: Dies ist eine praktisch wertvolle systematische Arbeit, die ein vollständiges Framework-Design für Manipulationsnavigationsroboter präsentiert. Obwohl das Manipulationsmodul noch in Entwicklung ist, beweist die erfolgreiche Bereitstellung des Navigationsmoduls die Machbarkeit der Methode. Der Hauptbeitrag des Papiers liegt in der Systemarchitektur-Gestaltung und der vorläufigen Echtwelt-Validierung, die eine Grundlage für die weitere Entwicklung in diesem Bereich schafft.