2025-11-15T09:37:11.895501

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

Sun, Wang, Zhang et al.

Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.

academic

HANDO: Navigazione Autonoma Gerarchica e Manipolazione Omni-loco-motoria Destra

Informazioni Fondamentali

ID Articolo: 2510.09221
Titolo: HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
Autori: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
Classificazione: cs.RO (Robotica)
Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.09221
Dimostrazione Video: https://youtu.be/YD0qx3vRsfc

Riassunto

Questo articolo presenta HANDO (Navigazione Autonoma Gerarchica e Manipolazione Omni-loco-motoria Destra), un framework a due livelli progettato per robot quadrupedi equipaggiati con bracci meccanici al fine di eseguire compiti di manipolazione mobile incentrati sull'uomo. Il primo livello impiega una strategia di esplorazione autonoma condizionata dall'obiettivo, guidando il robot verso obiettivi semanticamente specificati; il secondo livello utilizza una strategia unificata di manipolazione mobile a corpo intero, coordinando il braccio meccanico e le zampe per compiti di interazione precisa. Gli autori hanno completato il dispiegamento preliminare del modulo di navigazione e continueranno ad avanzare il dispiegamento raffinato della manipolazione mobile a corpo intero.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca mira a risolvere il problema della manipolazione mobile senza soluzione di continuità in ambienti non strutturati, in particolare le sfide dell'interazione uomo-macchina negli scenari di consegna dell'ultimo miglio. I metodi di consegna tradizionali si basano su mappe precostrutite e localizzazione precisa, risultando costosi e con scalabilità limitata in ambienti dinamici o personalizzati.

Importanza

La consegna dell'ultimo miglio è un'applicazione critica per i robot di servizio, richiedendo ai robot non solo di attraversare ambienti complessi ma anche di interagire fisicamente con gli esseri umani. Le piattaforme di robot quadrupedi equipaggiate con bracci meccanici combinano capacità di movimento agile con funzionalità di manipolazione, fornendo una piattaforma di implementazione ideale per scenari di consegna complessi.

Limitazioni dei Metodi Esistenti

Aspetto della Navigazione: La maggior parte delle strategie di consegna rimane dipendente dalle mappe, con prestazioni scadenti in ambienti che cambiano frequentemente o richiedono dispiegamento rapido
Aspetto della Manipolazione: Mancanza di controllo coordinato efficace a corpo intero, difficoltà nel realizzare interazioni uomo-macchina complesse
Sfide di Integrazione: Lacune percettive dal passaggio dalla simulazione al mondo reale, variabilità del terreno e vincoli hardware

Motivazione della Ricerca

Sviluppare un framework gerarchico e integrato che unisca la navigazione senza mappe con la manipolazione mobile a corpo intero in un sistema distribuibile, realizzando l'autonomia complessiva di navigazione in spazi sconosciuti ed esecuzione di azioni di manipolazione destra.

Contributi Principali

Propone un innovativo modulo di navigazione senza mappe: Impiega modelli visione-linguaggio per il ragionamento cross-scene e l'abbinamento di grafi, guidando una strategia di esplorazione in tre fasi per realizzare navigazione a costo zero
Progetta una strategia di manipolazione mobile: Integra il movimento quadrupede e il controllo del braccio meccanico, realizzando comportamenti di interazione a corpo intero attraverso la guida della traiettoria dell'end-effector
Integrazione e Verifica del Sistema: Integra e verifica il sistema su una piattaforma reale di robot quadrupede con braccio meccanico, dimostrando la consegna dell'ultimo miglio end-to-end che combina navigazione semantica e interazione a corpo intero

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il framework HANDO mira a consentire ai robot quadrupedi equipaggiati con bracci meccanici di eseguire compiti di consegna completi in ambienti non strutturati, includendo:

Input: Descrizione semantica dell'obiettivo (ad es. "sedia da ufficio nera"), dati di percezione ambientale, traiettoria della mano umana
Output: Comandi di controllo del movimento del robot, comandi dei giunti del braccio meccanico
Vincoli: Nessuna mappa precostituita, requisiti di tempo reale, vincoli di sicurezza

Architettura del Modello

Primo Livello: Navigazione Senza Mappe Orientata all'Obiettivo

Processo di Esplorazione in Tre Fasi:

Fase di Esplorazione Iniziale: Quando il punteggio di abbinamento $s_t < \sigma_1$ , il sistema decompone il grafo dell'obiettivo semantico $G_g$ in sotto-obiettivi, adottando una strategia di esplorazione basata sui confini
Fase di Proiezione e Allineamento delle Coordinate: Quando $\sigma_1 \leq s_t < \sigma_2$ , allinea il grafo dell'obiettivo $G_g$ e il grafo della scena corrente $G_t$
Fase di Verifica dell'Obiettivo: Quando $s_t \geq \sigma_2$ , esegue la verifica dell'obiettivo e la correzione del grafo della scena

Generazione di Azioni: Il decodificatore di azioni basato su VLM seleziona azioni discrete $a_t \in \{\text{move forward, turn left, turn right, stop}\}$ , mappate in comandi di velocità continui: $(0.1 \text{ms}^{-1}, \pi/12 \text{rad s}^{-1}, -\pi/12 \text{rad s}^{-1}, 0)$

Secondo Livello: Strategia di Manipolazione Mobile a Corpo Intero

Generatore di Traiettoria della Mano:

Rileva la mano dell'operatore, selezionando fotogrammi chiave attraverso valli di velocità della mano
Reindirizza la posizione/orientamento della mano al punto centrale dello strumento (TCP) del gripper del robot: $x^{tcp}_t = SE(3)(T_{cam \rightarrow world}) \cdot SE(3)(h_t) \cdot {}^{tcp}T_{hand}$

Strategia di Manipolazione Mobile a Corpo Intero:

Spazio di Stato: Include l'azione precedente, lo stato delle zampe, lo stato del braccio meccanico, lo stato della base e la traiettoria dell'end-effector
Spazio di Azione: Utilizza controllo PD in posizione, posizione target $q^*_t = q_{default} + \Delta q_t$
Funzione di Ricompensa:
- Ricompensa di tracciamento TCP: $r_{track} = \exp\left(-\frac{\|p^{tcp}_t - p^{tar}_t\|}{\sigma_p}\right) \cdot \exp\left(-\frac{\angle(R^{tcp}_t(R^{tar}_t)^T)}{\sigma_o}\right)$
- Ricompensa di Regolarizzazione: $r_{reg} = -\lambda_\tau\|\tau_t\|^2 - \lambda_{\Delta q}\|a_t - a_{t-1}\|^2 - \lambda_{\ddot{q}}\|\ddot{q}_t\|^2$

Punti di Innovazione Tecnica

Comprensione della Scena Multimodale: Combina modelli visione-linguaggio per realizzare mappatura diretta da obiettivi semantici a comportamenti di navigazione
Architettura di Controllo Gerarchica: Separa efficacemente il ragionamento semantico di alto livello dal controllo del movimento di basso livello
Integrazione del Tracciamento della Mano in Tempo Reale: Guida l'end-effector del robot attraverso la traiettoria della mano umana, migliorando la naturalezza dell'interazione uomo-macchina
Controllo Unificato a Corpo Intero: Coordina il movimento delle zampe e la manipolazione del braccio meccanico all'interno di un unico framework di strategia

Configurazione Sperimentale

Piattaforma Hardware

Piattaforma Robotica: Robot quadrupede Unitree Go1 EDU + Braccio meccanico leggero AGILEX PIPER
Dispositivo di Calcolo: GPU NVIDIA RTX 4090
Frequenza di Controllo: La strategia di movimento e la strategia di manipolazione mobile a corpo intero funzionano entrambe a 50Hz
Metodo di Comunicazione: Connessione Ethernet cablata, supporta dispiegamento affidabile a bassa latenza

Ambiente Sperimentale

Valutazione nel mondo reale in una caffetteria, caratteristiche ambientali:

Layout non strutturato, tavoli, sedie e oggetti vari disposti irregolarmente
Osservabilità parziale: il robot non ha conoscenza preliminare della posizione dell'obiettivo
Dipende solo dall'input visivo e dalle istruzioni semantiche

Metriche di Valutazione

Tasso di successo della navigazione
Levigatezza e continuità della traiettoria
Precisione della localizzazione dell'obiettivo
Stabilità e robustezza del sistema

Risultati Sperimentali

Risultati Principali

Il livello di navigazione senza mappe orientato all'obiettivo mostra prestazioni eccellenti in ambienti reali:

Esplorazione riuscita dell'ambiente e avvicinamento all'obiettivo
Traiettoria della base registrata liscia e continua
Mantenimento di prestazioni di navigazione stabili e robuste nonostante il layout irregolare

Risultati Sperimentali

Verifica del Modulo di Navigazione: Completamento riuscito del dispiegamento preliminare, provando la fattibilità della navigazione senza mappe
Integrazione del Sistema: Il controllo multi-thread realizza operazioni in tempo reale
Adattabilità Ambientale: Mostra buona capacità di adattamento in ambienti dinamici e non strutturati

Lavori Correlati

Navigazione Autonoma

Metodi Tradizionali: Approcci basati su mappe con SLAM e pianificazione di grafi, efficaci in ambienti statici strutturati ma costosi
Metodi Senza Mappe: Framework come UniGoal e NaviLa sfruttano indizi linguistici e visivi per guidare la navigazione, riducendo significativamente i costi di dispiegamento

Apprendimento per Imitazione End-to-End

ACT: Impiega backbone Transformer e codificatore di immagini
Diffusion Policy: Introduce processi di diffusione generativa per modellare distribuzioni di azioni multimodali
RISE: Utilizza codificatore di nuvole di punti sparse per controllo continuo

Manipolazione Mobile

Metodi Iniziali: Pianificazione del passo basata su ottimizzazione e generazione di traiettoria a corpo intero, con elevati costi computazionali
Metodi di Apprendimento per Rinforzo: Controllo end-to-end di molteplici compiti di manipolazione mobile
MLM: Combina libreria di traiettorie e inferenza basata su strategia di diffusione

Conclusioni e Discussione

Conclusioni Principali

Il framework HANDO realizza con successo il collegamento tra la comprensione dei compiti semantici e il controllo fisico di basso livello, fornendo una soluzione efficace per compiti di consegna dell'ultimo miglio complessi in ambienti non strutturati e con presenza umana.

Limitazioni

Modulo di Manipolazione Non Completamente Implementato: Il controllo di manipolazione mobile a corpo intero è ancora in fase di sviluppo
Portata Sperimentale Limitata: La verifica si è concentrata principalmente sulla funzione di navigazione, la funzione di manipolazione richiede ulteriori test
Complessità Ambientale: La capacità di adattamento a ambienti estremamente dinamici rimane da verificare

Direzioni Future

Raffinamento della Manipolazione Mobile a Corpo Intero: Perfezionamento del controllo coordinato di afferraggio e trasferimento
Integrazione del Tracciamento della Mano in Tempo Reale: Miglioramento della sicurezza, robustezza e naturalezza dell'interazione uomo-macchina
Estensione degli Scenari Applicativi: Verifica delle prestazioni in ambienti reali più complessi

Valutazione Approfondita

Punti di Forza

Progettazione Sistematica: Propone un framework completo che separa efficacemente il ragionamento di alto livello dal controllo di basso livello
Forte Praticità: Progettato per scenari di applicazione reale (consegna dell'ultimo miglio)
Innovazione Tecnica: Combinazione organica di navigazione senza mappe e controllo a corpo intero
Verifica nel Mondo Reale: Verifica preliminare su piattaforma hardware reale

Insufficienze

Completezza Insufficiente: Il modulo di manipolazione è ancora in fase di progettazione, manca una dimostrazione completa del sistema
Profondità Sperimentale Limitata: Mostra principalmente la funzione di navigazione, manca analisi quantitativa delle prestazioni
Assenza di Esperimenti Comparativi: Manca confronto dettagliato con metodi esistenti
Analisi di Robustezza Insufficiente: Analisi limitata di casi di fallimento e condizioni al contorno

Impatto

Valore Accademico: Fornisce nuove prospettive di architettura di sistema per robot di manipolazione mobile
Valore Pratico: Ha potenziale di applicazione nel campo dei robot di servizio e robot di consegna
Riproducibilità: Fornisce descrizioni tecniche dettagliate, ma manca codice open-source

Scenari Applicabili

Servizi di consegna dell'ultimo miglio
Applicazioni di robot di servizio indoor
Compiti di collaborazione uomo-macchina
Compiti di manipolazione mobile in ambienti non strutturati

Riferimenti Bibliografici

L'articolo cita numerosi lavori correlati importanti, includendo:

UniGoal 5: Navigazione orientata all'obiettivo zero-shot universale
NaviLa 3: Modello di navigazione visione-linguaggio-azione per robot quadrupedi
MLM 7: Apprendimento di controllo a corpo intero per manipolazione mobile multi-task
Diffusion Policy 8: Apprendimento di strategia visione-movimento basato su diffusione

Valutazione Complessiva: Questo è un lavoro sistematico con valore pratico che propone un design di framework completo per robot di manipolazione mobile. Sebbene il modulo di manipolazione sia ancora in fase di sviluppo, il dispiegamento riuscito del modulo di navigazione dimostra la fattibilità del metodo. Il contributo principale dell'articolo risiede nella progettazione dell'architettura di sistema e nella verifica preliminare nel mondo reale, gettando le basi per lo sviluppo futuro in questo campo.