2025-11-15T09:37:11.895501

HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation

Sun, Wang, Zhang et al.
Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.
academic

HANDO: Navigazione Autonoma Gerarchica e Manipolazione Omni-loco-motoria Destra

Informazioni Fondamentali

  • ID Articolo: 2510.09221
  • Titolo: HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
  • Autori: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
  • Classificazione: cs.RO (Robotica)
  • Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.09221
  • Dimostrazione Video: https://youtu.be/YD0qx3vRsfc

Riassunto

Questo articolo presenta HANDO (Navigazione Autonoma Gerarchica e Manipolazione Omni-loco-motoria Destra), un framework a due livelli progettato per robot quadrupedi equipaggiati con bracci meccanici al fine di eseguire compiti di manipolazione mobile incentrati sull'uomo. Il primo livello impiega una strategia di esplorazione autonoma condizionata dall'obiettivo, guidando il robot verso obiettivi semanticamente specificati; il secondo livello utilizza una strategia unificata di manipolazione mobile a corpo intero, coordinando il braccio meccanico e le zampe per compiti di interazione precisa. Gli autori hanno completato il dispiegamento preliminare del modulo di navigazione e continueranno ad avanzare il dispiegamento raffinato della manipolazione mobile a corpo intero.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca mira a risolvere il problema della manipolazione mobile senza soluzione di continuità in ambienti non strutturati, in particolare le sfide dell'interazione uomo-macchina negli scenari di consegna dell'ultimo miglio. I metodi di consegna tradizionali si basano su mappe precostrutite e localizzazione precisa, risultando costosi e con scalabilità limitata in ambienti dinamici o personalizzati.

Importanza

La consegna dell'ultimo miglio è un'applicazione critica per i robot di servizio, richiedendo ai robot non solo di attraversare ambienti complessi ma anche di interagire fisicamente con gli esseri umani. Le piattaforme di robot quadrupedi equipaggiate con bracci meccanici combinano capacità di movimento agile con funzionalità di manipolazione, fornendo una piattaforma di implementazione ideale per scenari di consegna complessi.

Limitazioni dei Metodi Esistenti

  1. Aspetto della Navigazione: La maggior parte delle strategie di consegna rimane dipendente dalle mappe, con prestazioni scadenti in ambienti che cambiano frequentemente o richiedono dispiegamento rapido
  2. Aspetto della Manipolazione: Mancanza di controllo coordinato efficace a corpo intero, difficoltà nel realizzare interazioni uomo-macchina complesse
  3. Sfide di Integrazione: Lacune percettive dal passaggio dalla simulazione al mondo reale, variabilità del terreno e vincoli hardware

Motivazione della Ricerca

Sviluppare un framework gerarchico e integrato che unisca la navigazione senza mappe con la manipolazione mobile a corpo intero in un sistema distribuibile, realizzando l'autonomia complessiva di navigazione in spazi sconosciuti ed esecuzione di azioni di manipolazione destra.

Contributi Principali

  1. Propone un innovativo modulo di navigazione senza mappe: Impiega modelli visione-linguaggio per il ragionamento cross-scene e l'abbinamento di grafi, guidando una strategia di esplorazione in tre fasi per realizzare navigazione a costo zero
  2. Progetta una strategia di manipolazione mobile: Integra il movimento quadrupede e il controllo del braccio meccanico, realizzando comportamenti di interazione a corpo intero attraverso la guida della traiettoria dell'end-effector
  3. Integrazione e Verifica del Sistema: Integra e verifica il sistema su una piattaforma reale di robot quadrupede con braccio meccanico, dimostrando la consegna dell'ultimo miglio end-to-end che combina navigazione semantica e interazione a corpo intero

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il framework HANDO mira a consentire ai robot quadrupedi equipaggiati con bracci meccanici di eseguire compiti di consegna completi in ambienti non strutturati, includendo:

  • Input: Descrizione semantica dell'obiettivo (ad es. "sedia da ufficio nera"), dati di percezione ambientale, traiettoria della mano umana
  • Output: Comandi di controllo del movimento del robot, comandi dei giunti del braccio meccanico
  • Vincoli: Nessuna mappa precostituita, requisiti di tempo reale, vincoli di sicurezza

Architettura del Modello

Primo Livello: Navigazione Senza Mappe Orientata all'Obiettivo

Processo di Esplorazione in Tre Fasi:

  1. Fase di Esplorazione Iniziale: Quando il punteggio di abbinamento st<σ1s_t < \sigma_1, il sistema decompone il grafo dell'obiettivo semantico GgG_g in sotto-obiettivi, adottando una strategia di esplorazione basata sui confini
  2. Fase di Proiezione e Allineamento delle Coordinate: Quando σ1st<σ2\sigma_1 \leq s_t < \sigma_2, allinea il grafo dell'obiettivo GgG_g e il grafo della scena corrente GtG_t
  3. Fase di Verifica dell'Obiettivo: Quando stσ2s_t \geq \sigma_2, esegue la verifica dell'obiettivo e la correzione del grafo della scena

Generazione di Azioni: Il decodificatore di azioni basato su VLM seleziona azioni discrete at{move forward, turn left, turn right, stop}a_t \in \{\text{move forward, turn left, turn right, stop}\}, mappate in comandi di velocità continui: (0.1ms1,π/12rad s1,π/12rad s1,0)(0.1 \text{ms}^{-1}, \pi/12 \text{rad s}^{-1}, -\pi/12 \text{rad s}^{-1}, 0)

Secondo Livello: Strategia di Manipolazione Mobile a Corpo Intero

Generatore di Traiettoria della Mano:

  • Rileva la mano dell'operatore, selezionando fotogrammi chiave attraverso valli di velocità della mano
  • Reindirizza la posizione/orientamento della mano al punto centrale dello strumento (TCP) del gripper del robot: xttcp=SE(3)(Tcamworld)SE(3)(ht)tcpThandx^{tcp}_t = SE(3)(T_{cam \rightarrow world}) \cdot SE(3)(h_t) \cdot {}^{tcp}T_{hand}

Strategia di Manipolazione Mobile a Corpo Intero:

  • Spazio di Stato: Include l'azione precedente, lo stato delle zampe, lo stato del braccio meccanico, lo stato della base e la traiettoria dell'end-effector
  • Spazio di Azione: Utilizza controllo PD in posizione, posizione target qt=qdefault+Δqtq^*_t = q_{default} + \Delta q_t
  • Funzione di Ricompensa:
    • Ricompensa di tracciamento TCP: rtrack=exp(pttcppttarσp)exp((Rttcp(Rttar)T)σo)r_{track} = \exp\left(-\frac{\|p^{tcp}_t - p^{tar}_t\|}{\sigma_p}\right) \cdot \exp\left(-\frac{\angle(R^{tcp}_t(R^{tar}_t)^T)}{\sigma_o}\right)
    • Ricompensa di Regolarizzazione: rreg=λττt2λΔqatat12λq¨q¨t2r_{reg} = -\lambda_\tau\|\tau_t\|^2 - \lambda_{\Delta q}\|a_t - a_{t-1}\|^2 - \lambda_{\ddot{q}}\|\ddot{q}_t\|^2

Punti di Innovazione Tecnica

  1. Comprensione della Scena Multimodale: Combina modelli visione-linguaggio per realizzare mappatura diretta da obiettivi semantici a comportamenti di navigazione
  2. Architettura di Controllo Gerarchica: Separa efficacemente il ragionamento semantico di alto livello dal controllo del movimento di basso livello
  3. Integrazione del Tracciamento della Mano in Tempo Reale: Guida l'end-effector del robot attraverso la traiettoria della mano umana, migliorando la naturalezza dell'interazione uomo-macchina
  4. Controllo Unificato a Corpo Intero: Coordina il movimento delle zampe e la manipolazione del braccio meccanico all'interno di un unico framework di strategia

Configurazione Sperimentale

Piattaforma Hardware

  • Piattaforma Robotica: Robot quadrupede Unitree Go1 EDU + Braccio meccanico leggero AGILEX PIPER
  • Dispositivo di Calcolo: GPU NVIDIA RTX 4090
  • Frequenza di Controllo: La strategia di movimento e la strategia di manipolazione mobile a corpo intero funzionano entrambe a 50Hz
  • Metodo di Comunicazione: Connessione Ethernet cablata, supporta dispiegamento affidabile a bassa latenza

Ambiente Sperimentale

Valutazione nel mondo reale in una caffetteria, caratteristiche ambientali:

  • Layout non strutturato, tavoli, sedie e oggetti vari disposti irregolarmente
  • Osservabilità parziale: il robot non ha conoscenza preliminare della posizione dell'obiettivo
  • Dipende solo dall'input visivo e dalle istruzioni semantiche

Metriche di Valutazione

  • Tasso di successo della navigazione
  • Levigatezza e continuità della traiettoria
  • Precisione della localizzazione dell'obiettivo
  • Stabilità e robustezza del sistema

Risultati Sperimentali

Risultati Principali

Il livello di navigazione senza mappe orientato all'obiettivo mostra prestazioni eccellenti in ambienti reali:

  • Esplorazione riuscita dell'ambiente e avvicinamento all'obiettivo
  • Traiettoria della base registrata liscia e continua
  • Mantenimento di prestazioni di navigazione stabili e robuste nonostante il layout irregolare

Risultati Sperimentali

  1. Verifica del Modulo di Navigazione: Completamento riuscito del dispiegamento preliminare, provando la fattibilità della navigazione senza mappe
  2. Integrazione del Sistema: Il controllo multi-thread realizza operazioni in tempo reale
  3. Adattabilità Ambientale: Mostra buona capacità di adattamento in ambienti dinamici e non strutturati

Lavori Correlati

  • Metodi Tradizionali: Approcci basati su mappe con SLAM e pianificazione di grafi, efficaci in ambienti statici strutturati ma costosi
  • Metodi Senza Mappe: Framework come UniGoal e NaviLa sfruttano indizi linguistici e visivi per guidare la navigazione, riducendo significativamente i costi di dispiegamento

Apprendimento per Imitazione End-to-End

  • ACT: Impiega backbone Transformer e codificatore di immagini
  • Diffusion Policy: Introduce processi di diffusione generativa per modellare distribuzioni di azioni multimodali
  • RISE: Utilizza codificatore di nuvole di punti sparse per controllo continuo

Manipolazione Mobile

  • Metodi Iniziali: Pianificazione del passo basata su ottimizzazione e generazione di traiettoria a corpo intero, con elevati costi computazionali
  • Metodi di Apprendimento per Rinforzo: Controllo end-to-end di molteplici compiti di manipolazione mobile
  • MLM: Combina libreria di traiettorie e inferenza basata su strategia di diffusione

Conclusioni e Discussione

Conclusioni Principali

Il framework HANDO realizza con successo il collegamento tra la comprensione dei compiti semantici e il controllo fisico di basso livello, fornendo una soluzione efficace per compiti di consegna dell'ultimo miglio complessi in ambienti non strutturati e con presenza umana.

Limitazioni

  1. Modulo di Manipolazione Non Completamente Implementato: Il controllo di manipolazione mobile a corpo intero è ancora in fase di sviluppo
  2. Portata Sperimentale Limitata: La verifica si è concentrata principalmente sulla funzione di navigazione, la funzione di manipolazione richiede ulteriori test
  3. Complessità Ambientale: La capacità di adattamento a ambienti estremamente dinamici rimane da verificare

Direzioni Future

  1. Raffinamento della Manipolazione Mobile a Corpo Intero: Perfezionamento del controllo coordinato di afferraggio e trasferimento
  2. Integrazione del Tracciamento della Mano in Tempo Reale: Miglioramento della sicurezza, robustezza e naturalezza dell'interazione uomo-macchina
  3. Estensione degli Scenari Applicativi: Verifica delle prestazioni in ambienti reali più complessi

Valutazione Approfondita

Punti di Forza

  1. Progettazione Sistematica: Propone un framework completo che separa efficacemente il ragionamento di alto livello dal controllo di basso livello
  2. Forte Praticità: Progettato per scenari di applicazione reale (consegna dell'ultimo miglio)
  3. Innovazione Tecnica: Combinazione organica di navigazione senza mappe e controllo a corpo intero
  4. Verifica nel Mondo Reale: Verifica preliminare su piattaforma hardware reale

Insufficienze

  1. Completezza Insufficiente: Il modulo di manipolazione è ancora in fase di progettazione, manca una dimostrazione completa del sistema
  2. Profondità Sperimentale Limitata: Mostra principalmente la funzione di navigazione, manca analisi quantitativa delle prestazioni
  3. Assenza di Esperimenti Comparativi: Manca confronto dettagliato con metodi esistenti
  4. Analisi di Robustezza Insufficiente: Analisi limitata di casi di fallimento e condizioni al contorno

Impatto

  1. Valore Accademico: Fornisce nuove prospettive di architettura di sistema per robot di manipolazione mobile
  2. Valore Pratico: Ha potenziale di applicazione nel campo dei robot di servizio e robot di consegna
  3. Riproducibilità: Fornisce descrizioni tecniche dettagliate, ma manca codice open-source

Scenari Applicabili

  • Servizi di consegna dell'ultimo miglio
  • Applicazioni di robot di servizio indoor
  • Compiti di collaborazione uomo-macchina
  • Compiti di manipolazione mobile in ambienti non strutturati

Riferimenti Bibliografici

L'articolo cita numerosi lavori correlati importanti, includendo:

  • UniGoal 5: Navigazione orientata all'obiettivo zero-shot universale
  • NaviLa 3: Modello di navigazione visione-linguaggio-azione per robot quadrupedi
  • MLM 7: Apprendimento di controllo a corpo intero per manipolazione mobile multi-task
  • Diffusion Policy 8: Apprendimento di strategia visione-movimento basato su diffusione

Valutazione Complessiva: Questo è un lavoro sistematico con valore pratico che propone un design di framework completo per robot di manipolazione mobile. Sebbene il modulo di manipolazione sia ancora in fase di sviluppo, il dispiegamento riuscito del modulo di navigazione dimostra la fattibilità del metodo. Il contributo principale dell'articolo risiede nella progettazione dell'architettura di sistema e nella verifica preliminare nel mondo reale, gettando le basi per lo sviluppo futuro in questo campo.