Seamless loco-manipulation in unstructured environments requires robots to leverage autonomous exploration alongside whole-body control for physical interaction. In this work, we introduce HANDO (Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation), a two-layer framework designed for legged robots equipped with manipulators to perform human-centered mobile manipulation tasks. The first layer utilizes a goal-conditioned autonomous exploration policy to guide the robot to semantically specified targets, such as a black office chair in a dynamic environment. The second layer employs a unified whole-body loco-manipulation policy to coordinate the arm and legs for precise interaction tasks-for example, handing a drink to a person seated on the chair. We have conducted an initial deployment of the navigation module, and will continue to pursue finer-grained deployment of whole-body loco-manipulation.
HANDO: Navigazione Autonoma Gerarchica e Manipolazione Omni-loco-motoria Destra
- ID Articolo: 2510.09221
- Titolo: HANDO: Hierarchical Autonomous Navigation and Dexterous Omni-loco-manipulation
- Autori: Jingyuan Sun, Chaoran Wang, Mingyu Zhang, Cui Miao, Hongyu Ji, Zihan Qu, Han Sun, Bing Wang, Qingyi Si
- Classificazione: cs.RO (Robotica)
- Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.09221
- Dimostrazione Video: https://youtu.be/YD0qx3vRsfc
Questo articolo presenta HANDO (Navigazione Autonoma Gerarchica e Manipolazione Omni-loco-motoria Destra), un framework a due livelli progettato per robot quadrupedi equipaggiati con bracci meccanici al fine di eseguire compiti di manipolazione mobile incentrati sull'uomo. Il primo livello impiega una strategia di esplorazione autonoma condizionata dall'obiettivo, guidando il robot verso obiettivi semanticamente specificati; il secondo livello utilizza una strategia unificata di manipolazione mobile a corpo intero, coordinando il braccio meccanico e le zampe per compiti di interazione precisa. Gli autori hanno completato il dispiegamento preliminare del modulo di navigazione e continueranno ad avanzare il dispiegamento raffinato della manipolazione mobile a corpo intero.
Questa ricerca mira a risolvere il problema della manipolazione mobile senza soluzione di continuità in ambienti non strutturati, in particolare le sfide dell'interazione uomo-macchina negli scenari di consegna dell'ultimo miglio. I metodi di consegna tradizionali si basano su mappe precostrutite e localizzazione precisa, risultando costosi e con scalabilità limitata in ambienti dinamici o personalizzati.
La consegna dell'ultimo miglio è un'applicazione critica per i robot di servizio, richiedendo ai robot non solo di attraversare ambienti complessi ma anche di interagire fisicamente con gli esseri umani. Le piattaforme di robot quadrupedi equipaggiate con bracci meccanici combinano capacità di movimento agile con funzionalità di manipolazione, fornendo una piattaforma di implementazione ideale per scenari di consegna complessi.
- Aspetto della Navigazione: La maggior parte delle strategie di consegna rimane dipendente dalle mappe, con prestazioni scadenti in ambienti che cambiano frequentemente o richiedono dispiegamento rapido
- Aspetto della Manipolazione: Mancanza di controllo coordinato efficace a corpo intero, difficoltà nel realizzare interazioni uomo-macchina complesse
- Sfide di Integrazione: Lacune percettive dal passaggio dalla simulazione al mondo reale, variabilità del terreno e vincoli hardware
Sviluppare un framework gerarchico e integrato che unisca la navigazione senza mappe con la manipolazione mobile a corpo intero in un sistema distribuibile, realizzando l'autonomia complessiva di navigazione in spazi sconosciuti ed esecuzione di azioni di manipolazione destra.
- Propone un innovativo modulo di navigazione senza mappe: Impiega modelli visione-linguaggio per il ragionamento cross-scene e l'abbinamento di grafi, guidando una strategia di esplorazione in tre fasi per realizzare navigazione a costo zero
- Progetta una strategia di manipolazione mobile: Integra il movimento quadrupede e il controllo del braccio meccanico, realizzando comportamenti di interazione a corpo intero attraverso la guida della traiettoria dell'end-effector
- Integrazione e Verifica del Sistema: Integra e verifica il sistema su una piattaforma reale di robot quadrupede con braccio meccanico, dimostrando la consegna dell'ultimo miglio end-to-end che combina navigazione semantica e interazione a corpo intero
Il framework HANDO mira a consentire ai robot quadrupedi equipaggiati con bracci meccanici di eseguire compiti di consegna completi in ambienti non strutturati, includendo:
- Input: Descrizione semantica dell'obiettivo (ad es. "sedia da ufficio nera"), dati di percezione ambientale, traiettoria della mano umana
- Output: Comandi di controllo del movimento del robot, comandi dei giunti del braccio meccanico
- Vincoli: Nessuna mappa precostituita, requisiti di tempo reale, vincoli di sicurezza
Processo di Esplorazione in Tre Fasi:
- Fase di Esplorazione Iniziale: Quando il punteggio di abbinamento st<σ1, il sistema decompone il grafo dell'obiettivo semantico Gg in sotto-obiettivi, adottando una strategia di esplorazione basata sui confini
- Fase di Proiezione e Allineamento delle Coordinate: Quando σ1≤st<σ2, allinea il grafo dell'obiettivo Gg e il grafo della scena corrente Gt
- Fase di Verifica dell'Obiettivo: Quando st≥σ2, esegue la verifica dell'obiettivo e la correzione del grafo della scena
Generazione di Azioni: Il decodificatore di azioni basato su VLM seleziona azioni discrete at∈{move forward, turn left, turn right, stop}, mappate in comandi di velocità continui:
(0.1ms−1,π/12rad s−1,−π/12rad s−1,0)
Generatore di Traiettoria della Mano:
- Rileva la mano dell'operatore, selezionando fotogrammi chiave attraverso valli di velocità della mano
- Reindirizza la posizione/orientamento della mano al punto centrale dello strumento (TCP) del gripper del robot:
xttcp=SE(3)(Tcam→world)⋅SE(3)(ht)⋅tcpThand
Strategia di Manipolazione Mobile a Corpo Intero:
- Spazio di Stato: Include l'azione precedente, lo stato delle zampe, lo stato del braccio meccanico, lo stato della base e la traiettoria dell'end-effector
- Spazio di Azione: Utilizza controllo PD in posizione, posizione target qt∗=qdefault+Δqt
- Funzione di Ricompensa:
- Ricompensa di tracciamento TCP: rtrack=exp(−σp∥pttcp−pttar∥)⋅exp(−σo∠(Rttcp(Rttar)T))
- Ricompensa di Regolarizzazione: rreg=−λτ∥τt∥2−λΔq∥at−at−1∥2−λq¨∥q¨t∥2
- Comprensione della Scena Multimodale: Combina modelli visione-linguaggio per realizzare mappatura diretta da obiettivi semantici a comportamenti di navigazione
- Architettura di Controllo Gerarchica: Separa efficacemente il ragionamento semantico di alto livello dal controllo del movimento di basso livello
- Integrazione del Tracciamento della Mano in Tempo Reale: Guida l'end-effector del robot attraverso la traiettoria della mano umana, migliorando la naturalezza dell'interazione uomo-macchina
- Controllo Unificato a Corpo Intero: Coordina il movimento delle zampe e la manipolazione del braccio meccanico all'interno di un unico framework di strategia
- Piattaforma Robotica: Robot quadrupede Unitree Go1 EDU + Braccio meccanico leggero AGILEX PIPER
- Dispositivo di Calcolo: GPU NVIDIA RTX 4090
- Frequenza di Controllo: La strategia di movimento e la strategia di manipolazione mobile a corpo intero funzionano entrambe a 50Hz
- Metodo di Comunicazione: Connessione Ethernet cablata, supporta dispiegamento affidabile a bassa latenza
Valutazione nel mondo reale in una caffetteria, caratteristiche ambientali:
- Layout non strutturato, tavoli, sedie e oggetti vari disposti irregolarmente
- Osservabilità parziale: il robot non ha conoscenza preliminare della posizione dell'obiettivo
- Dipende solo dall'input visivo e dalle istruzioni semantiche
- Tasso di successo della navigazione
- Levigatezza e continuità della traiettoria
- Precisione della localizzazione dell'obiettivo
- Stabilità e robustezza del sistema
Il livello di navigazione senza mappe orientato all'obiettivo mostra prestazioni eccellenti in ambienti reali:
- Esplorazione riuscita dell'ambiente e avvicinamento all'obiettivo
- Traiettoria della base registrata liscia e continua
- Mantenimento di prestazioni di navigazione stabili e robuste nonostante il layout irregolare
- Verifica del Modulo di Navigazione: Completamento riuscito del dispiegamento preliminare, provando la fattibilità della navigazione senza mappe
- Integrazione del Sistema: Il controllo multi-thread realizza operazioni in tempo reale
- Adattabilità Ambientale: Mostra buona capacità di adattamento in ambienti dinamici e non strutturati
- Metodi Tradizionali: Approcci basati su mappe con SLAM e pianificazione di grafi, efficaci in ambienti statici strutturati ma costosi
- Metodi Senza Mappe: Framework come UniGoal e NaviLa sfruttano indizi linguistici e visivi per guidare la navigazione, riducendo significativamente i costi di dispiegamento
- ACT: Impiega backbone Transformer e codificatore di immagini
- Diffusion Policy: Introduce processi di diffusione generativa per modellare distribuzioni di azioni multimodali
- RISE: Utilizza codificatore di nuvole di punti sparse per controllo continuo
- Metodi Iniziali: Pianificazione del passo basata su ottimizzazione e generazione di traiettoria a corpo intero, con elevati costi computazionali
- Metodi di Apprendimento per Rinforzo: Controllo end-to-end di molteplici compiti di manipolazione mobile
- MLM: Combina libreria di traiettorie e inferenza basata su strategia di diffusione
Il framework HANDO realizza con successo il collegamento tra la comprensione dei compiti semantici e il controllo fisico di basso livello, fornendo una soluzione efficace per compiti di consegna dell'ultimo miglio complessi in ambienti non strutturati e con presenza umana.
- Modulo di Manipolazione Non Completamente Implementato: Il controllo di manipolazione mobile a corpo intero è ancora in fase di sviluppo
- Portata Sperimentale Limitata: La verifica si è concentrata principalmente sulla funzione di navigazione, la funzione di manipolazione richiede ulteriori test
- Complessità Ambientale: La capacità di adattamento a ambienti estremamente dinamici rimane da verificare
- Raffinamento della Manipolazione Mobile a Corpo Intero: Perfezionamento del controllo coordinato di afferraggio e trasferimento
- Integrazione del Tracciamento della Mano in Tempo Reale: Miglioramento della sicurezza, robustezza e naturalezza dell'interazione uomo-macchina
- Estensione degli Scenari Applicativi: Verifica delle prestazioni in ambienti reali più complessi
- Progettazione Sistematica: Propone un framework completo che separa efficacemente il ragionamento di alto livello dal controllo di basso livello
- Forte Praticità: Progettato per scenari di applicazione reale (consegna dell'ultimo miglio)
- Innovazione Tecnica: Combinazione organica di navigazione senza mappe e controllo a corpo intero
- Verifica nel Mondo Reale: Verifica preliminare su piattaforma hardware reale
- Completezza Insufficiente: Il modulo di manipolazione è ancora in fase di progettazione, manca una dimostrazione completa del sistema
- Profondità Sperimentale Limitata: Mostra principalmente la funzione di navigazione, manca analisi quantitativa delle prestazioni
- Assenza di Esperimenti Comparativi: Manca confronto dettagliato con metodi esistenti
- Analisi di Robustezza Insufficiente: Analisi limitata di casi di fallimento e condizioni al contorno
- Valore Accademico: Fornisce nuove prospettive di architettura di sistema per robot di manipolazione mobile
- Valore Pratico: Ha potenziale di applicazione nel campo dei robot di servizio e robot di consegna
- Riproducibilità: Fornisce descrizioni tecniche dettagliate, ma manca codice open-source
- Servizi di consegna dell'ultimo miglio
- Applicazioni di robot di servizio indoor
- Compiti di collaborazione uomo-macchina
- Compiti di manipolazione mobile in ambienti non strutturati
L'articolo cita numerosi lavori correlati importanti, includendo:
- UniGoal 5: Navigazione orientata all'obiettivo zero-shot universale
- NaviLa 3: Modello di navigazione visione-linguaggio-azione per robot quadrupedi
- MLM 7: Apprendimento di controllo a corpo intero per manipolazione mobile multi-task
- Diffusion Policy 8: Apprendimento di strategia visione-movimento basato su diffusione
Valutazione Complessiva: Questo è un lavoro sistematico con valore pratico che propone un design di framework completo per robot di manipolazione mobile. Sebbene il modulo di manipolazione sia ancora in fase di sviluppo, il dispiegamento riuscito del modulo di navigazione dimostra la fattibilità del metodo. Il contributo principale dell'articolo risiede nella progettazione dell'architettura di sistema e nella verifica preliminare nel mondo reale, gettando le basi per lo sviluppo futuro in questo campo.