2025-11-22T23:46:16.732962

Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

Almeida, Lazzarini, Negri et al.
This paper presents a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, with a focus on improving precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.
academic

Ottimizzazione della Presa negli Robot Quadrupedi: Un Approccio di Deep Learning alla Loco-Manipolazione

Informazioni Fondamentali

  • ID Articolo: 2508.17466
  • Titolo: Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
  • Autori: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
  • Classificazione: cs.RO cs.AI cs.CV cs.LG cs.SY eess.SY
  • Data di Pubblicazione: 11 ottobre 2025 (arXiv v2)
  • Link dell'Articolo: https://arxiv.org/abs/2508.17466v2
  • Ente Finanziatore: Petróleo Brasileiro S/A - Petrobras

Riassunto

Questo articolo propone un framework di deep learning volto a migliorare le capacità di presa nei robot quadrupedi equipaggiati con bracci manipolatori, con particolare enfasi sulla precisione e l'adattabilità. Il metodo adotta una metodologia di simulazione-verso-realtà (sim-to-real), minimizzando la dipendenza dalla raccolta di dati fisici. Gli autori hanno sviluppato una pipeline nell'ambiente di simulazione Genesis, generando un dataset sintetico di tentativi di presa di oggetti comuni. Attraverso la simulazione di migliaia di interazioni da varie prospettive, sono state create mappe di qualità della presa annotate a livello di pixel come valori di verità per il modello. Questo dataset è stato utilizzato per addestrare una CNN personalizzata con architettura simile a U-Net, che elabora input multimodali provenienti da telecamere RGB e di profondità montate sul veicolo, incluse immagini RGB, mappe di profondità, maschere di segmentazione e mappe di vettori normali alla superficie. Il modello addestrato produce mappe di calore della qualità della presa per identificare i punti di presa ottimali. Gli autori hanno verificato il framework completo su un robot quadrupede, con il sistema che ha eseguito con successo un compito completo di manipolazione mobile: navigazione autonoma verso l'oggetto target, percezione dell'oggetto tramite sensori, utilizzo del modello per predire la posa di presa ottimale ed esecuzione di una presa precisa.

Contesto di Ricerca e Motivazione

Definizione del Problema

La presa precisa e adattiva nei robot quadrupedi in ambienti complessi e non strutturati rimane una sfida significativa, poiché i metodi tradizionali richiedono tipicamente una calibrazione estensiva nel mondo reale e configurazioni di presa predefinite, il che limita la flessibilità.

Importanza

  1. Valore Applicativo: I robot quadrupedi equipaggiati con bracci manipolatori possono realizzare la manipolazione mobile (loco-manipulation), con importanti applicazioni nell'automazione industriale, nei compiti di ricerca e soccorso e nelle tecnologie assistive
  2. Sfide Tecniche: Necessità di implementare il riconoscimento robusto degli oggetti in scene dinamiche, la pianificazione accurata della presa e l'integrazione fluida con i sistemi di movimento
  3. Adattabilità Ambientale: Capacità di operare efficacemente in ambienti imprevedibili e non strutturati

Limitazioni dei Metodi Esistenti

  1. Dipendenza da Configurazioni Predefinite: I metodi tradizionali si basano su configurazioni di presa predefinite o calibrazioni manuali intensive
  2. Mancanza di Capacità di Generalizzazione: Le soluzioni esistenti sono tipicamente legate a contesti specifici, con scarsa adattabilità tra scenari diversi
  3. Costo della Raccolta Dati: Richiede una raccolta estensiva di dati nel mondo reale, con costi elevati e tempi lunghi

Motivazione della Ricerca

Gli autori sono stati ispirati dalle recenti applicazioni di successo del deep learning nel campo della presa robotica, proponendo un framework di deep learning specializzato per robot quadrupedi, superando i limiti dei metodi tradizionali attraverso l'addestramento in simulazione.

Contributi Principali

  1. Sviluppo di una pipeline di addestramento basata sul simulatore Genesis, che realizza la raccolta di dati parallela su larga scala senza necessità di dati reali
  2. Integrazione di metodi di percezione avanzati (come D2NT), migliorando la precisione della presa basata su profondità e riducendo i costi computazionali dell'esecuzione ML
  3. Sviluppo di un framework flessibile, in grado di integrarsi con API di controllo avanzate e robot commerciali privi di accesso a basso livello
  4. Verifica dell'efficacia del metodo su robot fisici, dimostrando l'effectiveness dell'approccio in scenari del mondo reale

Dettagli del Metodo

Definizione del Compito

Input: Dati da telecamera RGB-D (immagini RGB, mappe di profondità, maschere di segmentazione, mappe di vettori normali alla superficie) Output: Mappa di calore della qualità della presa, che identifica le coordinate 3D e l'orientamento dei punti di presa ottimali Vincoli: Realizzare una presa precisa nello scenario di manipolazione mobile di robot quadrupedi

Generazione del Dataset

Configurazione dell'Ambiente di Simulazione

  • Utilizzo del framework Genesis per la simulazione fisica
  • Selezione del modello 3D di una bottiglia d'acqua come target di presa
  • Configurazione di una telecamera RGB-D virtuale per l'estrazione di immagini dell'oggetto

Campionamento della Posizione della Telecamera

  • Campionamento di 1000 posizioni diverse su una griglia 2D
  • 100 e 10 punti rispettivamente su assi X e Z (intervallo da -0,5 m a 0,5 m)
  • Asse Y fisso a y = 0,5 m
  • Aggiunta di perturbazioni casuali a ogni posizione (X, Y: ±0,03 m, Z: 0-0,09 m)

Generazione delle Annotazioni di Presa

Esecuzione di un tentativo di presa per ogni pixel:

  • Conversione delle coordinate del pixel nel sistema di coordinate globale
  • Calcolo del corrispondente vettore normale alla superficie
  • Tentativo di presa a partire da 1,0 m dall'oggetto, a 0,35 m dalla superficie
  • Determinazione del successo della presa (1) o del fallimento (0) basata su rilevamento di collisioni
  • Marcatura delle aree esterne all'oggetto come incerte (-1)

Architettura del Modello

Progettazione della Rete

  • Architettura: Struttura encoder-decoder completamente convoluzionale basata su U-Net
  • Encoder: Utilizzo di MobileNetV2 come rete backbone
  • Input: 480×640×8 canali (RGB + profondità + mappa di vettori normali + maschera di segmentazione)
  • Output: Mappa di qualità della presa a canale singolo
  • Numero di Parametri: Circa 5,44 milioni di parametri addestrabili

Dettagli Tecnici Chiave

  • Utilizzo di GroupNorm per migliorare la stabilità dell'addestramento
  • Connessioni di salto per fondere le caratteristiche a grana fine dell'encoder
  • Convoluzioni trasposte per il campionamento in aumento
  • Convoluzioni 1×1 per generare l'output finale

Punti di Innovazione Tecnica

  1. Fusione Multimodale: Combinazione efficace di informazioni RGB, profondità, vettori normali e segmentazione
  2. Trasferimento da Simulazione a Realtà: Addestramento completamente basato su dati simulati con distribuzione riuscita su robot reali
  3. Pipeline End-to-End: Processo completamente automatizzato dalla percezione all'esecuzione
  4. Integrazione di Vettori Normali alla Superficie: Utilizzo dell'algoritmo D2NT per stimare i vettori normali alla superficie dalle mappe di profondità

Configurazione Sperimentale

Dataset

  • Dati Simulati: 1000 prospettive di dati sintetici generati nell'ambiente Genesis
  • Risoluzione: 480×640 pixel
  • Metodo di Annotazione: Annotazione della qualità della presa a livello di pixel (successo/fallimento/incerto)
  • Tipo di Oggetto: Modello di bottiglia d'acqua (successivamente esteso a bottiglie termiche)

Metriche di Valutazione

  • Tasso di successo della presa
  • Precisione della localizzazione
  • Prestazioni di tempo reale

Piattaforma Sperimentale

  • Robot: Robot quadrupede Boston Dynamics Spot
  • Sensori: Telecamera RGB-D montata sull'end-effector
  • Controllo: Boston Dynamics SDK
  • Rilevamento di Oggetti: Modello preaddestrato YOLOv11

Dettagli di Implementazione

  • Parametri Intrinseci della Telecamera: fx, fy ≈ 554,26 pixel, punto principale (u0=320, v0=240)
  • Coppia Massima: 3,0 Nm
  • Distanza di Presa: 0,35 m dalla superficie dell'oggetto
  • Controllo di Forza: Controllo con limitazione di forza basato su SDK

Risultati Sperimentali

Risultati Principali

L'articolo dimostra con successo un compito completo di manipolazione mobile:

  1. Navigazione Autonoma: Il robot identifica e si avvicina con successo all'oggetto target
  2. Accuratezza della Percezione: I dati RGB-D vengono acquisiti ed elaborati con successo
  3. Predizione della Presa: Il modello CNN predice accuratamente i punti di presa ottimali
  4. Esecuzione di Successo: Il robot fisico afferra con successo la bottiglia termica

Prestazioni del Sistema

  • Elaborazione in Tempo Reale: Capacità di elaborare in tempo reale input multimodali a risoluzione 480×640
  • Robustezza: Dimostra buona adattabilità in ambienti reali
  • Precisione: Realizza con successo il controllo di forza preciso della presa

Analisi dei Casi

Dalla Figura 8 si osserva:

  • L'immagine RGB cattura chiaramente l'oggetto target
  • La mappa di profondità fornisce informazioni spaziali accurate
  • YOLO-11 genera maschere di segmentazione precise
  • L'algoritmo D2NT genera con successo mappe di vettori normali alla superficie
  • La mappa di calore della presa prodotta dal modello identifica accuratamente le aree ottimali

Lavori Correlati

Ricerca sulla Manipolazione Mobile

  • La ricerca iniziale si è concentrata sullo sviluppo di sistemi di movimento stabile e sull'integrazione di base dell'end-effector
  • I metodi tradizionali si basano su modelli cinematici rigidi e strategie di controllo basate su regole fisse
  • I progressi recenti includono sensori ad alta precisione, tecnologie di visione artificiale e architetture di pianificazione del movimento

Applicazioni del Deep Learning nella Presa

  • Gli algoritmi di machine learning tipicamente restituiscono l'apertura dell'end-effector, l'orientamento e la qualità della presa
  • I metodi di deep learning sono in grado di apprendere strategie di presa generalizzate dai dati
  • Il trasferimento da simulazione a realtà è diventato una direzione importante per ridurre i costi di raccolta dati

Operazione di Robot Quadrupedi

  • I robot quadrupedi dimostrano eccellenti prestazioni nella navigazione su terreni complessi
  • Quando equipaggiati con bracci manipolatori, realizzano capacità di manipolazione mobile
  • Hanno ampie prospettive di applicazione nell'automazione industriale, nei compiti di ricerca e soccorso e nelle tecnologie assistive

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia del Metodo: L'approccio di deep learning basato su simulazione realizza con successo la presa precisa nei robot quadrupedi
  2. Fattibilità Tecnica: La combinazione di percezione multimodale e predizione CNN dimostra la fattibilità della linea tecnica
  3. Valore Pratico: La pipeline completa di manipolazione mobile fornisce una soluzione praticabile per applicazioni reali

Limitazioni

  1. Capacità di Generalizzazione Limitata: La generalizzazione del modello è limitata dalle variazioni della geometria e della texture degli oggetti
  2. Qualità dei Sensori: La qualità inferiore del sensore di profondità dell'end-effector causa rumore nelle mappe di profondità
  3. Coerenza della Preelaborazione: L'adattamento delle dimensioni della maschera di segmentazione occasionalmente influisce sulla coerenza della preelaborazione
  4. Diversità degli Oggetti: Attualmente focalizzato principalmente su oggetti di forma specifica (tipo bottiglia)

Direzioni Future

  1. Espansione del Dataset: Inclusione di forme, dimensioni e texture di oggetti più diversificate
  2. Miglioramento dei Sensori: Implementazione di filtri di levigatura per la riduzione del rumore delle mappe di profondità o modelli ML dedicati
  3. Strategie di Controllo: Esplorazione di strategie di movimento e manipolazione oltre gli strumenti SDK
  4. Ambienti Complessi: Test in ambienti complessi con più oggetti e superfici irregolari

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Applicazione riuscita della metodologia sim-to-real alla presa nei robot quadrupedi
  2. Completezza del Sistema: Soluzione end-to-end dalla percezione all'esecuzione
  3. Buona Praticità: Verifica dell'efficacia del metodo su robot reali
  4. Tecnologia Avanzata: Fusione efficace di informazioni multimodali e tecnologie moderne di deep learning

Insufficienze

  1. Valutazione Limitata: Mancanza di statistiche quantitative del tasso di successo e confronti con altri metodi
  2. Oggetti Singolari: Focalizzato principalmente su oggetti di forma simile a bottiglia, con capacità di generalizzazione che richiede ulteriore verifica
  3. Ambiente Semplice: L'ambiente sperimentale è relativamente semplice, con prestazioni in scenari complessi sconosciute
  4. Analisi Teorica: Mancanza di analisi approfondita dei fondamenti teorici del metodo e dei casi di fallimento

Impatto

  1. Contributo Accademico: Fornisce un nuovo percorso tecnico per la manipolazione mobile nei robot quadrupedi
  2. Valore Pratico: Fornisce riferimenti per lo sviluppo di applicazioni industriali e robot di servizio
  3. Riproducibilità: Fornisce un repository GitHub, facilitando la riproduzione e l'estensione della ricerca
  4. Impatto Interdisciplinare: Combina molteplici discipline tra robotica, visione artificiale e deep learning

Scenari Applicabili

  1. Automazione Industriale: Movimentazione e manipolazione di materiali in ambienti complessi
  2. Compiti di Ricerca e Soccorso: Riconoscimento di oggetti e operazioni di soccorso in siti di disastri
  3. Robot di Servizio: Manipolazione di oggetti in ambienti domestici e di ufficio
  4. Piattaforma di Ricerca: Piattaforma di sviluppo e verifica per algoritmi di manipolazione mobile

Riferimenti Bibliografici

L'articolo cita 14 articoli correlati, coprendo lavori importanti nei campi chiave della manipolazione mobile, robot quadrupedi e presa con deep learning, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca applicata con una linea tecnica chiara e un'implementazione completa. Sebbene presenti alcune insufficienze nell'innovazione teorica e nella valutazione complessiva, la sua implementazione di sistema completa e la verifica su robot reali forniscono un contributo prezioso alla ricerca sulla manipolazione mobile nei robot quadrupedi. Questo lavoro pone una buona base per la ricerca successiva, in particolare nel trasferimento da simulazione a realtà e nella fusione di percezione multimodale.