2025-11-22T23:46:16.732962

Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

Almeida, Lazzarini, Negri et al.

This paper presents a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, with a focus on improving precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.

academic

Optimierung des Greifens in Laufrobotern: Ein Deep-Learning-Ansatz zur Loko-Manipulation

Grundinformationen

Paper-ID: 2508.17466
Titel: Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
Autoren: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
Klassifizierung: cs.RO cs.AI cs.CV cs.LG cs.SY eess.SY
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2508.17466v2
Förderinstitution: Petróleo Brasileiro S/A - Petrobras

Zusammenfassung

Dieses Paper präsentiert ein Deep-Learning-Framework zur Verbesserung der Greiffähigkeiten von vierbeinigen Robotern mit Roboterarmen, mit Fokus auf erhöhte Präzision und Adaptivität. Die Methode nutzt einen Sim-to-Real-Ansatz, um die Abhängigkeit von physischer Datenerfassung zu minimieren. Die Autoren entwickelten eine Pipeline in der Genesis-Simulationsumgebung, die synthetische Datensätze von Greifversuchen an alltäglichen Objekten generiert. Durch die Simulation von Tausenden von Interaktionen aus verschiedenen Perspektiven wurden pixelweise annotierte Greifqualitätskarten als Grundwahrheit für das Modell erstellt. Der Datensatz wurde zum Trainieren eines benutzerdefinierten CNN mit U-Net-ähnlicher Architektur verwendet, das multimodale Eingaben von an Bord befindlichen RGB- und Tiefenkameras verarbeitet, einschließlich RGB-Bilder, Tiefenkarten, Segmentierungsmasken und Oberflächennormalenvektorkarten. Das trainierte Modell gibt Greifqualitätsheatmaps aus, um optimale Greifpunkte zu identifizieren. Die Autoren validierten das vollständige Framework auf einem vierbeinigen Roboter, wobei das System erfolgreich eine komplette Loko-Manipulationsaufgabe ausführte: autonome Navigation zum Zielobjekt, Objektwahrnehmung mit Sensoren, Vorhersage der optimalen Greifpose mit dem Modell und Ausführung eines präzisen Griffs.

Forschungshintergrund und Motivation

Problemdefinition

Präzises und adaptives Greifen von vierbeinigen Robotern in komplexen, unstrukturierten Umgebungen bleibt eine große Herausforderung. Traditionelle Methoden erfordern typischerweise umfangreiche reale Kalibrierung und vordefinierte Greifkonfigurationen, was ihre Flexibilität einschränkt.

Bedeutung

Anwendungswert: Vierbeinige Roboter mit Roboterarmen ermöglichen Loko-Manipulation mit wichtigen Anwendungen in industrieller Automatisierung, Such- und Rettungsmissionen sowie Assistenztechnologien
Technische Herausforderungen: Erfordert robuste Objekterkennung in dynamischen Szenen, genaue Greifplanung und nahtlose Integration mit dem Bewegungssystem
Umweltadaptivität: Fähigkeit, in unvorhersehbaren, unstrukturierten Umgebungen effektiv zu operieren

Einschränkungen bestehender Methoden

Abhängigkeit von vordefinierten Konfigurationen: Traditionelle Methoden verlassen sich auf vordefinierte Greifkonfigurationen oder intensive manuelle Kalibrierung
Mangelnde Verallgemeinerungsfähigkeit: Bestehende Lösungen sind typischerweise kontextspezifisch und zeigen mangelnde Adaptivität über Szenen hinweg
Kosten der Datenerfassung: Erfordert umfangreiche reale Datenerfassung mit hohen Kosten und zeitlichem Aufwand

Forschungsmotivation

Die Autoren wurden durch die erfolgreiche Anwendung von Deep Learning in der Robotergreiftechnologie inspiriert und präsentierten ein speziell für vierbeinige Roboter entwickeltes Deep-Learning-Framework, das durch simulationsbasiertes Training die Einschränkungen traditioneller Methoden überwindet.

Kernbeiträge

Entwicklung einer auf dem Genesis-Simulator basierenden Trainings-Pipeline, die großflächige parallele Datenerfassung ohne echte Daten ermöglicht
Integration fortgeschrittener Wahrnehmungsmethoden (wie D2NT), um die Genauigkeit tiefenbasierter Greifvorgänge zu verbessern und die Rechenkosten der ML-Ausführung zu senken
Entwicklung eines flexiblen Frameworks, das mit fortgeschrittenen Kontroll-APIs und kommerziellen Robotern ohne Low-Level-Zugriff integriert werden kann
Validierung der Methode auf physischen Robotern, die die Effektivität des Ansatzes in realen Szenarien nachweist

Methodische Details

Aufgabendefinition

Eingabe: RGB-D-Kameradaten (RGB-Bilder, Tiefenkarten, Segmentierungsmasken, Oberflächennormalenvektorkarten) Ausgabe: Greifqualitätsheatmap, die 3D-Koordinaten und Orientierung des optimalen Greifpunkts identifiziert Einschränkungen: Präzises Greifen in Loko-Manipulationsszenarien mit vierbeinigen Robotern

Datensatzgenerierung

Simulationsumgebungseinrichtung

Verwendung des Genesis-Frameworks für physikalische Simulation
Auswahl eines 3D-Wasserflaschenmodells als Greifziel
Konfiguration einer virtuellen RGB-D-Kamera zur Objektbilderfassung

Kamerapositionsabtastung

Abtastung von 1000 verschiedenen Positionen auf einem 2D-Gitter
100 und 10 Punkte auf X- und Z-Achse (Bereich -0,5 m bis 0,5 m)
Y-Achse fest bei y = 0,5 m
Zufällige Störung an jeder Position (X, Y: ±0,03 m, Z: 0-0,09 m)

Greifannotationsgenerierung

Für jeden Pixel wird ein Greifversuch durchgeführt:

Umwandlung von Pixelkoordinaten in das globale Koordinatensystem
Berechnung des entsprechenden Oberflächennormalenvektors
Greifversuch mit dem Endeffektor in 1,0 m Entfernung vom Objekt, 0,35 m von der Oberfläche
Bestimmung des Greifferfolgs (1) oder -misserfolgs (0) basierend auf Kollisionserkennung
Bereiche außerhalb des Objekts als unsicher (-1) gekennzeichnet

Modellarchitektur

Netzwerkdesign

Architektur: Vollständig faltende Encoder-Decoder-Struktur basierend auf U-Net
Encoder: MobileNetV2 als Backbone-Netzwerk
Eingabe: 480×640×8 Kanäle (RGB + Tiefe + Normalenvektorkarte + Segmentierungsmaske)
Ausgabe: Einkanalige Greifqualitätskarte
Parameterzahl: Etwa 5,44 Millionen trainierbare Parameter

Wichtige technische Details

Verwendung von GroupNorm zur Verbesserung der Trainingsstabilität
Skip-Verbindungen zur Fusion feiner Encoder-Merkmale
Transponierte Faltung für Upsampling
1×1-Faltung zur Generierung der endgültigen Ausgabe

Technische Innovationen

Multimodale Fusion: Effektive Kombination von RGB-, Tiefe-, Normalenvektoren- und Segmentierungsinformationen
Sim-to-Real-Transfer: Vollständig auf Simulationsdaten trainiert, erfolgreich auf echten Robotern eingesetzt
End-to-End-Pipeline: Vollständiger automatisierter Prozess von der Wahrnehmung bis zur Ausführung
Oberflächennormalvektorintegration: Nutzung des D2NT-Algorithmus zur Schätzung von Oberflächennormalvektoren aus Tiefenkarten

Experimentelle Einrichtung

Datensatz

Simulationsdaten: 1000 Perspektiven synthetischer Daten in der Genesis-Umgebung generiert
Auflösung: 480×640 Pixel
Annotationsmethode: Pixelweise Greifqualitätsannotation (Erfolg/Misserfolg/Unsicher)
Objekttypen: Wasserflaschenmodell (später erweitert auf Thermosflaschen)

Bewertungsmetriken

Greifferfolgsquote
Lokalisierungsgenauigkeit
Echtzeitleistung

Experimentelle Plattform

Roboter: Boston Dynamics Spot vierbeiniger Roboter
Sensoren: RGB-D-Kamera am Endeffektor
Steuerung: Boston Dynamics SDK
Objekterkennung: YOLOv11 vortrainiertes Modell

Implementierungsdetails

Kamerainterne Parameter: fx, fy ≈ 554,26 Pixel, Hauptpunkt (u0=320, v0=240)
Maximales Drehmoment: 3,0 Nm
Greifabstand: 0,35 m von der Objektoberfläche
Kraftsteuerung: Kraftbegrenzungssteuerung basierend auf SDK

Experimentelle Ergebnisse

Hauptergebnisse

Das Paper demonstriert erfolgreich eine komplette Loko-Manipulationsaufgabe:

Autonome Navigation: Roboter identifiziert und nähert sich erfolgreich dem Zielobjekt
Wahrnehmungsgenauigkeit: RGB-D-Daten werden erfolgreich erfasst und verarbeitet
Greifvorhersage: CNN-Modell sagt optimale Greifpunkte genau voraus
Ausführungserfolg: Physischer Roboter greift erfolgreich eine Thermoskanne

Systemleistung

Echtzeitverarbeitung: Kann multimodale Eingaben mit 480×640 Auflösung in Echtzeit verarbeiten
Robustheit: Zeigt gute Adaptivität in realen Umgebungen
Präzision: Erreicht präzise Kraftsteuerungsgreifer

Fallstudie

Aus Abbildung 8 ist ersichtlich:

RGB-Bild erfasst Zielobjekt klar
Tiefenkarte bietet genaue räumliche Informationen
YOLO-11 generiert präzise Segmentierungsmasken
D2NT-Algorithmus generiert erfolgreich Oberflächennormalenvektorkarten
Modellausgabe-Greifheatmap identifiziert optimale Bereiche genau

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Methodeneffektivität: Simulationsbasierte Deep-Learning-Methode ermöglicht erfolgreich präzises Greifen mit vierbeinigen Robotern
Technische Machbarkeit: Die Kombination von multimodaler Wahrnehmung und CNN-Vorhersage beweist die Machbarkeit des technischen Ansatzes
Praktischer Wert: Vollständige Loko-Manipulations-Pipeline bietet praktikable Lösung für reale Anwendungen

Einschränkungen

Begrenzte Verallgemeinerungsfähigkeit: Modellverallgemeinerung wird durch Objektgeometrie und Texturvariationen begrenzt
Sensorqualität: Tiefensensor am Endeffektor hat niedrigere Qualität, was zu Tiefenkarten-Rauschen führt
Vorverarbeitungskonsistenz: Größenänderung von Segmentierungsmasken beeinträchtigt gelegentlich Vorverarbeitungskonsistenz
Objektvielfalt: Derzeit hauptsächlich auf spezifische Objektformen (flaschenähnlich) ausgerichtet

Zukünftige Richtungen

Datensatzerweiterung: Einbeziehung vielfältigerer Objektformen, -größen und -texturen
Sensorverbesserung: Implementierung von Glättungsfiltern zur Tiefenkarten-Rauschunterdrückung oder spezialisierte ML-Modelle
Steuerungsstrategien: Erkundung von Bewegungs- und Manipulationsstrategien über SDK-Tools hinaus
Komplexe Umgebungen: Tests in komplexen Umgebungen mit mehreren Objekten und unregelmäßigen Oberflächen

Tiefenbewertung

Stärken

Hohe Innovativität: Erfolgreiche Anwendung von Sim-to-Real-Methoden auf vierbeinige Robotergreifer
Systemvollständigkeit: End-to-End-Lösung von der Wahrnehmung bis zur Ausführung
Gute Praktikabilität: Validierung der Methodeneffektivität auf echten Robotern
Fortgeschrittene Technologie: Effektive Fusion von multimodalen Informationen und moderner Deep-Learning-Technologie

Mängel

Begrenzte Bewertung: Fehlende quantitative Erfolgsquotenstatistiken und Vergleiche mit anderen Methoden
Einzelne Objekttypen: Hauptsächlich auf flaschenähnliche Objekte ausgerichtet, Verallgemeinerungsfähigkeit bedarf weiterer Validierung
Einfache Umgebung: Experimentelle Umgebung ist relativ einfach, Leistung in komplexen Szenen unbekannt
Theoretische Analyse: Fehlende tiefgehende Analyse der theoretischen Grundlagen und Fehlerfälle

Einflussfaktor

Akademischer Beitrag: Bietet neuen technischen Weg für Loko-Manipulation mit vierbeinigen Robotern
Praktischer Wert: Bietet Referenz für industrielle Anwendungen und Serviceroboter-Entwicklung
Reproduzierbarkeit: Bereitstellung eines GitHub-Repositoriums fördert Forschungsreproduzierbarkeit und Erweiterung
Interdisziplinäre Auswirkungen: Kombiniert mehrere Disziplinen: Robotik, Computervision und Deep Learning

Anwendungsszenarien

Industrielle Automatisierung: Materialhandhabung und Manipulation in komplexen Umgebungen
Such- und Rettungsmissionen: Objekterkennung und Rettungsoperationen an Katastrophenorten
Serviceroboter: Objektmanipulation in Heim- und Büroumgebungen
Forschungsplattform: Entwicklungs- und Validierungsplattform für Loko-Manipulationsalgorithmen

Literaturverzeichnis

Das Paper zitiert 14 relevante Arbeiten, die wichtige Arbeiten in Schlüsselbereichen wie Loko-Manipulation, vierbeinige Roboter und Deep-Learning-Greiftechnologie abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein anwendungsorientiertes Forschungspapier mit klarer technischer Route und vollständiger Implementierung. Obwohl es in theoretischer Innovation und umfassender Bewertung Mängel aufweist, bietet seine vollständige Systemimplementierung und Validierung auf echten Robotern einen wertvollen Beitrag zur Forschung in Loko-Manipulation mit vierbeinigen Robotern. Diese Arbeit schafft eine gute Grundlage für nachfolgende Forschung, insbesondere in den Bereichen Sim-to-Real-Transfer und multimodale Wahrnehmungsfusion.