This paper presents a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, with a focus on improving precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.
- Paper-ID: 2508.17466
- Titel: Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
- Autoren: Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
- Klassifizierung: cs.RO cs.AI cs.CV cs.LG cs.SY eess.SY
- Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
- Paper-Link: https://arxiv.org/abs/2508.17466v2
- Förderinstitution: Petróleo Brasileiro S/A - Petrobras
Dieses Paper präsentiert ein Deep-Learning-Framework zur Verbesserung der Greiffähigkeiten von vierbeinigen Robotern mit Roboterarmen, mit Fokus auf erhöhte Präzision und Adaptivität. Die Methode nutzt einen Sim-to-Real-Ansatz, um die Abhängigkeit von physischer Datenerfassung zu minimieren. Die Autoren entwickelten eine Pipeline in der Genesis-Simulationsumgebung, die synthetische Datensätze von Greifversuchen an alltäglichen Objekten generiert. Durch die Simulation von Tausenden von Interaktionen aus verschiedenen Perspektiven wurden pixelweise annotierte Greifqualitätskarten als Grundwahrheit für das Modell erstellt. Der Datensatz wurde zum Trainieren eines benutzerdefinierten CNN mit U-Net-ähnlicher Architektur verwendet, das multimodale Eingaben von an Bord befindlichen RGB- und Tiefenkameras verarbeitet, einschließlich RGB-Bilder, Tiefenkarten, Segmentierungsmasken und Oberflächennormalenvektorkarten. Das trainierte Modell gibt Greifqualitätsheatmaps aus, um optimale Greifpunkte zu identifizieren. Die Autoren validierten das vollständige Framework auf einem vierbeinigen Roboter, wobei das System erfolgreich eine komplette Loko-Manipulationsaufgabe ausführte: autonome Navigation zum Zielobjekt, Objektwahrnehmung mit Sensoren, Vorhersage der optimalen Greifpose mit dem Modell und Ausführung eines präzisen Griffs.
Präzises und adaptives Greifen von vierbeinigen Robotern in komplexen, unstrukturierten Umgebungen bleibt eine große Herausforderung. Traditionelle Methoden erfordern typischerweise umfangreiche reale Kalibrierung und vordefinierte Greifkonfigurationen, was ihre Flexibilität einschränkt.
- Anwendungswert: Vierbeinige Roboter mit Roboterarmen ermöglichen Loko-Manipulation mit wichtigen Anwendungen in industrieller Automatisierung, Such- und Rettungsmissionen sowie Assistenztechnologien
- Technische Herausforderungen: Erfordert robuste Objekterkennung in dynamischen Szenen, genaue Greifplanung und nahtlose Integration mit dem Bewegungssystem
- Umweltadaptivität: Fähigkeit, in unvorhersehbaren, unstrukturierten Umgebungen effektiv zu operieren
- Abhängigkeit von vordefinierten Konfigurationen: Traditionelle Methoden verlassen sich auf vordefinierte Greifkonfigurationen oder intensive manuelle Kalibrierung
- Mangelnde Verallgemeinerungsfähigkeit: Bestehende Lösungen sind typischerweise kontextspezifisch und zeigen mangelnde Adaptivität über Szenen hinweg
- Kosten der Datenerfassung: Erfordert umfangreiche reale Datenerfassung mit hohen Kosten und zeitlichem Aufwand
Die Autoren wurden durch die erfolgreiche Anwendung von Deep Learning in der Robotergreiftechnologie inspiriert und präsentierten ein speziell für vierbeinige Roboter entwickeltes Deep-Learning-Framework, das durch simulationsbasiertes Training die Einschränkungen traditioneller Methoden überwindet.
- Entwicklung einer auf dem Genesis-Simulator basierenden Trainings-Pipeline, die großflächige parallele Datenerfassung ohne echte Daten ermöglicht
- Integration fortgeschrittener Wahrnehmungsmethoden (wie D2NT), um die Genauigkeit tiefenbasierter Greifvorgänge zu verbessern und die Rechenkosten der ML-Ausführung zu senken
- Entwicklung eines flexiblen Frameworks, das mit fortgeschrittenen Kontroll-APIs und kommerziellen Robotern ohne Low-Level-Zugriff integriert werden kann
- Validierung der Methode auf physischen Robotern, die die Effektivität des Ansatzes in realen Szenarien nachweist
Eingabe: RGB-D-Kameradaten (RGB-Bilder, Tiefenkarten, Segmentierungsmasken, Oberflächennormalenvektorkarten)
Ausgabe: Greifqualitätsheatmap, die 3D-Koordinaten und Orientierung des optimalen Greifpunkts identifiziert
Einschränkungen: Präzises Greifen in Loko-Manipulationsszenarien mit vierbeinigen Robotern
- Verwendung des Genesis-Frameworks für physikalische Simulation
- Auswahl eines 3D-Wasserflaschenmodells als Greifziel
- Konfiguration einer virtuellen RGB-D-Kamera zur Objektbilderfassung
- Abtastung von 1000 verschiedenen Positionen auf einem 2D-Gitter
- 100 und 10 Punkte auf X- und Z-Achse (Bereich -0,5 m bis 0,5 m)
- Y-Achse fest bei y = 0,5 m
- Zufällige Störung an jeder Position (X, Y: ±0,03 m, Z: 0-0,09 m)
Für jeden Pixel wird ein Greifversuch durchgeführt:
- Umwandlung von Pixelkoordinaten in das globale Koordinatensystem
- Berechnung des entsprechenden Oberflächennormalenvektors
- Greifversuch mit dem Endeffektor in 1,0 m Entfernung vom Objekt, 0,35 m von der Oberfläche
- Bestimmung des Greifferfolgs (1) oder -misserfolgs (0) basierend auf Kollisionserkennung
- Bereiche außerhalb des Objekts als unsicher (-1) gekennzeichnet
- Architektur: Vollständig faltende Encoder-Decoder-Struktur basierend auf U-Net
- Encoder: MobileNetV2 als Backbone-Netzwerk
- Eingabe: 480×640×8 Kanäle (RGB + Tiefe + Normalenvektorkarte + Segmentierungsmaske)
- Ausgabe: Einkanalige Greifqualitätskarte
- Parameterzahl: Etwa 5,44 Millionen trainierbare Parameter
- Verwendung von GroupNorm zur Verbesserung der Trainingsstabilität
- Skip-Verbindungen zur Fusion feiner Encoder-Merkmale
- Transponierte Faltung für Upsampling
- 1×1-Faltung zur Generierung der endgültigen Ausgabe
- Multimodale Fusion: Effektive Kombination von RGB-, Tiefe-, Normalenvektoren- und Segmentierungsinformationen
- Sim-to-Real-Transfer: Vollständig auf Simulationsdaten trainiert, erfolgreich auf echten Robotern eingesetzt
- End-to-End-Pipeline: Vollständiger automatisierter Prozess von der Wahrnehmung bis zur Ausführung
- Oberflächennormalvektorintegration: Nutzung des D2NT-Algorithmus zur Schätzung von Oberflächennormalvektoren aus Tiefenkarten
- Simulationsdaten: 1000 Perspektiven synthetischer Daten in der Genesis-Umgebung generiert
- Auflösung: 480×640 Pixel
- Annotationsmethode: Pixelweise Greifqualitätsannotation (Erfolg/Misserfolg/Unsicher)
- Objekttypen: Wasserflaschenmodell (später erweitert auf Thermosflaschen)
- Greifferfolgsquote
- Lokalisierungsgenauigkeit
- Echtzeitleistung
- Roboter: Boston Dynamics Spot vierbeiniger Roboter
- Sensoren: RGB-D-Kamera am Endeffektor
- Steuerung: Boston Dynamics SDK
- Objekterkennung: YOLOv11 vortrainiertes Modell
- Kamerainterne Parameter: fx, fy ≈ 554,26 Pixel, Hauptpunkt (u0=320, v0=240)
- Maximales Drehmoment: 3,0 Nm
- Greifabstand: 0,35 m von der Objektoberfläche
- Kraftsteuerung: Kraftbegrenzungssteuerung basierend auf SDK
Das Paper demonstriert erfolgreich eine komplette Loko-Manipulationsaufgabe:
- Autonome Navigation: Roboter identifiziert und nähert sich erfolgreich dem Zielobjekt
- Wahrnehmungsgenauigkeit: RGB-D-Daten werden erfolgreich erfasst und verarbeitet
- Greifvorhersage: CNN-Modell sagt optimale Greifpunkte genau voraus
- Ausführungserfolg: Physischer Roboter greift erfolgreich eine Thermoskanne
- Echtzeitverarbeitung: Kann multimodale Eingaben mit 480×640 Auflösung in Echtzeit verarbeiten
- Robustheit: Zeigt gute Adaptivität in realen Umgebungen
- Präzision: Erreicht präzise Kraftsteuerungsgreifer
Aus Abbildung 8 ist ersichtlich:
- RGB-Bild erfasst Zielobjekt klar
- Tiefenkarte bietet genaue räumliche Informationen
- YOLO-11 generiert präzise Segmentierungsmasken
- D2NT-Algorithmus generiert erfolgreich Oberflächennormalenvektorkarten
- Modellausgabe-Greifheatmap identifiziert optimale Bereiche genau
- Frühe Forschung konzentrierte sich auf die Entwicklung stabiler Bewegungssysteme und grundlegende Endeffektor-Integration
- Traditionelle Methoden basieren auf starren kinematischen Modellen und regelgesteuerten Steuerungsstrategien
- Neuere Fortschritte umfassen hochpräzise Sensoren, Computervisionstechniken und Bewegungsplanungsarchitekturen
- Machine-Learning-Algorithmen geben typischerweise Endeffektor-Öffnung, Orientierung und Greifqualität zurück
- Deep-Learning-Methoden können verallgemeinerte Greifstrategien aus Daten lernen
- Sim-to-Real-Transfer ist eine wichtige Richtung zur Reduzierung der Datenerfassungskosten
- Vierbeinige Roboter zeigen hervorragende Leistung bei der Navigation in komplexem Gelände
- Mit Roboterarmen ausgestattet ermöglichen sie Loko-Manipulationsfähigkeiten
- Breite Anwendungsperspektiven in industrieller Automatisierung, Such- und Rettung sowie Assistenztechnologien
- Methodeneffektivität: Simulationsbasierte Deep-Learning-Methode ermöglicht erfolgreich präzises Greifen mit vierbeinigen Robotern
- Technische Machbarkeit: Die Kombination von multimodaler Wahrnehmung und CNN-Vorhersage beweist die Machbarkeit des technischen Ansatzes
- Praktischer Wert: Vollständige Loko-Manipulations-Pipeline bietet praktikable Lösung für reale Anwendungen
- Begrenzte Verallgemeinerungsfähigkeit: Modellverallgemeinerung wird durch Objektgeometrie und Texturvariationen begrenzt
- Sensorqualität: Tiefensensor am Endeffektor hat niedrigere Qualität, was zu Tiefenkarten-Rauschen führt
- Vorverarbeitungskonsistenz: Größenänderung von Segmentierungsmasken beeinträchtigt gelegentlich Vorverarbeitungskonsistenz
- Objektvielfalt: Derzeit hauptsächlich auf spezifische Objektformen (flaschenähnlich) ausgerichtet
- Datensatzerweiterung: Einbeziehung vielfältigerer Objektformen, -größen und -texturen
- Sensorverbesserung: Implementierung von Glättungsfiltern zur Tiefenkarten-Rauschunterdrückung oder spezialisierte ML-Modelle
- Steuerungsstrategien: Erkundung von Bewegungs- und Manipulationsstrategien über SDK-Tools hinaus
- Komplexe Umgebungen: Tests in komplexen Umgebungen mit mehreren Objekten und unregelmäßigen Oberflächen
- Hohe Innovativität: Erfolgreiche Anwendung von Sim-to-Real-Methoden auf vierbeinige Robotergreifer
- Systemvollständigkeit: End-to-End-Lösung von der Wahrnehmung bis zur Ausführung
- Gute Praktikabilität: Validierung der Methodeneffektivität auf echten Robotern
- Fortgeschrittene Technologie: Effektive Fusion von multimodalen Informationen und moderner Deep-Learning-Technologie
- Begrenzte Bewertung: Fehlende quantitative Erfolgsquotenstatistiken und Vergleiche mit anderen Methoden
- Einzelne Objekttypen: Hauptsächlich auf flaschenähnliche Objekte ausgerichtet, Verallgemeinerungsfähigkeit bedarf weiterer Validierung
- Einfache Umgebung: Experimentelle Umgebung ist relativ einfach, Leistung in komplexen Szenen unbekannt
- Theoretische Analyse: Fehlende tiefgehende Analyse der theoretischen Grundlagen und Fehlerfälle
- Akademischer Beitrag: Bietet neuen technischen Weg für Loko-Manipulation mit vierbeinigen Robotern
- Praktischer Wert: Bietet Referenz für industrielle Anwendungen und Serviceroboter-Entwicklung
- Reproduzierbarkeit: Bereitstellung eines GitHub-Repositoriums fördert Forschungsreproduzierbarkeit und Erweiterung
- Interdisziplinäre Auswirkungen: Kombiniert mehrere Disziplinen: Robotik, Computervision und Deep Learning
- Industrielle Automatisierung: Materialhandhabung und Manipulation in komplexen Umgebungen
- Such- und Rettungsmissionen: Objekterkennung und Rettungsoperationen an Katastrophenorten
- Serviceroboter: Objektmanipulation in Heim- und Büroumgebungen
- Forschungsplattform: Entwicklungs- und Validierungsplattform für Loko-Manipulationsalgorithmen
Das Paper zitiert 14 relevante Arbeiten, die wichtige Arbeiten in Schlüsselbereichen wie Loko-Manipulation, vierbeinige Roboter und Deep-Learning-Greiftechnologie abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein anwendungsorientiertes Forschungspapier mit klarer technischer Route und vollständiger Implementierung. Obwohl es in theoretischer Innovation und umfassender Bewertung Mängel aufweist, bietet seine vollständige Systemimplementierung und Validierung auf echten Robotern einen wertvollen Beitrag zur Forschung in Loko-Manipulation mit vierbeinigen Robotern. Diese Arbeit schafft eine gute Grundlage für nachfolgende Forschung, insbesondere in den Bereichen Sim-to-Real-Transfer und multimodale Wahrnehmungsfusion.