Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors
Danial, Asher, Klein
Monocular simultaneous localization and mapping (SLAM) algorithms estimate drone poses and build a 3D map using a single camera. Current algorithms include sparse methods that lack detailed geometry, while learning-driven approaches produce dense maps but are computationally intensive. Monocular SLAM also faces scale ambiguities, which affect its accuracy. To address these challenges, we propose an edge-aware lightweight monocular SLAM system combining sparse keypoint-based pose estimation with dense edge reconstruction. Our method employs deep learning-based depth prediction and edge detection, followed by optimization to refine keypoints and edges for geometric consistency, without relying on global loop closure or heavy neural computations. We fuse inertial data with vision by using an extended Kalman filter to resolve scale ambiguity and improve accuracy. The system operates in real time on low-power platforms, as demonstrated on a DJI Tello drone with a monocular camera and inertial sensors. In addition, we demonstrate robust autonomous navigation and obstacle avoidance in indoor corridors and on the TUM RGBD dataset. Our approach offers an effective, practical solution to real-time mapping and navigation in resource-constrained environments.
academic
Simultane Lokalisierung und 3D-Halbdichte-Kartierung für Mikro-Drohnen mit monokularer Kamera und Trägheitssensoren
Dieses Papier adressiert die Herausforderungen der gleichzeitigen Lokalisierung und Kartenerstellung (SLAM) für Mikro-Drohnen mit monokularer Kamera und schlägt ein kantengesteuertes, leichtgewichtiges monokulares SLAM-System vor. Das System kombiniert spärliche Schlüsselpunkt-Posenschätzung mit dichter Kantenwiedererstellung, nutzt Deep Learning für Tiefenvorhersage und Kantenerkennung und erreicht geometrische Konsistenz durch Optimierung ohne Abhängigkeit von globalen Schleifenschlüssen oder schweren neuronalen Netzwerkberechnungen. Das System verwendet einen erweiterten Kalman-Filter zur Fusion von Trägheitsdaten mit visuellen Informationen, löst das Skalierungsambiguitätsproblem und verbessert die Genauigkeit. Es wurde in Echtzeit auf der DJI Tello-Drohne implementiert und zeigt robuste autonome Navigation und Hindernisvermeidung auf dem TUM RGBD-Datensatz.
Spärliche Kartierungsprobleme: Traditionelle merkmalspunktbasierte SLAM-Systeme (wie ORB-SLAM) können zwar Posen effektiv schätzen, erzeugen aber 3D-Punktwolken-Karten, die zu spärlich sind und an struktureller Fülle mangeln, was für Aufgaben ungeeignet ist, die dichtes 3D-Verständnis erfordern
Begrenzte Rechenressourcen: Bestehende lerngesteuerte dichte SLAM-Methoden (wie NeRF, NICE-SLAM) sind rechenintensiv und schwer in Echtzeit auf ressourcenbeschränkten eingebetteten Plattformen auszuführen
Skalierungsambiguität: Die inhärente Skalierungsunsicherheit des monokularen SLAM beeinträchtigt die Lokalisierungsgenauigkeit
Globale Optimierungskosten: Traditionelles SLAM ist auf Schleifenerkennung und globale Bündelausgleichung angewiesen, was hohe Rechenkosten verursacht
Die autonome Navigation von Mikro-Drohnen erfordert echtzeitfähige, präzise 3D-Wahrnehmungsfähigkeiten für Navigation, Hindernisvermeidung und Umweltinteraktion. Die Realisierung dieses Ziels auf ressourcenbeschränkten eingebetteten Plattformen ist eine Kernherausforderung der Robotik.
ORB-SLAM: Erzeugt nur spärliche 3D-Punkte, mangelnde Strukturdetails
Edge SLAM: Kann halbdichte Karten erzeugen, ist aber auf globale Optimierung angewiesen, rechenintensiv und optische Fluss-basierte Verfolgung führt Rauschen ein
DeepTAM/D3VO: Deep-Learning-Methoden mit großer Parameterzahl und hoher Rechenkomplexität, ungeeignet für Niedrigenergie-Geräte
NeRF/NICE-SLAM: Benötigen High-End-GPUs, gehen von statischen Szenen aus, mangelnde Echtzeitfähigkeit
Entwicklung eines leichtgewichtigen, echtzeitfähigen SLAM-Systems, das auf ressourcenbeschränkten Plattformen halbdichte Karten erzeugen kann, während gleichzeitig hochpräzise Posenschätzung beibehalten wird.
Leichtgewichtige SLAM-Pipeline: Integration von spärlicher Epipolar-Geometrie mit dichter Tiefenvorhersage und Kantenerkennung zur Realisierung von kantengeankerter halbdichter Kartenerstellung
Kantenschleifenkonsistenz-Verlustfunktion: Vorschlag von Mehrblick-Kantenprojektions-Konsistenzeinschränkungen ohne explizites 2D-2D-Kantenmatching
Formgesteuerter Struktureinschränkung: Geometrische Regularisierung basierend auf L-förmigen Strukturen zur Verbesserung der Strukturkonsistenz in Innenräumen
Lokale geometrische Optimierung: Multi-Ziel-Bündelausgleichung zur gemeinsamen Optimierung von Kameraposen, Schlüsselpunkten und Kantensegmenten ohne globale Schleifenerkennung oder dichte Voxel-Fusion
Visuell-träge Fusion: Verwendung eines erweiterten Kalman-Filters zur Fusion von Trägheitsdaten zur Lösung des Skalierungsambiguitätsproblems
Schätzung der wesentlichen Matrix E aus gematchten ORB-Merkmalen durch Epipolar-Geometrie:
u_j^T E_ij u_i = 0
RANSAC-Ausreißer-Entfernung, SVD-Zerlegung zur Wiederherstellung der relativen Rotation R_ij und Translation t_ij
Erweiterter Kalman-Filter zur Fusion:
Zustandsvektor:
x = [p, α]^T = [x, y, z, φ, θ, ψ]^T
wobei p die globale Position und α die Euler-Winkel (Roll, Pitch, Yaw) sind
Vorhersageschritt:
p_{k|k-1} = p_{k-1} + R_imu(α_{k-1}) · v_imu · Δt
Adaptive Prozessrauschen:
Q_k = β · (1 - b_k + λτ) · I_6
wobei b_k die Batteriespannung ist, τ die Zeit seit dem letzten monokularen Update, was die Genauigkeitsabnahme mit sinkender Batteriespannung und zeitlichem Fortschritt berücksichtigt
Optimierungsalgorithmus: Levenberg-Marquardt-Algorithmus zur Lösung nichtlinearer Kleinste-Quadrate-Probleme, Ausgleich zwischen Gauss-Newton und Gradientenabstieg
Kantengesteuerte halbdichte Kartierung: Kombination von spärlichen Schlüsselpunkten und dichten Kanten für Ausgleich zwischen Recheneffizienz und Kartierungsdetails
Keine explizite Kantenmatchung erforderlich: Vermeidung komplexer Kantenkorrepondenz-Suche durch Zyklus-Konsistenz-Verlust
Strukturgesteuerter Regularisierung: Nutzung von L-förmigen geometrischen Priors in Innenräumen zur Verbesserung der Rekonstruktionsqualität
Lokale Optimierungsstrategie: Vermeidung globaler Schleifenerkennung zur Reduktion der Rechenkomplexität
Adaptive Sensorfusion: Prozessrausch-Modellierung unter Berücksichtigung von Batteriespannung und Zeit
Umgebungsannahmen: L-förmige Struktur-Einschränkungen eignen sich hauptsächlich für Innenräume mit künstlichen Strukturen, möglicherweise ungeeignet in natürlichen Szenen
Tiefenabhängigkeit: Abhängig vom vortrainierten FastDepth-Modell, Performance kann in Szenen außerhalb des Trainingsbereichs sinken
Dynamische Szenen: Papier diskutiert nicht explizit die Behandlung dynamischer Objekte
Parameteroptimierung: Mehrere Gewichtungsparameter (λ_reproj, λ_cycle, λ_shape) erfordern manuelle Anpassung
Langfristige Drift: Obwohl lokale Konsistenz gut ist, kann fehlende globale Schleife in überaus langen Sequenzen Fehler akkumulieren
Unzureichende quantitative Analyse: Nur Vergleich mit ORB-SLAM2, fehlende Vergleiche mit anderen modernen Methoden
Edge SLAM (Maity et al., ICCV 2017): Pionierarbeit in Kanten-SLAM
NeRF/NICE-SLAM: Lernmethoden für dichte Rekonstruktion
Gesamtbewertung: Dies ist eine praktische SLAM-Forschung für ressourcenbeschränkte Plattformen mit vernünftiger technischer Route und überzeugenden experimentellen Ergebnissen. Die Hauptbeiträge liegen in Systemtechnik und Methodenintegration statt einzelner Algorithmus-Durchbruch. Die 74.7% Genauigkeitsverbesserung und 100-fache Geschwindigkeitssteigerung haben praktischen Wert. Das Papier hat jedoch Raum für Verbesserung in experimentellen Vergleichen, Ablationsstudien und theoretischer Tiefe. Geeignet für Veröffentlichung in Robotik-Anwendungs-Konferenzen oder Fachzeitschriften.