2025-11-19T18:31:14.017963

Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors

Danial, Asher, Klein

Monocular simultaneous localization and mapping (SLAM) algorithms estimate drone poses and build a 3D map using a single camera. Current algorithms include sparse methods that lack detailed geometry, while learning-driven approaches produce dense maps but are computationally intensive. Monocular SLAM also faces scale ambiguities, which affect its accuracy. To address these challenges, we propose an edge-aware lightweight monocular SLAM system combining sparse keypoint-based pose estimation with dense edge reconstruction. Our method employs deep learning-based depth prediction and edge detection, followed by optimization to refine keypoints and edges for geometric consistency, without relying on global loop closure or heavy neural computations. We fuse inertial data with vision by using an extended Kalman filter to resolve scale ambiguity and improve accuracy. The system operates in real time on low-power platforms, as demonstrated on a DJI Tello drone with a monocular camera and inertial sensors. In addition, we demonstrate robust autonomous navigation and obstacle avoidance in indoor corridors and on the TUM RGBD dataset. Our approach offers an effective, practical solution to real-time mapping and navigation in resource-constrained environments.

academic

Simultane Lokalisierung und 3D-Halbdichte-Kartierung für Mikro-Drohnen mit monokularer Kamera und Trägheitssensoren

Grundinformationen

Papier-ID: 2511.14335
Titel: Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors
Autoren: Jeryes Danial (Universität Haifa), Yosi Ben Asher (Universität Haifa), Itzik Klein (Universität Haifa)
Klassifikation: cs.RO (Robotik)
Veröffentlichungsdatum: 18. November 2025 (arXiv-Preprint)
Papier-Link: https://arxiv.org/abs/2511.14335

Zusammenfassung

Dieses Papier adressiert die Herausforderungen der gleichzeitigen Lokalisierung und Kartenerstellung (SLAM) für Mikro-Drohnen mit monokularer Kamera und schlägt ein kantengesteuertes, leichtgewichtiges monokulares SLAM-System vor. Das System kombiniert spärliche Schlüsselpunkt-Posenschätzung mit dichter Kantenwiedererstellung, nutzt Deep Learning für Tiefenvorhersage und Kantenerkennung und erreicht geometrische Konsistenz durch Optimierung ohne Abhängigkeit von globalen Schleifenschlüssen oder schweren neuronalen Netzwerkberechnungen. Das System verwendet einen erweiterten Kalman-Filter zur Fusion von Trägheitsdaten mit visuellen Informationen, löst das Skalierungsambiguitätsproblem und verbessert die Genauigkeit. Es wurde in Echtzeit auf der DJI Tello-Drohne implementiert und zeigt robuste autonome Navigation und Hindernisvermeidung auf dem TUM RGBD-Datensatz.

Forschungshintergrund und Motivation

Kernprobleme, die gelöst werden sollen

Spärliche Kartierungsprobleme: Traditionelle merkmalspunktbasierte SLAM-Systeme (wie ORB-SLAM) können zwar Posen effektiv schätzen, erzeugen aber 3D-Punktwolken-Karten, die zu spärlich sind und an struktureller Fülle mangeln, was für Aufgaben ungeeignet ist, die dichtes 3D-Verständnis erfordern
Begrenzte Rechenressourcen: Bestehende lerngesteuerte dichte SLAM-Methoden (wie NeRF, NICE-SLAM) sind rechenintensiv und schwer in Echtzeit auf ressourcenbeschränkten eingebetteten Plattformen auszuführen
Skalierungsambiguität: Die inhärente Skalierungsunsicherheit des monokularen SLAM beeinträchtigt die Lokalisierungsgenauigkeit
Globale Optimierungskosten: Traditionelles SLAM ist auf Schleifenerkennung und globale Bündelausgleichung angewiesen, was hohe Rechenkosten verursacht

Forschungsbedeutung

Die autonome Navigation von Mikro-Drohnen erfordert echtzeitfähige, präzise 3D-Wahrnehmungsfähigkeiten für Navigation, Hindernisvermeidung und Umweltinteraktion. Die Realisierung dieses Ziels auf ressourcenbeschränkten eingebetteten Plattformen ist eine Kernherausforderung der Robotik.

Einschränkungen bestehender Methoden

ORB-SLAM: Erzeugt nur spärliche 3D-Punkte, mangelnde Strukturdetails
Edge SLAM: Kann halbdichte Karten erzeugen, ist aber auf globale Optimierung angewiesen, rechenintensiv und optische Fluss-basierte Verfolgung führt Rauschen ein
DeepTAM/D3VO: Deep-Learning-Methoden mit großer Parameterzahl und hoher Rechenkomplexität, ungeeignet für Niedrigenergie-Geräte
NeRF/NICE-SLAM: Benötigen High-End-GPUs, gehen von statischen Szenen aus, mangelnde Echtzeitfähigkeit

Forschungsmotivation

Entwicklung eines leichtgewichtigen, echtzeitfähigen SLAM-Systems, das auf ressourcenbeschränkten Plattformen halbdichte Karten erzeugen kann, während gleichzeitig hochpräzise Posenschätzung beibehalten wird.

Kernbeiträge

Leichtgewichtige SLAM-Pipeline: Integration von spärlicher Epipolar-Geometrie mit dichter Tiefenvorhersage und Kantenerkennung zur Realisierung von kantengeankerter halbdichter Kartenerstellung
Kantenschleifenkonsistenz-Verlustfunktion: Vorschlag von Mehrblick-Kantenprojektions-Konsistenzeinschränkungen ohne explizites 2D-2D-Kantenmatching
Formgesteuerter Struktureinschränkung: Geometrische Regularisierung basierend auf L-förmigen Strukturen zur Verbesserung der Strukturkonsistenz in Innenräumen
Lokale geometrische Optimierung: Multi-Ziel-Bündelausgleichung zur gemeinsamen Optimierung von Kameraposen, Schlüsselpunkten und Kantensegmenten ohne globale Schleifenerkennung oder dichte Voxel-Fusion
Visuell-träge Fusion: Verwendung eines erweiterten Kalman-Filters zur Fusion von Trägheitsdaten zur Lösung des Skalierungsambiguitätsproblems

Methodische Details

Aufgabendefinition

Eingaben:

Monokulare Kamerabildersequenz
Trägheitsmesseinheit (IMU)-Daten (Lineargeschwindigkeit, Euler-Winkel)
Kamera-Intrinsik-Matrix K

Ausgaben:

Kameraposen-Trajektorie {Ti} ∈ SE(3)
Halbdichte 3D-Kantenkarte
Spärliche 3D-Schlüsselpunktkarte

Einschränkungen: Echtzeitanforderung, ressourcenbeschränkte Plattformen (wie DJI Tello-Drohne)

Modellarchitektur

Das System verwendet eine vierfädige parallele Architektur (wie in Abbildung 1 gezeigt):

Thread 1: Bildvorverarbeitung und Merkmalsextraktion (Blau)

ORB-Schlüsselpunkterkennung: Extraktion von ORB-Merkmalspunkten und Deskriptoren
Canny-Kantenerkennung: Erkennung von Bildkanten
Tiefenvorhersage: Verwendung des vortrainierten FastDepth CNN (basierend auf MobileNet-NNConv5-Architektur) zur Vorhersage dichter Tiefenkarten
Merkmals-Matching: Verwendung von Hamming-Distanz zum Matching von ORB-Deskriptoren, KD-Baum-beschleunigte Nächste-Nachbarn-Suche

Thread 2: Posenschätzung und Sensorfusion (Grün)

Relative Posenschätzung:

Schätzung der wesentlichen Matrix E aus gematchten ORB-Merkmalen durch Epipolar-Geometrie:
```
u_j^T E_ij u_i = 0
```
RANSAC-Ausreißer-Entfernung, SVD-Zerlegung zur Wiederherstellung der relativen Rotation R_ij und Translation t_ij

Erweiterter Kalman-Filter zur Fusion:

Zustandsvektor:

x = [p, α]^T = [x, y, z, φ, θ, ψ]^T

wobei p die globale Position und α die Euler-Winkel (Roll, Pitch, Yaw) sind

Vorhersageschritt:

p_{k|k-1} = p_{k-1} + R_imu(α_{k-1}) · v_imu · Δt

Adaptive Prozessrauschen:

Q_k = β · (1 - b_k + λτ) · I_6

wobei b_k die Batteriespannung ist, τ die Zeit seit dem letzten monokularen Update, was die Genauigkeitsabnahme mit sinkender Batteriespannung und zeitlichem Fortschritt berücksichtigt

Messung-Update:

Beobachtung 1: Euler-Winkel aus SDK z_api = α_api
Beobachtung 2: Globale Posenschätzung aus visueller Odometrie (durch Akkumulation relativer Posen)

Thread 3: Dichte Kantenkarte und 3D-Ankerpunkt-Generierung (Gelb)

Nutzung der Tiefenkarte und geschätzten Kamerapose zur 3D-Punkt-Rekonstruktion (Ankerpunkte) durch Triangulation:

P^k* = argmin_P ||u_i^k - π(K P)||^2 + ||u_j^k - π(K[R_ij* P + t_ij*])||^2

Thread 4: Kantengesteuerte lokale Optimierung (Rosa)

Multi-Verlustfunktions-Design:

Rückprojektions-Verlust (spärliche Schlüsselpunkte):

L_reproj = Σ_i,k ||u_ik - u_ik^proj||^2

wobei u_ik^proj = π(R_i P^k + t_i)

Zyklus-Konsistenz-Verlust (dichte Kantenpunkte): Implementierung von Schleifentransformations-Verifikation zur Validierung der Kantenpunkt-Konsistenz:

P_i = π^{-1}(u_i*, d_i) → P_j = T_{i,j} · P_i → u_j = π(P_j)
→ P'_j = π^{-1}(u_j, d_j) → P'_i = T_{i,j}^{-1} · P'_j → u'_i = π(P'_i)

L_cycle = Σ_{u_i* ∈ E} ||u_i* - u'_i||^2

L-förmiger Struktur-Verlust (geometrische Regularisierung):

Winkelkonsistenz:

L_angle = (1/N) Σ_i (cos(θ_proj^(i)) - cos(θ_expected^(i)))^2

Kollinearitäts-Einschränkung:

L_collinear = (1/N) Σ_i [(1/M_1^(i)) Σ_j d_{j,1}^2 + (1/M_2^(i)) Σ_k d_{k,2}^2]

Kombinierter Verlust:

L_Lshape = λ_θ L_angle + λ_col L_collinear

Gesamtes Optimierungsziel:

min_{P_w, T_w, D_w} L_total = λ_reproj L_reproj + λ_cycle L_cycle + λ_shape L_Lshape

Optimierungsalgorithmus: Levenberg-Marquardt-Algorithmus zur Lösung nichtlinearer Kleinste-Quadrate-Probleme, Ausgleich zwischen Gauss-Newton und Gradientenabstieg

Technische Innovationspunkte

Kantengesteuerte halbdichte Kartierung: Kombination von spärlichen Schlüsselpunkten und dichten Kanten für Ausgleich zwischen Recheneffizienz und Kartierungsdetails
Keine explizite Kantenmatchung erforderlich: Vermeidung komplexer Kantenkorrepondenz-Suche durch Zyklus-Konsistenz-Verlust
Strukturgesteuerter Regularisierung: Nutzung von L-förmigen geometrischen Priors in Innenräumen zur Verbesserung der Rekonstruktionsqualität
Lokale Optimierungsstrategie: Vermeidung globaler Schleifenerkennung zur Reduktion der Rechenkomplexität
Adaptive Sensorfusion: Prozessrausch-Modellierung unter Berücksichtigung von Batteriespannung und Zeit

Strategien zur Bewältigung von Optimierungsherausforderungen

Nichtlineare Probleme: Verwendung von Regularisierung und Levenberg-Marquardt-Algorithmus zur Stabilisierung der Konvergenz
Singularität: Diagonale Regularisierung (μI) gewährleistet Invertierbarkeit
Schlecht konditionierte Jacobi-Matrix: Verbesserung der Disparität durch schräge Kamerabewegung (z.B. Zickzack-Trajektorie)
Verlust-Unausgeglichenheit: Unsicherheitsbasierte adaptive Gewichtsanpassung

Experimentelle Einrichtung

Datensätze

TUM RGB-D Benchmark-Datensatz
- 23 Innensequenzen, Dauer 2-10 Minuten
- Synchronisierte RGB-D-Bilder und Ground-Truth-Posen
- Vielfältige Bewegungsmuster, Blickwinkel und Lichtverhältnisse
- Veröffentlicht vom TUM CVPR-Team, Creative Commons-Lizenz
Tiefenschätzungs-Trainingssatz
- FastDepth-Modell vortrainiert auf NYU Depth v2-Datensatz
- MobileNet als Backbone-Netzwerk
- Tiefentrennbare Faltungen zur Reduktion der Komplexität
Praktische Testplattform
- DJI Tello-Drohne
- Monokulare Kamera + Trägheitssensor
- Innenflur-Umgebung

Bewertungsmetriken

Absolute Posenfehler (APE):

APE_i = ||t_est^i - t_gt^i||_2

Messung des momentanen euklidischen Abstands-Fehlers für jeden Zeitstempel

Absoluter Trajektorienfehler (ATE):

ATE_RMS = sqrt((1/N) Σ_i ||T_gt^{-1}_i T_est_i||_F^2)

Bewertung der globalen Drift der gesamten Sequenz (einschließlich Translation und Rotation)

Vergleichsmethoden

ORB-SLAM2: Als Baseline-Methode, repräsentiert traditionelles spärliches Merkmals-SLAM

Implementierungsdetails

Plattform: Ubuntu 16.04 Laptop
Tiefennetzwerk: Vortrainiertes FastDepth (MobileNet-NNConv5)
Merkmalserkennung: ORB + Canny-Kantenerkennung
Optimierungsfenster: Lokales Schiebefenster-Bündelausgleichung
Gewichtungsparameter: λ_reproj, λ_cycle, λ_shape (genaue Werte im Papier nicht angegeben)
EKF-Parameter: β, λ für adaptive Prozessrauschen

Experimentelle Ergebnisse

Hauptergebnisse

Quantitative Bewertung auf TUM RGB-D-Datensatz (Tabelle I):

Methode	RMSE m	Mittelwert m	Std m
ORB-SLAM2 (Baseline)	0.182	0.17	0.71
Kantengesteuertes SLAM (dieses Papier)	0.046	0.040	0.011
Verbesserung	74.7%	76.5%	98.4%

Schlüsselfunde:

RMSE-Reduktion von 74.7%, signifikante Verbesserung der Trajektoriengenauigkeit
Standardabweichung um 98.4% reduziert, zeigt stabilere Posenschätzung
Mittlerer Fehler um 76.5% reduziert, kleinere systematische Abweichungen

Qualitative Kartenbewertung

Frühe Kartierungsphase (Abbildung 4):

Die Methode dieses Papiers erzeugt bereits in frühen Frames klare, präzise 3D-Kantenkarten
ORB-SLAM2-Punktwolke in frühen Phasen schwer interpretierbar

Vollständige Sequenzkartierung (Abbildung 5):

Die Methode dieses Papiers behält nach Verarbeitung der vollständigen Sequenz hohe Präzision ohne Drift
ORB-SLAM2-Kartierungsklarheit und Interpretierbarkeit geringer

Laborumgebung (Abbildung 6):

Von Sequenzbeginn bis -ende behält die Methode dieses Papiers hochpräzise 3D-Kantenkarten
Keine Drift oder Fehlerakkumulation, validiert Robustheit und Zuverlässigkeit des Systems

Recheneffizienz

Schlüsselleistungsindikatoren:

ORB-basierte Kantenkarten-Erstellung etwa 100-mal schneller als ORB-SLAM
Unterstützt Bereitstellung auf kleinen Hardware-Plattformen wie Raspberry Pi Zero
Realisiert echte Echtzeitverarbeitung

Experimentelle Erkenntnisse

Vorteile der Kantenverstärkung: Halbdichte Kantenkarten bieten reichhaltigere Strukturinformationen als spärliche Punktwolken
Effektivität der lokalen Optimierung: Langfristige Konsistenz kann ohne globale Schleife aufrechterhalten werden
Wert der Sensorfusion: EKF-Fusion löst effektiv das monokulare Skalierungsambiguitätsproblem
Leichtgewichtiges Deep Learning: FastDepth erfüllt Echtzeitanforderungen bei Beibehaltung der Genauigkeit
Wirkung von Struktur-Priors: L-förmige Einschränkungen verbessern die Rekonstruktionsqualität in Innenräumen erheblich

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Das vorgeschlagene kantengesteuerte SLAM-System realisiert echtzeitfähige, präzise 3D-Kartierung auf ressourcenbeschränkten Plattformen
Im Vergleich zu ORB-SLAM2 verbessert sich RMSE von Trajektorie und Posenschätzung um 74.5%
Die erzeugte halbdichte Karte ist präziser und detaillierter
Verarbeitungsgeschwindigkeit etwa 100-mal schneller als ORB-SLAM, unterstützt eingebettete Bereitstellung

Einschränkungen

Umgebungsannahmen: L-förmige Struktur-Einschränkungen eignen sich hauptsächlich für Innenräume mit künstlichen Strukturen, möglicherweise ungeeignet in natürlichen Szenen
Tiefenabhängigkeit: Abhängig vom vortrainierten FastDepth-Modell, Performance kann in Szenen außerhalb des Trainingsbereichs sinken
Dynamische Szenen: Papier diskutiert nicht explizit die Behandlung dynamischer Objekte
Parameteroptimierung: Mehrere Gewichtungsparameter (λ_reproj, λ_cycle, λ_shape) erfordern manuelle Anpassung
Langfristige Drift: Obwohl lokale Konsistenz gut ist, kann fehlende globale Schleife in überaus langen Sequenzen Fehler akkumulieren
Unzureichende quantitative Analyse: Nur Vergleich mit ORB-SLAM2, fehlende Vergleiche mit anderen modernen Methoden

Zukünftige Richtungen

Das Papier nennt keine expliziten Richtungen, aber potenzielle Richtungen umfassen:

Erweiterung auf Außenbereiche und unstrukturierte Umgebungen
Integration leichtgewichtiger Schleifenerkennung
Behandlung dynamischer Objekte und Verdeckung
Adaptive Gewichtslernfähigkeit
Multi-Sensor-Fusion (z.B. Lidar)

Tiefenanalyse

Stärken

Technische Innovativität:

Hybrid-Architektur-Design: Geschickte Kombination von spärlicher Geometrie und dichtem Lernen für Ausgleich zwischen Genauigkeit und Effizienz
Zyklus-Konsistenz-Verlust: Innovative Einschränkungs-Design ohne explizites Kantenmatching
Strukturgesteuerter Regularisierung: Nutzung von Umgebungs-Priors zur Verbesserung der Rekonstruktionsqualität
Adaptive Sensorfusion: Prozessrausch-Modellierung unter Berücksichtigung der Batteriespannung hat praktischen Wert

Experimentelle Vollständigkeit:

Validierung auf Standard-Datensatz (TUM RGB-D) und praktischer Plattform (DJI Tello)
Quantitative und qualitative Ergebnisse bestätigen sich gegenseitig
Recheneffizienz-Analyse umfassend (100-fache Beschleunigung)

Überzeugungskraft der Ergebnisse:

74.7% RMSE-Verbesserung ist signifikant
98.4% Standardabweichungs-Reduktion beweist Stabilität
Visualisierungsergebnisse zeigen klar die Vorteile halbdichter Karten

Schreibklarheit:

Klare Problemdefinition, strenge mathematische Herleitung
Systemarchitektur-Diagramm intuitiv
Vierfädiges Design leicht verständlich

Mängel

Methodische Einschränkungen:

Generalisierungsfähigkeit: L-förmige Einschränkungen begrenzen Anwendungsbereich der Methode
Langfristige Konsistenz: Fehlende globale Schleife kann in großflächigen Szenen zu Problemen führen
Tiefenqualitäts-Abhängigkeit: FastDepth kann in bestimmten Szenen fehlschlagen

Experimentelle Einrichtungsmängel:

Einzelne Vergleichsmethode: Nur Vergleich mit ORB-SLAM2, fehlende Vergleiche mit Edge SLAM, VINS-Mono etc.
Parametereinstellung fehlend: Keine Angabe von λ_reproj, λ_cycle, λ_shape und anderen Schlüsselparametern
Unzureichende Ablationsstudien: Keine separate Analyse der Beiträge einzelner Verlustterme
Datensatz-Einschränkung: Hauptsächlich in Innenräumen getestet, Außenleistung unbekannt

Analysemängel:

Fehlgeschlagene Fälle: Keine Diskussion von Fehlersituationen der Methode
Rechenanalyse: Fehlende detaillierte Zeit- und Speicherverbrauchsanalyse
Robustheitstests: Keine Tests für Empfindlichkeit gegenüber Rauschen, Verdeckung, Lichtwechsel
Theoretische Analyse: Fehlende Konvergenzgarantien und Fehlergrenzanalyse

Einfluss

Beitrag zum Forschungsgebiet:

Bietet praktische Lösung für SLAM auf ressourcenbeschränkten Plattformen
Zeigt Potenzial der Kombination traditioneller Methoden mit leichtgewichtigem Deep Learning
Kantengesteuerte Kartieridee kann nachfolgende Forschung inspirieren

Praktischer Wert:

Erfolgreiche Bereitstellung auf DJI Tello beweist Praktikabilität
100-fache Beschleunigung macht eingebettete Anwendungen möglich
Halbdichte Karten eignen sich für Navigation und Hindernisvermeidung

Reproduzierbarkeit:

Mittel: Papier bietet Methodendetails, aber Code, vollständige Parametereinstellungen und Trainingsdetails fehlen
Verwendetes FastDepth ist öffentliches Modell, hilft bei Reproduktion
Vierfädige Architektur klar, aber Implementierungsdetails benötigen Ergänzung

Anwendungsszenarien

Geeignete Anwendungen:

Innenraum-Drohnen-Navigation: Flure, Lagerhäuser, Gebäudeinnenbereiche
Ressourcenbeschränkte Roboter: Niedrigenergie-Mobilplattformen
Echtzeithindernisvermeidung: Szenen, die schnelle Reaktion erfordern
Strukturierte Umgebungen: Künstliche Gebäude, Industrieanlagen

Ungeeignete Szenen:

Außenbereiche mit natürlicher Umgebung: Mangel an L-förmigen Strukturen
Hochdynamische Szenen: Schnell bewegliche Objekte
Großflächige Kartierung: Fehlende globale Schleife
Hochpräzisions-Anwendungen: Wie Präzisionsmessung (relativer Fehler noch 4.6cm)

Referenzen

Schlüsselzitate:

ORB-SLAM-Serie: Klassische spärliche SLAM-Baseline
FastDepth (Wofk et al., ICRA 2019): Leichtgewichtiges Tiefenschätzungs-Netzwerk
TUM RGB-D (Sturm et al., 2012): Standard-SLAM-Bewertungs-Datensatz
Bundle Adjustment (Triggs et al., 1999): Klassische Optimierungstechnik
Epipolar Geometry (Zhang, 1998): Grundlegende Theorie der Epipolar-Geometrie
Extended Kalman Filter: Standard-Sensorfusions-Methode
Edge SLAM (Maity et al., ICCV 2017): Pionierarbeit in Kanten-SLAM
NeRF/NICE-SLAM: Lernmethoden für dichte Rekonstruktion

Gesamtbewertung: Dies ist eine praktische SLAM-Forschung für ressourcenbeschränkte Plattformen mit vernünftiger technischer Route und überzeugenden experimentellen Ergebnissen. Die Hauptbeiträge liegen in Systemtechnik und Methodenintegration statt einzelner Algorithmus-Durchbruch. Die 74.7% Genauigkeitsverbesserung und 100-fache Geschwindigkeitssteigerung haben praktischen Wert. Das Papier hat jedoch Raum für Verbesserung in experimentellen Vergleichen, Ablationsstudien und theoretischer Tiefe. Geeignet für Veröffentlichung in Robotik-Anwendungs-Konferenzen oder Fachzeitschriften.