Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors
Danial, Asher, Klein
Monocular simultaneous localization and mapping (SLAM) algorithms estimate drone poses and build a 3D map using a single camera. Current algorithms include sparse methods that lack detailed geometry, while learning-driven approaches produce dense maps but are computationally intensive. Monocular SLAM also faces scale ambiguities, which affect its accuracy. To address these challenges, we propose an edge-aware lightweight monocular SLAM system combining sparse keypoint-based pose estimation with dense edge reconstruction. Our method employs deep learning-based depth prediction and edge detection, followed by optimization to refine keypoints and edges for geometric consistency, without relying on global loop closure or heavy neural computations. We fuse inertial data with vision by using an extended Kalman filter to resolve scale ambiguity and improve accuracy. The system operates in real time on low-power platforms, as demonstrated on a DJI Tello drone with a monocular camera and inertial sensors. In addition, we demonstrate robust autonomous navigation and obstacle avoidance in indoor corridors and on the TUM RGBD dataset. Our approach offers an effective, practical solution to real-time mapping and navigation in resource-constrained environments.
academic
Localisation Simultanée et Cartographie 3D Semi-Dense pour Micro-Drones Utilisant une Caméra Monoculaire et des Capteurs Inertiels
Cet article propose un système SLAM monoculaire léger et sensible aux contours pour les micro-drones utilisant une caméra monoculaire pour la localisation et la cartographie simultanées (SLAM). Le système combine l'estimation de pose par points clés épars et la reconstruction dense des contours, en utilisant l'apprentissage profond pour la prédiction de profondeur et la détection de contours, tout en réalisant la cohérence géométrique par optimisation sans dépendre de boucles de fermeture globales ou de calculs de réseaux de neurones lourds. Le système utilise un filtre de Kalman étendu pour fusionner les données inertielles et les informations visuelles, résolvant le problème d'ambiguïté d'échelle et améliorant la précision. Il a été implémenté en temps réel sur le drone DJI Tello et a démontré des capacités robustes de navigation autonome et d'évitement d'obstacles sur l'ensemble de données TUM RGBD.
Problème de cartographie éparse : Les systèmes SLAM traditionnels basés sur des points caractéristiques (tels que ORB-SLAM), bien qu'efficaces pour l'estimation de pose, génèrent des nuages de points 3D trop épars, manquant de richesse structurelle et inadaptés aux tâches nécessitant une compréhension 3D dense
Limitations des ressources de calcul : Les méthodes SLAM denses pilotées par l'apprentissage existantes (telles que NeRF, NICE-SLAM) sont gourmandes en calcul et difficiles à exécuter en temps réel sur des plates-formes embarquées à ressources limitées
Ambiguïté d'échelle : L'incertitude d'échelle inhérente au SLAM monoculaire affecte la précision de la localisation
Coût d'optimisation globale : Le SLAM traditionnel dépend de la détection de boucles de fermeture et de l'ajustement de faisceaux global, entraînant des coûts de calcul importants
La navigation autonome des micro-drones nécessite des capacités de perception 3D en temps réel et précises pour la navigation, l'évitement d'obstacles et l'interaction avec l'environnement. La réalisation de cet objectif sur des plates-formes embarquées à ressources limitées est un défi fondamental dans le domaine de la robotique.
ORB-SLAM : Génère uniquement des points 3D épars, manquant de détails structurels
Edge SLAM : Bien que capable de générer des cartes semi-denses, dépend de l'optimisation globale avec un coût de calcul élevé, et le suivi basé sur le flux optique introduit du bruit
DeepTAM/D3VO : Les méthodes d'apprentissage profond ont un grand nombre de paramètres et une complexité de calcul élevée, inadaptées aux appareils à faible consommation d'énergie
NeRF/NICE-SLAM : Nécessitent des GPU haut de gamme, supposent des scènes statiques et manquent de temps réel
Développer un système SLAM léger et en temps réel capable de générer des cartes semi-denses sur des plates-formes à ressources limitées tout en maintenant une estimation de pose haute précision.
Pipeline SLAM léger : Intègre la géométrie épipolaire éparse avec la prédiction de profondeur dense et l'extraction de contours, réalisant la construction de cartes semi-denses ancrées aux contours
Perte de cohérence de boucle de contour : Propose une contrainte de cohérence de projection de contours multi-vues sans appariement explicite de contours 2D-2D
Contraintes structurelles sensibles à la forme : Régularisation géométrique basée sur les structures en L, améliorant la cohérence structurelle dans les environnements intérieurs
Optimisation géométrique locale : Ajustement de faisceaux multi-objectifs optimisant conjointement les poses de caméra, les points clés et les segments de contours, sans boucles de fermeture globales ni fusion de voxels dense
Fusion visuelle-inertielle : Utilise un filtre de Kalman étendu pour fusionner les données inertielles résolvant le problème d'ambiguïté d'échelle
Détection de points clés ORB : Extraction de points caractéristiques ORB et descripteurs
Détection de contours Canny : Détection des contours d'image
Prédiction de profondeur : Utilise le CNN FastDepth pré-entraîné (architecture basée sur MobileNet-NNConv5) pour prédire la carte de profondeur dense
Appariement de caractéristiques : Utilise la distance de Hamming pour apparier les descripteurs ORB, accélérant la recherche du plus proche voisin via arbre KD
Estime la matrice essentielle E à partir des caractéristiques ORB appariées via géométrie épipolaire :
u_j^T E_ij u_i = 0
Utilise RANSAC pour éliminer les valeurs aberrantes, décomposition SVD pour récupérer la rotation relative R_ij et la translation t_ij
Fusion du Filtre de Kalman Étendu :
Vecteur d'état :
x = [p, α]^T = [x, y, z, φ, θ, ψ]^T
où p est la position globale et α sont les angles d'Euler (roulis, tangage, lacet)
Étape de prédiction :
p_{k|k-1} = p_{k-1} + R_imu(α_{k-1}) · v_imu · Δt
Bruit de Processus Adaptatif :
Q_k = β · (1 - b_k + λτ) · I_6
où b_k est le niveau de batterie, τ est le temps écoulé depuis la dernière mise à jour monoculaire, tenant compte de la dégradation de la précision des données SDK avec la baisse de batterie et le passage du temps
Mise à Jour de Mesure :
Observation 1 : Angles d'Euler du SDK z_api = α_api
Observation 2 : Estimation de pose globale de l'odomètrie visuelle (via accumulation de poses relatives)
Perte de Cohérence de Boucle (points de contours denses) :
Implémente la vérification de transformation en boucle fermée validant la cohérence des points de contours :
Algorithme d'Optimisation : Utilise l'algorithme de Levenberg-Marquardt pour résoudre le problème des moindres carrés non linéaires, équilibrant Gauss-Newton et la descente de gradient
Cartographie Semi-Dense Sensible aux Contours : Combine les points clés épars et les contours denses, atteignant un équilibre entre l'efficacité de calcul et les détails de la carte
Sans Appariement Explicite de Contours : Évite la recherche complexe de correspondance de contours via la perte de cohérence de boucle
Régularisation Structurelle Consciente : Utilise les priors géométriques en L des environnements intérieurs pour améliorer la qualité de reconstruction
Stratégie d'Optimisation Locale : Évite la détection de boucles de fermeture globales, réduisant la complexité de calcul
Fusion de Capteurs Adaptative : Modélisation du bruit de processus tenant compte du niveau de batterie et du temps
Avantages de l'Amélioration des Contours : Les cartes semi-denses enrichies de contours fournissent des informations structurelles plus riches que les nuages de points épars
Efficacité de l'Optimisation Locale : Maintient la cohérence à long terme sans boucles de fermeture globales
Valeur de la Fusion de Capteurs : La fusion EKF résout efficacement le problème d'ambiguïté d'échelle monoculaire
Apprentissage Profond Léger : FastDepth satisfait les exigences de temps réel tout en maintenant la précision
Rôle des Priors Structurels : Les contraintes en L améliorent significativement la qualité de reconstruction dans les environnements intérieurs
Hypothèses Environnementales : Les contraintes de structure en L s'appliquent principalement aux environnements intérieurs artificiels, pouvant être inadaptées aux scènes naturelles
Dépendance à la Profondeur : Dépend du modèle FastDepth pré-entraîné, les performances peuvent se dégrader en dehors du domaine d'entraînement
Scènes Dynamiques : L'article ne discute pas explicitement du traitement des objets dynamiques
Ajustement des Paramètres : Plusieurs paramètres de poids (λ_reproj, λ_cycle, λ_shape) nécessitent un ajustement manuel
Dérive à Long Terme : Bien que la cohérence locale soit bonne, l'absence de boucles de fermeture globales peut accumuler des erreurs dans les séquences très longues
Analyse Quantitative Insuffisante : Comparaison uniquement avec ORB-SLAM2, manque de comparaison avec d'autres méthodes modernes
Conception d'Architecture Hybride : Combine intelligemment la géométrie éparse et l'apprentissage dense, atteignant un équilibre entre précision et efficacité
Perte de Cohérence de Boucle : Conception innovante de contrainte sans appariement explicite de contours
Régularisation Structurelle Consciente : Utilise les priors environnementaux pour améliorer la qualité de reconstruction
Fusion de Capteurs Adaptative : La modélisation du bruit de processus tenant compte du niveau de batterie a une signification pratique
Suffisance Expérimentale :
Validation sur l'ensemble de données standard (TUM RGB-D) et la plate-forme réelle (DJI Tello)
Les résultats quantitatifs et qualitatifs se renforcent mutuellement
Analyse complète de l'efficacité de calcul (accélération 100x)
Pouvoir de Conviction des Résultats :
L'amélioration RMSE de 74.7% est significative
La réduction d'écart-type de 98.4% prouve la stabilité
Les résultats visuels montrent clairement les avantages de la cartographie semi-dense
Clarté de la Rédaction :
Définition claire du problème, dérivations mathématiques rigoureuses
Série ORB-SLAM : Ligne de base SLAM éparse classique
FastDepth (Wofk et al., ICRA 2019) : Réseau d'estimation de profondeur léger
TUM RGB-D (Sturm et al., 2012) : Ensemble de données standard d'évaluation SLAM
Bundle Adjustment (Triggs et al., 1999) : Technique d'optimisation classique
Epipolar Geometry (Zhang, 1998) : Théorie fondamentale de la géométrie épipolaire
Extended Kalman Filter : Méthode standard de fusion de capteurs
Edge SLAM (Maity et al., ICCV 2017) : Travail précurseur du SLAM de contours
NeRF/NICE-SLAM : Méthodes d'apprentissage pour la reconstruction dense
Évaluation Globale : Cet article est une recherche SLAM pratique orientée vers les plates-formes à ressources limitées, avec une stratégie technique raisonnable et des résultats expérimentaux convaincants. Les contributions principales résident dans l'ingénierie système et l'intégration de méthodes plutôt que dans des percées algorithmiques uniques. L'amélioration de précision de 74.7% et l'accélération de 100x ont une valeur pratique. Cependant, l'article a de la place pour amélioration dans les comparaisons expérimentales, l'analyse d'ablation et la profondeur théorique. Convient à la publication dans des conférences ou revues de robotique appliquée.