2025-11-19T18:31:14.017963

Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors

Danial, Asher, Klein
Monocular simultaneous localization and mapping (SLAM) algorithms estimate drone poses and build a 3D map using a single camera. Current algorithms include sparse methods that lack detailed geometry, while learning-driven approaches produce dense maps but are computationally intensive. Monocular SLAM also faces scale ambiguities, which affect its accuracy. To address these challenges, we propose an edge-aware lightweight monocular SLAM system combining sparse keypoint-based pose estimation with dense edge reconstruction. Our method employs deep learning-based depth prediction and edge detection, followed by optimization to refine keypoints and edges for geometric consistency, without relying on global loop closure or heavy neural computations. We fuse inertial data with vision by using an extended Kalman filter to resolve scale ambiguity and improve accuracy. The system operates in real time on low-power platforms, as demonstrated on a DJI Tello drone with a monocular camera and inertial sensors. In addition, we demonstrate robust autonomous navigation and obstacle avoidance in indoor corridors and on the TUM RGBD dataset. Our approach offers an effective, practical solution to real-time mapping and navigation in resource-constrained environments.
academic

Localisation Simultanée et Cartographie 3D Semi-Dense pour Micro-Drones Utilisant une Caméra Monoculaire et des Capteurs Inertiels

Informations Fondamentales

  • ID de l'article : 2511.14335
  • Titre : Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors
  • Auteurs : Jeryes Danial (Université de Haïfa), Yosi Ben Asher (Université de Haïfa), Itzik Klein (Université de Haïfa)
  • Classification : cs.RO (Robotique)
  • Date de publication : 18 novembre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2511.14335

Résumé

Cet article propose un système SLAM monoculaire léger et sensible aux contours pour les micro-drones utilisant une caméra monoculaire pour la localisation et la cartographie simultanées (SLAM). Le système combine l'estimation de pose par points clés épars et la reconstruction dense des contours, en utilisant l'apprentissage profond pour la prédiction de profondeur et la détection de contours, tout en réalisant la cohérence géométrique par optimisation sans dépendre de boucles de fermeture globales ou de calculs de réseaux de neurones lourds. Le système utilise un filtre de Kalman étendu pour fusionner les données inertielles et les informations visuelles, résolvant le problème d'ambiguïté d'échelle et améliorant la précision. Il a été implémenté en temps réel sur le drone DJI Tello et a démontré des capacités robustes de navigation autonome et d'évitement d'obstacles sur l'ensemble de données TUM RGBD.

Contexte de Recherche et Motivation

Problèmes Fondamentaux à Résoudre

  1. Problème de cartographie éparse : Les systèmes SLAM traditionnels basés sur des points caractéristiques (tels que ORB-SLAM), bien qu'efficaces pour l'estimation de pose, génèrent des nuages de points 3D trop épars, manquant de richesse structurelle et inadaptés aux tâches nécessitant une compréhension 3D dense
  2. Limitations des ressources de calcul : Les méthodes SLAM denses pilotées par l'apprentissage existantes (telles que NeRF, NICE-SLAM) sont gourmandes en calcul et difficiles à exécuter en temps réel sur des plates-formes embarquées à ressources limitées
  3. Ambiguïté d'échelle : L'incertitude d'échelle inhérente au SLAM monoculaire affecte la précision de la localisation
  4. Coût d'optimisation globale : Le SLAM traditionnel dépend de la détection de boucles de fermeture et de l'ajustement de faisceaux global, entraînant des coûts de calcul importants

Importance de la Recherche

La navigation autonome des micro-drones nécessite des capacités de perception 3D en temps réel et précises pour la navigation, l'évitement d'obstacles et l'interaction avec l'environnement. La réalisation de cet objectif sur des plates-formes embarquées à ressources limitées est un défi fondamental dans le domaine de la robotique.

Limitations des Méthodes Existantes

  • ORB-SLAM : Génère uniquement des points 3D épars, manquant de détails structurels
  • Edge SLAM : Bien que capable de générer des cartes semi-denses, dépend de l'optimisation globale avec un coût de calcul élevé, et le suivi basé sur le flux optique introduit du bruit
  • DeepTAM/D3VO : Les méthodes d'apprentissage profond ont un grand nombre de paramètres et une complexité de calcul élevée, inadaptées aux appareils à faible consommation d'énergie
  • NeRF/NICE-SLAM : Nécessitent des GPU haut de gamme, supposent des scènes statiques et manquent de temps réel

Motivation de la Recherche

Développer un système SLAM léger et en temps réel capable de générer des cartes semi-denses sur des plates-formes à ressources limitées tout en maintenant une estimation de pose haute précision.

Contributions Principales

  1. Pipeline SLAM léger : Intègre la géométrie épipolaire éparse avec la prédiction de profondeur dense et l'extraction de contours, réalisant la construction de cartes semi-denses ancrées aux contours
  2. Perte de cohérence de boucle de contour : Propose une contrainte de cohérence de projection de contours multi-vues sans appariement explicite de contours 2D-2D
  3. Contraintes structurelles sensibles à la forme : Régularisation géométrique basée sur les structures en L, améliorant la cohérence structurelle dans les environnements intérieurs
  4. Optimisation géométrique locale : Ajustement de faisceaux multi-objectifs optimisant conjointement les poses de caméra, les points clés et les segments de contours, sans boucles de fermeture globales ni fusion de voxels dense
  5. Fusion visuelle-inertielle : Utilise un filtre de Kalman étendu pour fusionner les données inertielles résolvant le problème d'ambiguïté d'échelle

Explication Détaillée de la Méthode

Définition de la Tâche

Entrées :

  • Séquence d'images de caméra monoculaire
  • Données de l'unité de mesure inertielle (IMU) (vitesse linéaire, angles d'Euler)
  • Matrice des paramètres intrinsèques de la caméra K

Sorties :

  • Trajectoire de pose de caméra {Ti} ∈ SE(3)
  • Carte 3D semi-dense des contours
  • Carte 3D éparse des points clés

Contraintes : Exigences de temps réel, plate-forme à ressources limitées (par exemple, drone DJI Tello)

Architecture du Modèle

Le système adopte une architecture parallèle à quatre threads (comme illustré à la Figure 1) :

Thread 1 : Prétraitement d'Image et Extraction de Caractéristiques (Bleu)

  1. Détection de points clés ORB : Extraction de points caractéristiques ORB et descripteurs
  2. Détection de contours Canny : Détection des contours d'image
  3. Prédiction de profondeur : Utilise le CNN FastDepth pré-entraîné (architecture basée sur MobileNet-NNConv5) pour prédire la carte de profondeur dense
  4. Appariement de caractéristiques : Utilise la distance de Hamming pour apparier les descripteurs ORB, accélérant la recherche du plus proche voisin via arbre KD

Thread 2 : Estimation de Pose et Fusion de Capteurs (Vert)

Estimation de Pose Relative :

  • Estime la matrice essentielle E à partir des caractéristiques ORB appariées via géométrie épipolaire :
    u_j^T E_ij u_i = 0
    
  • Utilise RANSAC pour éliminer les valeurs aberrantes, décomposition SVD pour récupérer la rotation relative R_ij et la translation t_ij

Fusion du Filtre de Kalman Étendu :

Vecteur d'état :

x = [p, α]^T = [x, y, z, φ, θ, ψ]^T

où p est la position globale et α sont les angles d'Euler (roulis, tangage, lacet)

Étape de prédiction :

p_{k|k-1} = p_{k-1} + R_imu(α_{k-1}) · v_imu · Δt

Bruit de Processus Adaptatif :

Q_k = β · (1 - b_k + λτ) · I_6

où b_k est le niveau de batterie, τ est le temps écoulé depuis la dernière mise à jour monoculaire, tenant compte de la dégradation de la précision des données SDK avec la baisse de batterie et le passage du temps

Mise à Jour de Mesure :

  • Observation 1 : Angles d'Euler du SDK z_api = α_api
  • Observation 2 : Estimation de pose globale de l'odomètrie visuelle (via accumulation de poses relatives)

Thread 3 : Génération de Carte de Contours Dense et Points d'Ancrage 3D (Jaune)

Utilisant la carte de profondeur et la pose de caméra estimée, reconstruit les points 3D (points d'ancrage) via triangulation :

P^k* = argmin_P ||u_i^k - π(K P)||^2 + ||u_j^k - π(K[R_ij* P + t_ij*])||^2

Thread 4 : Optimisation Locale Sensible aux Contours (Rose)

Conception de Fonction de Perte Multi-Objectifs :

  1. Perte de Reprojection (points clés épars) :
L_reproj = Σ_i,k ||u_ik - u_ik^proj||^2

où u_ik^proj = π(R_i P^k + t_i)

  1. Perte de Cohérence de Boucle (points de contours denses) : Implémente la vérification de transformation en boucle fermée validant la cohérence des points de contours :
P_i = π^{-1}(u_i*, d_i) → P_j = T_{i,j} · P_i → u_j = π(P_j)
→ P'_j = π^{-1}(u_j, d_j) → P'_i = T_{i,j}^{-1} · P'_j → u'_i = π(P'_i)

L_cycle = Σ_{u_i* ∈ E} ||u_i* - u'_i||^2
  1. Perte de Structure en L (régularisation géométrique) :
    • Cohérence d'Angle :
    L_angle = (1/N) Σ_i (cos(θ_proj^(i)) - cos(θ_expected^(i)))^2
    
    • Contrainte de Colinéarité :
    L_collinear = (1/N) Σ_i [(1/M_1^(i)) Σ_j d_{j,1}^2 + (1/M_2^(i)) Σ_k d_{k,2}^2]
    
    • Perte Combinée :
    L_Lshape = λ_θ L_angle + λ_col L_collinear
    

Objectif d'Optimisation Total :

min_{P_w, T_w, D_w} L_total = λ_reproj L_reproj + λ_cycle L_cycle + λ_shape L_Lshape

Algorithme d'Optimisation : Utilise l'algorithme de Levenberg-Marquardt pour résoudre le problème des moindres carrés non linéaires, équilibrant Gauss-Newton et la descente de gradient

Points d'Innovation Technique

  1. Cartographie Semi-Dense Sensible aux Contours : Combine les points clés épars et les contours denses, atteignant un équilibre entre l'efficacité de calcul et les détails de la carte
  2. Sans Appariement Explicite de Contours : Évite la recherche complexe de correspondance de contours via la perte de cohérence de boucle
  3. Régularisation Structurelle Consciente : Utilise les priors géométriques en L des environnements intérieurs pour améliorer la qualité de reconstruction
  4. Stratégie d'Optimisation Locale : Évite la détection de boucles de fermeture globales, réduisant la complexité de calcul
  5. Fusion de Capteurs Adaptative : Modélisation du bruit de processus tenant compte du niveau de batterie et du temps

Stratégies pour Relever les Défis d'Optimisation

  1. Problèmes Non-Linéaires : Utilise la régularisation et l'algorithme de Levenberg-Marquardt pour stabiliser la convergence
  2. Singularités : La régularisation diagonale (μI) assure l'inversibilité
  3. Matrice Jacobienne Mal Conditionnée : Améliore la disparité via des mouvements de caméra obliques (par exemple, trajectoires en zigzag)
  4. Déséquilibre de Perte : Ajustement adaptatif des poids basé sur l'incertitude

Configuration Expérimentale

Ensembles de Données

  1. Ensemble de Données de Référence TUM RGB-D
    • 23 séquences intérieures, durée 2-10 minutes
    • Inclut des images RGB-D synchronisées et des poses de vérité terrain
    • Modes de mouvement, angles de vue et conditions d'éclairage diversifiés
    • Publié par l'équipe TUM CVPR, licence Creative Commons
  2. Ensemble d'Entraînement d'Estimation de Profondeur
    • Modèle FastDepth pré-entraîné sur l'ensemble de données NYU Depth v2
    • Utilise MobileNet comme réseau de base
    • Utilise des convolutions séparables en profondeur pour réduire la complexité
  3. Plate-forme de Test Réelle
    • Drone DJI Tello
    • Caméra monoculaire + capteurs inertiels
    • Environnement de couloir intérieur

Métriques d'Évaluation

  1. Erreur de Pose Absolue (APE) :
APE_i = ||t_est^i - t_gt^i||_2

Mesure l'erreur de distance euclidienne instantanée à chaque horodatage

  1. Erreur de Trajectoire Absolue (ATE) :
ATE_RMS = sqrt((1/N) Σ_i ||T_gt^{-1}_i T_est_i||_F^2)

Évalue la dérive globale de la séquence entière (incluant translation et rotation)

Méthodes de Comparaison

  • ORB-SLAM2 : Méthode de base, représentant le SLAM traditionnel basé sur des caractéristiques éparses

Détails d'Implémentation

  • Plate-forme : Ordinateur portable Ubuntu 16.04
  • Réseau de Profondeur : FastDepth pré-entraîné (MobileNet-NNConv5)
  • Détection de Caractéristiques : ORB + détection de contours Canny
  • Fenêtre d'Optimisation : Ajustement de faisceaux local avec fenêtre glissante
  • Paramètres de Poids : λ_reproj, λ_cycle, λ_shape (valeurs spécifiques non fournies dans l'article)
  • Paramètres EKF : β, λ pour le bruit de processus adaptatif

Résultats Expérimentaux

Résultats Principaux

Évaluation Quantitative sur l'Ensemble de Données TUM RGB-D (Tableau I) :

MéthodeRMSE mMoyenne mÉcart-type m
ORB-SLAM2 (référence)0.1820.170.71
SLAM Sensible aux Contours (présent)0.0460.0400.011
Taux d'Amélioration74.7%76.5%98.4%

Découvertes Clés :

  • Réduction RMSE de 74.7%, amélioration significative de la précision de trajectoire
  • Réduction d'écart-type de 98.4%, démontrant une estimation de pose plus stable
  • Réduction d'erreur moyenne de 76.5%, biais systématique réduit

Évaluation Qualitative de la Carte

Cartographie en Stade Précoce (Figure 4) :

  • La méthode proposée génère une carte 3D de contours claire et précise dès les images initiales
  • Le nuage de points d'ORB-SLAM2 a une interprétabilité faible au stade précoce

Cartographie de Séquence Complète (Figure 5) :

  • La méthode proposée maintient une haute précision après traitement de la séquence complète, sans dérive
  • La clarté et l'interprétabilité de la carte d'ORB-SLAM2 sont inférieures

Environnement de Laboratoire (Figure 6) :

  • Du début à la fin de la séquence, la méthode proposée maintient une carte 3D de contours haute précision
  • Pas de dérive ou d'accumulation d'erreur, validant la robustesse et la fiabilité du système

Efficacité de Calcul

Indicateurs de Performance Clés :

  • La création de carte de contours basée sur ORB est environ 100 fois plus rapide qu'ORB-SLAM
  • Supporte le déploiement sur petit matériel comme Raspberry Pi Zero
  • Réalise un vrai traitement en temps réel

Découvertes Expérimentales

  1. Avantages de l'Amélioration des Contours : Les cartes semi-denses enrichies de contours fournissent des informations structurelles plus riches que les nuages de points épars
  2. Efficacité de l'Optimisation Locale : Maintient la cohérence à long terme sans boucles de fermeture globales
  3. Valeur de la Fusion de Capteurs : La fusion EKF résout efficacement le problème d'ambiguïté d'échelle monoculaire
  4. Apprentissage Profond Léger : FastDepth satisfait les exigences de temps réel tout en maintenant la précision
  5. Rôle des Priors Structurels : Les contraintes en L améliorent significativement la qualité de reconstruction dans les environnements intérieurs

Travaux Connexes

Méthodes SLAM Traditionnelles

  • Série ORB-SLAM : Méthode classique basée sur des caractéristiques éparses, dépendant de l'optimisation globale
  • Voxel Map : Récupération et inférence de visibilité améliorées, mais toujours éparse
  • SfM : Technique fondamentale de reconstruction 3D à partir de plusieurs images

Odomètrie Visuelle-Inertielle

  • Méthodes Basées sur EKF : Estimation de pose rapide et efficace (par exemple, VINS-Mono, MSCKF-DVIO)
  • Limitations : Génèrent généralement des nuages de points 3D épars

SLAM Dense Piloté par l'Apprentissage

  • DeepTAM : Réseau de neurones profonds générant des cartes de profondeur denses, mais précision limitée et calcul intensif
  • D3VO : Haute précision mais modèle complexe, inadapté aux appareils à faible consommation d'énergie
  • NeRF/NICE-SLAM : Reconstruction haute fidélité, mais nécessite des GPU haut de gamme et des scènes statiques
  • NeuralRecon : Fusion de profondeur et pose, calcul non réalisable

SLAM de Contours

  • Edge SLAM : Génère des cartes semi-denses, mais dépend de l'optimisation globale, le suivi basé sur flux optique introduit du bruit

Avantages de Cet Article

  • Combine les méthodes géométriques traditionnelles et l'apprentissage profond léger
  • Remplace l'optimisation globale par une optimisation locale
  • Adapté à l'exécution en temps réel sur des plates-formes à ressources limitées

Conclusion et Discussion

Conclusions Principales

  1. Le système SLAM sensible aux contours proposé réalise une cartographie 3D en temps réel et précise sur des plates-formes à ressources limitées
  2. Par rapport à ORB-SLAM2, l'amélioration RMSE de la trajectoire et de l'estimation de pose est de 74.5%
  3. La carte semi-dense générée est plus précise et détaillée
  4. La vitesse de traitement est environ 100 fois plus rapide qu'ORB-SLAM, supportant le déploiement embarqué

Limitations

  1. Hypothèses Environnementales : Les contraintes de structure en L s'appliquent principalement aux environnements intérieurs artificiels, pouvant être inadaptées aux scènes naturelles
  2. Dépendance à la Profondeur : Dépend du modèle FastDepth pré-entraîné, les performances peuvent se dégrader en dehors du domaine d'entraînement
  3. Scènes Dynamiques : L'article ne discute pas explicitement du traitement des objets dynamiques
  4. Ajustement des Paramètres : Plusieurs paramètres de poids (λ_reproj, λ_cycle, λ_shape) nécessitent un ajustement manuel
  5. Dérive à Long Terme : Bien que la cohérence locale soit bonne, l'absence de boucles de fermeture globales peut accumuler des erreurs dans les séquences très longues
  6. Analyse Quantitative Insuffisante : Comparaison uniquement avec ORB-SLAM2, manque de comparaison avec d'autres méthodes modernes

Directions Futures

L'article ne propose pas explicitement de directions futures, mais les directions potentielles incluent :

  1. Extension aux environnements extérieurs et non structurés
  2. Intégration d'un mécanisme léger de détection de boucles de fermeture
  3. Traitement des objets dynamiques et des occlusions
  4. Apprentissage adaptatif des poids
  5. Fusion multi-capteurs (par exemple, LiDAR)

Évaluation Approfondie

Points Forts

Innovativité Technique :

  1. Conception d'Architecture Hybride : Combine intelligemment la géométrie éparse et l'apprentissage dense, atteignant un équilibre entre précision et efficacité
  2. Perte de Cohérence de Boucle : Conception innovante de contrainte sans appariement explicite de contours
  3. Régularisation Structurelle Consciente : Utilise les priors environnementaux pour améliorer la qualité de reconstruction
  4. Fusion de Capteurs Adaptative : La modélisation du bruit de processus tenant compte du niveau de batterie a une signification pratique

Suffisance Expérimentale :

  1. Validation sur l'ensemble de données standard (TUM RGB-D) et la plate-forme réelle (DJI Tello)
  2. Les résultats quantitatifs et qualitatifs se renforcent mutuellement
  3. Analyse complète de l'efficacité de calcul (accélération 100x)

Pouvoir de Conviction des Résultats :

  1. L'amélioration RMSE de 74.7% est significative
  2. La réduction d'écart-type de 98.4% prouve la stabilité
  3. Les résultats visuels montrent clairement les avantages de la cartographie semi-dense

Clarté de la Rédaction :

  1. Définition claire du problème, dérivations mathématiques rigoureuses
  2. Diagramme d'architecture système intuitif
  3. Conception à quatre threads facile à comprendre

Insuffisances

Limitations de la Méthode :

  1. Capacité de Généralisation : Les contraintes en L limitent la portée d'application de la méthode
  2. Cohérence à Long Terme : L'absence de boucles de fermeture globales peut poser problème dans les scènes à grande échelle
  3. Dépendance à la Qualité de Profondeur : FastDepth peut échouer dans certaines scènes

Défauts de Configuration Expérimentale :

  1. Méthodes de Comparaison Uniques : Comparaison uniquement avec ORB-SLAM2, manque de comparaison avec Edge SLAM, VINS-Mono, etc.
  2. Paramètres Manquants : Ne fournit pas les valeurs des paramètres clés λ_reproj, λ_cycle, λ_shape
  3. Expériences d'Ablation Insuffisantes : N'analyse pas séparément la contribution de chaque terme de perte
  4. Limitations des Ensembles de Données : Tests principalement en environnement intérieur, performances extérieures inconnues

Analyse Insuffisante :

  1. Cas d'Échec : Ne discute pas des situations où la méthode échoue
  2. Analyse de Calcul : Manque d'analyse détaillée de la consommation de temps et de mémoire
  3. Tests de Robustesse : N'a pas testé la sensibilité au bruit, aux occlusions et aux changements d'éclairage
  4. Analyse Théorique : Manque de garanties de convergence et d'analyse des bornes d'erreur

Impact

Contribution au Domaine :

  1. Fournit une solution pratique pour le SLAM sur des plates-formes à ressources limitées
  2. Démontre le potentiel de la combinaison des méthodes traditionnelles et de l'apprentissage profond léger
  3. L'approche de cartographie sensible aux contours peut inspirer les recherches ultérieures

Valeur Pratique :

  1. Le déploiement réussi sur DJI Tello prouve la praticité
  2. L'accélération 100x rend les applications embarquées possibles
  3. Les cartes semi-denses conviennent aux tâches de navigation et d'évitement d'obstacles

Reproductibilité :

  • Moyenne : L'article fournit les détails de la méthode, mais manque de code, de paramètres complets et de détails d'entraînement
  • L'utilisation du modèle FastDepth public aide à la reproduction
  • L'architecture à quatre threads est claire, mais les détails d'implémentation nécessitent des clarifications

Scénarios Applicables

Applications Appropriées :

  1. Navigation de Drones Intérieurs : Couloirs, entrepôts, intérieurs de bâtiments
  2. Robots à Ressources Limitées : Plates-formes mobiles à faible consommation d'énergie
  3. Évitement d'Obstacles en Temps Réel : Scènes nécessitant une réponse rapide
  4. Environnements Structurés : Bâtiments artificiels, installations industrielles

Scènes Inadaptées :

  1. Environnements Naturels Extérieurs : Manque de structures en L
  2. Scènes Hautement Dynamiques : Objets se déplaçant rapidement
  3. Cartes à Très Grande Échelle : Manque de boucles de fermeture globales
  4. Applications Haute Précision : Comme les mesures précises (erreur relative toujours 4.6cm)

Références

Citations Clés :

  1. Série ORB-SLAM : Ligne de base SLAM éparse classique
  2. FastDepth (Wofk et al., ICRA 2019) : Réseau d'estimation de profondeur léger
  3. TUM RGB-D (Sturm et al., 2012) : Ensemble de données standard d'évaluation SLAM
  4. Bundle Adjustment (Triggs et al., 1999) : Technique d'optimisation classique
  5. Epipolar Geometry (Zhang, 1998) : Théorie fondamentale de la géométrie épipolaire
  6. Extended Kalman Filter : Méthode standard de fusion de capteurs
  7. Edge SLAM (Maity et al., ICCV 2017) : Travail précurseur du SLAM de contours
  8. NeRF/NICE-SLAM : Méthodes d'apprentissage pour la reconstruction dense

Évaluation Globale : Cet article est une recherche SLAM pratique orientée vers les plates-formes à ressources limitées, avec une stratégie technique raisonnable et des résultats expérimentaux convaincants. Les contributions principales résident dans l'ingénierie système et l'intégration de méthodes plutôt que dans des percées algorithmiques uniques. L'amélioration de précision de 74.7% et l'accélération de 100x ont une valeur pratique. Cependant, l'article a de la place pour amélioration dans les comparaisons expérimentales, l'analyse d'ablation et la profondeur théorique. Convient à la publication dans des conférences ou revues de robotique appliquée.