2025-11-19T18:31:14.017963

Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors

Danial, Asher, Klein

Monocular simultaneous localization and mapping (SLAM) algorithms estimate drone poses and build a 3D map using a single camera. Current algorithms include sparse methods that lack detailed geometry, while learning-driven approaches produce dense maps but are computationally intensive. Monocular SLAM also faces scale ambiguities, which affect its accuracy. To address these challenges, we propose an edge-aware lightweight monocular SLAM system combining sparse keypoint-based pose estimation with dense edge reconstruction. Our method employs deep learning-based depth prediction and edge detection, followed by optimization to refine keypoints and edges for geometric consistency, without relying on global loop closure or heavy neural computations. We fuse inertial data with vision by using an extended Kalman filter to resolve scale ambiguity and improve accuracy. The system operates in real time on low-power platforms, as demonstrated on a DJI Tello drone with a monocular camera and inertial sensors. In addition, we demonstrate robust autonomous navigation and obstacle avoidance in indoor corridors and on the TUM RGBD dataset. Our approach offers an effective, practical solution to real-time mapping and navigation in resource-constrained environments.

academic

Localisation Simultanée et Cartographie 3D Semi-Dense pour Micro-Drones Utilisant une Caméra Monoculaire et des Capteurs Inertiels

Informations Fondamentales

ID de l'article : 2511.14335
Titre : Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors
Auteurs : Jeryes Danial (Université de Haïfa), Yosi Ben Asher (Université de Haïfa), Itzik Klein (Université de Haïfa)
Classification : cs.RO (Robotique)
Date de publication : 18 novembre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2511.14335

Résumé

Cet article propose un système SLAM monoculaire léger et sensible aux contours pour les micro-drones utilisant une caméra monoculaire pour la localisation et la cartographie simultanées (SLAM). Le système combine l'estimation de pose par points clés épars et la reconstruction dense des contours, en utilisant l'apprentissage profond pour la prédiction de profondeur et la détection de contours, tout en réalisant la cohérence géométrique par optimisation sans dépendre de boucles de fermeture globales ou de calculs de réseaux de neurones lourds. Le système utilise un filtre de Kalman étendu pour fusionner les données inertielles et les informations visuelles, résolvant le problème d'ambiguïté d'échelle et améliorant la précision. Il a été implémenté en temps réel sur le drone DJI Tello et a démontré des capacités robustes de navigation autonome et d'évitement d'obstacles sur l'ensemble de données TUM RGBD.

Contexte de Recherche et Motivation

Problèmes Fondamentaux à Résoudre

Problème de cartographie éparse : Les systèmes SLAM traditionnels basés sur des points caractéristiques (tels que ORB-SLAM), bien qu'efficaces pour l'estimation de pose, génèrent des nuages de points 3D trop épars, manquant de richesse structurelle et inadaptés aux tâches nécessitant une compréhension 3D dense
Limitations des ressources de calcul : Les méthodes SLAM denses pilotées par l'apprentissage existantes (telles que NeRF, NICE-SLAM) sont gourmandes en calcul et difficiles à exécuter en temps réel sur des plates-formes embarquées à ressources limitées
Ambiguïté d'échelle : L'incertitude d'échelle inhérente au SLAM monoculaire affecte la précision de la localisation
Coût d'optimisation globale : Le SLAM traditionnel dépend de la détection de boucles de fermeture et de l'ajustement de faisceaux global, entraînant des coûts de calcul importants

Importance de la Recherche

La navigation autonome des micro-drones nécessite des capacités de perception 3D en temps réel et précises pour la navigation, l'évitement d'obstacles et l'interaction avec l'environnement. La réalisation de cet objectif sur des plates-formes embarquées à ressources limitées est un défi fondamental dans le domaine de la robotique.

Limitations des Méthodes Existantes

ORB-SLAM : Génère uniquement des points 3D épars, manquant de détails structurels
Edge SLAM : Bien que capable de générer des cartes semi-denses, dépend de l'optimisation globale avec un coût de calcul élevé, et le suivi basé sur le flux optique introduit du bruit
DeepTAM/D3VO : Les méthodes d'apprentissage profond ont un grand nombre de paramètres et une complexité de calcul élevée, inadaptées aux appareils à faible consommation d'énergie
NeRF/NICE-SLAM : Nécessitent des GPU haut de gamme, supposent des scènes statiques et manquent de temps réel

Motivation de la Recherche

Développer un système SLAM léger et en temps réel capable de générer des cartes semi-denses sur des plates-formes à ressources limitées tout en maintenant une estimation de pose haute précision.

Contributions Principales

Pipeline SLAM léger : Intègre la géométrie épipolaire éparse avec la prédiction de profondeur dense et l'extraction de contours, réalisant la construction de cartes semi-denses ancrées aux contours
Perte de cohérence de boucle de contour : Propose une contrainte de cohérence de projection de contours multi-vues sans appariement explicite de contours 2D-2D
Contraintes structurelles sensibles à la forme : Régularisation géométrique basée sur les structures en L, améliorant la cohérence structurelle dans les environnements intérieurs
Optimisation géométrique locale : Ajustement de faisceaux multi-objectifs optimisant conjointement les poses de caméra, les points clés et les segments de contours, sans boucles de fermeture globales ni fusion de voxels dense
Fusion visuelle-inertielle : Utilise un filtre de Kalman étendu pour fusionner les données inertielles résolvant le problème d'ambiguïté d'échelle

Explication Détaillée de la Méthode

Définition de la Tâche

Entrées :

Séquence d'images de caméra monoculaire
Données de l'unité de mesure inertielle (IMU) (vitesse linéaire, angles d'Euler)
Matrice des paramètres intrinsèques de la caméra K

Sorties :

Trajectoire de pose de caméra {Ti} ∈ SE(3)
Carte 3D semi-dense des contours
Carte 3D éparse des points clés

Contraintes : Exigences de temps réel, plate-forme à ressources limitées (par exemple, drone DJI Tello)

Architecture du Modèle

Le système adopte une architecture parallèle à quatre threads (comme illustré à la Figure 1) :

Thread 1 : Prétraitement d'Image et Extraction de Caractéristiques (Bleu)

Détection de points clés ORB : Extraction de points caractéristiques ORB et descripteurs
Détection de contours Canny : Détection des contours d'image
Prédiction de profondeur : Utilise le CNN FastDepth pré-entraîné (architecture basée sur MobileNet-NNConv5) pour prédire la carte de profondeur dense
Appariement de caractéristiques : Utilise la distance de Hamming pour apparier les descripteurs ORB, accélérant la recherche du plus proche voisin via arbre KD

Thread 2 : Estimation de Pose et Fusion de Capteurs (Vert)

Estimation de Pose Relative :

Estime la matrice essentielle E à partir des caractéristiques ORB appariées via géométrie épipolaire :
```
u_j^T E_ij u_i = 0
```
Utilise RANSAC pour éliminer les valeurs aberrantes, décomposition SVD pour récupérer la rotation relative R_ij et la translation t_ij

Fusion du Filtre de Kalman Étendu :

Vecteur d'état :

x = [p, α]^T = [x, y, z, φ, θ, ψ]^T

où p est la position globale et α sont les angles d'Euler (roulis, tangage, lacet)

Étape de prédiction :

p_{k|k-1} = p_{k-1} + R_imu(α_{k-1}) · v_imu · Δt

Bruit de Processus Adaptatif :

Q_k = β · (1 - b_k + λτ) · I_6

où b_k est le niveau de batterie, τ est le temps écoulé depuis la dernière mise à jour monoculaire, tenant compte de la dégradation de la précision des données SDK avec la baisse de batterie et le passage du temps

Mise à Jour de Mesure :

Observation 1 : Angles d'Euler du SDK z_api = α_api
Observation 2 : Estimation de pose globale de l'odomètrie visuelle (via accumulation de poses relatives)

Thread 3 : Génération de Carte de Contours Dense et Points d'Ancrage 3D (Jaune)

Utilisant la carte de profondeur et la pose de caméra estimée, reconstruit les points 3D (points d'ancrage) via triangulation :

P^k* = argmin_P ||u_i^k - π(K P)||^2 + ||u_j^k - π(K[R_ij* P + t_ij*])||^2

Thread 4 : Optimisation Locale Sensible aux Contours (Rose)

Conception de Fonction de Perte Multi-Objectifs :

Perte de Reprojection (points clés épars) :

L_reproj = Σ_i,k ||u_ik - u_ik^proj||^2

où u_ik^proj = π(R_i P^k + t_i)

Perte de Cohérence de Boucle (points de contours denses) : Implémente la vérification de transformation en boucle fermée validant la cohérence des points de contours :

P_i = π^{-1}(u_i*, d_i) → P_j = T_{i,j} · P_i → u_j = π(P_j)
→ P'_j = π^{-1}(u_j, d_j) → P'_i = T_{i,j}^{-1} · P'_j → u'_i = π(P'_i)

L_cycle = Σ_{u_i* ∈ E} ||u_i* - u'_i||^2

Perte de Structure en L (régularisation géométrique) :

Cohérence d'Angle :

L_angle = (1/N) Σ_i (cos(θ_proj^(i)) - cos(θ_expected^(i)))^2

Contrainte de Colinéarité :

L_collinear = (1/N) Σ_i [(1/M_1^(i)) Σ_j d_{j,1}^2 + (1/M_2^(i)) Σ_k d_{k,2}^2]

Perte Combinée :

L_Lshape = λ_θ L_angle + λ_col L_collinear

Objectif d'Optimisation Total :

min_{P_w, T_w, D_w} L_total = λ_reproj L_reproj + λ_cycle L_cycle + λ_shape L_Lshape

Algorithme d'Optimisation : Utilise l'algorithme de Levenberg-Marquardt pour résoudre le problème des moindres carrés non linéaires, équilibrant Gauss-Newton et la descente de gradient

Points d'Innovation Technique

Cartographie Semi-Dense Sensible aux Contours : Combine les points clés épars et les contours denses, atteignant un équilibre entre l'efficacité de calcul et les détails de la carte
Sans Appariement Explicite de Contours : Évite la recherche complexe de correspondance de contours via la perte de cohérence de boucle
Régularisation Structurelle Consciente : Utilise les priors géométriques en L des environnements intérieurs pour améliorer la qualité de reconstruction
Stratégie d'Optimisation Locale : Évite la détection de boucles de fermeture globales, réduisant la complexité de calcul
Fusion de Capteurs Adaptative : Modélisation du bruit de processus tenant compte du niveau de batterie et du temps

Stratégies pour Relever les Défis d'Optimisation

Problèmes Non-Linéaires : Utilise la régularisation et l'algorithme de Levenberg-Marquardt pour stabiliser la convergence
Singularités : La régularisation diagonale (μI) assure l'inversibilité
Matrice Jacobienne Mal Conditionnée : Améliore la disparité via des mouvements de caméra obliques (par exemple, trajectoires en zigzag)
Déséquilibre de Perte : Ajustement adaptatif des poids basé sur l'incertitude

Configuration Expérimentale

Ensembles de Données

Ensemble de Données de Référence TUM RGB-D
- 23 séquences intérieures, durée 2-10 minutes
- Inclut des images RGB-D synchronisées et des poses de vérité terrain
- Modes de mouvement, angles de vue et conditions d'éclairage diversifiés
- Publié par l'équipe TUM CVPR, licence Creative Commons
Ensemble d'Entraînement d'Estimation de Profondeur
- Modèle FastDepth pré-entraîné sur l'ensemble de données NYU Depth v2
- Utilise MobileNet comme réseau de base
- Utilise des convolutions séparables en profondeur pour réduire la complexité
Plate-forme de Test Réelle
- Drone DJI Tello
- Caméra monoculaire + capteurs inertiels
- Environnement de couloir intérieur

Métriques d'Évaluation

Erreur de Pose Absolue (APE) :

APE_i = ||t_est^i - t_gt^i||_2

Mesure l'erreur de distance euclidienne instantanée à chaque horodatage

Erreur de Trajectoire Absolue (ATE) :

ATE_RMS = sqrt((1/N) Σ_i ||T_gt^{-1}_i T_est_i||_F^2)

Évalue la dérive globale de la séquence entière (incluant translation et rotation)

Méthodes de Comparaison

ORB-SLAM2 : Méthode de base, représentant le SLAM traditionnel basé sur des caractéristiques éparses

Détails d'Implémentation

Plate-forme : Ordinateur portable Ubuntu 16.04
Réseau de Profondeur : FastDepth pré-entraîné (MobileNet-NNConv5)
Détection de Caractéristiques : ORB + détection de contours Canny
Fenêtre d'Optimisation : Ajustement de faisceaux local avec fenêtre glissante
Paramètres de Poids : λ_reproj, λ_cycle, λ_shape (valeurs spécifiques non fournies dans l'article)
Paramètres EKF : β, λ pour le bruit de processus adaptatif

Résultats Expérimentaux

Résultats Principaux

Évaluation Quantitative sur l'Ensemble de Données TUM RGB-D (Tableau I) :

Méthode	RMSE m	Moyenne m	Écart-type m
ORB-SLAM2 (référence)	0.182	0.17	0.71
SLAM Sensible aux Contours (présent)	0.046	0.040	0.011
Taux d'Amélioration	74.7%	76.5%	98.4%

Découvertes Clés :

Réduction RMSE de 74.7%, amélioration significative de la précision de trajectoire
Réduction d'écart-type de 98.4%, démontrant une estimation de pose plus stable
Réduction d'erreur moyenne de 76.5%, biais systématique réduit

Évaluation Qualitative de la Carte

Cartographie en Stade Précoce (Figure 4) :

La méthode proposée génère une carte 3D de contours claire et précise dès les images initiales
Le nuage de points d'ORB-SLAM2 a une interprétabilité faible au stade précoce

Cartographie de Séquence Complète (Figure 5) :

La méthode proposée maintient une haute précision après traitement de la séquence complète, sans dérive
La clarté et l'interprétabilité de la carte d'ORB-SLAM2 sont inférieures

Environnement de Laboratoire (Figure 6) :

Du début à la fin de la séquence, la méthode proposée maintient une carte 3D de contours haute précision
Pas de dérive ou d'accumulation d'erreur, validant la robustesse et la fiabilité du système

Efficacité de Calcul

Indicateurs de Performance Clés :

La création de carte de contours basée sur ORB est environ 100 fois plus rapide qu'ORB-SLAM
Supporte le déploiement sur petit matériel comme Raspberry Pi Zero
Réalise un vrai traitement en temps réel

Découvertes Expérimentales

Avantages de l'Amélioration des Contours : Les cartes semi-denses enrichies de contours fournissent des informations structurelles plus riches que les nuages de points épars
Efficacité de l'Optimisation Locale : Maintient la cohérence à long terme sans boucles de fermeture globales
Valeur de la Fusion de Capteurs : La fusion EKF résout efficacement le problème d'ambiguïté d'échelle monoculaire
Apprentissage Profond Léger : FastDepth satisfait les exigences de temps réel tout en maintenant la précision
Rôle des Priors Structurels : Les contraintes en L améliorent significativement la qualité de reconstruction dans les environnements intérieurs

Travaux Connexes

Méthodes SLAM Traditionnelles

Série ORB-SLAM : Méthode classique basée sur des caractéristiques éparses, dépendant de l'optimisation globale
Voxel Map : Récupération et inférence de visibilité améliorées, mais toujours éparse
SfM : Technique fondamentale de reconstruction 3D à partir de plusieurs images

Odomètrie Visuelle-Inertielle

Méthodes Basées sur EKF : Estimation de pose rapide et efficace (par exemple, VINS-Mono, MSCKF-DVIO)
Limitations : Génèrent généralement des nuages de points 3D épars

SLAM Dense Piloté par l'Apprentissage

DeepTAM : Réseau de neurones profonds générant des cartes de profondeur denses, mais précision limitée et calcul intensif
D3VO : Haute précision mais modèle complexe, inadapté aux appareils à faible consommation d'énergie
NeRF/NICE-SLAM : Reconstruction haute fidélité, mais nécessite des GPU haut de gamme et des scènes statiques
NeuralRecon : Fusion de profondeur et pose, calcul non réalisable

SLAM de Contours

Edge SLAM : Génère des cartes semi-denses, mais dépend de l'optimisation globale, le suivi basé sur flux optique introduit du bruit

Avantages de Cet Article

Combine les méthodes géométriques traditionnelles et l'apprentissage profond léger
Remplace l'optimisation globale par une optimisation locale
Adapté à l'exécution en temps réel sur des plates-formes à ressources limitées

Conclusion et Discussion

Conclusions Principales

Le système SLAM sensible aux contours proposé réalise une cartographie 3D en temps réel et précise sur des plates-formes à ressources limitées
Par rapport à ORB-SLAM2, l'amélioration RMSE de la trajectoire et de l'estimation de pose est de 74.5%
La carte semi-dense générée est plus précise et détaillée
La vitesse de traitement est environ 100 fois plus rapide qu'ORB-SLAM, supportant le déploiement embarqué

Limitations

Hypothèses Environnementales : Les contraintes de structure en L s'appliquent principalement aux environnements intérieurs artificiels, pouvant être inadaptées aux scènes naturelles
Dépendance à la Profondeur : Dépend du modèle FastDepth pré-entraîné, les performances peuvent se dégrader en dehors du domaine d'entraînement
Scènes Dynamiques : L'article ne discute pas explicitement du traitement des objets dynamiques
Ajustement des Paramètres : Plusieurs paramètres de poids (λ_reproj, λ_cycle, λ_shape) nécessitent un ajustement manuel
Dérive à Long Terme : Bien que la cohérence locale soit bonne, l'absence de boucles de fermeture globales peut accumuler des erreurs dans les séquences très longues
Analyse Quantitative Insuffisante : Comparaison uniquement avec ORB-SLAM2, manque de comparaison avec d'autres méthodes modernes

Directions Futures

L'article ne propose pas explicitement de directions futures, mais les directions potentielles incluent :

Extension aux environnements extérieurs et non structurés
Intégration d'un mécanisme léger de détection de boucles de fermeture
Traitement des objets dynamiques et des occlusions
Apprentissage adaptatif des poids
Fusion multi-capteurs (par exemple, LiDAR)

Évaluation Approfondie

Points Forts

Innovativité Technique :

Conception d'Architecture Hybride : Combine intelligemment la géométrie éparse et l'apprentissage dense, atteignant un équilibre entre précision et efficacité
Perte de Cohérence de Boucle : Conception innovante de contrainte sans appariement explicite de contours
Régularisation Structurelle Consciente : Utilise les priors environnementaux pour améliorer la qualité de reconstruction
Fusion de Capteurs Adaptative : La modélisation du bruit de processus tenant compte du niveau de batterie a une signification pratique

Suffisance Expérimentale :

Validation sur l'ensemble de données standard (TUM RGB-D) et la plate-forme réelle (DJI Tello)
Les résultats quantitatifs et qualitatifs se renforcent mutuellement
Analyse complète de l'efficacité de calcul (accélération 100x)

Pouvoir de Conviction des Résultats :

L'amélioration RMSE de 74.7% est significative
La réduction d'écart-type de 98.4% prouve la stabilité
Les résultats visuels montrent clairement les avantages de la cartographie semi-dense

Clarté de la Rédaction :

Définition claire du problème, dérivations mathématiques rigoureuses
Diagramme d'architecture système intuitif
Conception à quatre threads facile à comprendre

Insuffisances

Limitations de la Méthode :

Capacité de Généralisation : Les contraintes en L limitent la portée d'application de la méthode
Cohérence à Long Terme : L'absence de boucles de fermeture globales peut poser problème dans les scènes à grande échelle
Dépendance à la Qualité de Profondeur : FastDepth peut échouer dans certaines scènes

Défauts de Configuration Expérimentale :

Méthodes de Comparaison Uniques : Comparaison uniquement avec ORB-SLAM2, manque de comparaison avec Edge SLAM, VINS-Mono, etc.
Paramètres Manquants : Ne fournit pas les valeurs des paramètres clés λ_reproj, λ_cycle, λ_shape
Expériences d'Ablation Insuffisantes : N'analyse pas séparément la contribution de chaque terme de perte
Limitations des Ensembles de Données : Tests principalement en environnement intérieur, performances extérieures inconnues

Analyse Insuffisante :

Cas d'Échec : Ne discute pas des situations où la méthode échoue
Analyse de Calcul : Manque d'analyse détaillée de la consommation de temps et de mémoire
Tests de Robustesse : N'a pas testé la sensibilité au bruit, aux occlusions et aux changements d'éclairage
Analyse Théorique : Manque de garanties de convergence et d'analyse des bornes d'erreur

Impact

Contribution au Domaine :

Fournit une solution pratique pour le SLAM sur des plates-formes à ressources limitées
Démontre le potentiel de la combinaison des méthodes traditionnelles et de l'apprentissage profond léger
L'approche de cartographie sensible aux contours peut inspirer les recherches ultérieures

Valeur Pratique :

Le déploiement réussi sur DJI Tello prouve la praticité
L'accélération 100x rend les applications embarquées possibles
Les cartes semi-denses conviennent aux tâches de navigation et d'évitement d'obstacles

Reproductibilité :

Moyenne : L'article fournit les détails de la méthode, mais manque de code, de paramètres complets et de détails d'entraînement
L'utilisation du modèle FastDepth public aide à la reproduction
L'architecture à quatre threads est claire, mais les détails d'implémentation nécessitent des clarifications

Scénarios Applicables

Applications Appropriées :

Navigation de Drones Intérieurs : Couloirs, entrepôts, intérieurs de bâtiments
Robots à Ressources Limitées : Plates-formes mobiles à faible consommation d'énergie
Évitement d'Obstacles en Temps Réel : Scènes nécessitant une réponse rapide
Environnements Structurés : Bâtiments artificiels, installations industrielles

Scènes Inadaptées :

Environnements Naturels Extérieurs : Manque de structures en L
Scènes Hautement Dynamiques : Objets se déplaçant rapidement
Cartes à Très Grande Échelle : Manque de boucles de fermeture globales
Applications Haute Précision : Comme les mesures précises (erreur relative toujours 4.6cm)

Références

Citations Clés :

Série ORB-SLAM : Ligne de base SLAM éparse classique
FastDepth (Wofk et al., ICRA 2019) : Réseau d'estimation de profondeur léger
TUM RGB-D (Sturm et al., 2012) : Ensemble de données standard d'évaluation SLAM
Bundle Adjustment (Triggs et al., 1999) : Technique d'optimisation classique
Epipolar Geometry (Zhang, 1998) : Théorie fondamentale de la géométrie épipolaire
Extended Kalman Filter : Méthode standard de fusion de capteurs
Edge SLAM (Maity et al., ICCV 2017) : Travail précurseur du SLAM de contours
NeRF/NICE-SLAM : Méthodes d'apprentissage pour la reconstruction dense

Évaluation Globale : Cet article est une recherche SLAM pratique orientée vers les plates-formes à ressources limitées, avec une stratégie technique raisonnable et des résultats expérimentaux convaincants. Les contributions principales résident dans l'ingénierie système et l'intégration de méthodes plutôt que dans des percées algorithmiques uniques. L'amélioration de précision de 74.7% et l'accélération de 100x ont une valeur pratique. Cependant, l'article a de la place pour amélioration dans les comparaisons expérimentales, l'analyse d'ablation et la profondeur théorique. Convient à la publication dans des conférences ou revues de robotique appliquée.