2025-11-19T18:31:14.017963

Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors

Danial, Asher, Klein

Monocular simultaneous localization and mapping (SLAM) algorithms estimate drone poses and build a 3D map using a single camera. Current algorithms include sparse methods that lack detailed geometry, while learning-driven approaches produce dense maps but are computationally intensive. Monocular SLAM also faces scale ambiguities, which affect its accuracy. To address these challenges, we propose an edge-aware lightweight monocular SLAM system combining sparse keypoint-based pose estimation with dense edge reconstruction. Our method employs deep learning-based depth prediction and edge detection, followed by optimization to refine keypoints and edges for geometric consistency, without relying on global loop closure or heavy neural computations. We fuse inertial data with vision by using an extended Kalman filter to resolve scale ambiguity and improve accuracy. The system operates in real time on low-power platforms, as demonstrated on a DJI Tello drone with a monocular camera and inertial sensors. In addition, we demonstrate robust autonomous navigation and obstacle avoidance in indoor corridors and on the TUM RGBD dataset. Our approach offers an effective, practical solution to real-time mapping and navigation in resource-constrained environments.

academic

Localizzazione Simultanea e Mappatura 3D Semi-Densa per Micro Droni Utilizzando Fotocamera Monoculare e Sensori Inerziali

Informazioni Fondamentali

ID Articolo: 2511.14335
Titolo: Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors
Autori: Jeryes Danial (University of Haifa), Yosi Ben Asher (University of Haifa), Itzik Klein (University of Haifa)
Classificazione: cs.RO (Robotica)
Data di Pubblicazione: 18 novembre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2511.14335

Riassunto

Questo articolo affronta le sfide della localizzazione e mappatura simultanea (SLAM) monoculare per micro droni, proponendo un sistema SLAM monoculare leggero e consapevole dei bordi. Il sistema combina la stima della posa da punti chiave sparsi con la ricostruzione densa dei bordi, utilizzando l'apprendimento profondo per la predizione della profondità e il rilevamento dei bordi, realizzando la coerenza geometrica attraverso l'ottimizzazione senza dipendere da cicli di chiusura globali o da reti neurali pesanti. Il sistema utilizza un filtro di Kalman esteso per fondere i dati inerziali con le informazioni visive, risolvendo il problema dell'ambiguità di scala e migliorando la precisione. È stato implementato in tempo reale sul drone DJI Tello e ha dimostrato capacità robuste di navigazione autonoma e evitamento degli ostacoli sul dataset TUM RGBD.

Contesto di Ricerca e Motivazione

Problemi Fondamentali da Risolvere

Problema della Mappa Sparsa: I sistemi SLAM tradizionali basati su punti caratteristici (come ORB-SLAM), sebbene stimino efficacemente la posa, generano mappe di nuvole di punti 3D troppo sparse, mancando di ricchezza strutturale e inadatte per compiti che richiedono una comprensione 3D densa
Limitazioni delle Risorse Computazionali: I metodi SLAM densi guidati dall'apprendimento esistenti (come NeRF, NICE-SLAM) hanno un carico computazionale elevato e difficilmente funzionano in tempo reale su piattaforme embedded con risorse limitate
Ambiguità di Scala: L'incertezza di scala intrinseca del SLAM monoculare influisce sulla precisione della localizzazione
Costo dell'Ottimizzazione Globale: Lo SLAM tradizionale dipende dal rilevamento dei cicli di chiusura e dall'aggiustamento del fascio globale, con elevato carico computazionale

Importanza della Ricerca

La navigazione autonoma di micro droni richiede capacità di percezione 3D in tempo reale e accurate per la navigazione, l'evitamento degli ostacoli e l'interazione ambientale. Realizzare questo obiettivo su piattaforme embedded con risorse limitate è una sfida fondamentale nel campo della robotica.

Limitazioni dei Metodi Esistenti

ORB-SLAM: Genera solo punti 3D sparsi, mancando di dettagli strutturali
Edge SLAM: Sebbene generi mappe semi-dense, dipende dall'ottimizzazione globale con elevato carico computazionale e il tracciamento basato sul flusso ottico introduce rumore
DeepTAM/D3VO: I metodi di apprendimento profondo hanno un numero elevato di parametri e complessità computazionale elevata, inadatti per dispositivi a basso consumo energetico
NeRF/NICE-SLAM: Richiedono GPU di fascia alta, assumono scene statiche e mancano di tempo reale

Motivazione della Ricerca

Sviluppare un sistema SLAM leggero e in tempo reale in grado di generare mappe semi-dense su piattaforme con risorse limitate, mantenendo al contempo una stima della posa ad alta precisione.

Contributi Fondamentali

Pipeline SLAM Leggera: Integra la geometria epipolare sparsa con la predizione della profondità densa e l'estrazione dei bordi, realizzando la costruzione di mappe semi-dense ancorate ai bordi
Perdita di Coerenza del Ciclo dei Bordi: Propone vincoli di coerenza della proiezione multi-vista dei bordi senza richiedere corrispondenze esplicite 2D-2D dei bordi
Vincoli Strutturali Consapevoli della Forma: Regolarizzazione geometrica basata su strutture a forma di L, migliorando la coerenza strutturale negli ambienti interni
Ottimizzazione Geometrica Locale: Aggiustamento del fascio multi-obiettivo che ottimizza congiuntamente la posa della fotocamera, i punti chiave e i segmenti dei bordi, senza richiedere cicli di chiusura globali o fusione voxel densa
Fusione Visivo-Inerziale: Utilizza un filtro di Kalman esteso per fondere i dati inerziali risolvendo il problema dell'ambiguità di scala

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input:

Sequenza di immagini da fotocamera monoculare
Dati dell'Unità di Misura Inerziale (IMU) (velocità lineare, angoli di Eulero)
Matrice dei parametri intrinseci della fotocamera K

Output:

Traiettoria della posa della fotocamera {Ti} ∈ SE(3)
Mappa semi-densa 3D dei bordi
Mappa sparsa 3D dei punti chiave

Vincoli: Requisiti di tempo reale, piattaforma con risorse limitate (come il drone DJI Tello)

Architettura del Modello

Il sistema adotta un'architettura parallela a quattro thread (come mostrato nella Figura 1):

Thread 1: Preprocessamento delle Immagini ed Estrazione delle Caratteristiche (Blu)

Rilevamento dei Punti Chiave ORB: Estrae i punti caratteristici ORB e i descrittori
Rilevamento dei Bordi Canny: Rileva i bordi dell'immagine
Predizione della Profondità: Utilizza la CNN FastDepth pre-addestrata (architettura basata su MobileNet-NNConv5) per predire la mappa di profondità densa
Corrispondenza delle Caratteristiche: Utilizza la distanza di Hamming per abbinare i descrittori ORB, accelerando la ricerca del vicino più prossimo tramite albero KD

Thread 2: Stima della Posa e Fusione dei Sensori (Verde)

Stima della Posa Relativa:

Stima la matrice essenziale E dai punti caratteristici ORB abbinati tramite geometria epipolare:
```
u_j^T E_ij u_i = 0
```
Utilizza RANSAC per eliminare i valori anomali, decomposizione SVD per recuperare la rotazione relativa R_ij e la traslazione t_ij

Fusione del Filtro di Kalman Esteso:

Vettore di stato:

x = [p, α]^T = [x, y, z, φ, θ, ψ]^T

dove p è la posizione globale e α sono gli angoli di Eulero (rollio, beccheggio, imbardata)

Fase di Predizione:

p_{k|k-1} = p_{k-1} + R_imu(α_{k-1}) · v_imu · Δt

Rumore di Processo Adattivo:

Q_k = β · (1 - b_k + λτ) · I_6

dove b_k è la carica della batteria, τ è il tempo trascorso dall'ultimo aggiornamento monoculare, considerando il degrado della precisione dei dati SDK al diminuire della carica e al passare del tempo

Aggiornamento della Misurazione:

Osservazione 1: Angoli di Eulero dall'API SDK z_api = α_api
Osservazione 2: Stima della posa globale dall'odometria visiva (tramite accumulo della posa relativa)

Thread 3: Generazione della Mappa Densa dei Bordi e dei Punti di Ancoraggio 3D (Giallo)

Utilizza la mappa di profondità e la posa della fotocamera stimata per ricostruire i punti 3D (punti di ancoraggio) tramite triangolazione:

P^k* = argmin_P ||u_i^k - π(K P)||^2 + ||u_j^k - π(K[R_ij* P + t_ij*])||^2

Thread 4: Ottimizzazione Locale Consapevole dei Bordi (Rosa)

Progettazione della Funzione di Perdita Multi-Obiettivo:

Perdita di Riproiezione (punti chiave sparsi):

L_reproj = Σ_i,k ||u_ik - u_ik^proj||^2

dove u_ik^proj = π(R_i P^k + t_i)

Perdita di Coerenza del Ciclo (punti dei bordi densi): Verifica la coerenza dei punti dei bordi tramite trasformazione di ciclo chiuso:

P_i = π^{-1}(u_i*, d_i) → P_j = T_{i,j} · P_i → u_j = π(P_j)
→ P'_j = π^{-1}(u_j, d_j) → P'_i = T_{i,j}^{-1} · P'_j → u'_i = π(P'_i)

L_cycle = Σ_{u_i* ∈ E} ||u_i* - u'_i||^2

Perdita della Struttura a Forma di L (regolarizzazione geometrica):

Coerenza Angolare:

L_angle = (1/N) Σ_i (cos(θ_proj^(i)) - cos(θ_expected^(i)))^2

Vincolo di Collinearità:

L_collinear = (1/N) Σ_i [(1/M_1^(i)) Σ_j d_{j,1}^2 + (1/M_2^(i)) Σ_k d_{k,2}^2]

Perdita Combinata:

L_Lshape = λ_θ L_angle + λ_col L_collinear

Obiettivo di Ottimizzazione Totale:

min_{P_w, T_w, D_w} L_total = λ_reproj L_reproj + λ_cycle L_cycle + λ_shape L_Lshape

Algoritmo di Ottimizzazione: Utilizza l'algoritmo di Levenberg-Marquardt per risolvere il problema dei minimi quadrati non lineari, bilanciando Gauss-Newton e la discesa del gradiente

Punti di Innovazione Tecnica

Mappatura Semi-Densa Consapevole dei Bordi: Combina punti chiave sparsi e bordi densi, raggiungendo un equilibrio tra efficienza computazionale e dettagli della mappa
Nessuna Corrispondenza Esplicita dei Bordi: Evita la ricerca complessa di corrispondenze dei bordi 2D tramite perdita di coerenza del ciclo
Regolarizzazione Consapevole della Struttura: Sfrutta i priori geometrici a forma di L degli ambienti interni per migliorare la qualità della ricostruzione
Strategia di Ottimizzazione Locale: Evita il rilevamento dei cicli di chiusura globali, riducendo la complessità computazionale
Fusione Adattiva dei Sensori: Modellazione del rumore di processo considerando la carica della batteria e il tempo

Strategie per Affrontare le Sfide di Ottimizzazione

Problemi Non Lineari: Utilizza regolarizzazione e algoritmo di Levenberg-Marquardt per stabilizzare la convergenza
Singolarità: La regolarizzazione diagonale (μI) assicura l'invertibilità
Matrice Jacobiana Mal Condizionata: Migliora la parallasse tramite movimento della fotocamera obliquo (come traiettorie a zig-zag)
Squilibrio delle Perdite: Regolazione adattiva dei pesi basata sull'incertezza

Configurazione Sperimentale

Dataset

Dataset di Benchmark TUM RGB-D
- 23 sequenze indoor, durata 2-10 minuti
- Include immagini RGB-D sincronizzate e posa ground truth
- Modalità di movimento diversificate, angoli di visione e condizioni di illuminazione
- Pubblicato dal team TUM CVPR, licenza Creative Commons
Dataset di Addestramento per la Stima della Profondità
- Modello FastDepth pre-addestrato sul dataset NYU Depth v2
- Utilizza MobileNet come rete backbone
- Impiega convoluzione separabile in profondità per ridurre la complessità
Piattaforma di Test Reale
- Drone DJI Tello
- Fotocamera monoculare + sensori inerziali
- Ambiente di corridoi interni

Metriche di Valutazione

Errore di Posa Assoluto (APE):

APE_i = ||t_est^i - t_gt^i||_2

Misura l'errore di distanza euclidea istantanea per ogni timestamp

Errore di Traiettoria Assoluto (ATE):

ATE_RMS = sqrt((1/N) Σ_i ||T_gt^{-1}_i T_est_i||_F^2)

Valuta la deriva globale dell'intera sequenza (inclusi traslazione e rotazione)

Metodi di Confronto

ORB-SLAM2: Come metodo di base, rappresentante dello SLAM tradizionale basato su caratteristiche sparse

Dettagli di Implementazione

Piattaforma: Notebook Ubuntu 16.04
Rete di Profondità: FastDepth pre-addestrato (MobileNet-NNConv5)
Rilevamento delle Caratteristiche: ORB + rilevamento dei bordi Canny
Finestra di Ottimizzazione: Aggiustamento del fascio locale con finestra scorrevole
Parametri di Peso: λ_reproj, λ_cycle, λ_shape (i valori specifici non sono forniti nel documento)
Parametri EKF: β, λ per il rumore di processo adattivo

Risultati Sperimentali

Risultati Principali

Valutazione Quantitativa sul Dataset TUM RGB-D (Tabella I):

Metodo	RMSE m	Media m	Dev. Std. m
ORB-SLAM2 (baseline)	0.182	0.17	0.71
Edge-Aware SLAM (questo articolo)	0.046	0.040	0.011
Tasso di Miglioramento	74.7%	76.5%	98.4%

Scoperte Chiave:

Riduzione RMSE del 74.7%, miglioramento significativo della precisione della traiettoria
Riduzione della deviazione standard del 98.4%, indicando una stima della posa più stabile
Riduzione dell'errore medio del 76.5%, deviazione sistematica minore

Valutazione Qualitativa della Mappa

Mappatura nella Fase Iniziale (Figura 4):

Il metodo proposto genera una mappa 3D dei bordi chiara e accurata fin dai frame iniziali
La nuvola di punti di ORB-SLAM2 ha scarsa interpretabilità nella fase iniziale

Mappatura della Sequenza Completa (Figura 5):

Il metodo proposto mantiene alta precisione dopo l'elaborazione della sequenza completa, senza deriva
La chiarezza e l'interpretabilità della mappa di ORB-SLAM2 sono inferiori

Ambiente di Laboratorio (Figura 6):

Dall'inizio alla fine della sequenza, il metodo proposto mantiene una mappa 3D dei bordi ad alta precisione
Nessuna deriva o accumulo di errori, verificando la robustezza e l'affidabilità del sistema

Efficienza Computazionale

Indicatori di Prestazione Chiave:

La velocità di creazione della mappa dei bordi basata su ORB è circa 100 volte più veloce di ORB-SLAM
Supporta il deployment su hardware di piccole dimensioni come Raspberry Pi Zero
Realizza un vero elaborazione in tempo reale

Scoperte Sperimentali

Vantaggi dell'Aumento dei Bordi: La mappa semi-densa dei bordi fornisce informazioni strutturali più ricche rispetto alla nuvola di punti sparsa
Efficacia dell'Ottimizzazione Locale: Mantiene la coerenza a lungo termine senza richiedere cicli di chiusura globali
Valore della Fusione dei Sensori: La fusione EKF risolve efficacemente il problema dell'ambiguità di scala monoculare
Apprendimento Profondo Leggero: FastDepth soddisfa i requisiti di tempo reale mantenendo la precisione
Ruolo del Priore Strutturale: Il vincolo a forma di L migliora significativamente la qualità della ricostruzione negli ambienti interni

Lavori Correlati

Metodi SLAM Tradizionali

Serie ORB-SLAM: Metodo classico basato su caratteristiche sparse, dipende dall'ottimizzazione globale
Mappa Voxel: Recupero migliorato e inferenza di visibilità, ma ancora sparsa
SfM: Tecnologia fondamentale per la ricostruzione 3D da più immagini

Odometria Visivo-Inerziale

Metodi Basati su EKF: Stima della posa veloce ed efficiente (come VINS-Mono, MSCKF-DVIO)
Limitazioni: Generalmente producono nuvole di punti 3D sparse

SLAM Guidato dall'Apprendimento

DeepTAM: Genera mappe di profondità dense tramite reti neurali profonde, ma precisione limitata e carico computazionale elevato
D3VO: Alta precisione ma modello complesso, inadatto per dispositivi a basso consumo energetico
NeRF/NICE-SLAM: Ricostruzione ad alta fedeltà, ma richiede GPU di fascia alta e scene statiche
NeuralRecon: Fonde profondità e posa, computazionalmente non fattibile

Edge SLAM

Edge SLAM: Genera mappe semi-dense, ma dipende dall'ottimizzazione globale e il tracciamento basato sul flusso ottico introduce rumore

Vantaggi di Questo Articolo

Combina metodi geometrici tradizionali e apprendimento profondo leggero
Sostituisce l'ottimizzazione globale con ottimizzazione locale
Adatto per l'esecuzione in tempo reale su piattaforme con risorse limitate

Conclusioni e Discussione

Conclusioni Principali

Il sistema SLAM proposto consapevole dei bordi realizza mappatura 3D accurata e in tempo reale su piattaforme con risorse limitate
Rispetto a ORB-SLAM2, il miglioramento RMSE della traiettoria e della stima della posa è del 74.5%
La mappa semi-densa generata è più accurata e dettagliata
La velocità di elaborazione è circa 100 volte più veloce di ORB-SLAM, supportando il deployment embedded

Limitazioni

Assunzioni Ambientali: Il vincolo della struttura a forma di L è principalmente applicabile agli ambienti interni artificiali, potrebbe non essere adatto in scene naturali
Dipendenza dalla Profondità: Dipende dal modello FastDepth pre-addestrato, le prestazioni potrebbero degradarsi in scene al di fuori del dominio di addestramento
Scene Dinamiche: L'articolo non discute esplicitamente il trattamento degli oggetti dinamici
Regolazione dei Parametri: Più parametri di peso (λ_reproj, λ_cycle, λ_shape) richiedono regolazione manuale
Deriva a Lungo Termine: Sebbene la coerenza locale sia buona, la mancanza di cicli di chiusura globali potrebbe accumulare errori in sequenze molto lunghe
Analisi Quantitativa Insufficiente: Solo confronto con ORB-SLAM2, mancano confronti con altri metodi moderni

Direzioni Future

L'articolo non propone esplicitamente direzioni future, ma le direzioni potenziali includono:

Estensione a ambienti esterni e non strutturati
Integrazione di meccanismi leggeri di rilevamento dei cicli di chiusura
Trattamento di oggetti dinamici e occlusioni
Apprendimento adattivo dei pesi
Fusione multi-sensore (come LiDAR)

Valutazione Approfondita

Punti di Forza

Innovazione Tecnica:

Progettazione dell'Architettura Ibrida: Combina abilmente la geometria sparsa e l'apprendimento denso, raggiungendo un equilibrio tra precisione ed efficienza
Perdita di Coerenza del Ciclo: Progettazione innovativa dei vincoli senza richiedere corrispondenze esplicite dei bordi
Regolarizzazione Consapevole della Struttura: Sfrutta i priori ambientali per migliorare la qualità della ricostruzione
Fusione Adattiva dei Sensori: La modellazione del rumore di processo considerando la carica della batteria ha significato pratico

Completezza Sperimentale:

Verifica su dataset standard (TUM RGB-D) e piattaforma reale (DJI Tello)
I risultati quantitativi e qualitativi si confermano reciprocamente
Analisi completa dell'efficienza computazionale (accelerazione 100 volte)

Convincenza dei Risultati:

Il miglioramento RMSE del 74.7% è significativo
La riduzione della deviazione standard del 98.4% dimostra la stabilità
I risultati visualizzati mostrano chiaramente i vantaggi della mappa semi-densa

Chiarezza della Scrittura:

Definizione del problema chiara, derivazioni matematiche rigorose
Diagramma dell'architettura del sistema intuitivo
Progettazione a quattro thread facile da comprendere

Insufficienze

Limitazioni del Metodo:

Capacità di Generalizzazione: Il vincolo a forma di L limita l'ambito di applicazione del metodo
Coerenza a Lungo Termine: La mancanza di cicli di chiusura globali potrebbe causare problemi in scene su larga scala
Dipendenza dalla Qualità della Profondità: FastDepth potrebbe fallire in alcuni scenari

Difetti della Configurazione Sperimentale:

Metodi di Confronto Singoli: Solo confronto con ORB-SLAM2, mancano confronti con Edge SLAM, VINS-Mono e altri metodi
Impostazioni dei Parametri Mancanti: Non fornisce i valori dei parametri chiave λ_reproj, λ_cycle, λ_shape
Esperimenti di Ablazione Insufficienti: Non analizza singolarmente il contributo di ogni termine di perdita
Limitazioni del Dataset: Test principalmente in scene indoor, prestazioni outdoor sconosciute

Analisi Insufficiente:

Casi di Fallimento: Non discute i casi in cui il metodo fallisce
Analisi Computazionale: Manca analisi dettagliata del consumo di tempo e memoria
Test di Robustezza: Non testa la sensibilità a rumore, occlusioni e variazioni di illuminazione
Analisi Teorica: Manca garanzie di convergenza e analisi dei limiti di errore

Impatto

Contributi al Campo:

Fornisce una soluzione pratica per SLAM su piattaforme con risorse limitate
Dimostra il potenziale della combinazione di metodi tradizionali e apprendimento profondo leggero
L'idea di mappatura consapevole dei bordi può ispirare ricerche successive

Valore Pratico:

Il successful deployment su DJI Tello dimostra l'applicabilità pratica
L'accelerazione 100 volte rende possibili le applicazioni embedded
La mappa semi-densa è adatta per compiti di navigazione e evitamento degli ostacoli

Riproducibilità:

Media: L'articolo fornisce dettagli del metodo, ma mancano codice, impostazioni complete dei parametri e dettagli di addestramento
L'utilizzo del modello FastDepth pubblico aiuta la riproduzione
L'architettura a quattro thread è chiara, ma i dettagli di implementazione necessitano di integrazione

Scenari Applicabili

Applicazioni Adatte:

Navigazione di Droni Indoor: Corridoi, magazzini, interni di edifici
Robot con Risorse Limitate: Piattaforme mobili a basso consumo energetico
Evitamento degli Ostacoli in Tempo Reale: Scene che richiedono risposte rapide
Ambienti Strutturati: Strutture artificiali, impianti industriali

Scene Non Adatte:

Ambienti Naturali Outdoor: Mancanza di strutture a forma di L
Scene Altamente Dinamiche: Oggetti in movimento rapido
Mappe su Larga Scala: Mancanza di cicli di chiusura globali
Applicazioni ad Alta Precisione: Come misurazioni precise (errore relativo ancora del 4.6%)

Riferimenti Bibliografici

Citazioni Chiave:

Serie ORB-SLAM: Baseline SLAM sparso classico
FastDepth (Wofk et al., ICRA 2019): Rete di stima della profondità leggera
TUM RGB-D (Sturm et al., 2012): Dataset standard di valutazione SLAM
Bundle Adjustment (Triggs et al., 1999): Tecnica di ottimizzazione classica
Epipolar Geometry (Zhang, 1998): Teoria fondamentale della geometria epipolare
Extended Kalman Filter: Metodo standard di fusione dei sensori
Edge SLAM (Maity et al., ICCV 2017): Lavoro pionieristico su SLAM dei bordi
NeRF/NICE-SLAM: Metodi di apprendimento per la ricostruzione densa

Valutazione Complessiva: Questo è uno studio SLAM di tipo pratico orientato alle piattaforme con risorse limitate, con una linea tecnica ragionevole e risultati sperimentali convincenti. I contributi principali risiedono nell'ingegneria del sistema e nell'integrazione dei metodi, piuttosto che in una singola innovazione algoritmica. Il miglioramento della precisione del 74.7% e l'accelerazione 100 volte hanno valore pratico significativo. Tuttavia, l'articolo ha spazio per miglioramenti negli aspetti di confronto sperimentale, analisi di ablazione e profondità teorica. È adatto per la pubblicazione in conferenze o riviste di applicazioni robotiche.