2025-11-19T18:31:14.017963

Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors

Danial, Asher, Klein

Monocular simultaneous localization and mapping (SLAM) algorithms estimate drone poses and build a 3D map using a single camera. Current algorithms include sparse methods that lack detailed geometry, while learning-driven approaches produce dense maps but are computationally intensive. Monocular SLAM also faces scale ambiguities, which affect its accuracy. To address these challenges, we propose an edge-aware lightweight monocular SLAM system combining sparse keypoint-based pose estimation with dense edge reconstruction. Our method employs deep learning-based depth prediction and edge detection, followed by optimization to refine keypoints and edges for geometric consistency, without relying on global loop closure or heavy neural computations. We fuse inertial data with vision by using an extended Kalman filter to resolve scale ambiguity and improve accuracy. The system operates in real time on low-power platforms, as demonstrated on a DJI Tello drone with a monocular camera and inertial sensors. In addition, we demonstrate robust autonomous navigation and obstacle avoidance in indoor corridors and on the TUM RGBD dataset. Our approach offers an effective, practical solution to real-time mapping and navigation in resource-constrained environments.

academic

Localización Simultánea y Mapeo 3D Semi-Denso para Micro Drones Utilizando Cámara Monocular y Sensores Inerciales

Información Básica

ID del Artículo: 2511.14335
Título: Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors
Autores: Jeryes Danial (Universidad de Haifa), Yosi Ben Asher (Universidad de Haifa), Itzik Klein (Universidad de Haifa)
Clasificación: cs.RO (Robótica)
Fecha de Publicación: 18 de noviembre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2511.14335

Resumen

Este artículo aborda los desafíos de la localización y mapeo simultáneos (SLAM) monocular en micro drones, proponiendo un sistema SLAM monocular ligero consciente de bordes. El sistema integra estimación de postura basada en puntos clave dispersos con reconstrucción densa de bordes, empleando aprendizaje profundo para predicción de profundidad y detección de bordes, logrando consistencia geométrica mediante optimización sin depender de cierre de bucle global ni computación de redes neuronales pesadas. El sistema utiliza un filtro de Kalman extendido para fusionar datos inerciales con información visual, resolviendo el problema de ambigüedad de escala y mejorando la precisión. Se implementó ejecución en tiempo real en el dron DJI Tello, demostrando navegación autónoma robusta y capacidades de evitación de obstáculos en el conjunto de datos TUM RGBD.

Antecedentes de Investigación y Motivación

Problemas Centrales a Resolver

Problema del Mapeo Disperso: Los sistemas SLAM tradicionales basados en puntos característicos (como ORB-SLAM), aunque estiman efectivamente la postura, generan mapas de nubes de puntos 3D excesivamente dispersos, careciendo de riqueza estructural e inadecuados para tareas que requieren comprensión 3D densa.
Limitaciones de Recursos Computacionales: Los métodos SLAM densos impulsados por aprendizaje existentes (como NeRF, NICE-SLAM) requieren computación intensiva, siendo difícil ejecutarlos en tiempo real en plataformas embebidas con recursos limitados.
Ambigüedad de Escala: La incertidumbre de escala inherente al SLAM monocular afecta la precisión de localización.
Costo de Optimización Global: El SLAM tradicional depende de detección de cierre de bucle y ajuste de haz global, con alto costo computacional.

Importancia de la Investigación

La navegación autónoma de micro drones requiere capacidades de percepción 3D precisas y en tiempo real para navegación, evitación de obstáculos e interacción ambiental. Lograr esto en plataformas embebidas con recursos limitados es un desafío central en robótica.

Limitaciones de Métodos Existentes

ORB-SLAM: Genera únicamente puntos 3D dispersos, careciendo de detalles estructurales.
Edge SLAM: Aunque genera mapas semi-densos, depende de optimización global con alto costo computacional, e introduce ruido mediante seguimiento basado en flujo óptico.
DeepTAM/D3VO: Los métodos de aprendizaje profundo tienen gran cantidad de parámetros y alta complejidad computacional, inadecuados para dispositivos de bajo consumo.
NeRF/NICE-SLAM: Requieren GPU de gama alta, asumen escenas estáticas y carecen de capacidad de tiempo real.

Motivación de la Investigación

Desarrollar un sistema SLAM ligero y en tiempo real capaz de generar mapas semi-densos en plataformas con recursos limitados, manteniendo simultáneamente estimación de postura de alta precisión.

Contribuciones Principales

Tubería SLAM Ligera: Integra geometría epipolar dispersa con predicción de profundidad densa y extracción de bordes, realizando construcción de mapas semi-densos anclados en bordes.
Pérdida de Consistencia de Ciclo de Bordes: Propone restricción de consistencia de proyección de bordes multivista sin requerir coincidencia explícita de bordes 2D-2D.
Restricción Estructural Consciente de Forma: Regularización geométrica basada en estructuras en forma de L, mejorando consistencia estructural en entornos interiores.
Optimización Geométrica Local: Ajuste de haz multiobjetivo que optimiza conjuntamente postura de cámara, puntos clave y segmentos de borde, sin requerir cierre de bucle global o fusión de vóxeles densa.
Fusión Visual-Inercial: Utiliza filtro de Kalman extendido para fusionar datos inerciales resolviendo el problema de ambigüedad de escala.

Explicación Detallada del Método

Definición de la Tarea

Entrada:

Secuencia de imágenes de cámara monocular
Datos de unidad de medición inercial (IMU) (velocidad lineal, ángulos de Euler)
Matriz de parámetros intrínsecos de cámara K

Salida:

Trayectoria de postura de cámara {Ti} ∈ SE(3)
Mapa 3D de bordes semi-denso
Mapa 3D de puntos clave disperso

Restricciones: Requisito de tiempo real, plataforma con recursos limitados (como dron DJI Tello)

Arquitectura del Modelo

El sistema adopta una arquitectura paralela de cuatro hilos (como se muestra en la Figura 1):

Hilo 1: Preprocesamiento de Imagen y Extracción de Características (Azul)

Detección de Puntos Clave ORB: Extrae puntos característicos ORB y descriptores.
Detección de Bordes Canny: Detecta bordes en la imagen.
Predicción de Profundidad: Utiliza CNN FastDepth preentrenado (arquitectura basada en MobileNet-NNConv5) para predecir mapa de profundidad denso.
Coincidencia de Características: Utiliza distancia de Hamming para coincidir descriptores ORB, acelerando búsqueda de vecinos más cercanos mediante árbol KD.

Hilo 2: Estimación de Postura y Fusión de Sensores (Verde)

Estimación de Postura Relativa:

Estima matriz esencial E a partir de características ORB coincidentes mediante geometría epipolar:
```
u_j^T E_ij u_i = 0
```
Utiliza RANSAC para eliminar valores atípicos, descomposición SVD para recuperar rotación relativa R_ij y traslación t_ij.

Fusión con Filtro de Kalman Extendido:

Vector de estado:

x = [p, α]^T = [x, y, z, φ, θ, ψ]^T

donde p es la posición global y α son los ángulos de Euler (alabeo, cabeceo, guiñada).

Paso de predicción:

p_{k|k-1} = p_{k-1} + R_imu(α_{k-1}) · v_imu · Δt

Ruido de Proceso Adaptativo:

Q_k = β · (1 - b_k + λτ) · I_6

donde b_k es el nivel de batería, τ es el tiempo desde la última actualización monocular, considerando la degradación de precisión del SDK con la disminución de batería y el paso del tiempo.

Actualización de medición:

Observación 1: Ángulos de Euler del SDK z_api = α_api
Observación 2: Estimación de postura global de odometría visual (mediante acumulación de postura relativa)

Hilo 3: Generación de Mapa de Bordes Denso y Puntos de Anclaje 3D (Amarillo)

Utilizando el mapa de profundidad y la postura de cámara estimada, reconstruye puntos 3D (puntos de anclaje) mediante triangulación:

P^k* = argmin_P ||u_i^k - π(K P)||^2 + ||u_j^k - π(K[R_ij* P + t_ij*])||^2

Hilo 4: Optimización Local Consciente de Bordes (Rosa)

Diseño de Función de Pérdida Múltiple:

Pérdida de Reproyección (puntos clave dispersos):

L_reproj = Σ_i,k ||u_ik - u_ik^proj||^2

donde u_ik^proj = π(R_i P^k + t_i)

Pérdida de Consistencia de Ciclo (puntos de borde densos): Implementa verificación de transformación de ciclo cerrado validando consistencia de puntos de borde:

P_i = π^{-1}(u_i*, d_i) → P_j = T_{i,j} · P_i → u_j = π(P_j)
→ P'_j = π^{-1}(u_j, d_j) → P'_i = T_{i,j}^{-1} · P'_j → u'_i = π(P'_i)

L_cycle = Σ_{u_i* ∈ E} ||u_i* - u'_i||^2

Pérdida de Estructura en Forma de L (regularización geométrica):

Consistencia Angular:

L_angle = (1/N) Σ_i (cos(θ_proj^(i)) - cos(θ_expected^(i)))^2

Restricción de Colinealidad:

L_collinear = (1/N) Σ_i [(1/M_1^(i)) Σ_j d_{j,1}^2 + (1/M_2^(i)) Σ_k d_{k,2}^2]

Pérdida Combinada:

L_Lshape = λ_θ L_angle + λ_col L_collinear

Objetivo de Optimización Total:

min_{P_w, T_w, D_w} L_total = λ_reproj L_reproj + λ_cycle L_cycle + λ_shape L_Lshape

Algoritmo de Optimización: Utiliza algoritmo de Levenberg-Marquardt para resolver problemas de mínimos cuadrados no lineales, equilibrando Gauss-Newton y descenso de gradiente.

Puntos de Innovación Técnica

Mapeo Semi-Denso Consciente de Bordes: Combina puntos clave dispersos y bordes densos, logrando equilibrio entre eficiencia computacional y detalle de mapa.
Sin Coincidencia Explícita de Bordes: Evita búsqueda compleja de correspondencia de bordes mediante pérdida de consistencia de ciclo.
Regularización Consciente de Estructura: Aprovecha priors geométricos en forma de L del entorno interior mejorando calidad de reconstrucción.
Estrategia de Optimización Local: Evita detección de cierre de bucle global, reduciendo complejidad computacional.
Fusión de Sensores Adaptativa: Modelado de ruido de proceso considerando nivel de batería y tiempo.

Estrategias para Abordar Desafíos de Optimización

Problemas No Lineales: Utiliza regularización y algoritmo de Levenberg-Marquardt para estabilizar convergencia.
Singularidad: Regularización diagonal (μI) asegura invertibilidad.
Matriz Jacobiana Mal Condicionada: Movimiento de cámara sesgado (como trayectorias en zigzag) mejora disparidad.
Desbalance de Pérdidas: Ajuste de pesos adaptativo basado en incertidumbre.

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos de Referencia TUM RGB-D
- 23 secuencias interiores, duración de 2-10 minutos
- Incluye imágenes RGB-D sincronizadas y postura de verdad fundamental
- Modos de movimiento diversos, ángulos de vista y condiciones de iluminación
- Publicado por equipo TUM CVPR, licencia Creative Commons
Conjunto de Datos de Entrenamiento de Estimación de Profundidad
- Modelo FastDepth preentrenado en conjunto de datos NYU Depth v2
- Utiliza MobileNet como red troncal
- Emplea convoluciones separables en profundidad reduciendo complejidad
Plataforma de Prueba Real
- Dron DJI Tello
- Cámara monocular + sensores inerciales
- Entorno de pasillos interiores

Métricas de Evaluación

Error de Postura Absoluta (APE):

APE_i = ||t_est^i - t_gt^i||_2

Mide error de distancia euclidiana instantánea en cada marca de tiempo.

Error de Trayectoria Absoluta (ATE):

ATE_RMS = sqrt((1/N) Σ_i ||T_gt^{-1}_i T_est_i||_F^2)

Evalúa desviación global de toda la secuencia (incluyendo traslación y rotación).

Métodos de Comparación

ORB-SLAM2: Como método de referencia, representando SLAM tradicional basado en características dispersas.

Detalles de Implementación

Plataforma: Portátil Ubuntu 16.04
Red de Profundidad: FastDepth preentrenado (MobileNet-NNConv5)
Detección de Características: ORB + detección de bordes Canny
Ventana de Optimización: Ajuste de haz de ventana deslizante local
Parámetros de Peso: λ_reproj, λ_cycle, λ_shape (valores específicos no proporcionados en el artículo)
Parámetros EKF: β, λ para ruido de proceso adaptativo

Resultados Experimentales

Resultados Principales

Evaluación Cuantitativa en Conjunto de Datos TUM RGB-D (Tabla I):

Método	RMSE m	Media m	Desv. Est. m
ORB-SLAM2 (referencia)	0.182	0.17	0.71
Edge-Aware SLAM (este trabajo)	0.046	0.040	0.011
Tasa de Mejora	74.7%	76.5%	98.4%

Hallazgos Clave:

Reducción de RMSE del 74.7%, mejora significativa en precisión de trayectoria
Reducción de desviación estándar del 98.4%, demostrando mayor estabilidad en estimación de postura
Reducción de error medio del 76.5%, sesgo sistemático más pequeño

Evaluación Cualitativa de Mapas

Mapeo en Etapa Temprana (Figura 4):

El método propuesto genera mapas de bordes 3D claros y precisos desde fotogramas iniciales
La nube de puntos de ORB-SLAM2 tiene baja interpretabilidad en etapas tempranas

Mapeo de Secuencia Completa (Figura 5):

El método propuesto mantiene alta precisión después de procesar secuencia completa sin desviación
Claridad e interpretabilidad del mapa de ORB-SLAM2 son inferiores

Entorno de Laboratorio (Figura 6):

Desde inicio hasta fin de secuencia, el método propuesto mantiene mapa de bordes 3D de alta precisión
Sin desviación ni acumulación de errores, verificando robustez y confiabilidad del sistema

Eficiencia Computacional

Indicadores Clave de Desempeño:

Velocidad de creación de mapa de bordes basado en ORB aproximadamente 100 veces más rápida que ORB-SLAM
Soporta despliegue en hardware pequeño como Raspberry Pi Zero
Logra procesamiento verdaderamente en tiempo real

Hallazgos Experimentales

Ventajas del Realce de Bordes: Mapas de bordes semi-densos proporcionan información estructural más rica que nubes de puntos dispersas.
Efectividad de Optimización Local: Mantiene consistencia a largo plazo sin requerir cierre de bucle global.
Valor de Fusión de Sensores: Fusión EKF resuelve efectivamente problema de ambigüedad de escala monocular.
Aprendizaje Profundo Ligero: FastDepth satisface requisitos de tiempo real manteniendo precisión.
Efecto de Priors Estructurales: Restricciones en forma de L mejoran significativamente calidad de reconstrucción en entornos interiores.

Trabajo Relacionado

Métodos SLAM Tradicionales

Serie ORB-SLAM: Método clásico basado en características dispersas, dependiente de optimización global
Mapa de Vóxeles: Razonamiento mejorado de recuperación y visibilidad, pero aún disperso
SfM: Tecnología fundamental para reconstrucción 3D a partir de múltiples imágenes

Odometría Visual-Inercial

Métodos Basados en EKF: Estimación de postura rápida y eficiente (como VINS-Mono, MSCKF-DVIO)
Limitaciones: Típicamente generan nubes de puntos 3D dispersas

SLAM Denso Impulsado por Aprendizaje

DeepTAM: Genera mapas de profundidad densos mediante redes neuronales profundas, pero precisión limitada y alto costo computacional
D3VO: Alta precisión pero modelo complejo, inadecuado para dispositivos de bajo consumo
NeRF/NICE-SLAM: Reconstrucción de alta fidelidad, pero requiere GPU de gama alta y escenas estáticas
NeuralRecon: Fusiona profundidad y postura, computacionalmente inviable

SLAM de Bordes

Edge SLAM: Genera mapas semi-densos, pero depende de optimización global, seguimiento basado en flujo óptico introduce ruido

Ventajas de Este Trabajo

Combina métodos geométricos tradicionales con aprendizaje profundo ligero
Optimización local reemplaza cierre de bucle global
Ejecución en tiempo real adecuada para plataformas con recursos limitados

Conclusiones y Discusión

Conclusiones Principales

El sistema SLAM consciente de bordes propuesto logra mapeo 3D preciso y en tiempo real en plataformas con recursos limitados.
Comparado con ORB-SLAM2, mejora RMSE de trayectoria y estimación de postura en 74.5%.
El mapa semi-denso generado es más preciso y detallado.
Velocidad de procesamiento aproximadamente 100 veces más rápida que ORB-SLAM, soportando despliegue embebido.

Limitaciones

Suposiciones Ambientales: Restricción de estructura en forma de L principalmente aplicable a entornos interiores artificiales, puede no ser adecuada en escenas naturales.
Dependencia de Profundidad: Depende del modelo FastDepth preentrenado, desempeño puede degradarse en escenas fuera del dominio de entrenamiento.
Escenas Dinámicas: Artículo no discute explícitamente manejo de objetos dinámicos.
Ajuste de Parámetros: Múltiples parámetros de peso (λ_reproj, λ_cycle, λ_shape) requieren ajuste manual.
Desviación a Largo Plazo: Aunque consistencia local es buena, falta de cierre de bucle global puede acumular errores en secuencias muy largas.
Análisis Cuantitativo Insuficiente: Solo comparación con ORB-SLAM2, falta comparación con otros métodos modernos.

Direcciones Futuras

Artículo no propone explícitamente, pero direcciones potenciales incluyen:

Extensión a entornos exteriores y no estructurados
Integración de mecanismo ligero de detección de cierre de bucle
Manejo de objetos dinámicos y oclusiones
Aprendizaje de pesos adaptativos
Fusión multisensor (como LiDAR)

Evaluación Profunda

Fortalezas

Innovación Técnica:

Diseño de Arquitectura Híbrida: Combina ingeniosamente geometría dispersa y aprendizaje denso, logrando equilibrio entre precisión y eficiencia.
Pérdida de Consistencia de Ciclo: Diseño innovador de restricción sin requerir coincidencia explícita de bordes.
Regularización Consciente de Estructura: Aprovecha priors ambientales mejorando calidad de reconstrucción.
Fusión de Sensores Adaptativa: Modelado de ruido de proceso considerando nivel de batería tiene significado práctico.

Suficiencia Experimental:

Verificación en conjunto de datos estándar (TUM RGB-D) y plataforma real (DJI Tello)
Resultados cuantitativos y cualitativos se corroboran mutuamente
Análisis de eficiencia computacional completo (aceleración de 100 veces)

Convincencia de Resultados:

Mejora de RMSE del 74.7% es significativa
Reducción de desviación estándar del 98.4% demuestra estabilidad
Resultados visualizados muestran claramente ventajas de mapas semi-densos

Claridad de Escritura:

Definición de problema clara, derivaciones matemáticas rigurosas
Diagrama de arquitectura de sistema intuitivo
Diseño de cuatro hilos fácil de entender

Insuficiencias

Limitaciones de Método:

Capacidad de Generalización: Restricción en forma de L limita rango de aplicación del método
Consistencia a Largo Plazo: Falta de cierre de bucle global puede causar problemas en escenas a gran escala
Dependencia de Calidad de Profundidad: FastDepth puede fallar en ciertos escenarios

Defectos en Configuración Experimental:

Métodos de Comparación Únicos: Solo comparación con ORB-SLAM2, falta comparación con Edge SLAM, VINS-Mono y otros métodos
Configuración de Parámetros Faltante: No proporciona valores de parámetros clave λ_reproj, λ_cycle, λ_shape
Experimentos de Ablación Insuficientes: No analiza individualmente contribución de cada término de pérdida
Limitación de Conjunto de Datos: Pruebas principalmente en escenas interiores, desempeño en exteriores desconocido

Análisis Insuficiente:

Casos de Fallo: No discute situaciones donde método falla
Análisis Computacional: Falta análisis detallado de consumo de tiempo y memoria
Pruebas de Robustez: No prueba sensibilidad a ruido, oclusión, cambios de iluminación
Análisis Teórico: Falta garantías de convergencia y análisis de límites de error

Impacto

Contribución al Campo:

Proporciona solución práctica para SLAM en plataformas con recursos limitados
Demuestra potencial de combinación de métodos tradicionales con aprendizaje profundo ligero
Idea de mapeo consciente de bordes puede inspirar investigaciones posteriores

Valor Práctico:

Despliegue exitoso en DJI Tello demuestra practicidad
Aceleración de 100 veces hace posibles aplicaciones embebidas
Mapas semi-densos adecuados para tareas de navegación y evitación de obstáculos

Reproducibilidad:

Moderada: Artículo proporciona detalles de método, pero falta código, configuración completa de parámetros y detalles de entrenamiento
Uso de modelo FastDepth público facilita reproducción
Arquitectura de cuatro hilos clara, pero detalles de implementación necesitan suplemento

Escenarios Aplicables

Aplicaciones Adecuadas:

Navegación de Drones Interiores: Pasillos, almacenes, interiores de edificios
Robots con Recursos Limitados: Plataformas móviles de bajo consumo
Evitación de Obstáculos en Tiempo Real: Escenarios requiriendo respuesta rápida
Entornos Estructurados: Instalaciones artificiales, entornos industriales

Escenarios Inadecuados:

Entornos Naturales Exteriores: Carencia de estructura en forma de L
Escenas Altamente Dinámicas: Objetos moviéndose rápidamente
Mapas a Escala Muy Grande: Carencia de cierre de bucle global
Aplicaciones de Alta Precisión: Como medición de precisión (error relativo aún 4.6%)

Referencias

Citas Clave:

Serie ORB-SLAM: Línea base SLAM dispersa clásica
FastDepth (Wofk et al., ICRA 2019): Red de estimación de profundidad ligera
TUM RGB-D (Sturm et al., 2012): Conjunto de datos estándar de evaluación SLAM
Ajuste de Haz (Triggs et al., 1999): Técnica de optimización clásica
Geometría Epipolar (Zhang, 1998): Teoría fundamental de geometría epipolar
Filtro de Kalman Extendido: Método estándar de fusión de sensores
Edge SLAM (Maity et al., ICCV 2017): Trabajo pionero en SLAM de bordes
NeRF/NICE-SLAM: Métodos de aprendizaje para reconstrucción densa

Evaluación General: Este es un trabajo SLAM de tipo aplicación práctica dirigido a plataformas con recursos limitados, con línea técnica razonable y resultados experimentales convincentes. Las contribuciones principales radican en ingeniería de sistemas e integración de métodos, más que en avance de algoritmo único. La mejora de precisión del 74.7% y aceleración de 100 veces tienen valor práctico significativo. Sin embargo, el artículo tiene espacio para mejora en comparación experimental, análisis de ablación y profundidad teórica. Adecuado para publicación en conferencias o revistas de aplicaciones robóticas.