Monocular simultaneous localization and mapping (SLAM) algorithms estimate drone poses and build a 3D map using a single camera. Current algorithms include sparse methods that lack detailed geometry, while learning-driven approaches produce dense maps but are computationally intensive. Monocular SLAM also faces scale ambiguities, which affect its accuracy. To address these challenges, we propose an edge-aware lightweight monocular SLAM system combining sparse keypoint-based pose estimation with dense edge reconstruction. Our method employs deep learning-based depth prediction and edge detection, followed by optimization to refine keypoints and edges for geometric consistency, without relying on global loop closure or heavy neural computations. We fuse inertial data with vision by using an extended Kalman filter to resolve scale ambiguity and improve accuracy. The system operates in real time on low-power platforms, as demonstrated on a DJI Tello drone with a monocular camera and inertial sensors. In addition, we demonstrate robust autonomous navigation and obstacle avoidance in indoor corridors and on the TUM RGBD dataset. Our approach offers an effective, practical solution to real-time mapping and navigation in resource-constrained environments.
Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors 论文ID : 2511.14335标题 : Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors作者 : Jeryes Danial (University of Haifa), Yosi Ben Asher (University of Haifa), Itzik Klein (University of Haifa)分类 : cs.RO (Robotics)发表时间 : 2025年11月18日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2511.14335 本文针对微型无人机使用单目相机进行同步定位与地图构建(SLAM)的挑战,提出了一种边缘感知的轻量级单目SLAM系统。该系统结合稀疏关键点位姿估计与密集边缘重建,采用深度学习进行深度预测和边缘检测,通过优化实现几何一致性,无需依赖全局闭环或重型神经网络计算。系统使用扩展卡尔曼滤波器融合惯性数据与视觉信息,解决尺度模糊问题并提高精度。在DJI Tello无人机上实现了实时运行,并在TUM RGBD数据集上展示了鲁棒的自主导航和避障能力。
稀疏地图问题 :传统基于特征点的SLAM系统(如ORB-SLAM)虽然能有效估计位姿,但生成的3D点云地图过于稀疏,缺乏结构丰富性,不适合需要密集3D理解的任务计算资源限制 :现有学习驱动的密集SLAM方法(如NeRF、NICE-SLAM)计算量大,难以在资源受限的嵌入式平台上实时运行尺度模糊性 :单目SLAM固有的尺度不确定性影响定位精度全局优化开销 :传统SLAM依赖闭环检测和全局束调整,计算开销大微型无人机的自主导航需要实时、准确的3D感知能力,用于导航、避障和环境交互。在资源受限的嵌入式平台上实现这一目标是机器人领域的核心挑战。
ORB-SLAM :仅生成稀疏3D点,缺乏结构细节Edge SLAM :虽能生成半密集地图,但依赖全局优化,计算量大,基于光流的跟踪损失引入噪声DeepTAM/D3VO :深度学习方法参数量大、计算复杂度高,不适合低功耗设备NeRF/NICE-SLAM :需要高端GPU,假设静态场景,缺乏实时性开发一种轻量级、实时的SLAM系统,能在资源受限平台上生成半密集地图,同时保持高精度位姿估计。
轻量级SLAM管道 :集成稀疏对极几何与密集深度预测和边缘提取,实现边缘锚定的半密集地图构建边缘循环一致性损失 :提出无需显式2D-2D边缘匹配的多视图边缘投影一致性约束形状感知结构约束 :基于L型结构的几何正则化,增强室内环境的结构一致性局部几何优化 :多目标束调整联合优化相机位姿、关键点和边缘段,无需全局闭环或密集体素融合视觉-惯性融合 :使用扩展卡尔曼滤波器融合惯性数据解决尺度模糊问题输入 :
单目相机图像序列 惯性测量单元(IMU)数据(线速度、欧拉角) 相机内参矩阵K 输出 :
相机位姿轨迹 {Ti} ∈ SE(3) 半密集3D边缘地图 稀疏3D关键点地图 约束 :实时性要求,资源受限平台(如DJI Tello无人机)
系统采用四线程并行架构(如图1所示):
ORB关键点检测 :提取ORB特征点和描述符Canny边缘检测 :检测图像边缘深度预测 :使用预训练的FastDepth CNN(基于MobileNet-NNConv5架构)预测密集深度图特征匹配 :使用Hamming距离匹配ORB描述符,通过KD树加速最近邻搜索相对位姿估计 :
通过对极几何从匹配的ORB特征估计本质矩阵E:
使用RANSAC剔除外点,SVD分解恢复相对旋转R_ij和平移t_ij 扩展卡尔曼滤波器融合 :
状态向量:
x = [p, α]^T = [x, y, z, φ, θ, ψ]^T
其中p为全局位置,α为欧拉角(滚转、俯仰、偏航)
预测步骤:
p_{k|k-1} = p_{k-1} + R_imu(α_{k-1}) · v_imu · Δt
自适应过程噪声 :
Q_k = β · (1 - b_k + λτ) · I_6
其中b_k为电池电量,τ为距上次单目更新的时间,考虑了SDK数据随电量降低和时间推移的精度下降
测量更新:
观测1:来自SDK的欧拉角 z_api = α_api 观测2:来自视觉里程计的全局位姿估计(通过累积相对位姿) 利用深度图和估计的相机位姿,通过三角化重建3D点(锚点):
P^k* = argmin_P ||u_i^k - π(K P)||^2 + ||u_j^k - π(K[R_ij* P + t_ij*])||^2
多损失函数设计 :
重投影损失 (稀疏关键点):L_reproj = Σ_i,k ||u_ik - u_ik^proj||^2
其中 u_ik^proj = π(R_i P^k + t_i)
循环一致性损失 (密集边缘点):
实现闭环变换验证边缘点一致性:P_i = π^{-1}(u_i*, d_i) → P_j = T_{i,j} · P_i → u_j = π(P_j)
→ P'_j = π^{-1}(u_j, d_j) → P'_i = T_{i,j}^{-1} · P'_j → u'_i = π(P'_i)
L_cycle = Σ_{u_i* ∈ E} ||u_i* - u'_i||^2
L型结构损失 (几何正则化):L_angle = (1/N) Σ_i (cos(θ_proj^(i)) - cos(θ_expected^(i)))^2
L_collinear = (1/N) Σ_i [(1/M_1^(i)) Σ_j d_{j,1}^2 + (1/M_2^(i)) Σ_k d_{k,2}^2]
L_Lshape = λ_θ L_angle + λ_col L_collinear
总优化目标 :
min_{P_w, T_w, D_w} L_total = λ_reproj L_reproj + λ_cycle L_cycle + λ_shape L_Lshape
优化算法 :采用Levenberg-Marquardt算法求解非线性最小二乘问题,平衡Gauss-Newton和梯度下降
边缘感知半密集映射 :结合稀疏关键点和密集边缘,在计算效率和地图细节间取得平衡无需显式边缘匹配 :通过循环一致性损失避免复杂的边缘对应搜索结构感知正则化 :利用室内环境的L型几何先验增强重建质量局部优化策略 :避免全局闭环检测,降低计算复杂度自适应传感器融合 :考虑电池电量和时间的过程噪声建模非线性问题 :使用正则化和Levenberg-Marquardt算法稳定收敛奇异性 :对角正则化(μI)确保可逆性病态雅可比矩阵 :通过斜向相机运动(如之字形轨迹)增强视差损失不平衡 :基于不确定性的自适应权重调整TUM RGB-D基准数据集 23个室内序列,时长2-10分钟 包含同步的RGB-D图像和地面真值位姿 多样化的运动模式、视角和光照条件 由TUM CVPR团队发布,Creative Commons许可 深度估计训练集 FastDepth模型在NYU Depth v2数据集上预训练 采用MobileNet作为骨干网络 使用深度可分离卷积降低复杂度 实际测试平台 DJI Tello无人机 单目相机 + 惯性传感器 室内走廊环境 绝对位姿误差(APE) :APE_i = ||t_est^i - t_gt^i||_2
测量每个时间戳的瞬时欧氏距离误差
绝对轨迹误差(ATE) :ATE_RMS = sqrt((1/N) Σ_i ||T_gt^{-1}_i T_est_i||_F^2)
评估整个序列的全局漂移(包含平移和旋转)
ORB-SLAM2 :作为基线方法,代表传统稀疏特征SLAM平台 :Ubuntu 16.04笔记本电脑深度网络 :预训练FastDepth(MobileNet-NNConv5)特征检测 :ORB + Canny边缘检测优化窗口 :局部滑动窗口束调整权重参数 :λ_reproj, λ_cycle, λ_shape(论文未给出具体数值)EKF参数 :β, λ用于自适应过程噪声TUM RGB-D数据集上的定量评估 (表I):
方法 RMSE m Mean m Std m ORB-SLAM2 (baseline) 0.182 0.17 0.71 Edge-Aware SLAM (本文) 0.046 0.040 0.011 改进率 74.7% 76.5% 98.4%
关键发现 :
RMSE降低74.7%,显著提升轨迹精度 标准差降低98.4%,表明位姿估计更加稳定 均值误差降低76.5%,系统性偏差更小 早期阶段映射(图4) :
本文方法在初始帧就能生成清晰、准确的3D边缘地图 ORB-SLAM2的点云在早期阶段可解释性差 完整序列映射(图5) :
本文方法处理完整序列后保持高精度,无漂移 ORB-SLAM2的地图清晰度和可解释性较差 实验室环境(图6) :
从序列开始到结束,本文方法保持高精度3D边缘地图 无漂移或误差累积,验证了系统的鲁棒性和可靠性 关键性能指标 :
基于ORB的边缘地图创建速度比ORB-SLAM快约100倍 支持在Raspberry Pi Zero等小型硬件上部署 实现真正的实时处理 边缘增强的优势 :半密集边缘地图提供了比稀疏点云更丰富的结构信息局部优化有效性 :无需全局闭环即可保持长期一致性传感器融合价值 :EKF融合有效解决了单目尺度模糊问题轻量级深度学习 :FastDepth在保持精度的同时满足实时性要求结构先验作用 :L型约束在室内环境中显著提升重建质量ORB-SLAM系列 :基于稀疏特征的经典方法,依赖全局优化Voxel Map :改进的检索和可见性推理,但仍然稀疏SfM :从多图像重建3D结构的基础技术EKF-based方法 :快速高效的位姿估计(如VINS-Mono, MSCKF-DVIO)局限 :通常生成稀疏3D点云DeepTAM :深度神经网络生成密集深度图,但精度有限、计算量大D3VO :高精度但模型复杂,不适合低功耗设备NeRF/NICE-SLAM :高保真重建,但需要高端GPU和静态场景NeuralRecon :融合深度和位姿,计算不可行Edge SLAM :生成半密集地图,但依赖全局优化,基于光流的跟踪引入噪声结合传统几何方法和轻量级深度学习 局部优化替代全局闭环 适合资源受限平台的实时运行 提出的边缘感知SLAM系统在资源受限平台上实现了实时、准确的3D映射 相比ORB-SLAM2,轨迹和位姿估计的RMSE提升74.5% 生成的半密集地图更准确、详细 处理速度比ORB-SLAM快约100倍,支持嵌入式部署 环境假设 :L型结构约束主要适用于室内人造环境,在自然场景中可能不适用深度依赖 :依赖预训练的FastDepth模型,在训练域外场景可能性能下降动态场景 :论文未明确讨论动态对象处理参数调优 :多个权重参数(λ_reproj, λ_cycle, λ_shape)需要手动调整长期漂移 :虽然局部一致性好,但缺乏全局闭环可能在超长序列中累积误差定量分析不足 :仅与ORB-SLAM2对比,缺少与其他现代方法的比较论文未明确提出,但潜在方向包括:
扩展到户外和非结构化环境 集成轻量级闭环检测机制 处理动态对象和遮挡 自适应权重学习 多传感器融合(如激光雷达) 技术创新性 :
混合架构设计 :巧妙结合稀疏几何和密集学习,在精度和效率间取得平衡循环一致性损失 :无需显式边缘匹配的创新约束设计结构感知正则化 :利用环境先验增强重建质量自适应传感器融合 :考虑电池电量的过程噪声建模具有实际意义实验充分性 :
在标准数据集(TUM RGB-D)和实际平台(DJI Tello)上验证 定量和定性结果相互印证 计算效率分析充分(100倍加速) 结果说服力 :
74.7%的RMSE改进显著 98.4%的标准差降低证明稳定性 可视化结果清晰展示半密集地图优势 写作清晰度 :
问题定义清晰,数学推导严谨 系统架构图直观 四线程设计易于理解 方法局限性 :
泛化能力 :L型约束限制了方法的应用范围长期一致性 :缺乏全局闭环可能在大规模场景中出现问题深度质量依赖 :FastDepth在某些场景可能失效实验设置缺陷 :
对比方法单一 :仅与ORB-SLAM2对比,缺少与Edge SLAM、VINS-Mono等方法的比较参数设置缺失 :未提供λ_reproj、λ_cycle、λ_shape等关键参数值消融实验不足 :未单独分析各损失项的贡献数据集局限 :主要在室内场景测试,户外性能未知分析不足 :
失败案例 :未讨论方法失效的情况计算分析 :缺少详细的时间和内存消耗分析鲁棒性测试 :未测试对噪声、遮挡、光照变化的敏感性理论分析 :缺少收敛性保证和误差界分析对领域的贡献 :
为资源受限平台的SLAM提供了实用解决方案 展示了传统方法与轻量级深度学习结合的潜力 边缘感知映射思路可启发后续研究 实用价值 :
在DJI Tello上的成功部署证明了实用性 100倍加速使嵌入式应用成为可能 半密集地图适合导航和避障任务 可复现性 :
中等 :论文提供了方法细节,但缺少代码、完整参数设置和训练细节使用的FastDepth是公开模型,有助于复现 四线程架构清晰,但实现细节需要补充 适合的应用 :
室内无人机导航 :走廊、仓库、建筑内部资源受限机器人 :低功耗移动平台实时避障 :需要快速响应的场景结构化环境 :人造建筑、工业设施不适合的场景 :
户外自然环境 :缺乏L型结构高动态场景 :快速移动的对象超大规模地图 :缺乏全局闭环高精度应用 :如精密测量(相对误差仍有4.6cm)关键引用 :
ORB-SLAM系列 :经典稀疏SLAM基线FastDepth (Wofk et al., ICRA 2019) :轻量级深度估计网络TUM RGB-D (Sturm et al., 2012) :标准SLAM评估数据集Bundle Adjustment (Triggs et al., 1999) :经典优化技术Epipolar Geometry (Zhang, 1998) :对极几何基础理论Extended Kalman Filter :传感器融合标准方法Edge SLAM (Maity et al., ICCV 2017) :边缘SLAM先驱工作NeRF/NICE-SLAM :密集重建的学习方法总体评价 :这是一篇针对资源受限平台的实用型SLAM研究,技术路线合理,实验结果令人信服。主要贡献在于系统工程和方法集成,而非单一算法突破。74.7%的精度提升和100倍的速度提升具有实际价值。然而,论文在实验对比、消融分析和理论深度方面有提升空间。适合发表在机器人应用类会议或期刊。