Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors
Danial, Asher, Klein
Monocular simultaneous localization and mapping (SLAM) algorithms estimate drone poses and build a 3D map using a single camera. Current algorithms include sparse methods that lack detailed geometry, while learning-driven approaches produce dense maps but are computationally intensive. Monocular SLAM also faces scale ambiguities, which affect its accuracy. To address these challenges, we propose an edge-aware lightweight monocular SLAM system combining sparse keypoint-based pose estimation with dense edge reconstruction. Our method employs deep learning-based depth prediction and edge detection, followed by optimization to refine keypoints and edges for geometric consistency, without relying on global loop closure or heavy neural computations. We fuse inertial data with vision by using an extended Kalman filter to resolve scale ambiguity and improve accuracy. The system operates in real time on low-power platforms, as demonstrated on a DJI Tello drone with a monocular camera and inertial sensors. In addition, we demonstrate robust autonomous navigation and obstacle avoidance in indoor corridors and on the TUM RGBD dataset. Our approach offers an effective, practical solution to real-time mapping and navigation in resource-constrained environments.
academic
Одновременная локализация и полуплотное 3D-картографирование для микродронов с использованием монокулярной камеры и инерциальных датчиков
В данной работе предлагается облегченная система монокулярного SLAM с учетом краев для решения задач одновременной локализации и картографирования (SLAM) микродронов с использованием монокулярной камеры. Система объединяет оценку положения по разреженным ключевым точкам с плотной реконструкцией краев, применяя глубокое обучение для предсказания глубины и обнаружения краев, достигая геометрической согласованности путем оптимизации без необходимости в глобальных циклах замыкания или тяжелых нейросетевых вычислениях. Система использует расширенный фильтр Калмана для слияния инерциальных данных с визуальной информацией, решая проблему неоднозначности масштаба и повышая точность. Система реализована в реальном времени на дроне DJI Tello и демонстрирует надежные возможности автономной навигации и избегания препятствий на наборе данных TUM RGBD.
Проблема разреженной карты: Традиционные системы SLAM на основе характерных точек (такие как ORB-SLAM) эффективно оценивают положение, но генерируют слишком разреженные облака 3D-точек, лишенные структурного богатства, что неподходящо для задач, требующих плотного 3D-понимания
Ограничения вычислительных ресурсов: Существующие методы SLAM, управляемые обучением (такие как NeRF, NICE-SLAM), требуют больших вычислительных затрат и сложно работают в реальном времени на платформах с ограниченными ресурсами
Неоднозначность масштаба: Присущая монокулярному SLAM неопределенность масштаба влияет на точность локализации
Затраты на глобальную оптимизацию: Традиционный SLAM зависит от обнаружения циклов замыкания и глобальной регулировки пучка, требуя больших вычислительных затрат
Автономная навигация микродронов требует возможности реального времени и точного 3D-восприятия для навигации, избегания препятствий и взаимодействия с окружающей средой. Достижение этой цели на платформах с ограниченными ресурсами является ключевой задачей в области робототехники.
ORB-SLAM: Генерирует только разреженные 3D-точки, лишенные деталей структуры
Edge SLAM: Хотя и может генерировать полуплотные карты, зависит от глобальной оптимизации с большими вычислительными затратами, отслеживание на основе оптического потока вносит шум
DeepTAM/D3VO: Методы глубокого обучения имеют большое количество параметров и высокую вычислительную сложность, неподходящи для низкопотребляющих устройств
Разработать облегченную систему SLAM в реальном времени, способную генерировать полуплотные карты на платформах с ограниченными ресурсами, одновременно сохраняя высокую точность оценки положения.
Облегченный конвейер SLAM: Интеграция разреженной эпиполярной геометрии с плотным предсказанием глубины и извлечением краев для построения полуплотных карт, привязанных к краям
Потеря циклической согласованности краев: Предложено ограничение согласованности проекции краев в многовидовом представлении без необходимости в явном сопоставлении краев 2D-2D
Ограничения структуры, учитывающие форму: Геометрическая регуляризация на основе L-образных структур, повышающая структурную согласованность в помещениях
Локальная геометрическая оптимизация: Многоцелевая регулировка пучка, совместно оптимизирующая положение камеры, ключевые точки и сегменты краев без необходимости в глобальных циклах замыкания или плотном слиянии вокселей
Слияние визуальной и инерциальной информации: Использование расширенного фильтра Калмана для слияния инерциальных данных для решения проблемы неоднозначности масштаба
Обнаружение ключевых точек ORB: Извлечение ORB-признаков и дескрипторов
Обнаружение краев Canny: Обнаружение краев изображения
Предсказание глубины: Использование предварительно обученной CNN FastDepth (на основе архитектуры MobileNet-NNConv5) для предсказания плотной карты глубины
Сопоставление признаков: Сопоставление дескрипторов ORB с использованием расстояния Хэмминга, ускорение поиска ближайшего соседа с помощью KD-дерева
Оценка существенной матрицы E из сопоставленных ORB-признаков через эпиполярную геометрию:
u_j^T E_ij u_i = 0
Использование RANSAC для удаления выбросов, разложение SVD для восстановления относительного поворота R_ij и трансляции t_ij
Слияние расширенного фильтра Калмана:
Вектор состояния:
x = [p, α]^T = [x, y, z, φ, θ, ψ]^T
где p — глобальное положение, α — углы Эйлера (крен, тангаж, рыскание)
Этап предсказания:
p_{k|k-1} = p_{k-1} + R_imu(α_{k-1}) · v_imu · Δt
Адаптивный процессный шум:
Q_k = β · (1 - b_k + λτ) · I_6
где b_k — уровень заряда батареи, τ — время с момента последнего визуального обновления, учитывающее снижение точности данных SDK при снижении заряда батареи и течением времени
Обновление измерения:
Наблюдение 1: Углы Эйлера из SDK z_api = α_api
Наблюдение 2: Оценка глобального положения из визуальной одометрии (путем накопления относительных положений)
Алгоритм оптимизации: Использование алгоритма Левенберга-Маркварда для решения нелинейной задачи наименьших квадратов, балансирование между методом Гаусса-Ньютона и градиентным спуском
Картографирование полуплотных краев с учетом краев: Объединение разреженных ключевых точек и плотных краев, достижение баланса между вычислительной эффективностью и деталями карты
Без явного сопоставления краев: Избежание сложного поиска соответствия краев 2D-2D через потерю циклической согласованности
Регуляризация, учитывающая структуру: Использование L-образного геометрического приоритета в помещениях для повышения качества реконструкции
Стратегия локальной оптимизации: Избежание обнаружения глобальных циклов замыкания, снижение вычислительной сложности
Адаптивное слияние датчиков: Моделирование процессного шума с учетом уровня заряда батареи и времени
Предположения об окружающей среде: L-образные ограничения структуры в основном применимы к помещениям с искусственной средой, могут быть неподходящи в естественных сценах
Зависимость от глубины: Зависит от предварительно обученной модели FastDepth, производительность может снизиться в сценах вне области обучения
Динамические сцены: Статья не явно обсуждает обработку динамических объектов
Долгосрочный дрейф: Хотя локальная согласованность хорошая, отсутствие глобальных циклов замыкания может привести к накоплению ошибок в очень длинных последовательностях
Недостаточный количественный анализ: Сравнение только с ORB-SLAM2, отсутствие сравнения с другими современными методами
Проектирование гибридной архитектуры: Умелое объединение разреженной геометрии и плотного обучения, достижение баланса между точностью и эффективностью
Потеря циклической согласованности: Инновационное проектирование ограничений без необходимости в явном сопоставлении краев
Регуляризация, учитывающая структуру: Использование приоритетов окружающей среды для повышения качества реконструкции
Адаптивное слияние датчиков: Моделирование процессного шума с учетом уровня заряда батареи имеет практическое значение
Полнота экспериментов:
Проверка на стандартном наборе данных (TUM RGB-D) и реальной платформе (DJI Tello)
Количественные и качественные результаты взаимно подтверждают друг друга
Полный анализ вычислительной эффективности (100-кратное ускорение)
Убедительность результатов:
74.7% улучшение RMSE значительно
98.4% снижение стандартного отклонения доказывает стабильность
Визуализированные результаты четко демонстрируют преимущества полуплотной карты
Ясность написания:
Четкое определение проблемы, строгие математические выводы
Серия ORB-SLAM: Классический разреженный базовый SLAM
FastDepth (Wofk et al., ICRA 2019): Облегченная сеть оценки глубины
TUM RGB-D (Sturm et al., 2012): Стандартный набор данных оценки SLAM
Bundle Adjustment (Triggs et al., 1999): Классическая техника оптимизации
Epipolar Geometry (Zhang, 1998): Теория основ эпиполярной геометрии
Extended Kalman Filter: Стандартный метод слияния датчиков
Edge SLAM (Maity et al., ICCV 2017): Пионерская работа по краевому SLAM
NeRF/NICE-SLAM: Методы обучения для плотной реконструкции
Общая оценка: Это практическое исследование SLAM для платформ с ограниченными ресурсами с разумной технической маршрутизацией и убедительными результатами экспериментов. Основной вклад заключается в системной инженерии и интеграции методов, а не в единственном алгоритмическом прорыве. 74.7% улучшение точности и 100-кратное ускорение имеют практическую ценность. Однако статья имеет пространство для улучшения в экспериментальном сравнении, абляционном анализе и теоретической глубине. Подходит для публикации в конференциях или журналах, посвященных приложениям робототехники.