2025-11-19T18:31:14.017963

Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors

Danial, Asher, Klein

Monocular simultaneous localization and mapping (SLAM) algorithms estimate drone poses and build a 3D map using a single camera. Current algorithms include sparse methods that lack detailed geometry, while learning-driven approaches produce dense maps but are computationally intensive. Monocular SLAM also faces scale ambiguities, which affect its accuracy. To address these challenges, we propose an edge-aware lightweight monocular SLAM system combining sparse keypoint-based pose estimation with dense edge reconstruction. Our method employs deep learning-based depth prediction and edge detection, followed by optimization to refine keypoints and edges for geometric consistency, without relying on global loop closure or heavy neural computations. We fuse inertial data with vision by using an extended Kalman filter to resolve scale ambiguity and improve accuracy. The system operates in real time on low-power platforms, as demonstrated on a DJI Tello drone with a monocular camera and inertial sensors. In addition, we demonstrate robust autonomous navigation and obstacle avoidance in indoor corridors and on the TUM RGBD dataset. Our approach offers an effective, practical solution to real-time mapping and navigation in resource-constrained environments.

academic

Одновременная локализация и полуплотное 3D-картографирование для микродронов с использованием монокулярной камеры и инерциальных датчиков

Основная информация

ID статьи: 2511.14335
Название: Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors
Авторы: Jeryes Danial (Университет Хайфы), Yosi Ben Asher (Университет Хайфы), Itzik Klein (Университет Хайфы)
Категория: cs.RO (Робототехника)
Дата публикации: 18 ноября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2511.14335

Аннотация

В данной работе предлагается облегченная система монокулярного SLAM с учетом краев для решения задач одновременной локализации и картографирования (SLAM) микродронов с использованием монокулярной камеры. Система объединяет оценку положения по разреженным ключевым точкам с плотной реконструкцией краев, применяя глубокое обучение для предсказания глубины и обнаружения краев, достигая геометрической согласованности путем оптимизации без необходимости в глобальных циклах замыкания или тяжелых нейросетевых вычислениях. Система использует расширенный фильтр Калмана для слияния инерциальных данных с визуальной информацией, решая проблему неоднозначности масштаба и повышая точность. Система реализована в реальном времени на дроне DJI Tello и демонстрирует надежные возможности автономной навигации и избегания препятствий на наборе данных TUM RGBD.

Исследовательский контекст и мотивация

Основные проблемы, которые необходимо решить

Проблема разреженной карты: Традиционные системы SLAM на основе характерных точек (такие как ORB-SLAM) эффективно оценивают положение, но генерируют слишком разреженные облака 3D-точек, лишенные структурного богатства, что неподходящо для задач, требующих плотного 3D-понимания
Ограничения вычислительных ресурсов: Существующие методы SLAM, управляемые обучением (такие как NeRF, NICE-SLAM), требуют больших вычислительных затрат и сложно работают в реальном времени на платформах с ограниченными ресурсами
Неоднозначность масштаба: Присущая монокулярному SLAM неопределенность масштаба влияет на точность локализации
Затраты на глобальную оптимизацию: Традиционный SLAM зависит от обнаружения циклов замыкания и глобальной регулировки пучка, требуя больших вычислительных затрат

Значимость исследования

Автономная навигация микродронов требует возможности реального времени и точного 3D-восприятия для навигации, избегания препятствий и взаимодействия с окружающей средой. Достижение этой цели на платформах с ограниченными ресурсами является ключевой задачей в области робототехники.

Ограничения существующих методов

ORB-SLAM: Генерирует только разреженные 3D-точки, лишенные деталей структуры
Edge SLAM: Хотя и может генерировать полуплотные карты, зависит от глобальной оптимизации с большими вычислительными затратами, отслеживание на основе оптического потока вносит шум
DeepTAM/D3VO: Методы глубокого обучения имеют большое количество параметров и высокую вычислительную сложность, неподходящи для низкопотребляющих устройств
NeRF/NICE-SLAM: Требуют высокопроизводительного GPU, предполагают статические сцены, лишены реальной производительности

Исследовательская мотивация

Разработать облегченную систему SLAM в реальном времени, способную генерировать полуплотные карты на платформах с ограниченными ресурсами, одновременно сохраняя высокую точность оценки положения.

Основные вклады

Облегченный конвейер SLAM: Интеграция разреженной эпиполярной геометрии с плотным предсказанием глубины и извлечением краев для построения полуплотных карт, привязанных к краям
Потеря циклической согласованности краев: Предложено ограничение согласованности проекции краев в многовидовом представлении без необходимости в явном сопоставлении краев 2D-2D
Ограничения структуры, учитывающие форму: Геометрическая регуляризация на основе L-образных структур, повышающая структурную согласованность в помещениях
Локальная геометрическая оптимизация: Многоцелевая регулировка пучка, совместно оптимизирующая положение камеры, ключевые точки и сегменты краев без необходимости в глобальных циклах замыкания или плотном слиянии вокселей
Слияние визуальной и инерциальной информации: Использование расширенного фильтра Калмана для слияния инерциальных данных для решения проблемы неоднозначности масштаба

Подробное описание метода

Определение задачи

Входные данные:

Последовательность изображений монокулярной камеры
Данные инерциального измерительного блока (IMU) (линейная скорость, углы Эйлера)
Матрица внутренних параметров камеры K

Выходные данные:

Траектория положения камеры {Ti} ∈ SE(3)
Полуплотная 3D-карта краев
Разреженная 3D-карта ключевых точек

Ограничения: Требование реального времени, платформы с ограниченными ресурсами (например, дрон DJI Tello)

Архитектура модели

Система использует четырехпоточную параллельную архитектуру (как показано на рисунке 1):

Поток 1: Предварительная обработка изображений и извлечение признаков (синий)

Обнаружение ключевых точек ORB: Извлечение ORB-признаков и дескрипторов
Обнаружение краев Canny: Обнаружение краев изображения
Предсказание глубины: Использование предварительно обученной CNN FastDepth (на основе архитектуры MobileNet-NNConv5) для предсказания плотной карты глубины
Сопоставление признаков: Сопоставление дескрипторов ORB с использованием расстояния Хэмминга, ускорение поиска ближайшего соседа с помощью KD-дерева

Поток 2: Оценка положения и слияние датчиков (зеленый)

Оценка относительного положения:

Оценка существенной матрицы E из сопоставленных ORB-признаков через эпиполярную геометрию:
```
u_j^T E_ij u_i = 0
```
Использование RANSAC для удаления выбросов, разложение SVD для восстановления относительного поворота R_ij и трансляции t_ij

Слияние расширенного фильтра Калмана:

Вектор состояния:

x = [p, α]^T = [x, y, z, φ, θ, ψ]^T

где p — глобальное положение, α — углы Эйлера (крен, тангаж, рыскание)

Этап предсказания:

p_{k|k-1} = p_{k-1} + R_imu(α_{k-1}) · v_imu · Δt

Адаптивный процессный шум:

Q_k = β · (1 - b_k + λτ) · I_6

где b_k — уровень заряда батареи, τ — время с момента последнего визуального обновления, учитывающее снижение точности данных SDK при снижении заряда батареи и течением времени

Обновление измерения:

Наблюдение 1: Углы Эйлера из SDK z_api = α_api
Наблюдение 2: Оценка глобального положения из визуальной одометрии (путем накопления относительных положений)

Поток 3: Генерация плотной карты краев и 3D-якорей (желтый)

Используя карту глубины и оцененное положение камеры, реконструкция 3D-точек (якорей) путем триангуляции:

P^k* = argmin_P ||u_i^k - π(K P)||^2 + ||u_j^k - π(K[R_ij* P + t_ij*])||^2

Поток 4: Локальная оптимизация с учетом краев (розовый)

Проектирование многоцелевой функции потерь:

Потеря переноса проекции (разреженные ключевые точки):

L_reproj = Σ_i,k ||u_ik - u_ik^proj||^2

где u_ik^proj = π(R_i P^k + t_i)

Потеря циклической согласованности (плотные точки краев): Реализация проверки замкнутого преобразования для проверки согласованности точек краев:

P_i = π^{-1}(u_i*, d_i) → P_j = T_{i,j} · P_i → u_j = π(P_j)
→ P'_j = π^{-1}(u_j, d_j) → P'_i = T_{i,j}^{-1} · P'_j → u'_i = π(P'_i)

L_cycle = Σ_{u_i* ∈ E} ||u_i* - u'_i||^2

Потеря L-образной структуры (геометрическая регуляризация):
- Согласованность углов:
```
L_angle = (1/N) Σ_i (cos(θ_proj^(i)) - cos(θ_expected^(i)))^2
```
- Ограничение коллинеарности:
```
L_collinear = (1/N) Σ_i [(1/M_1^(i)) Σ_j d_{j,1}^2 + (1/M_2^(i)) Σ_k d_{k,2}^2]
```
- Комбинированная потеря:
```
L_Lshape = λ_θ L_angle + λ_col L_collinear
```

Общая цель оптимизации:

min_{P_w, T_w, D_w} L_total = λ_reproj L_reproj + λ_cycle L_cycle + λ_shape L_Lshape

Алгоритм оптимизации: Использование алгоритма Левенберга-Маркварда для решения нелинейной задачи наименьших квадратов, балансирование между методом Гаусса-Ньютона и градиентным спуском

Технические инновации

Картографирование полуплотных краев с учетом краев: Объединение разреженных ключевых точек и плотных краев, достижение баланса между вычислительной эффективностью и деталями карты
Без явного сопоставления краев: Избежание сложного поиска соответствия краев 2D-2D через потерю циклической согласованности
Регуляризация, учитывающая структуру: Использование L-образного геометрического приоритета в помещениях для повышения качества реконструкции
Стратегия локальной оптимизации: Избежание обнаружения глобальных циклов замыкания, снижение вычислительной сложности
Адаптивное слияние датчиков: Моделирование процессного шума с учетом уровня заряда батареи и времени

Стратегии решения проблем оптимизации

Нелинейные задачи: Использование регуляризации и алгоритма Левенберга-Маркварда для стабилизации сходимости
Сингулярность: Диагональная регуляризация (μI) обеспечивает обратимость
Плохо обусловленная матрица Якоби: Повышение диспаритета путем косого движения камеры (например, зигзагообразная траектория)
Дисбаланс потерь: Адаптивная регулировка весов на основе неопределенности

Экспериментальная установка

Наборы данных

Эталонный набор данных TUM RGB-D
- 23 последовательности в помещении, продолжительность 2-10 минут
- Включает синхронизированные RGB-D-изображения и наземные истинные положения
- Разнообразные режимы движения, углы обзора и условия освещения
- Опубликовано командой TUM CVPR, лицензия Creative Commons
Набор данных для обучения оценке глубины
- Модель FastDepth предварительно обучена на наборе данных NYU Depth v2
- Использование MobileNet в качестве магистральной сети
- Использование глубоко разделяемых сверток для снижения сложности
Реальная платформа тестирования
- Дрон DJI Tello
- Монокулярная камера + инерциальные датчики
- Окружение внутреннего коридора

Метрики оценки

Абсолютная ошибка положения (APE):

APE_i = ||t_est^i - t_gt^i||_2

Измерение мгновенной евклидовой ошибки расстояния для каждой временной метки

Абсолютная ошибка траектории (ATE):

ATE_RMS = sqrt((1/N) Σ_i ||T_gt^{-1}_i T_est_i||_F^2)

Оценка глобального дрейфа всей последовательности (включая трансляцию и поворот)

Методы сравнения

ORB-SLAM2: Базовый метод, представляющий традиционный разреженный SLAM на основе признаков

Детали реализации

Платформа: Ubuntu 16.04 ноутбук
Сеть глубины: Предварительно обученный FastDepth (MobileNet-NNConv5)
Обнаружение признаков: ORB + обнаружение краев Canny
Окно оптимизации: Локальная регулировка пучка скользящего окна
Параметры веса: λ_reproj, λ_cycle, λ_shape (конкретные значения не указаны в статье)
Параметры EKF: β, λ для адаптивного процессного шума

Результаты экспериментов

Основные результаты

Количественная оценка на наборе данных TUM RGB-D (таблица I):

Метод	RMSE м	Среднее м	Стд м
ORB-SLAM2 (базовый)	0.182	0.17	0.71
Edge-Aware SLAM (данная работа)	0.046	0.040	0.011
Улучшение	74.7%	76.5%	98.4%

Ключевые выводы:

Снижение RMSE на 74.7%, значительное повышение точности траектории
Снижение стандартного отклонения на 98.4%, демонстрирующее более стабильную оценку положения
Снижение средней ошибки на 76.5%, меньшие систематические ошибки

Качественная оценка карты

Картографирование на ранних этапах (рисунок 4):

Метод данной работы может генерировать четкую и точную 3D-карту краев с начальных кадров
Облако точек ORB-SLAM2 имеет плохую интерпретируемость на ранних этапах

Картографирование полной последовательности (рисунок 5):

Метод данной работы сохраняет высокую точность после обработки полной последовательности без дрейфа
Карта ORB-SLAM2 имеет низкую четкость и интерпретируемость

Окружение лаборатории (рисунок 6):

От начала до конца последовательности метод данной работы сохраняет высокоточную 3D-карту краев
Отсутствие дрейфа или накопления ошибок, подтверждающее надежность и надежность системы

Вычислительная эффективность

Ключевые показатели производительности:

Скорость создания карты краев на основе ORB примерно в 100 раз быстрее, чем ORB-SLAM
Поддержка развертывания на небольших аппаратных платформах, таких как Raspberry Pi Zero
Реализация истинной обработки в реальном времени

Экспериментальные выводы

Преимущества усиления краев: Полуплотная карта краев обеспечивает более богатую структурную информацию, чем разреженное облако точек
Эффективность локальной оптимизации: Возможность сохранения долгосрочной согласованности без глобальных циклов замыкания
Ценность слияния датчиков: Слияние EKF эффективно решает проблему неоднозначности масштаба монокулярного видения
Облегченное глубокое обучение: FastDepth удовлетворяет требованиям реального времени при сохранении точности
Роль структурного приоритета: L-образные ограничения значительно повышают качество реконструкции в помещениях

Связанные работы

Традиционные методы SLAM

Серия ORB-SLAM: Классический метод на основе разреженных признаков, зависящий от глобальной оптимизации
Voxel Map: Улучшенный поиск и вывод видимости, но все еще разреженный
SfM: Базовая техника реконструкции 3D-структуры из нескольких изображений

Визуально-инерциальная одометрия

Методы на основе EKF: Быстрая и эффективная оценка положения (например, VINS-Mono, MSCKF-DVIO)
Ограничения: Обычно генерируют разреженные облака 3D-точек

Управляемый обучением плотный SLAM

DeepTAM: Глубокие нейронные сети генерируют плотные карты глубины, но ограниченная точность и большие вычислительные затраты
D3VO: Высокая точность, но сложная модель, неподходящая для низкопотребляющих устройств
NeRF/NICE-SLAM: Высокоточная реконструкция, но требуют высокопроизводительного GPU и статических сцен
NeuralRecon: Слияние глубины и положения, вычислительно невозможно

Edge SLAM

Edge SLAM: Генерирует полуплотные карты, но зависит от глобальной оптимизации, отслеживание на основе оптического потока вносит шум

Преимущества данной работы

Объединение традиционных геометрических методов и облегченного глубокого обучения
Локальная оптимизация вместо глобальных циклов замыкания
Подходит для реального времени на платформах с ограниченными ресурсами

Выводы и обсуждение

Основные выводы

Предложенная система SLAM с учетом краев достигает реального времени и точного 3D-картографирования на платформах с ограниченными ресурсами
По сравнению с ORB-SLAM2, RMSE оценки траектории и положения улучшен на 74.5%
Генерируемая полуплотная карта более точна и детальна
Скорость обработки примерно в 100 раз быстрее, чем ORB-SLAM, поддерживая встроенное развертывание

Ограничения

Предположения об окружающей среде: L-образные ограничения структуры в основном применимы к помещениям с искусственной средой, могут быть неподходящи в естественных сценах
Зависимость от глубины: Зависит от предварительно обученной модели FastDepth, производительность может снизиться в сценах вне области обучения
Динамические сцены: Статья не явно обсуждает обработку динамических объектов
Настройка параметров: Несколько параметров веса (λ_reproj, λ_cycle, λ_shape) требуют ручной настройки
Долгосрочный дрейф: Хотя локальная согласованность хорошая, отсутствие глобальных циклов замыкания может привести к накоплению ошибок в очень длинных последовательностях
Недостаточный количественный анализ: Сравнение только с ORB-SLAM2, отсутствие сравнения с другими современными методами

Будущие направления

Статья не явно предлагает, но потенциальные направления включают:

Расширение на открытые и неструктурированные окружения
Интеграция облегченного механизма обнаружения циклов замыкания
Обработка динамических объектов и окклюзии
Адаптивное обучение весов
Слияние нескольких датчиков (например, лидар)

Глубокая оценка

Преимущества

Техническая инновативность:

Проектирование гибридной архитектуры: Умелое объединение разреженной геометрии и плотного обучения, достижение баланса между точностью и эффективностью
Потеря циклической согласованности: Инновационное проектирование ограничений без необходимости в явном сопоставлении краев
Регуляризация, учитывающая структуру: Использование приоритетов окружающей среды для повышения качества реконструкции
Адаптивное слияние датчиков: Моделирование процессного шума с учетом уровня заряда батареи имеет практическое значение

Полнота экспериментов:

Проверка на стандартном наборе данных (TUM RGB-D) и реальной платформе (DJI Tello)
Количественные и качественные результаты взаимно подтверждают друг друга
Полный анализ вычислительной эффективности (100-кратное ускорение)

Убедительность результатов:

74.7% улучшение RMSE значительно
98.4% снижение стандартного отклонения доказывает стабильность
Визуализированные результаты четко демонстрируют преимущества полуплотной карты

Ясность написания:

Четкое определение проблемы, строгие математические выводы
Интуитивная диаграмма архитектуры системы
Четырехпоточный дизайн легко понять

Недостатки

Ограничения метода:

Способность к обобщению: L-образные ограничения ограничивают область применения метода
Долгосрочная согласованность: Отсутствие глобальных циклов замыкания может вызвать проблемы в крупномасштабных сценах
Зависимость от качества глубины: FastDepth может отказать в некоторых сценах

Дефекты экспериментальной установки:

Единственный метод сравнения: Сравнение только с ORB-SLAM2, отсутствие сравнения с Edge SLAM, VINS-Mono и другими методами
Отсутствие установки параметров: Не предоставлены значения ключевых параметров λ_reproj, λ_cycle, λ_shape
Недостаточные абляционные исследования: Не проведен отдельный анализ вклада каждого члена потерь
Ограничение набора данных: Тестирование в основном в помещениях, производительность на открытом воздухе неизвестна

Недостаточный анализ:

Случаи отказа: Не обсуждаются ситуации, когда метод не работает
Анализ вычислений: Отсутствует подробный анализ потребления времени и памяти
Тестирование надежности: Не протестирована чувствительность к шуму, окклюзии и изменениям освещения
Теоретический анализ: Отсутствуют гарантии сходимости и границы ошибок

Влияние

Вклад в область:

Предоставление практического решения для SLAM на платформах с ограниченными ресурсами
Демонстрация потенциала объединения традиционных методов и облегченного глубокого обучения
Идея картографирования с учетом краев может вдохновить последующие исследования

Практическая ценность:

Успешное развертывание на DJI Tello доказывает практичность
100-кратное ускорение делает встроенные приложения возможными
Полуплотная карта подходит для навигации и избегания препятствий

Воспроизводимость:

Средняя: Статья предоставляет детали метода, но отсутствуют код, полные установки параметров и детали обучения
Использование открытой модели FastDepth помогает воспроизведению
Четырехпоточная архитектура ясна, но детали реализации нуждаются в дополнении

Применимые сценарии

Подходящие приложения:

Навигация внутреннего дрона: Коридоры, склады, внутренние помещения зданий
Робот с ограниченными ресурсами: Низкопотребляющие мобильные платформы
Избегание препятствий в реальном времени: Сценарии, требующие быстрого отклика
Структурированная окружающая среда: Искусственные здания, промышленные объекты

Неподходящие сценарии:

Открытая естественная окружающая среда: Отсутствие L-образных структур
Высокодинамичные сцены: Быстро движущиеся объекты
Крупномасштабное картографирование: Отсутствие глобальных циклов замыкания
Высокоточные приложения: Такие как точные измерения (относительная ошибка все еще 4.6 см)

Библиография

Ключевые цитирования:

Серия ORB-SLAM: Классический разреженный базовый SLAM
FastDepth (Wofk et al., ICRA 2019): Облегченная сеть оценки глубины
TUM RGB-D (Sturm et al., 2012): Стандартный набор данных оценки SLAM
Bundle Adjustment (Triggs et al., 1999): Классическая техника оптимизации
Epipolar Geometry (Zhang, 1998): Теория основ эпиполярной геометрии
Extended Kalman Filter: Стандартный метод слияния датчиков
Edge SLAM (Maity et al., ICCV 2017): Пионерская работа по краевому SLAM
NeRF/NICE-SLAM: Методы обучения для плотной реконструкции

Общая оценка: Это практическое исследование SLAM для платформ с ограниченными ресурсами с разумной технической маршрутизацией и убедительными результатами экспериментов. Основной вклад заключается в системной инженерии и интеграции методов, а не в единственном алгоритмическом прорыве. 74.7% улучшение точности и 100-кратное ускорение имеют практическую ценность. Однако статья имеет пространство для улучшения в экспериментальном сравнении, абляционном анализе и теоретической глубине. Подходит для публикации в конференциях или журналах, посвященных приложениям робототехники.