2025-11-19T18:31:14.017963

Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors

Danial, Asher, Klein

Monocular simultaneous localization and mapping (SLAM) algorithms estimate drone poses and build a 3D map using a single camera. Current algorithms include sparse methods that lack detailed geometry, while learning-driven approaches produce dense maps but are computationally intensive. Monocular SLAM also faces scale ambiguities, which affect its accuracy. To address these challenges, we propose an edge-aware lightweight monocular SLAM system combining sparse keypoint-based pose estimation with dense edge reconstruction. Our method employs deep learning-based depth prediction and edge detection, followed by optimization to refine keypoints and edges for geometric consistency, without relying on global loop closure or heavy neural computations. We fuse inertial data with vision by using an extended Kalman filter to resolve scale ambiguity and improve accuracy. The system operates in real time on low-power platforms, as demonstrated on a DJI Tello drone with a monocular camera and inertial sensors. In addition, we demonstrate robust autonomous navigation and obstacle avoidance in indoor corridors and on the TUM RGBD dataset. Our approach offers an effective, practical solution to real-time mapping and navigation in resource-constrained environments.

academic

단안 카메라와 관성 센서를 이용한 마이크로 드론의 동시 위치 추정 및 3D 반밀집 지도 작성

기본 정보

논문 ID: 2511.14335
제목: Simultaneous Localization and 3D-Semi Dense Mapping for Micro Drones Using Monocular Camera and Inertial Sensors
저자: Jeryes Danial (하이파 대학교), Yosi Ben Asher (하이파 대학교), Itzik Klein (하이파 대학교)
분류: cs.RO (로봇공학)
발표 시간: 2025년 11월 18일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2511.14335

초록

본 논문은 마이크로 드론이 단안 카메라를 이용하여 동시 위치 추정 및 지도 작성(SLAM)을 수행할 때의 도전 과제를 해결하기 위해 모서리 인식 경량 단안 SLAM 시스템을 제안한다. 본 시스템은 희소 핵심점 위치 추정과 밀집 모서리 재구성을 결합하며, 깊이 예측 및 모서리 검출을 위해 심층 학습을 채택하고, 최적화를 통해 기하학적 일관성을 달성한다. 전역 루프 폐쇄나 무거운 신경망 계산에 의존하지 않는다. 본 시스템은 확장 칼만 필터를 사용하여 관성 데이터와 시각 정보를 융합하여 스케일 모호성을 해결하고 정확도를 향상시킨다. DJI Tello 드론에서 실시간 실행을 구현했으며, TUM RGBD 데이터셋에서 견고한 자율 항법 및 장애물 회피 능력을 입증했다.

연구 배경 및 동기

해결해야 할 핵심 문제

희소 지도 문제: 기존의 특징점 기반 SLAM 시스템(예: ORB-SLAM)은 위치 추정을 효과적으로 수행하지만, 생성되는 3D 점군 지도가 너무 희소하여 구조적 풍부성이 부족하고 밀집 3D 이해가 필요한 작업에 부적합하다.
계산 자원 제한: 기존의 학습 기반 밀집 SLAM 방법(예: NeRF, NICE-SLAM)은 계산량이 크므로 자원이 제한된 임베디드 플랫폼에서 실시간 실행이 어렵다.
스케일 모호성: 단안 SLAM의 고유한 스케일 불확실성이 위치 추정 정확도에 영향을 미친다.
전역 최적화 오버헤드: 기존 SLAM은 루프 폐쇄 검출 및 전역 번들 조정에 의존하여 계산 오버헤드가 크다.

연구의 중요성

마이크로 드론의 자율 항법은 항법, 장애물 회피 및 환경 상호작용을 위한 실시간의 정확한 3D 인식 능력이 필요하다. 자원이 제한된 임베디드 플랫폼에서 이를 달성하는 것은 로봇공학 분야의 핵심 과제이다.

기존 방법의 한계

ORB-SLAM: 희소 3D 점만 생성하며 구조적 세부 사항이 부족하다.
Edge SLAM: 반밀집 지도를 생성할 수 있지만 전역 최적화에 의존하여 계산량이 크고, 광학 흐름 기반 추적이 노이즈를 도입한다.
DeepTAM/D3VO: 심층 학습 방법으로 매개변수 수가 많고 계산 복잡도가 높아 저전력 장치에 부적합하다.
NeRF/NICE-SLAM: 고급 GPU가 필요하며 정적 장면을 가정하고 실시간성이 부족하다.

연구 동기

자원이 제한된 플랫폼에서 반밀집 지도를 생성할 수 있으면서도 높은 정확도의 위치 추정을 유지하는 경량 실시간 SLAM 시스템을 개발한다.

핵심 기여

경량 SLAM 파이프라인: 희소 대극 기하학과 밀집 깊이 예측 및 모서리 추출을 통합하여 모서리 앵커 기반 반밀집 지도 구성을 실현한다.
모서리 순환 일관성 손실: 명시적 2D-2D 모서리 매칭 없이 다중 시점 모서리 투영 일관성 제약을 제안한다.
형태 인식 구조 제약: L자형 구조 기반 기하학적 정규화로 실내 환경의 구조적 일관성을 강화한다.
국소 기하학적 최적화: 다중 목표 번들 조정으로 카메라 위치, 핵심점 및 모서리 세그먼트를 공동 최적화하며 전역 루프 폐쇄나 밀집 복셀 융합이 필요 없다.
시각-관성 융합: 확장 칼만 필터를 사용하여 관성 데이터를 융합하여 스케일 모호성 문제를 해결한다.

방법 상세 설명

작업 정의

입력:

단안 카메라 이미지 시퀀스
관성 측정 장치(IMU) 데이터(선속도, 오일러 각)
카메라 내부 매개변수 행렬 K

출력:

카메라 위치 궤적 {Ti} ∈ SE(3)
반밀집 3D 모서리 지도
희소 3D 핵심점 지도

제약: 실시간 요구사항, 자원 제한 플랫폼(예: DJI Tello 드론)

모델 아키텍처

시스템은 4개 스레드 병렬 아키텍처를 채택한다(그림 1 참조):

스레드 1: 이미지 전처리 및 특징 추출(파란색)

ORB 핵심점 검출: ORB 특징점 및 설명자 추출
Canny 모서리 검출: 이미지 모서리 검출
깊이 예측: 사전 학습된 FastDepth CNN(MobileNet-NNConv5 아키텍처 기반)을 사용하여 밀집 깊이 맵 예측
특징 매칭: Hamming 거리를 사용하여 ORB 설명자를 매칭하고 KD 트리로 최근접 이웃 검색을 가속화한다.

스레드 2: 위치 추정 및 센서 융합(녹색)

상대 위치 추정:

매칭된 ORB 특징으로부터 대극 기하학을 통해 본질 행렬 E 추정:
```
u_j^T E_ij u_i = 0
```
RANSAC을 사용하여 이상치 제거, SVD 분해로 상대 회전 R_ij 및 평행이동 t_ij 복원

확장 칼만 필터 융합:

상태 벡터:

x = [p, α]^T = [x, y, z, φ, θ, ψ]^T

여기서 p는 전역 위치, α는 오일러 각(롤, 피치, 요)

예측 단계:

p_{k|k-1} = p_{k-1} + R_imu(α_{k-1}) · v_imu · Δt

적응형 프로세스 노이즈:

Q_k = β · (1 - b_k + λτ) · I_6

여기서 b_k는 배터리 전량, τ는 마지막 단안 업데이트 이후의 시간이며, SDK 데이터의 정확도 저하를 전량 감소 및 시간 경과에 따라 고려한다.

측정 업데이트:

관측 1: SDK의 오일러 각 z_api = α_api
관측 2: 시각 주행거리계의 전역 위치 추정(상대 위치 누적을 통해)

스레드 3: 밀집 모서리 지도 및 3D 앵커 생성(노란색)

깊이 맵과 추정된 카메라 위치를 활용하여 삼각측량을 통해 3D 점(앵커) 재구성:

P^k* = argmin_P ||u_i^k - π(K P)||^2 + ||u_j^k - π(K[R_ij* P + t_ij*])||^2

스레드 4: 모서리 인식 국소 최적화(분홍색)

다중 손실 함수 설계:

재투영 손실(희소 핵심점):

L_reproj = Σ_i,k ||u_ik - u_ik^proj||^2

여기서 u_ik^proj = π(R_i P^k + t_i)

순환 일관성 손실(밀집 모서리점): 폐쇄 루프 변환 검증으로 모서리점 일관성 구현:

P_i = π^{-1}(u_i*, d_i) → P_j = T_{i,j} · P_i → u_j = π(P_j)
→ P'_j = π^{-1}(u_j, d_j) → P'_i = T_{i,j}^{-1} · P'_j → u'_i = π(P'_i)

L_cycle = Σ_{u_i* ∈ E} ||u_i* - u'_i||^2

L자형 구조 손실(기하학적 정규화):

각도 일관성:

L_angle = (1/N) Σ_i (cos(θ_proj^(i)) - cos(θ_expected^(i)))^2

공선성 제약:

L_collinear = (1/N) Σ_i [(1/M_1^(i)) Σ_j d_{j,1}^2 + (1/M_2^(i)) Σ_k d_{k,2}^2]

결합 손실:

L_Lshape = λ_θ L_angle + λ_col L_collinear

전체 최적화 목표:

min_{P_w, T_w, D_w} L_total = λ_reproj L_reproj + λ_cycle L_cycle + λ_shape L_Lshape

최적화 알고리즘: Levenberg-Marquardt 알고리즘을 사용하여 비선형 최소제곱 문제를 해결하며, Gauss-Newton과 경사 하강법의 균형을 맞춘다.

기술 혁신점

모서리 인식 반밀집 매핑: 희소 핵심점과 밀집 모서리를 결합하여 계산 효율성과 지도 세부 사항 간의 균형을 달성한다.
명시적 모서리 매칭 불필요: 순환 일관성 손실을 통해 복잡한 모서리 대응 검색을 회피한다.
구조 인식 정규화: 실내 환경의 L자형 기하학 사전 정보를 활용하여 재구성 품질을 강화한다.
국소 최적화 전략: 전역 루프 폐쇄 검출을 회피하여 계산 복잡도를 감소시킨다.
적응형 센서 융합: 배터리 전량 및 시간을 고려한 프로세스 노이즈 모델링

최적화 도전 과제 대응 전략

비선형 문제: 정규화 및 Levenberg-Marquardt 알고리즘을 사용하여 수렴 안정화
특이성: 대각 정규화(μI)로 가역성 보장
병태 야코비안 행렬: 사선 카메라 운동(예: 지그재그 궤적)을 통해 시차 강화
손실 불균형: 불확실성 기반 적응형 가중치 조정

실험 설정

데이터셋

TUM RGB-D 벤치마크 데이터셋
- 23개의 실내 시퀀스, 지속 시간 2-10분
- 동기화된 RGB-D 이미지 및 지면 진실 위치 포함
- 다양한 운동 패턴, 시각 및 조명 조건
- TUM CVPR 팀에서 발표, Creative Commons 라이선스
깊이 추정 학습 데이터셋
- FastDepth 모델을 NYU Depth v2 데이터셋에서 사전 학습
- MobileNet을 백본 네트워크로 채택
- 깊이 분리 가능 합성곱을 사용하여 복잡도 감소
실제 테스트 플랫폼
- DJI Tello 드론
- 단안 카메라 + 관성 센서
- 실내 복도 환경

평가 지표

절대 위치 오차(APE):

APE_i = ||t_est^i - t_gt^i||_2

각 타임스탬프의 순간 유클리드 거리 오차 측정

절대 궤적 오차(ATE):

ATE_RMS = sqrt((1/N) Σ_i ||T_gt^{-1}_i T_est_i||_F^2)

전체 시퀀스의 전역 드리프트 평가(평행이동 및 회전 포함)

비교 방법

ORB-SLAM2: 기준 방법으로서 기존 희소 특징 SLAM을 대표한다.

구현 세부 사항

플랫폼: Ubuntu 16.04 노트북 컴퓨터
깊이 네트워크: 사전 학습된 FastDepth(MobileNet-NNConv5)
특징 검출: ORB + Canny 모서리 검출
최적화 윈도우: 국소 슬라이딩 윈도우 번들 조정
가중치 매개변수: λ_reproj, λ_cycle, λ_shape(논문에서 구체적 수치 미제공)
EKF 매개변수: β, λ는 적응형 프로세스 노이즈용

실험 결과

주요 결과

TUM RGB-D 데이터셋의 정량적 평가(표 I):

방법	RMSE m	평균 m	표준편차 m
ORB-SLAM2 (기준)	0.182	0.17	0.71
모서리 인식 SLAM (본 논문)	0.046	0.040	0.011
개선율	74.7%	76.5%	98.4%

주요 발견:

RMSE 74.7% 감소로 궤적 정확도 현저히 향상
표준편차 98.4% 감소로 위치 추정이 더욱 안정적임을 입증
평균 오차 76.5% 감소로 체계적 편차 감소

정성적 지도 평가

초기 단계 매핑(그림 4):

본 논문의 방법은 초기 프레임부터 명확하고 정확한 3D 모서리 지도 생성
ORB-SLAM2의 점군은 초기 단계에서 해석 가능성이 낮음

완전 시퀀스 매핑(그림 5):

본 논문의 방법은 완전 시퀀스 처리 후 높은 정확도 유지, 드리프트 없음
ORB-SLAM2의 지도는 명확도 및 해석 가능성이 낮음

실험실 환경(그림 6):

시퀀스 시작부터 끝까지 본 논문의 방법은 높은 정확도의 3D 모서리 지도 유지
드리프트 또는 오차 누적 없음으로 시스템의 견고성 및 신뢰성 검증

계산 효율성

주요 성능 지표:

ORB 기반 모서리 지도 생성 속도가 ORB-SLAM보다 약 100배 빠름
Raspberry Pi Zero 등 소형 하드웨어에서의 배포 지원
진정한 실시간 처리 구현

실험 발견

모서리 강화의 장점: 반밀집 모서리 지도는 희소 점군보다 더 풍부한 구조 정보 제공
국소 최적화 효과성: 전역 루프 폐쇄 없이도 장기 일관성 유지 가능
센서 융합의 가치: EKF 융합이 단안 스케일 모호성 문제를 효과적으로 해결
경량 심층 학습: FastDepth가 정확도 유지하면서 실시간 요구사항 충족
구조 사전 정보의 역할: L자형 제약이 실내 환경에서 재구성 품질을 현저히 향상

결론 및 논의

주요 결론

제안된 모서리 인식 SLAM 시스템은 자원 제한 플랫폼에서 실시간의 정확한 3D 매핑을 구현했다.
ORB-SLAM2 대비 궤적 및 위치 추정의 RMSE가 74.5% 향상되었다.
생성된 반밀집 지도가 더욱 정확하고 상세하다.
처리 속도가 ORB-SLAM보다 약 100배 빠르며 임베디드 배포를 지원한다.

한계

환경 가정: L자형 구조 제약은 주로 실내 인공 환경에 적용되며 자연 장면에서는 부적합할 수 있다.
깊이 의존성: 사전 학습된 FastDepth 모델에 의존하며 학습 영역 외 장면에서 성능 저하 가능
동적 장면: 논문에서 동적 객체 처리를 명확히 논의하지 않음
매개변수 조정: 다중 가중치 매개변수(λ_reproj, λ_cycle, λ_shape)가 수동 조정 필요
장기 드리프트: 국소 일관성은 우수하지만 전역 루프 폐쇄 부재로 초장시간 시퀀스에서 오차 누적 가능
정량적 분석 부족: ORB-SLAM2와만 비교하며 다른 현대적 방법과의 비교 부족

향후 방향

논문에서 명시적으로 제시되지 않았으나 잠재적 방향은 다음을 포함한다:

야외 및 비구조화 환경으로 확장
경량 루프 폐쇄 검출 메커니즘 통합
동적 객체 및 폐색 처리
적응형 가중치 학습
다중 센서 융합(예: 라이다)

심층 평가

장점

기술 혁신성:

혼합 아키텍처 설계: 희소 기하학과 밀집 학습을 교묘히 결합하여 정확도와 효율성 간의 균형 달성
순환 일관성 손실: 명시적 모서리 매칭 없는 혁신적 제약 설계
구조 인식 정규화: 환경 사전 정보를 활용하여 재구성 품질 강화
적응형 센서 융합: 배터리 전량을 고려한 프로세스 노이즈 모델링은 실제적 의미 있음

실험 충분성:

표준 데이터셋(TUM RGB-D)과 실제 플랫폼(DJI Tello)에서 검증
정량적 및 정성적 결과가 상호 입증
계산 효율성 분석 충분(100배 가속)

결과 설득력:

74.7%의 RMSE 개선이 현저함
98.4%의 표준편차 감소로 안정성 입증
시각화 결과가 반밀집 지도의 장점을 명확히 보여줌

작성 명확성:

문제 정의가 명확하고 수학적 유도가 엄밀함
시스템 아키텍처 다이어그램이 직관적
4개 스레드 설계가 이해하기 쉬움

부족한 점

방법 한계:

일반화 능력: L자형 제약이 방법의 적용 범위를 제한
장기 일관성: 전역 루프 폐쇄 부재로 대규모 장면에서 문제 가능
깊이 품질 의존성: FastDepth가 특정 장면에서 실패 가능

실험 설정 결함:

비교 방법 단일: ORB-SLAM2와만 비교하며 Edge SLAM, VINS-Mono 등 방법과의 비교 부족
매개변수 설정 누락: λ_reproj, λ_cycle, λ_shape 등 핵심 매개변수 값 미제공
소거 실험 부족: 각 손실항의 기여도를 개별 분석하지 않음
데이터셋 한계: 주로 실내 장면에서 테스트하며 야외 성능 미지수

분석 부족:

실패 사례: 방법이 실패하는 상황 미논의
계산 분석: 상세한 시간 및 메모리 소비 분석 부족
견고성 테스트: 노이즈, 폐색, 조명 변화에 대한 민감도 테스트 미실시
이론적 분석: 수렴성 보장 및 오차 한계 분석 부족

영향력

분야에 대한 기여:

자원 제한 플랫폼의 SLAM에 실용적 해결책 제공
기존 방법과 경량 심층 학습 결합의 잠재력 입증
모서리 인식 매핑 사상이 후속 연구에 영감 제공 가능

실용적 가치:

DJI Tello에서의 성공적 배포로 실용성 입증
100배 가속으로 임베디드 응용 가능
반밀집 지도가 항법 및 장애물 회피 작업에 적합

재현성:

중간 수준: 논문이 방법 세부 사항을 제공하지만 코드, 완전한 매개변수 설정 및 학습 세부 사항 부족
사용된 FastDepth는 공개 모델로 재현에 도움
4개 스레드 아키텍처가 명확하지만 구현 세부 사항 보충 필요

적용 가능 장면

적합한 응용:

실내 드론 항법: 복도, 창고, 건물 내부
자원 제한 로봇: 저전력 이동 플랫폼
실시간 장애물 회피: 빠른 응답이 필요한 장면
구조화 환경: 인공 건축물, 산업 시설

부적합한 장면:

야외 자연 환경: L자형 구조 부재
고동적 장면: 빠르게 움직이는 객체
초대규모 지도: 전역 루프 폐쇄 부재
고정밀 응용: 정밀 측정 등(상대 오차 여전히 4.6cm)

참고문헌

주요 인용:

ORB-SLAM 시리즈: 고전적 희소 SLAM 기준
FastDepth (Wofk et al., ICRA 2019): 경량 깊이 추정 네트워크
TUM RGB-D (Sturm et al., 2012): 표준 SLAM 평가 데이터셋
Bundle Adjustment (Triggs et al., 1999): 고전적 최적화 기술
Epipolar Geometry (Zhang, 1998): 대극 기하학 기초 이론
Extended Kalman Filter: 센서 융합 표준 방법
Edge SLAM (Maity et al., ICCV 2017): 모서리 SLAM 선구 연구
NeRF/NICE-SLAM: 밀집 재구성의 학습 방법

종합 평가: 본 논문은 자원 제한 플랫폼을 위한 실용적 SLAM 연구로서 기술 경로가 합리적이고 실험 결과가 설득력 있다. 주요 기여는 단일 알고리즘 돌파보다는 시스템 공학 및 방법 통합에 있다. 74.7%의 정확도 향상 및 100배의 속도 향상은 실제적 가치를 지닌다. 다만 논문은 실험 비교, 소거 분석 및 이론적 깊이 측면에서 개선 여지가 있다. 로봇 응용 관련 회의 또는 저널에 발표하기에 적합하다.