2025-11-20T22:01:15.701145

Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach

Tayar, de Oliveira, Tommaselli et al.
Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
academic

Автономная навигация БПЛА в ограниченных пространствах: подход на основе обучения с подкреплением

Основная информация

  • ID статьи: 2508.16807
  • Название: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
  • Авторы: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (Университет Сан-Паулу)
  • Классификация: cs.RO cs.AI cs.LG cs.SY eess.SY
  • Дата публикации: 11 октября 2025 г. (arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2508.16807

Аннотация

В данной работе исследуется проблема автономной инспекции БПЛА в ограниченной промышленной инфраструктуре (например, в вентиляционных каналах), что требует разработки надежной стратегии навигации, исключающей столкновения. Хотя глубокое обучение с подкреплением (DRL) предоставляет мощную парадигму для разработки таких стратегий, существуют критические компромиссы между алгоритмами on-policy и off-policy. Методы off-policy обещают высокую выборочную эффективность, что критически важно для минимизации дорогостоящей и небезопасной настройки в реальном мире. Напротив, методы on-policy обычно демонстрируют лучшую стабильность обучения, что необходимо для надежной сходимости в средах с высокой плотностью опасностей. В данной работе прямо исследуется этот компромисс путем сравнения точных летных характеристик ведущего алгоритма on-policy PPO и алгоритма off-policy SAC в процедурно генерируемых каналах в высокоточном симуляторе. Результаты показывают, что PPO последовательно изучает стабильные, свободные от столкновений стратегии и завершает весь маршрут, тогда как SAC не находит полного решения и сходится к субоптимальной стратегии, которая может навигировать только начальный сегмент.

Исследовательский контекст и мотивация

Определение проблемы

Ручная инспекция промышленной инфраструктуры (например, трубопроводов и вентиляционных каналов) — это сложный, дорогостоящий и трудоемкий процесс, критически важный для обеспечения целостности операций по техническому обслуживанию. Беспилотные летательные аппараты (БПЛА) представляют собой значительный прогресс в области промышленной инспекции, обеспечивая автоматизированный и безопасный сбор данных в средах, недоступных или опасных для человека.

Анализ вызовов

Навигация БПЛА в ограниченных пространствах, таких как трубопроводы, сталкивается с уникальными проблемами:

  1. Сложные аэродинамические эффекты: близость стен создает сложные аэродинамические эффекты, повышающие риск столкновения
  2. Ограничения классических методов: традиционные методы планирования движения недостаточно адаптивны и не могут справиться с немоделируемыми аэродинамическими явлениями (например, эффектом земли в узких каналах)
  3. Критичность безопасности: в этих средах столкновения неприемлемы, требуется высоконадежная стратегия управления

Исследовательская мотивация

Глубокое обучение с подкреплением предоставляет мощную парадигму для решения этих проблем, но выбор алгоритма критичен. Центральный вопрос: для задач, требующих высокой точности и безопасности, является ли стабильность методов on-policy более важной, чем выборочная эффективность алгоритмов off-policy?

Основные вклады

  1. Прямой сравнительный анализ: прямое сравнение зрелых алгоритмов on-policy и off-policy на задаче автономной навигации БПЛА в ограниченных промышленных каналах
  2. Эмпирические доказательства: предоставление эмпирических доказательств того, что для задач с высокой плотностью опасностей и высокой точностью стабильность обучения методов on-policy более критична, чем выборочная эффективность методов off-policy
  3. Верификация рабочего процесса симуляции: верификация рабочего процесса симуляции с использованием процедурно генерируемых сред и высокоточного физического движка в качестве платформы для разработки и тестирования стратегий управления БПЛА для промышленных приложений

Подробное описание методологии

Определение задачи

Моделирование целеориентированного управления БПЛА как марковского процесса принятия решений (MDP): M = (S,A,T,R,γ)

Пространство состояний:

st = [prel, p̂Brel, q, vBlin, vBang, at-1] ∈ R20

где:

  • prel ∈ R³: вектор положения БПЛА относительно следующей путевой точки
  • p̂Brel ∈ R³: нормализованное единичное представление в координатах корпуса
  • q ∈ R⁴: единичный кватернион (мир в корпус)
  • vBlin, vBang ∈ R³: линейная и угловая скорость в координатах корпуса
  • at-1 ∈ R⁴: вектор команд двигателя из предыдущего момента времени

Пространство действий: Непрерывные действия at ∈ -1,1⁴, параметризующие каждую команду ротора:

ωi = (1 + 0.8 at,i) ωhover, i = 1,...,4

где ωhover = 14.47 krpm — откалиброванная скорость зависания.

Проектирование среды симуляции

Физический движок Genesis: использование высокоточного физического движка Genesis для ускоренного на GPU параллельного моделирования твердого тела.

Процедурная генерация каналов:

  • Каждый эпизод генерирует различные каналы, обеспечивая изучение политики разнообразных и сложных сценариев
  • Каналы состоят из Ns прямых сегментов, соединенных встык
  • Использование формулы вращения Родригеса для управления угловым отклонением между соседними сегментами:
v' = v cos θ + (k × v) sin θ + k(k · v)(1 - cos θ)

Модель БПЛА: использование модели симуляции Bitcraze Crazyflie 2 (нанокоптер 92×92×29 мм).

Сравнение алгоритмов обучения

Использование фреймворка skrl для обеспечения справедливого сравнения с одинаковой архитектурой сети для обоих алгоритмов:

  • Структура сети: actor-critic с двумя скрытыми слоями (256, 128 единиц, активация ELU)
  • Конфигурация PPO: горизонт rollout 256, 4096 параллельных сред, адаптивная цель KL 0.01, γ=0.99, λ=0.95, ε=0.2
  • Конфигурация SAC: двойные критики, буфер воспроизведения 10⁶, размер пакета 512, τ=0.005, γ=0.99, автоматическая регулировка энтропии

Проектирование функции вознаграждения

Использование модульной функции вознаграждения: Rt = Σk wk rk

Три основные категории:

  1. Направляющие вознаграждения:
    • Progress: вознаграждение за движение в сторону следующей путевой точки
    • Centerline Deviation: штраф за отклонение от центральной линии канала
    • Velocity Tracking: поощрение целевой скорости движения вперед
  2. Вознаграждения за стабильность:
    • Orientation Alignment: вознаграждение за выравнивание рыскания/горизонтальной ориентации
    • Angular Velocity Damping: штраф за угловую скорость вращения
    • Action Smoothness: штраф за резкие изменения команд двигателя
  3. Событийные вознаграждения:
    • Waypoint Pass: разреженное вознаграждение за прохождение путевой точки
    • Duct Finish: большое терминальное вознаграждение за завершение канала
    • Crash Penalty: большой штраф за столкновение/нарушение

Экспериментальная установка

Экспериментальная среда

  • Платформа: физический движок Genesis
  • Конфигурация канала: процедурно генерируемая, Rd = 0.5m, 7 путевых точек
  • Конфигурация обучения: PPO и SAC обучаются по 500 контрольных точек каждый

Метрики оценки

  • Average Reward: среднее вознаграждение
  • Waypoints Passed: количество пройденных путевых точек
  • Collisions per Episode: количество столкновений за эпизод
  • Average/Maximum Deviation: среднее/максимальное отклонение

Оптимизация гиперпараметров

Использование инструмента Weights & Biases sweep для оптимизации весов вознаграждения с расширенным диапазоном основных направляющих элементов для SAC с учетом характеристик его буфера воспроизведения.

Результаты экспериментов

Результаты обучения PPO

Контрольная точка5075100150200300400500
Среднее вознаграждение1.3k2.7k4.5k6.4k7.2k9.9k10.2k9.6k
Пройденные путевые точки1/72/74/75/76/77/77/77/7
Столкновений/эпизод1.000.700.300.000.000.000.000.00
Среднее отклонение (м)0.1230.1130.0840.0650.0940.0640.0630.094

Ключевые находки:

  • Достижение 100% завершения маршрута с нулевыми столкновениями на контрольной точке 300
  • Среднее отклонение от центральной линии снизилось с 0.1128м до 0.0636м (между контрольными точками 200-300)
  • Лучшая производительность достигнута на контрольной точке 400 (среднее вознаграждение 10.2k)

Результаты обучения SAC

Контрольная точка5075100150200300
Среднее вознаграждение2.0k3.0k3.6k4.1k5.4k4.4k
Пройденные путевые точки0/71/72/73/73/73/7
Столкновений/эпизод1.001.001.001.001.001.00

Ключевые находки:

  • Процент завершения маршрута остается 0% на протяжении всего процесса обучения
  • В среднем 1 столкновение за эпизод, указывающее на то, что терминальный отказ является стандартным результатом
  • Максимум 3 пройденные путевые точки перед крахом, сходимость к локальному оптимуму

Анализ сравнения производительности

Причины успеха PPO:

  • Обновления on-policy обеспечивают последовательный сигнал обучения
  • Способность преодолевать локальные оптимумы и решать задачу end-to-end
  • Демонстрация классической схемы обучения: сначала овладение основной целью, затем оптимизация траектории

Причины отказа SAC:

  • Буфер воспроизведения насыщен опытом из простых начальных сегментов
  • Предпочтение совершенствованию траектории в начале, игнорирование позднейших вызовов
  • Выборочная эффективность в этом контексте дает обратный эффект

Связанные работы

Применение DRL в робототехнике

  • DRL изучает сложные стратегии управления посредством взаимодействия методом проб и ошибок, подходит для задач робототехники, которые сложно точно смоделировать
  • Достижение прорывов в генерации динамических навыков движения для ногоходящих роботов

Важность высокоточной симуляции

  • Из-за высокой стоимости и рисков безопасности реального взаимодействия симуляция становится важным инструментом для исследований DRL
  • Методы, такие как рандомизация доменов, критичны для передачи из симуляции в реальность

Автономная навигация БПЛА

  • DRL демонстрирует сверхчеловеческую производительность в высокоскоростных динамических задачах, таких как гонки БПЛА
  • Навигация в ограниченных средах более сложна, чем в открытом пространстве, требует более стабильных и надежных алгоритмов обучения

Выводы и обсуждение

Основные выводы

  1. Стабильность превосходит эффективность: для высокоточных, критичных для безопасности задач навигации стабильность обучения методов on-policy более важна, чем выборочная эффективность методов off-policy
  2. Критичность выбора алгоритма: PPO успешно изучает надежные стратегии без столкновений, тогда как SAC сходится к субоптимальному решению
  3. Ограничения буфера воспроизведения: буфер воспроизведения SAC может привести к смещению исследования в сложных последовательных задачах

Ограничения

  1. Ограниченный диапазон алгоритмов: сравнение только двух алгоритмов — PPO и SAC
  2. Зависимость от инженерии вознаграждения: производительность в значительной степени зависит от тщательно разработанной функции вознаграждения
  3. Отсутствие валидации в реальности: все эксперименты проведены в среде симуляции, отсутствует верификация на реальных физических системах
  4. Чувствительность к проектированию вознаграждения: использование различных весов вознаграждения для разных алгоритмов может влиять на универсальность выводов

Влияние

  1. Академический вклад: предоставление эмпирического руководства для выбора алгоритма DRL в критичных для безопасности задачах
  2. Промышленная ценность: предоставление технической справки для разработки БПЛА промышленной инспекции
  3. Методологическая ценность: верификация эффективности процедурно генерируемых сред в обучении DRL

Применимые сценарии

  • Высокоточные, критичные для безопасности задачи навигации БПЛА
  • Управление робототехникой в ограниченных пространствах
  • Приложения обучения с подкреплением, требующие гарантий надежной сходимости

Библиография

Статья цитирует 26 связанных работ, охватывающих фундаментальную теорию DRL, навигацию БПЛА, технологию симуляции и другие аспекты, обеспечивая прочную теоретическую базу для исследования. Ключевые цитируемые работы включают оригинальные статьи PPO и SAC, прорывные работы по гонкам БПЛА и важные исследования передачи из симуляции в реальность.