Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
Tayar, de Oliveira, Tommaselli et al.
Autonomous UAV inspection of confined industrial infrastructure, such as ventilation ducts, demands robust navigation policies where collisions are unacceptable. While Deep Reinforcement Learning (DRL) offers a powerful paradigm for developing such policies, it presents a critical trade-off between on-policy and off-policy algorithms. Off-policy methods promise high sample efficiency, a vital trait for minimizing costly and unsafe real-world fine-tuning. In contrast, on-policy methods often exhibit greater training stability, which is essential for reliable convergence in hazard-dense environments. This paper directly investigates this trade-off by comparing a leading on-policy algorithm, Proximal Policy Optimization (PPO), against an off-policy counterpart, Soft Actor-Critic (SAC), for precision flight in procedurally generated ducts within a high-fidelity simulator. Our results show that PPO consistently learned a stable, collision-free policy that completed the entire course. In contrast, SAC failed to find a complete solution, converging to a suboptimal policy that navigated only the initial segments before failure. This work provides evidence that for high-precision, safety-critical navigation tasks, the reliable convergence of a well-established on-policy method can be more decisive than the nominal sample efficiency of an off-policy algorithm.
academic
Автономная навигация БПЛА в ограниченных пространствах: подход на основе обучения с подкреплением
Название: Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach
Авторы: Marco S. Tayar, Lucas K. de Oliveira, Felipe Andrade G. Tommaselli, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker (Университет Сан-Паулу)
В данной работе исследуется проблема автономной инспекции БПЛА в ограниченной промышленной инфраструктуре (например, в вентиляционных каналах), что требует разработки надежной стратегии навигации, исключающей столкновения. Хотя глубокое обучение с подкреплением (DRL) предоставляет мощную парадигму для разработки таких стратегий, существуют критические компромиссы между алгоритмами on-policy и off-policy. Методы off-policy обещают высокую выборочную эффективность, что критически важно для минимизации дорогостоящей и небезопасной настройки в реальном мире. Напротив, методы on-policy обычно демонстрируют лучшую стабильность обучения, что необходимо для надежной сходимости в средах с высокой плотностью опасностей. В данной работе прямо исследуется этот компромисс путем сравнения точных летных характеристик ведущего алгоритма on-policy PPO и алгоритма off-policy SAC в процедурно генерируемых каналах в высокоточном симуляторе. Результаты показывают, что PPO последовательно изучает стабильные, свободные от столкновений стратегии и завершает весь маршрут, тогда как SAC не находит полного решения и сходится к субоптимальной стратегии, которая может навигировать только начальный сегмент.
Ручная инспекция промышленной инфраструктуры (например, трубопроводов и вентиляционных каналов) — это сложный, дорогостоящий и трудоемкий процесс, критически важный для обеспечения целостности операций по техническому обслуживанию. Беспилотные летательные аппараты (БПЛА) представляют собой значительный прогресс в области промышленной инспекции, обеспечивая автоматизированный и безопасный сбор данных в средах, недоступных или опасных для человека.
Ограничения классических методов: традиционные методы планирования движения недостаточно адаптивны и не могут справиться с немоделируемыми аэродинамическими явлениями (например, эффектом земли в узких каналах)
Критичность безопасности: в этих средах столкновения неприемлемы, требуется высоконадежная стратегия управления
Глубокое обучение с подкреплением предоставляет мощную парадигму для решения этих проблем, но выбор алгоритма критичен. Центральный вопрос: для задач, требующих высокой точности и безопасности, является ли стабильность методов on-policy более важной, чем выборочная эффективность алгоритмов off-policy?
Прямой сравнительный анализ: прямое сравнение зрелых алгоритмов on-policy и off-policy на задаче автономной навигации БПЛА в ограниченных промышленных каналах
Эмпирические доказательства: предоставление эмпирических доказательств того, что для задач с высокой плотностью опасностей и высокой точностью стабильность обучения методов on-policy более критична, чем выборочная эффективность методов off-policy
Верификация рабочего процесса симуляции: верификация рабочего процесса симуляции с использованием процедурно генерируемых сред и высокоточного физического движка в качестве платформы для разработки и тестирования стратегий управления БПЛА для промышленных приложений
Использование инструмента Weights & Biases sweep для оптимизации весов вознаграждения с расширенным диапазоном основных направляющих элементов для SAC с учетом характеристик его буфера воспроизведения.
DRL изучает сложные стратегии управления посредством взаимодействия методом проб и ошибок, подходит для задач робототехники, которые сложно точно смоделировать
Достижение прорывов в генерации динамических навыков движения для ногоходящих роботов
Стабильность превосходит эффективность: для высокоточных, критичных для безопасности задач навигации стабильность обучения методов on-policy более важна, чем выборочная эффективность методов off-policy
Критичность выбора алгоритма: PPO успешно изучает надежные стратегии без столкновений, тогда как SAC сходится к субоптимальному решению
Ограничения буфера воспроизведения: буфер воспроизведения SAC может привести к смещению исследования в сложных последовательных задачах
Ограниченный диапазон алгоритмов: сравнение только двух алгоритмов — PPO и SAC
Зависимость от инженерии вознаграждения: производительность в значительной степени зависит от тщательно разработанной функции вознаграждения
Отсутствие валидации в реальности: все эксперименты проведены в среде симуляции, отсутствует верификация на реальных физических системах
Чувствительность к проектированию вознаграждения: использование различных весов вознаграждения для разных алгоритмов может влиять на универсальность выводов
Статья цитирует 26 связанных работ, охватывающих фундаментальную теорию DRL, навигацию БПЛА, технологию симуляции и другие аспекты, обеспечивая прочную теоретическую базу для исследования. Ключевые цитируемые работы включают оригинальные статьи PPO и SAC, прорывные работы по гонкам БПЛА и важные исследования передачи из симуляции в реальность.