Fluid antenna systems (FAS) enable dynamic antenna positioning, offering new opportunities to enhance integrated sensing and communication (ISAC) performance. However, existing studies primarily focus on communication enhancement or single-target sensing, leaving multi-target scenarios underexplored. Additionally, the joint optimization of beamforming and antenna positions poses a highly non-convex problem, with traditional methods becoming impractical as the number of fluid antennas increases. To address these challenges, this letter proposes a block coordinate descent (BCD) framework integrated with a deep reinforcement learning (DRL)-based approach for intelligent antenna positioning. By leveraging the deep deterministic policy gradient (DDPG) algorithm, the proposed framework efficiently balances sensing and communication performance. Simulation results demonstrate the scalability and effectiveness of the proposed approach.
- ID статьи: 2501.01281
- Название: Towards Intelligent Antenna Positioning: Leveraging DRL for FAS-Aided ISAC Systems
- Авторы: Shunxing Yang, Junteng Yao, Jie Tang, Tuo Wu, Maged Elkashlan, Chau Yuen, Mérouane Debbah, Hyundong Shin, Matthew Valenti
- Классификация: eess.SP (Электротехника и системные науки - обработка сигналов)
- Дата публикации: 2 января 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2501.01281
Системы текучих антенн (FAS) обеспечивают динамическое позиционирование антенн, открывая новые возможности для повышения производительности интегрированных систем восприятия и коммуникации (ISAC). Однако существующие исследования в основном сосредоточены на улучшении коммуникации или восприятии одной цели, в то время как сценарии с несколькими целями остаются недостаточно изученными. Кроме того, совместная оптимизация формирования луча и позиционирования антенн представляет собой высоконевыпуклую задачу, которая становится непрактичной при использовании традиционных методов с увеличением количества текучих антенн. Для решения этих проблем в статье предлагается структура блочного координатного спуска (BCD), интегрирующая глубокое обучение с подкреплением (DRL), для интеллектуального позиционирования антенн. Используя алгоритм глубокого детерминированного градиента политики (DDPG), предложенная структура эффективно уравновешивает производительность восприятия и коммуникации. Результаты моделирования демонстрируют масштабируемость и эффективность предложенного метода.
Основная проблема, которую решает данное исследование, заключается в том, как достичь совместной оптимизации формирования луча и позиционирования антенн в многоцелевых системах ISAC посредством систем текучих антенн, чтобы одновременно удовлетворить требования производительности коммуникации и многоцелевого восприятия.
- Требования сетей 6G: ISAC как ключевое инновационное решение для беспроводных сетей 6G требует одновременного обеспечения функций коммуникации и восприятия на общих спектральных ресурсах
- Использование пространственных ресурсов: Традиционные системы с антеннами в фиксированных позициях (FPA) имеют фундаментальные ограничения в использовании пространственных ресурсов
- Многоцелевые сценарии: Практические приложения часто требуют одновременного восприятия нескольких целей, что увеличивает сложность проектирования системы
- Ограниченный объем исследований: Существующие исследования FAS в основном сосредоточены на улучшении коммуникации или восприятии одной цели, многоцелевые сценарии недостаточно изучены
- Сложность оптимизации: Совместная оптимизация формирования луча и позиционирования антенн является высоконевыпуклой задачей, традиционные методы чередующейся оптимизации становятся неосуществимыми при увеличении количества антенн
- Дискретная обработка: Некоторые исследования рассматривают только активацию портов, а не непрерывную оптимизацию позиционирования антенн
На основе указанных ограничений данная работа направлена на разработку схемы интеллектуального позиционирования антенн, способной обрабатывать сценарии многоцелевого восприятия, с использованием глубокого обучения с подкреплением для принятия решений в реальном времени и масштабируемой оптимизации.
- Проектирование многоцелевой системы ISAC: Первое систематическое исследование применения FAS в сценариях многоцелевого восприятия, заполняющее пробел в существующих исследованиях
- Гибридная структура BCD-DRL: Предложена новая структура оптимизации, объединяющая блочный координатный спуск с глубоким обучением с подкреплением
- Непрерывная оптимизация позиционирования: Реализована непрерывная оптимизация позиционирования антенн, а не только дискретный выбор портов
- Проверка масштабируемости: Моделирование подтверждает масштабируемость и эффективность метода в многопользовательских многоцелевых сценариях
Входные данные:
- Область ограничений позиционирования N текучих антенн базовой станции At
- Область ограничений позиционирования одной текучей антенны пользовательского терминала Ar
- Информация о позиционировании K целей восприятия
- Параметры канала и системные ограничения
Выходные данные:
- Оптимизированная матрица формирования луча U
- Позиции текучих антенн базовой станции p = p1, p2, ..., pN
- Позиция антенны пользовательского терминала q
Ограничения:
- Ограничение максимальной передаваемой мощности: Tr(U) ≤ Pmax
- Ограничение коэффициента усиления восприятия: ϖ(p(k)) ≥ Γ, ∀k ∈ K
- Ограничение минимального расстояния между антеннами: ||pα - pβ||2 ≥ Ds
- Ограничение ранга: rank(U) = 1
Алгоритм использует метод блочного координатного спуска, разлагая исходную невыпуклую задачу на две подзадачи:
- Подзадача 1: При фиксированном позиционировании антенн оптимизация матрицы передаваемой ковариации (выпуклая оптимизация)
- Подзадача 2: При фиксированной матрице формирования луча оптимизация позиционирования антенн (решение DRL)
Для фиксированного позиционирования антенн задача преобразуется в выпуклую оптимизацию путем временного ослабления ограничения ранга:
maxU⪰0log2(1+σ2f(p,q)Uf†(p,q))
Решение осуществляется с использованием набора инструментов CVX; если ранг решения превышает 1, применяется гауссова рандомизация для восстановления решения ранга один.
Моделирование MDP:
- Пространство состояний: st∈R2(N+1)+3, содержащее все координаты антенн и характеристики формирования луча
- Пространство действий: at∈R2(N+1), представляющее дополнительные корректировки позиционирования антенн
- Функция вознаграждения:
rt=R(st,at)−α1∑m=1Mmax(0,ϖ(p(m))−Γ)−α2max(0,Pmax−Tr(U))−α3N+11∑i=1N+1∣∣Δpi∣∣2
Архитектура сети:
- Сеть актора: Трёхслойная полносвязная сеть (400-300 нейронов), выходной слой использует активацию tanh и масштабирование
- Сеть критика: Обработка пар состояние-действие, вывод оценки Q-значения
- Целевые сети: Использование политики мягкого обновления для стабилизации обучения
- Проектирование пространства состояний: Инновационное объединение информации о пространственной конфигурации и характеристик формирования луча, включая след, максимальное собственное значение и среднее собственное значение
- Проектирование функции вознаграждения: Многоцелевая функция вознаграждения, одновременно учитывающая скорость коммуникации, ограничения восприятия, ограничения мощности и стоимость перемещения
- Стратегия исследования: Использование процесса Орнштейна-Уленбека для генерации временно коррелированного шума исследования, подходящего для задач физического управления
- Непрерывная оптимизация: Реализация истинной непрерывной оптимизации позиционирования, а не дискретного выбора
- Модель канала: Дальнепольная модель, углы возвышения и азимута θ, ψ независимо и одинаково распределены в 0,π
- Ограничения антенн: Минимальное расстояние D = λ/2, диапазон перемещения A×A, максимальное смещение A = 4λ
- Параметры пути: Количество путей передачи и приёма D = I = 3
- Соотношение мощности: Соотношение мощности LoS к NLoS пути τ = 1
- Параметры сети: Буфер опыта воспроизведения 10000, размер пакета 64, параметр мягкого обновления τ = 0,001
- Производительность коммуникации: Средняя скорость коммуникации и максимальная скорость коммуникации (бит/с/Гц)
- Конфигурация системы: Комбинации различного количества антенн N(4,8,12) и целей K(1,3)
- Количество пользователей: Однопользовательский (M=1) и многопользовательский (M=3) сценарии
- Базовая линия FPA: Система с антеннами в фиксированных позициях в качестве эталона
- Сравнение различных конфигураций: Сравнение производительности при изменении количества антенн и целей
Анализ средней скорости коммуникации:
- FAS значительно превосходит базовую линию FPA во всех конфигурациях
- С увеличением количества целей K ограничения ISAC становятся более строгими, скорость коммуникации снижается
- Даже в многоцелевых сценариях (K>1) скорость коммуникации FAS остаётся выше, чем у однопортовой FPA
Улучшение максимальной скорости коммуникации:
- При SNR 30 дБ и конфигурации N=12 антенн:
- M=1: 11,64 бит/с/Гц
- M=3: 14,84 бит/с/Гц
- Величина улучшения: 27,6%
- Расширение количества антенн: От N=4 до N=12, производительность продолжает улучшаться
- Адаптация к количеству целей: Эффективная обработка переходов от однопортовых к многоцелевым сценариям
- Расширение количества пользователей: Значительное улучшение производительности в многопользовательских сценариях
- Значительное преимущество FAS: FAS демонстрирует явное преимущество перед FPA во всех протестированных сценариях
- Компромисс в многоцелевых системах: Увеличение количества целей восприятия снижает производительность коммуникации, но FAS лучше уравновешивает этот компромисс
- Хорошая расширяемость: Структура DRL беспрепятственно адаптируется к более сложным многопользовательским средам
- Системы текучих антенн: Технология динамического позиционирования антенн, обеспечивающая дополнительную пространственную гибкость
- Системы ISAC: Технология интеграции коммуникации и восприятия в сетях 6G
- Глубокое обучение с подкреплением: Приложения оптимизации в беспроводной коммуникации
- По сравнению с литературой 8: Явная поддержка нескольких пользователей восприятия вместо одной цели
- По сравнению с литературой 9,10: Реализация непрерывного выбора позиций вместо дискретной активации портов
- Технический вклад: Первое объединение BCD и DRL для решения задачи совместной оптимизации FAS-ISAC
- Предложенная структура BCD-DRL может эффективно решать задачи оптимизации многоцелевых систем ISAC с поддержкой FAS
- Алгоритм DDPG успешно реализует совместную оптимизацию формирования луча и позиционирования антенн
- Результаты моделирования подтверждают масштабируемость и эффективность метода в многоцелевых сценариях
- Среда моделирования: Исследование основано на моделировании, аппаратные ограничения и сложность моделей каналов при фактическом развёртывании недостаточно учтены
- Вычислительная сложность: Хотя предложено масштабируемое решение, требования к вычислениям в реальном времени для крупномасштабных систем требуют дальнейшей проверки
- Робастность: Анализ робастности к ошибкам оценки канала и изменениям окружающей среды ограничен
- Аппаратная реализация: Проектирование систем с учётом реальных ограничений оборудования FAS
- Повышение робастности: Улучшение адаптивности к неопределённости канала и изменениям окружающей среды
- Крупномасштабное развёртывание: Исследование стратегий оптимизации для более крупных антенных решёток и большего количества пользователей
- Важность проблемы: Решение ключевых технических проблем в системах FAS-ISAC с важной теоретической и практической ценностью
- Инновация методов: Проектирование гибридной структуры BCD-DRL является остроумным, органично объединяя выпуклую оптимизацию и обучение с подкреплением
- Техническая глубина: Разумное моделирование MDP, тщательное проектирование пространства состояний и функции вознаграждения
- Полные эксперименты: Моделирование в различных конфигурациях подтверждает эффективность и масштабируемость метода
- Теоретический анализ: Отсутствие теоретического анализа сходимости и сложности
- Ограниченное сравнение: Основное сравнение с базовой линией FPA, отсутствие сравнения с другими передовыми методами
- Практические ограничения: Недостаточный учёт инженерных ограничений и ограничений при фактическом развёртывании
- Анализ чувствительности: Недостаточный анализ чувствительности к выбору гиперпараметров
- Академический вклад: Предоставление новых направлений исследований и технических путей для оптимизации систем FAS-ISAC
- Практическая ценность: Предоставление справочной информации для проектирования интеллектуальных антенных систем в сетях 6G
- Воспроизводимость: Подробное описание методов, но код и детальные параметры не опубликованы
- Системы коммуникации 6G: Особенно подходит для сценариев, требующих одновременной коммуникации и многоцелевого восприятия
- Интеллектуальный транспорт: Обнаружение нескольких целей и коммуникация в сетях транспортных средств
- Промышленный интернет вещей: Мониторинг оборудования и передача данных в интеллектуальном производстве
- Умные города: Развёртывание многофункциональных базовых станций в городской среде
Статья цитирует 11 связанных работ, охватывающих ключевые области FAS, ISAC и глубокого обучения с подкреплением, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это высокотехнологичная статья, предлагающая инновационное решение для оптимизации систем FAS-ISAC. Хотя есть место для улучшения в теоретическом анализе и рассмотрении практического развёртывания, технические вклады и экспериментальная проверка достаточно полны и оказывают позитивное влияние на развитие соответствующих областей.