2025-11-12T21:37:09.934839

Towards Intelligent Antenna Positioning: Leveraging DRL for FAS-Aided ISAC Systems

Yang, Yao, Tang et al.

Fluid antenna systems (FAS) enable dynamic antenna positioning, offering new opportunities to enhance integrated sensing and communication (ISAC) performance. However, existing studies primarily focus on communication enhancement or single-target sensing, leaving multi-target scenarios underexplored. Additionally, the joint optimization of beamforming and antenna positions poses a highly non-convex problem, with traditional methods becoming impractical as the number of fluid antennas increases. To address these challenges, this letter proposes a block coordinate descent (BCD) framework integrated with a deep reinforcement learning (DRL)-based approach for intelligent antenna positioning. By leveraging the deep deterministic policy gradient (DDPG) algorithm, the proposed framework efficiently balances sensing and communication performance. Simulation results demonstrate the scalability and effectiveness of the proposed approach.

academic

К интеллектуальному позиционированию антенн: использование DRL для систем ISAC с поддержкой FAS

Основная информация

ID статьи: 2501.01281
Название: Towards Intelligent Antenna Positioning: Leveraging DRL for FAS-Aided ISAC Systems
Авторы: Shunxing Yang, Junteng Yao, Jie Tang, Tuo Wu, Maged Elkashlan, Chau Yuen, Mérouane Debbah, Hyundong Shin, Matthew Valenti
Классификация: eess.SP (Электротехника и системные науки - обработка сигналов)
Дата публикации: 2 января 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.01281

Аннотация

Системы текучих антенн (FAS) обеспечивают динамическое позиционирование антенн, открывая новые возможности для повышения производительности интегрированных систем восприятия и коммуникации (ISAC). Однако существующие исследования в основном сосредоточены на улучшении коммуникации или восприятии одной цели, в то время как сценарии с несколькими целями остаются недостаточно изученными. Кроме того, совместная оптимизация формирования луча и позиционирования антенн представляет собой высоконевыпуклую задачу, которая становится непрактичной при использовании традиционных методов с увеличением количества текучих антенн. Для решения этих проблем в статье предлагается структура блочного координатного спуска (BCD), интегрирующая глубокое обучение с подкреплением (DRL), для интеллектуального позиционирования антенн. Используя алгоритм глубокого детерминированного градиента политики (DDPG), предложенная структура эффективно уравновешивает производительность восприятия и коммуникации. Результаты моделирования демонстрируют масштабируемость и эффективность предложенного метода.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, заключается в том, как достичь совместной оптимизации формирования луча и позиционирования антенн в многоцелевых системах ISAC посредством систем текучих антенн, чтобы одновременно удовлетворить требования производительности коммуникации и многоцелевого восприятия.

Значимость проблемы

Требования сетей 6G: ISAC как ключевое инновационное решение для беспроводных сетей 6G требует одновременного обеспечения функций коммуникации и восприятия на общих спектральных ресурсах
Использование пространственных ресурсов: Традиционные системы с антеннами в фиксированных позициях (FPA) имеют фундаментальные ограничения в использовании пространственных ресурсов
Многоцелевые сценарии: Практические приложения часто требуют одновременного восприятия нескольких целей, что увеличивает сложность проектирования системы

Ограничения существующих методов

Ограниченный объем исследований: Существующие исследования FAS в основном сосредоточены на улучшении коммуникации или восприятии одной цели, многоцелевые сценарии недостаточно изучены
Сложность оптимизации: Совместная оптимизация формирования луча и позиционирования антенн является высоконевыпуклой задачей, традиционные методы чередующейся оптимизации становятся неосуществимыми при увеличении количества антенн
Дискретная обработка: Некоторые исследования рассматривают только активацию портов, а не непрерывную оптимизацию позиционирования антенн

Исследовательская мотивация

На основе указанных ограничений данная работа направлена на разработку схемы интеллектуального позиционирования антенн, способной обрабатывать сценарии многоцелевого восприятия, с использованием глубокого обучения с подкреплением для принятия решений в реальном времени и масштабируемой оптимизации.

Основные вклады

Проектирование многоцелевой системы ISAC: Первое систематическое исследование применения FAS в сценариях многоцелевого восприятия, заполняющее пробел в существующих исследованиях
Гибридная структура BCD-DRL: Предложена новая структура оптимизации, объединяющая блочный координатный спуск с глубоким обучением с подкреплением
Непрерывная оптимизация позиционирования: Реализована непрерывная оптимизация позиционирования антенн, а не только дискретный выбор портов
Проверка масштабируемости: Моделирование подтверждает масштабируемость и эффективность метода в многопользовательских многоцелевых сценариях

Подробное описание методов

Определение задачи

Входные данные:

Область ограничений позиционирования N текучих антенн базовой станции At
Область ограничений позиционирования одной текучей антенны пользовательского терминала Ar
Информация о позиционировании K целей восприятия
Параметры канала и системные ограничения

Выходные данные:

Оптимизированная матрица формирования луча U
Позиции текучих антенн базовой станции p = p1, p2, ..., pN
Позиция антенны пользовательского терминала q

Ограничения:

Ограничение максимальной передаваемой мощности: Tr(U) ≤ Pmax
Ограничение коэффициента усиления восприятия: ϖ(p(k)) ≥ Γ, ∀k ∈ K
Ограничение минимального расстояния между антеннами: ||pα - pβ||2 ≥ Ds
Ограничение ранга: rank(U) = 1

Архитектура модели

1. Общее проектирование структуры BCD

Алгоритм использует метод блочного координатного спуска, разлагая исходную невыпуклую задачу на две подзадачи:

Подзадача 1: При фиксированном позиционировании антенн оптимизация матрицы передаваемой ковариации (выпуклая оптимизация)
Подзадача 2: При фиксированной матрице формирования луча оптимизация позиционирования антенн (решение DRL)

2. Оптимизация матрицы передаваемой ковариации

Для фиксированного позиционирования антенн задача преобразуется в выпуклую оптимизацию путем временного ослабления ограничения ранга:

$\max_{U \succeq 0} \log_2\left(1 + \frac{f(p,q)Uf^{\dagger}(p,q)}{\sigma^2}\right)$

Решение осуществляется с использованием набора инструментов CVX; если ранг решения превышает 1, применяется гауссова рандомизация для восстановления решения ранга один.

3. Оптимизация позиционирования антенн на основе DDPG

Моделирование MDP:

Пространство состояний: $s_t \in \mathbb{R}^{2(N+1)+3}$ , содержащее все координаты антенн и характеристики формирования луча
Пространство действий: $a_t \in \mathbb{R}^{2(N+1)}$ , представляющее дополнительные корректировки позиционирования антенн
Функция вознаграждения: $r_t = R(s_t, a_t) - \alpha_1\sum_{m=1}^{M}\max(0, \varpi(p^{(m)}) - \Gamma) - \alpha_2\max(0, P_{max} - \text{Tr}(U)) - \alpha_3\frac{1}{N+1}\sum_{i=1}^{N+1}||\Delta p_i||_2$

Архитектура сети:

Сеть актора: Трёхслойная полносвязная сеть (400-300 нейронов), выходной слой использует активацию tanh и масштабирование
Сеть критика: Обработка пар состояние-действие, вывод оценки Q-значения
Целевые сети: Использование политики мягкого обновления для стабилизации обучения

Технические инновации

Проектирование пространства состояний: Инновационное объединение информации о пространственной конфигурации и характеристик формирования луча, включая след, максимальное собственное значение и среднее собственное значение
Проектирование функции вознаграждения: Многоцелевая функция вознаграждения, одновременно учитывающая скорость коммуникации, ограничения восприятия, ограничения мощности и стоимость перемещения
Стратегия исследования: Использование процесса Орнштейна-Уленбека для генерации временно коррелированного шума исследования, подходящего для задач физического управления
Непрерывная оптимизация: Реализация истинной непрерывной оптимизации позиционирования, а не дискретного выбора

Экспериментальная установка

Параметры моделирования

Модель канала: Дальнепольная модель, углы возвышения и азимута θ, ψ независимо и одинаково распределены в 0,π
Ограничения антенн: Минимальное расстояние D = λ/2, диапазон перемещения A×A, максимальное смещение A = 4λ
Параметры пути: Количество путей передачи и приёма D = I = 3
Соотношение мощности: Соотношение мощности LoS к NLoS пути τ = 1
Параметры сети: Буфер опыта воспроизведения 10000, размер пакета 64, параметр мягкого обновления τ = 0,001

Показатели оценки

Производительность коммуникации: Средняя скорость коммуникации и максимальная скорость коммуникации (бит/с/Гц)
Конфигурация системы: Комбинации различного количества антенн N(4,8,12) и целей K(1,3)
Количество пользователей: Однопользовательский (M=1) и многопользовательский (M=3) сценарии

Методы сравнения

Базовая линия FPA: Система с антеннами в фиксированных позициях в качестве эталона
Сравнение различных конфигураций: Сравнение производительности при изменении количества антенн и целей

Результаты экспериментов

Основные результаты

Анализ средней скорости коммуникации:

FAS значительно превосходит базовую линию FPA во всех конфигурациях
С увеличением количества целей K ограничения ISAC становятся более строгими, скорость коммуникации снижается
Даже в многоцелевых сценариях (K>1) скорость коммуникации FAS остаётся выше, чем у однопортовой FPA

Улучшение максимальной скорости коммуникации:

При SNR 30 дБ и конфигурации N=12 антенн:
- M=1: 11,64 бит/с/Гц
- M=3: 14,84 бит/с/Гц
- Величина улучшения: 27,6%

Проверка масштабируемости

Расширение количества антенн: От N=4 до N=12, производительность продолжает улучшаться
Адаптация к количеству целей: Эффективная обработка переходов от однопортовых к многоцелевым сценариям
Расширение количества пользователей: Значительное улучшение производительности в многопользовательских сценариях

Экспериментальные выводы

Значительное преимущество FAS: FAS демонстрирует явное преимущество перед FPA во всех протестированных сценариях
Компромисс в многоцелевых системах: Увеличение количества целей восприятия снижает производительность коммуникации, но FAS лучше уравновешивает этот компромисс
Хорошая расширяемость: Структура DRL беспрепятственно адаптируется к более сложным многопользовательским средам

Связанные работы

Основные направления исследований

Системы текучих антенн: Технология динамического позиционирования антенн, обеспечивающая дополнительную пространственную гибкость
Системы ISAC: Технология интеграции коммуникации и восприятия в сетях 6G
Глубокое обучение с подкреплением: Приложения оптимизации в беспроводной коммуникации

Связь данной работы с существующими исследованиями

По сравнению с литературой 8: Явная поддержка нескольких пользователей восприятия вместо одной цели
По сравнению с литературой 9,10: Реализация непрерывного выбора позиций вместо дискретной активации портов
Технический вклад: Первое объединение BCD и DRL для решения задачи совместной оптимизации FAS-ISAC

Заключение и обсуждение

Основные выводы

Предложенная структура BCD-DRL может эффективно решать задачи оптимизации многоцелевых систем ISAC с поддержкой FAS
Алгоритм DDPG успешно реализует совместную оптимизацию формирования луча и позиционирования антенн
Результаты моделирования подтверждают масштабируемость и эффективность метода в многоцелевых сценариях

Ограничения

Среда моделирования: Исследование основано на моделировании, аппаратные ограничения и сложность моделей каналов при фактическом развёртывании недостаточно учтены
Вычислительная сложность: Хотя предложено масштабируемое решение, требования к вычислениям в реальном времени для крупномасштабных систем требуют дальнейшей проверки
Робастность: Анализ робастности к ошибкам оценки канала и изменениям окружающей среды ограничен

Направления будущих исследований

Аппаратная реализация: Проектирование систем с учётом реальных ограничений оборудования FAS
Повышение робастности: Улучшение адаптивности к неопределённости канала и изменениям окружающей среды
Крупномасштабное развёртывание: Исследование стратегий оптимизации для более крупных антенных решёток и большего количества пользователей

Глубокая оценка

Преимущества

Важность проблемы: Решение ключевых технических проблем в системах FAS-ISAC с важной теоретической и практической ценностью
Инновация методов: Проектирование гибридной структуры BCD-DRL является остроумным, органично объединяя выпуклую оптимизацию и обучение с подкреплением
Техническая глубина: Разумное моделирование MDP, тщательное проектирование пространства состояний и функции вознаграждения
Полные эксперименты: Моделирование в различных конфигурациях подтверждает эффективность и масштабируемость метода

Недостатки

Теоретический анализ: Отсутствие теоретического анализа сходимости и сложности
Ограниченное сравнение: Основное сравнение с базовой линией FPA, отсутствие сравнения с другими передовыми методами
Практические ограничения: Недостаточный учёт инженерных ограничений и ограничений при фактическом развёртывании
Анализ чувствительности: Недостаточный анализ чувствительности к выбору гиперпараметров

Влияние

Академический вклад: Предоставление новых направлений исследований и технических путей для оптимизации систем FAS-ISAC
Практическая ценность: Предоставление справочной информации для проектирования интеллектуальных антенных систем в сетях 6G
Воспроизводимость: Подробное описание методов, но код и детальные параметры не опубликованы

Применимые сценарии

Системы коммуникации 6G: Особенно подходит для сценариев, требующих одновременной коммуникации и многоцелевого восприятия
Интеллектуальный транспорт: Обнаружение нескольких целей и коммуникация в сетях транспортных средств
Промышленный интернет вещей: Мониторинг оборудования и передача данных в интеллектуальном производстве
Умные города: Развёртывание многофункциональных базовых станций в городской среде

Библиография

Статья цитирует 11 связанных работ, охватывающих ключевые области FAS, ISAC и глубокого обучения с подкреплением, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это высокотехнологичная статья, предлагающая инновационное решение для оптимизации систем FAS-ISAC. Хотя есть место для улучшения в теоретическом анализе и рассмотрении практического развёртывания, технические вклады и экспериментальная проверка достаточно полны и оказывают позитивное влияние на развитие соответствующих областей.