Fluid antenna systems (FAS) enable dynamic antenna positioning, offering new opportunities to enhance integrated sensing and communication (ISAC) performance. However, existing studies primarily focus on communication enhancement or single-target sensing, leaving multi-target scenarios underexplored. Additionally, the joint optimization of beamforming and antenna positions poses a highly non-convex problem, with traditional methods becoming impractical as the number of fluid antennas increases. To address these challenges, this letter proposes a block coordinate descent (BCD) framework integrated with a deep reinforcement learning (DRL)-based approach for intelligent antenna positioning. By leveraging the deep deterministic policy gradient (DDPG) algorithm, the proposed framework efficiently balances sensing and communication performance. Simulation results demonstrate the scalability and effectiveness of the proposed approach.
- 论文ID: 2501.01281
- 标题: Towards Intelligent Antenna Positioning: Leveraging DRL for FAS-Aided ISAC Systems
- 作者: Shunxing Yang, Junteng Yao, Jie Tang, Tuo Wu, Maged Elkashlan, Chau Yuen, Mérouane Debbah, Hyundong Shin, Matthew Valenti
- 分类: eess.SP (Electrical Engineering and Systems Science - Signal Processing)
- 发表时间: 2025年1月2日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2501.01281
流体天线系统(FAS)能够实现动态天线定位,为增强集成感知与通信(ISAC)性能提供了新机遇。然而,现有研究主要关注通信增强或单目标感知,多目标场景尚未得到充分探索。此外,波束成形和天线位置的联合优化构成了一个高度非凸问题,随着流体天线数量的增加,传统方法变得不切实际。为了解决这些挑战,本文提出了一个集成深度强化学习(DRL)的块坐标下降(BCD)框架用于智能天线定位。通过利用深度确定性策略梯度(DDPG)算法,所提出的框架有效地平衡了感知和通信性能。仿真结果证明了所提方法的可扩展性和有效性。
本研究要解决的核心问题是在多目标ISAC系统中,如何通过流体天线系统实现波束成形和天线位置的联合优化,以同时满足通信和多目标感知的性能需求。
- 6G网络需求: ISAC作为6G无线网络的关键创新,需要在共享频谱资源上同时实现通信和感知功能
- 空间资源利用: 传统固定位置天线(FPA)系统在空间资源利用方面存在根本性限制
- 多目标场景: 现实应用中往往需要同时感知多个目标,这增加了系统设计的复杂性
- 研究范围受限: 现有FAS研究主要关注通信增强或单目标感知,多目标场景研究不足
- 优化复杂度: 波束成形和天线位置的联合优化是高度非凸问题,传统交替优化方法在天线数量增加时变得不可行
- 离散化处理: 部分研究只考虑激活哪些端口,而非连续优化天线位置
基于上述限制,本文旨在开发一个能够处理多目标感知场景的智能天线定位方案,通过深度强化学习实现实时决策和可扩展的优化。
- 多目标ISAC系统设计: 首次系统性地研究了FAS在多目标感知场景下的应用,填补了现有研究的空白
- BCD-DRL混合框架: 提出了将块坐标下降与深度强化学习相结合的新颖优化框架
- 连续位置优化: 实现了对天线位置的连续优化,而非仅仅是离散端口选择
- 可扩展性验证: 通过仿真验证了方法在多用户、多目标场景下的可扩展性和实时性
输入:
- 基站N个流体天线的位置约束区域At
- 用户终端单个流体天线的位置约束区域Ar
- K个感知目标的位置信息
- 信道参数和系统约束
输出:
- 优化的波束成形矩阵U
- 基站流体天线位置p = p1, p2, ..., pN
- 用户终端天线位置q
约束条件:
- 最大发射功率约束: Tr(U) ≤ Pmax
- 感知增益约束: ϖ(p(k)) ≥ Γ, ∀k ∈ K
- 天线间最小距离约束: ||pα - pβ||2 ≥ Ds
- 秩一约束: rank(U) = 1
算法采用块坐标下降方法,将原始非凸问题分解为两个子问题:
- 子问题1: 固定天线位置,优化发射协方差矩阵(凸优化)
- 子问题2: 固定波束成形矩阵,优化天线位置(DRL求解)
对于固定的天线位置,通过暂时松弛秩一约束,将问题转化为凸优化:
maxU⪰0log2(1+σ2f(p,q)Uf†(p,q))
使用CVX工具箱求解,若解的秩大于1,则采用高斯随机化重构秩一解。
MDP建模:
- 状态空间: st∈R2(N+1)+3,包含所有天线坐标和波束成形特征
- 动作空间: at∈R2(N+1),表示天线位置的增量调整
- 奖励函数:
rt=R(st,at)−α1∑m=1Mmax(0,ϖ(p(m))−Γ)−α2max(0,Pmax−Tr(U))−α3N+11∑i=1N+1∣∣Δpi∣∣2
网络架构:
- Actor网络: 三层全连接网络(400-300神经元),输出层使用tanh激活并缩放
- Critic网络: 处理状态-动作对,输出Q值估计
- 目标网络: 使用软更新策略稳定训练
- 状态空间设计: 创新性地将空间配置信息和波束成形特征融合,包括迹、最大特征值和平均特征值
- 奖励函数设计: 多目标奖励函数同时考虑通信速率、感知约束、功率约束和移动代价
- 探索策略: 采用Ornstein-Uhlenbeck过程生成时间相关的探索噪声,适合物理控制任务
- 连续优化: 实现真正的连续位置优化,而非离散选择
- 信道模型: 远场模型,俯仰角和方位角θ、ψ在0,π内独立同分布
- 天线约束: 最小距离D = λ/2,移动范围A×A,最大位移A = 4λ
- 路径设置: 发射和接收路径数D = I = 3
- 功率比: LoS到NLoS路径功率比τ = 1
- 网络参数: 经验回放缓冲区10000,批大小64,软更新参数τ = 0.001
- 通信性能: 平均通信速率和最大通信速率(bps/Hz)
- 系统配置: 不同天线数量N(4,8,12)和目标数量K(1,3)的组合
- 用户数量: 单用户(M=1)和多用户(M=3)场景
- FPA基线: 固定位置天线系统作为基准
- 不同配置对比: 变化天线数量和目标数量的性能对比
平均通信速率分析:
- FAS在所有配置下均显著优于FPA基线
- 随着目标数量K增加,ISAC约束更严格,通信速率下降
- 即使在多目标场景(K>1)下,FAS的通信速率仍高于单目标FPA
最大通信速率提升:
- 在30dB SNR、N=12天线配置下:
- M=1: 11.64 bps/Hz
- M=3: 14.84 bps/Hz
- 提升幅度: 27.6%
- 天线数量扩展: 从N=4扩展到N=12,性能持续提升
- 目标数量适应: 能够有效处理从单目标到多目标的场景转换
- 用户数量扩展: 多用户场景下实现显著的性能提升
- FAS优势显著: 在所有测试场景下,FAS都展现出相比FPA的明显优势
- 多目标权衡: 增加感知目标数量会降低通信性能,但FAS能更好地平衡这种权衡
- 扩展性良好: DRL框架能够无缝适应更复杂的多用户环境
- 流体天线系统: 动态天线定位技术,提供额外的空间灵活性
- ISAC系统: 6G网络中通信与感知的融合技术
- 深度强化学习: 在无线通信中的优化应用
- 相比文献8: 明确支持多感知用户而非单目标
- 相比文献9,10: 实现连续位置选择而非离散端口激活
- 技术贡献: 首次将BCD与DRL结合解决FAS-ISAC联合优化问题
- 提出的BCD-DRL框架能够有效解决FAS辅助的多目标ISAC系统优化问题
- DDPG算法成功实现了波束成形和天线位置的联合优化
- 仿真结果证明了方法的可扩展性和在多目标场景下的有效性
- 仿真环境: 研究基于仿真环境,实际部署中的硬件约束和信道模型复杂性未充分考虑
- 计算复杂度: 虽然提出了可扩展方案,但大规模系统的实时计算需求仍需进一步验证
- 鲁棒性: 对信道估计误差和环境变化的鲁棒性分析有限
- 硬件实现: 考虑实际FAS硬件约束的系统设计
- 鲁棒性增强: 提高对信道不确定性和环境变化的适应能力
- 大规模部署: 研究更大规模天线阵列和用户数量的优化策略
- 问题重要性: 解决了FAS-ISAC系统中的关键技术挑战,具有重要的理论和实用价值
- 方法创新: BCD-DRL混合框架的设计巧妙,将凸优化与强化学习有机结合
- 技术深度: MDP建模合理,状态空间和奖励函数设计考虑周全
- 实验充分: 多种配置下的仿真验证了方法的有效性和可扩展性
- 理论分析: 缺乏收敛性和复杂度的理论分析
- 对比有限: 主要与FPA基线对比,缺乏与其他先进方法的比较
- 实际约束: 未充分考虑实际部署中的工程约束和限制
- 参数敏感性: 对超参数选择的敏感性分析不足
- 学术贡献: 为FAS-ISAC系统优化提供了新的研究方向和技术路径
- 实用价值: 为6G网络中的智能天线系统设计提供了参考
- 可复现性: 方法描述详细,但代码和详细参数设置未公开
- 6G通信系统: 特别适用于需要同时进行通信和多目标感知的场景
- 智能交通: 车联网中的多目标检测和通信
- 工业物联网: 智能制造中的设备监控和数据传输
- 智慧城市: 城市环境中的多功能基站部署
论文引用了11篇相关文献,涵盖了FAS、ISAC、深度强化学习等关键领域的重要工作,为研究提供了坚实的理论基础。
总体评价: 这是一篇技术质量较高的论文,在FAS-ISAC系统优化方面提出了创新性的解决方案。虽然在理论分析和实际部署考虑方面还有改进空间,但其技术贡献和实验验证都比较充分,对相关领域的发展具有积极的推动作用。