2025-11-12T21:37:09.934839

Towards Intelligent Antenna Positioning: Leveraging DRL for FAS-Aided ISAC Systems

Yang, Yao, Tang et al.

Fluid antenna systems (FAS) enable dynamic antenna positioning, offering new opportunities to enhance integrated sensing and communication (ISAC) performance. However, existing studies primarily focus on communication enhancement or single-target sensing, leaving multi-target scenarios underexplored. Additionally, the joint optimization of beamforming and antenna positions poses a highly non-convex problem, with traditional methods becoming impractical as the number of fluid antennas increases. To address these challenges, this letter proposes a block coordinate descent (BCD) framework integrated with a deep reinforcement learning (DRL)-based approach for intelligent antenna positioning. By leveraging the deep deterministic policy gradient (DDPG) algorithm, the proposed framework efficiently balances sensing and communication performance. Simulation results demonstrate the scalability and effectiveness of the proposed approach.

academic

Hacia el Posicionamiento Inteligente de Antenas: Aprovechando DRL para Sistemas ISAC Asistidos por FAS

Información Básica

ID del Artículo: 2501.01281
Título: Towards Intelligent Antenna Positioning: Leveraging DRL for FAS-Aided ISAC Systems
Autores: Shunxing Yang, Junteng Yao, Jie Tang, Tuo Wu, Maged Elkashlan, Chau Yuen, Mérouane Debbah, Hyundong Shin, Matthew Valenti
Clasificación: eess.SP (Ingeniería Eléctrica y Ciencia de Sistemas - Procesamiento de Señales)
Fecha de Publicación: 2 de enero de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.01281

Resumen

Los sistemas de antenas fluidas (FAS) permiten el posicionamiento dinámico de antenas, ofreciendo nuevas oportunidades para mejorar el rendimiento de los sistemas integrados de comunicación y sensado (ISAC). Sin embargo, la investigación existente se enfoca principalmente en la mejora de comunicaciones o sensado de objetivos únicos, dejando escasamente explorados los escenarios multiobjetivo. Además, la optimización conjunta de conformación de haz y posición de antena constituye un problema altamente no convexo que se vuelve impracticable con métodos tradicionales conforme aumenta el número de antenas fluidas. Para abordar estos desafíos, este artículo propone un marco de descenso de coordenadas por bloques (BCD) integrado con aprendizaje por refuerzo profundo (DRL) para el posicionamiento inteligente de antenas. Mediante el aprovechamiento del algoritmo de gradiente de política determinista profunda (DDPG), el marco propuesto equilibra efectivamente el rendimiento de sensado y comunicación. Los resultados de simulación demuestran la escalabilidad y efectividad del método propuesto.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es cómo lograr la optimización conjunta de conformación de haz y posición de antena en sistemas ISAC multiobjetivo mediante sistemas de antenas fluidas, satisfaciendo simultáneamente los requisitos de rendimiento de comunicación y sensado multiobjetivo.

Importancia del Problema

Requisitos de Redes 6G: ISAC como innovación clave en redes inalámbricas 6G, requiere realizar simultáneamente funciones de comunicación y sensado en recursos de espectro compartido
Utilización de Recursos Espaciales: Los sistemas tradicionales de antenas de posición fija (FPA) presentan limitaciones fundamentales en la utilización de recursos espaciales
Escenarios Multiobjetivo: Las aplicaciones prácticas frecuentemente requieren sensado simultáneo de múltiples objetivos, aumentando la complejidad del diseño del sistema

Limitaciones de Métodos Existentes

Alcance de Investigación Limitado: La investigación existente en FAS se enfoca principalmente en mejora de comunicaciones o sensado de objetivos únicos, con investigación insuficiente en escenarios multiobjetivo
Complejidad de Optimización: La optimización conjunta de conformación de haz y posición de antena es un problema altamente no convexo, haciendo que métodos de optimización alternada tradicionales sean inviables con aumento en el número de antenas
Tratamiento Discretizado: Algunas investigaciones solo consideran la activación de puertos específicos en lugar de optimizar continuamente las posiciones de antena

Motivación de la Investigación

Basándose en las limitaciones anteriores, este artículo tiene como objetivo desarrollar un esquema de posicionamiento inteligente de antenas capaz de manejar escenarios de sensado multiobjetivo, implementando toma de decisiones en tiempo real y optimización escalable mediante aprendizaje por refuerzo profundo.

Contribuciones Principales

Diseño de Sistema ISAC Multiobjetivo: Primera investigación sistemática de la aplicación de FAS en escenarios de sensado multiobjetivo, cerrando brechas en investigación existente
Marco Híbrido BCD-DRL: Propone un novedoso marco de optimización que combina descenso de coordenadas por bloques con aprendizaje por refuerzo profundo
Optimización de Posición Continua: Implementa optimización continua de posiciones de antena en lugar de solo selección discreta de puertos
Verificación de Escalabilidad: Valida mediante simulación la escalabilidad y capacidad en tiempo real del método en escenarios multiusuario y multiobjetivo

Explicación Detallada del Método

Definición de Tarea

Entrada:

Región de restricción de posición para N antenas fluidas en la estación base At
Región de restricción de posición para antena fluida única en terminal de usuario Ar
Información de posición de K objetivos de sensado
Parámetros de canal y restricciones del sistema

Salida:

Matriz de conformación de haz optimizada U
Posiciones de antena fluida en estación base p = p1, p2, ..., pN
Posición de antena en terminal de usuario q

Condiciones de Restricción:

Restricción de potencia de transmisión máxima: Tr(U) ≤ Pmax
Restricción de ganancia de sensado: ϖ(p(k)) ≥ Γ, ∀k ∈ K
Restricción de distancia mínima entre antenas: ||pα - pβ||2 ≥ Ds
Restricción de rango uno: rank(U) = 1

Arquitectura del Modelo

1. Diseño General del Marco BCD

El algoritmo utiliza el método de descenso de coordenadas por bloques, descomponiendo el problema no convexo original en dos subproblemas:

Subproblema 1: Posiciones de antena fijas, optimizar matriz de covarianza de transmisión (optimización convexa)
Subproblema 2: Matriz de conformación de haz fija, optimizar posiciones de antena (resolución mediante DRL)

2. Optimización de Matriz de Covarianza de Transmisión

Para posiciones de antena fijas, mediante relajación temporal de la restricción de rango uno, el problema se transforma en optimización convexa:

$\max_{U \succeq 0} \log_2\left(1 + \frac{f(p,q)Uf^{\dagger}(p,q)}{\sigma^2}\right)$

Se resuelve utilizando la caja de herramientas CVX; si el rango de la solución es mayor que uno, se emplea aleatorización gaussiana para reconstruir la solución de rango uno.

3. Optimización de Posición de Antena Basada en DDPG

Modelado MDP:

Espacio de Estado: $s_t \in \mathbb{R}^{2(N+1)+3}$ , incluyendo todas las coordenadas de antena y características de conformación de haz
Espacio de Acción: $a_t \in \mathbb{R}^{2(N+1)}$ , representando ajustes incrementales de posición de antena
Función de Recompensa: $r_t = R(s_t, a_t) - \alpha_1\sum_{m=1}^{M}\max(0, \varpi(p^{(m)}) - \Gamma) - \alpha_2\max(0, P_{max} - \text{Tr}(U)) - \alpha_3\frac{1}{N+1}\sum_{i=1}^{N+1}||\Delta p_i||_2$

Arquitectura de Red:

Red Actor: Red completamente conectada de tres capas (400-300 neuronas), capa de salida con activación tanh y escalado
Red Crítica: Procesa pares estado-acción, genera estimación de valor Q
Redes Objetivo: Utiliza política de actualización suave para estabilizar el entrenamiento

Puntos de Innovación Técnica

Diseño del Espacio de Estado: Fusión innovadora de información de configuración espacial y características de conformación de haz, incluyendo traza, máximo valor propio y valor propio promedio
Diseño de Función de Recompensa: Función de recompensa multiobjetivo considerando simultáneamente velocidad de comunicación, restricciones de sensado, restricciones de potencia y costo de movimiento
Estrategia de Exploración: Emplea proceso de Ornstein-Uhlenbeck para generar ruido de exploración correlacionado temporalmente, apropiado para tareas de control físico
Optimización Continua: Implementa verdadera optimización de posición continua en lugar de selección discreta

Configuración Experimental

Parámetros de Simulación

Modelo de Canal: Modelo de campo lejano, ángulos de elevación y acimut θ, ψ distribuidos independiente e idénticamente en 0,π
Restricciones de Antena: Distancia mínima D = λ/2, rango de movimiento A×A, desplazamiento máximo A = 4λ
Configuración de Rutas: Número de rutas de transmisión y recepción D = I = 3
Relación de Potencia: Relación de potencia de ruta LoS a NLoS τ = 1
Parámetros de Red: Búfer de reproducción empírica 10000, tamaño de lote 64, parámetro de actualización suave τ = 0.001

Métricas de Evaluación

Rendimiento de Comunicación: Velocidad de comunicación promedio y máxima (bps/Hz)
Configuración del Sistema: Combinaciones de número de antenas N(4,8,12) y número de objetivos K(1,3)
Número de Usuarios: Escenarios de usuario único (M=1) y multiusuario (M=3)

Métodos de Comparación

Línea Base FPA: Sistema de antenas de posición fija como referencia
Comparación de Diferentes Configuraciones: Comparación de rendimiento variando número de antenas y objetivos

Resultados Experimentales

Resultados Principales

Análisis de Velocidad de Comunicación Promedio:

FAS supera significativamente la línea base FPA en todas las configuraciones
Conforme aumenta el número de objetivos K, las restricciones ISAC se vuelven más estrictas, disminuyendo la velocidad de comunicación
Incluso en escenarios multiobjetivo (K>1), la velocidad de comunicación de FAS sigue siendo superior a FPA de objetivo único

Mejora de Velocidad de Comunicación Máxima:

En configuración de 30dB SNR, N=12 antenas:
- M=1: 11.64 bps/Hz
- M=3: 14.84 bps/Hz
- Magnitud de mejora: 27.6%

Verificación de Escalabilidad

Expansión del Número de Antenas: Desde N=4 hasta N=12, rendimiento continuo en mejora
Adaptación del Número de Objetivos: Manejo efectivo de transición de escenarios de objetivo único a multiobjetivo
Expansión del Número de Usuarios: Logra mejora significativa de rendimiento en escenarios multiusuario

Hallazgos Experimentales

Ventaja de FAS Significativa: FAS demuestra clara ventaja respecto a FPA en todos los escenarios de prueba
Compensación Multiobjetivo: Aumentar el número de objetivos de sensado reduce el rendimiento de comunicación, pero FAS equilibra mejor esta compensación
Buena Escalabilidad: El marco DRL se adapta sin problemas a entornos multiusuario más complejos

Trabajo Relacionado

Direcciones Principales de Investigación

Sistemas de Antenas Fluidas: Tecnología de posicionamiento dinámico de antenas, proporcionando flexibilidad espacial adicional
Sistemas ISAC: Tecnología de fusión de comunicación y sensado en redes 6G
Aprendizaje por Refuerzo Profundo: Aplicaciones de optimización en comunicaciones inalámbricas

Relación de Este Artículo con Trabajo Relacionado

Comparado con Literatura 8: Soporta explícitamente múltiples usuarios de sensado en lugar de objetivo único
Comparado con Literatura 9,10: Implementa selección de posición continua en lugar de activación discreta de puertos
Contribución Técnica: Primera combinación de BCD con DRL para resolver problema de optimización conjunta FAS-ISAC

Conclusiones y Discusión

Conclusiones Principales

El marco BCD-DRL propuesto puede resolver efectivamente el problema de optimización de sistemas ISAC multiobjetivo asistidos por FAS
El algoritmo DDPG logra exitosamente la optimización conjunta de conformación de haz y posición de antena
Los resultados de simulación demuestran la escalabilidad del método y efectividad en escenarios multiobjetivo

Limitaciones

Entorno de Simulación: La investigación se basa en entorno de simulación, no considerando suficientemente restricciones de hardware y complejidad de modelos de canal en despliegue real
Complejidad Computacional: Aunque se propone solución escalable, los requisitos de computación en tiempo real para sistemas de gran escala requieren verificación adicional
Robustez: Análisis limitado de robustez ante errores de estimación de canal y cambios ambientales

Direcciones Futuras

Implementación de Hardware: Diseño de sistema considerando restricciones reales de hardware FAS
Mejora de Robustez: Mejorar capacidad de adaptación a incertidumbre de canal y cambios ambientales
Despliegue a Gran Escala: Investigar estrategias de optimización para arreglos de antenas y cantidad de usuarios de mayor escala

Evaluación Profunda

Fortalezas

Importancia del Problema: Aborda desafíos técnicos clave en sistemas FAS-ISAC, con valor teórico y práctico importante
Innovación del Método: El diseño del marco híbrido BCD-DRL es ingenioso, combinando orgánicamente optimización convexa con aprendizaje por refuerzo
Profundidad Técnica: Modelado MDP razonable, diseño de espacio de estado y función de recompensa considerados comprehensivamente
Verificación Experimental Suficiente: Simulación en múltiples configuraciones valida efectividad y escalabilidad del método

Insuficiencias

Análisis Teórico: Carece de análisis teórico de convergencia y complejidad
Comparación Limitada: Principalmente comparación con línea base FPA, falta comparación con otros métodos avanzados
Restricciones Prácticas: No considera suficientemente restricciones de ingeniería y limitaciones en despliegue real
Análisis de Sensibilidad de Parámetros: Análisis insuficiente de sensibilidad ante selección de hiperparámetros

Impacto

Contribución Académica: Proporciona nueva dirección de investigación y ruta técnica para optimización de sistemas FAS-ISAC
Valor Práctico: Proporciona referencia para diseño de sistemas de antenas inteligentes en redes 6G
Reproducibilidad: Descripción de método detallada, pero código y configuración de parámetros detallados no publicados

Escenarios Aplicables

Sistemas de Comunicación 6G: Especialmente aplicable a escenarios que requieren simultáneamente comunicación y sensado multiobjetivo
Transporte Inteligente: Detección multiobjetivo y comunicación en redes vehiculares
Internet Industrial de las Cosas: Monitoreo de dispositivos y transmisión de datos en manufactura inteligente
Ciudades Inteligentes: Despliegue de estaciones base multifuncionales en entornos urbanos

Referencias

El artículo cita 11 referencias relacionadas, abarcando trabajos importantes en campos clave como FAS, ISAC y aprendizaje por refuerzo profundo, proporcionando base teórica sólida para la investigación.

Evaluación General: Este es un artículo de calidad técnica relativamente alta que propone una solución innovadora para optimización de sistemas FAS-ISAC. Aunque hay espacio para mejora en análisis teórico y consideración de despliegue práctico, sus contribuciones técnicas y verificación experimental son suficientemente completas, ejerciendo un efecto positivo en el desarrollo de campos relacionados.