2025-11-12T21:37:09.934839

Towards Intelligent Antenna Positioning: Leveraging DRL for FAS-Aided ISAC Systems

Yang, Yao, Tang et al.

Fluid antenna systems (FAS) enable dynamic antenna positioning, offering new opportunities to enhance integrated sensing and communication (ISAC) performance. However, existing studies primarily focus on communication enhancement or single-target sensing, leaving multi-target scenarios underexplored. Additionally, the joint optimization of beamforming and antenna positions poses a highly non-convex problem, with traditional methods becoming impractical as the number of fluid antennas increases. To address these challenges, this letter proposes a block coordinate descent (BCD) framework integrated with a deep reinforcement learning (DRL)-based approach for intelligent antenna positioning. By leveraging the deep deterministic policy gradient (DDPG) algorithm, the proposed framework efficiently balances sensing and communication performance. Simulation results demonstrate the scalability and effectiveness of the proposed approach.

academic

Vers un Positionnement Intelligent d'Antennes : Exploitation du DRL pour les Systèmes ISAC Assistés par FAS

Informations Fondamentales

ID de l'article: 2501.01281
Titre: Towards Intelligent Antenna Positioning: Leveraging DRL for FAS-Aided ISAC Systems
Auteurs: Shunxing Yang, Junteng Yao, Jie Tang, Tuo Wu, Maged Elkashlan, Chau Yuen, Mérouane Debbah, Hyundong Shin, Matthew Valenti
Classification: eess.SP (Génie Électrique et Science des Systèmes - Traitement du Signal)
Date de Publication: 2 janvier 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2501.01281

Résumé

Les systèmes d'antennes fluides (FAS) permettent un positionnement dynamique des antennes, offrant de nouvelles opportunités pour améliorer les performances des systèmes intégrés de communication et de détection (ISAC). Cependant, les recherches existantes se concentrent principalement sur l'amélioration de la communication ou la détection d'une seule cible, et les scénarios multi-cibles n'ont pas été suffisamment explorés. De plus, l'optimisation conjointe de la formation de faisceaux et de la position des antennes constitue un problème hautement non-convexe, qui devient impraticable avec les méthodes traditionnelles à mesure que le nombre d'antennes fluides augmente. Pour résoudre ces défis, cet article propose un cadre de descente par coordonnées par blocs (BCD) intégrant l'apprentissage par renforcement profond (DRL) pour le positionnement intelligent d'antennes. En exploitant l'algorithme du gradient de politique déterministe profond (DDPG), le cadre proposé équilibre efficacement les performances de détection et de communication. Les résultats de simulation démontrent l'évolutivité et l'efficacité de la méthode proposée.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental abordé par cette recherche est comment réaliser l'optimisation conjointe de la formation de faisceaux et de la position des antennes dans un système ISAC multi-cibles via un système d'antennes fluides, afin de satisfaire simultanément les exigences de performance en communication et en détection multi-cibles.

Importance du Problème

Besoins des réseaux 6G: L'ISAC, en tant qu'innovation clé des réseaux sans fil 6G, doit réaliser simultanément les fonctions de communication et de détection sur des ressources spectrales partagées
Utilisation des ressources spatiales: Les systèmes d'antennes à position fixe (FPA) traditionnels présentent des limitations fondamentales dans l'utilisation des ressources spatiales
Scénarios multi-cibles: Les applications réelles nécessitent souvent de détecter plusieurs cibles simultanément, ce qui augmente la complexité de la conception du système

Limitations des Méthodes Existantes

Portée de recherche limitée: Les recherches existantes sur FAS se concentrent principalement sur l'amélioration de la communication ou la détection d'une seule cible, avec une couverture insuffisante des scénarios multi-cibles
Complexité d'optimisation: L'optimisation conjointe de la formation de faisceaux et de la position des antennes est un problème hautement non-convexe, et les méthodes d'optimisation alternée traditionnelles deviennent impraticables à mesure que le nombre d'antennes augmente
Traitement discrétisé: Certaines recherches ne considèrent que l'activation de certains ports plutôt que l'optimisation continue de la position des antennes

Motivation de la Recherche

Sur la base de ces limitations, cet article vise à développer un schéma de positionnement intelligent d'antennes capable de traiter les scénarios de détection multi-cibles, en réalisant une prise de décision en temps réel et une optimisation évolutive grâce à l'apprentissage par renforcement profond.

Contributions Principales

Conception de systèmes ISAC multi-cibles: Première étude systématique de l'application de FAS dans les scénarios de détection multi-cibles, comblant les lacunes de la recherche existante
Cadre hybride BCD-DRL: Proposition d'un nouveau cadre d'optimisation combinant la descente par coordonnées par blocs et l'apprentissage par renforcement profond
Optimisation continue de la position: Réalisation de l'optimisation continue de la position des antennes, plutôt que simplement la sélection discrète de ports
Vérification de l'évolutivité: Validation par simulation de l'évolutivité et de la réactivité de la méthode dans les scénarios multi-utilisateurs et multi-cibles

Détails de la Méthode

Définition de la Tâche

Entrées:

Région de contrainte de position pour N antennes fluides à la station de base At
Région de contrainte de position pour une antenne fluide unique au terminal utilisateur Ar
Informations de position pour K cibles de détection
Paramètres de canal et contraintes du système

Sorties:

Matrice de formation de faisceaux optimisée U
Position des antennes fluides de la station de base p = p1, p2, ..., pN
Position de l'antenne du terminal utilisateur q

Conditions de Contrainte:

Contrainte de puissance d'émission maximale: Tr(U) ≤ Pmax
Contrainte de gain de détection: ϖ(p(k)) ≥ Γ, ∀k ∈ K
Contrainte de distance minimale entre antennes: ||pα - pβ||2 ≥ Ds
Contrainte de rang un: rank(U) = 1

Architecture du Modèle

1. Conception Globale du Cadre BCD

L'algorithme utilise la méthode de descente par coordonnées par blocs, décomposant le problème non-convexe original en deux sous-problèmes:

Sous-problème 1: Position des antennes fixée, optimisation de la matrice de covariance d'émission (optimisation convexe)
Sous-problème 2: Matrice de formation de faisceaux fixée, optimisation de la position des antennes (résolution par DRL)

2. Optimisation de la Matrice de Covariance d'Émission

Pour une position d'antenne fixée, le problème est transformé en optimisation convexe en relaxant temporairement la contrainte de rang un:

$\max_{U \succeq 0} \log_2\left(1 + \frac{f(p,q)Uf^{\dagger}(p,q)}{\sigma^2}\right)$

La résolution s'effectue à l'aide de la boîte à outils CVX. Si la solution a un rang supérieur à 1, une randomisation gaussienne est utilisée pour reconstruire une solution de rang un.

3. Optimisation de la Position des Antennes Basée sur DDPG

Modélisation MDP:

Espace d'état: $s_t \in \mathbb{R}^{2(N+1)+3}$ , contenant toutes les coordonnées d'antennes et les caractéristiques de formation de faisceaux
Espace d'action: $a_t \in \mathbb{R}^{2(N+1)}$ , représentant les ajustements incrémentiels de la position des antennes
Fonction de récompense: $r_t = R(s_t, a_t) - \alpha_1\sum_{m=1}^{M}\max(0, \varpi(p^{(m)}) - \Gamma) - \alpha_2\max(0, P_{max} - \text{Tr}(U)) - \alpha_3\frac{1}{N+1}\sum_{i=1}^{N+1}||\Delta p_i||_2$

Architecture du Réseau:

Réseau Actor: Réseau entièrement connecté à trois couches (400-300 neurones), couche de sortie utilisant l'activation tanh et mise à l'échelle
Réseau Critic: Traitement des paires état-action, sortie d'estimation de la valeur Q
Réseaux cibles: Utilisation d'une stratégie de mise à jour logicielle pour stabiliser l'entraînement

Points d'Innovation Technique

Conception de l'espace d'état: Fusion innovante des informations de configuration spatiale et des caractéristiques de formation de faisceaux, incluant la trace, la valeur propre maximale et la valeur propre moyenne
Conception de la fonction de récompense: Fonction de récompense multi-objectifs considérant simultanément le débit de communication, les contraintes de détection, les contraintes de puissance et les coûts de déplacement
Stratégie d'exploration: Utilisation du processus d'Ornstein-Uhlenbeck pour générer du bruit d'exploration temporellement corrélé, adapté aux tâches de contrôle physique
Optimisation continue: Réalisation d'une véritable optimisation continue de la position plutôt que de la sélection discrète

Configuration Expérimentale

Paramètres de Simulation

Modèle de canal: Modèle en champ lointain, angles d'élévation et d'azimut θ, ψ distribués indépendamment et identiquement dans 0,π
Contraintes d'antenne: Distance minimale D = λ/2, plage de déplacement A×A, déplacement maximal A = 4λ
Configuration des trajets: Nombre de trajets d'émission et de réception D = I = 3
Rapport de puissance: Rapport de puissance des trajets LoS aux trajets NLoS τ = 1
Paramètres du réseau: Tampon de relecture empirique 10000, taille de lot 64, paramètre de mise à jour logicielle τ = 0.001

Métriques d'Évaluation

Performance de communication: Débit de communication moyen et maximal (bps/Hz)
Configuration du système: Combinaisons de différents nombres d'antennes N(4,8,12) et de cibles K(1,3)
Nombre d'utilisateurs: Scénarios mono-utilisateur (M=1) et multi-utilisateurs (M=3)

Méthodes de Comparaison

Ligne de base FPA: Système d'antennes à position fixe comme référence
Comparaison de configurations: Comparaison de performance avec variation du nombre d'antennes et de cibles

Résultats Expérimentaux

Résultats Principaux

Analyse du Débit de Communication Moyen:

FAS surpasse significativement la ligne de base FPA dans toutes les configurations
À mesure que le nombre de cibles K augmente, les contraintes ISAC deviennent plus strictes, le débit de communication diminue
Même dans les scénarios multi-cibles (K>1), le débit de communication de FAS reste supérieur à celui de FPA mono-cible

Amélioration du Débit de Communication Maximal:

À SNR = 30dB, configuration N=12 antennes:
- M=1: 11,64 bps/Hz
- M=3: 14,84 bps/Hz
- Amplitude d'amélioration: 27,6%

Vérification de l'Évolutivité

Extension du nombre d'antennes: Extension de N=4 à N=12, amélioration continue des performances
Adaptation du nombre de cibles: Gestion efficace de la transition des scénarios mono-cible aux scénarios multi-cibles
Extension du nombre d'utilisateurs: Amélioration significative des performances dans les scénarios multi-utilisateurs

Découvertes Expérimentales

Avantage significatif de FAS: FAS démontre un avantage clair par rapport à FPA dans tous les scénarios testés
Compromis multi-cibles: L'augmentation du nombre de cibles de détection réduit les performances de communication, mais FAS équilibre mieux ce compromis
Bonne extensibilité: Le cadre DRL s'adapte sans problème aux environnements multi-utilisateurs plus complexes

Travaux Connexes

Directions de Recherche Principales

Systèmes d'antennes fluides: Technologie de positionnement dynamique d'antennes offrant une flexibilité spatiale supplémentaire
Systèmes ISAC: Technologie de fusion communication-détection dans les réseaux 6G
Apprentissage par renforcement profond: Applications d'optimisation dans les communications sans fil

Relation de cet Article avec les Travaux Connexes

Comparé à la référence 8: Support explicite de plusieurs utilisateurs de détection plutôt qu'une seule cible
Comparé aux références 9,10: Réalisation de la sélection continue de position plutôt que l'activation discrète de ports
Contribution technique: Première combinaison de BCD et DRL pour résoudre le problème d'optimisation conjointe FAS-ISAC

Conclusions et Discussion

Conclusions Principales

Le cadre BCD-DRL proposé peut résoudre efficacement le problème d'optimisation des systèmes ISAC multi-cibles assistés par FAS
L'algorithme DDPG réalise avec succès l'optimisation conjointe de la formation de faisceaux et de la position des antennes
Les résultats de simulation démontrent l'évolutivité de la méthode et son efficacité dans les scénarios multi-cibles

Limitations

Environnement de simulation: La recherche est basée sur un environnement de simulation, les contraintes matérielles et la complexité du modèle de canal dans le déploiement réel n'ont pas été suffisamment considérées
Complexité de calcul: Bien qu'une solution évolutive soit proposée, les besoins de calcul en temps réel pour les systèmes à grande échelle nécessitent une vérification supplémentaire
Robustesse: L'analyse de la robustesse aux erreurs d'estimation de canal et aux changements environnementaux est limitée

Directions Futures

Implémentation matérielle: Conception de systèmes considérant les contraintes matérielles réelles de FAS
Amélioration de la robustesse: Amélioration de la capacité d'adaptation à l'incertitude des canaux et aux changements environnementaux
Déploiement à grande échelle: Étude des stratégies d'optimisation pour les réseaux d'antennes plus grands et les nombres d'utilisateurs plus importants

Évaluation Approfondie

Avantages

Importance du problème: Résout les défis technologiques clés dans les systèmes FAS-ISAC, avec une valeur théorique et pratique importante
Innovation méthodologique: La conception du cadre hybride BCD-DRL est ingénieuse, combinant organiquement l'optimisation convexe et l'apprentissage par renforcement
Profondeur technique: La modélisation MDP est raisonnable, avec une conception réfléchie de l'espace d'état et de la fonction de récompense
Vérification expérimentale suffisante: Les simulations dans diverses configurations valident l'efficacité et l'évolutivité de la méthode

Insuffisances

Analyse théorique: Manque d'analyse théorique de la convergence et de la complexité
Comparaisons limitées: Comparaison principalement avec la ligne de base FPA, manque de comparaison avec d'autres méthodes avancées
Contraintes pratiques: Considération insuffisante des contraintes d'ingénierie et des limitations du déploiement réel
Analyse de sensibilité aux paramètres: Analyse insuffisante de la sensibilité aux choix d'hyperparamètres

Impact

Contribution académique: Fournit une nouvelle direction de recherche et un chemin technique pour l'optimisation des systèmes FAS-ISAC
Valeur pratique: Fournit une référence pour la conception de systèmes d'antennes intelligentes dans les réseaux 6G
Reproductibilité: Description détaillée de la méthode, mais le code et les paramètres détaillés ne sont pas rendus publics

Scénarios d'Application

Systèmes de communication 6G: Particulièrement adaptés aux scénarios nécessitant simultanément communication et détection multi-cibles
Transport intelligent: Détection multi-cibles et communication dans les réseaux véhiculaires
Internet industriel des objets: Surveillance d'équipements et transmission de données dans la fabrication intelligente
Villes intelligentes: Déploiement de stations de base multifonctionnelles dans les environnements urbains

Références

L'article cite 11 références pertinentes couvrant les domaines clés de FAS, ISAC et apprentissage par renforcement profond, fournissant une base théorique solide pour la recherche.

Évaluation Globale: Cet article présente une qualité technique élevée et propose une solution innovante pour l'optimisation des systèmes FAS-ISAC. Bien qu'il y ait de la place pour amélioration dans l'analyse théorique et la considération du déploiement pratique, ses contributions techniques et sa vérification expérimentale sont suffisantes et ont un impact positif sur le développement du domaine.