This paper investigates adaptive transmission strategies in embodied AI-enhanced vehicular networks by integrating large language models (LLMs) for semantic information extraction and deep reinforcement learning (DRL) for decision-making. The proposed framework aims to optimize both data transmission efficiency and decision accuracy by formulating an optimization problem that incorporates the Weber-Fechner law, serving as a metric for balancing bandwidth utilization and quality of experience (QoE). Specifically, we employ the large language and vision assistant (LLAVA) model to extract critical semantic information from raw image data captured by embodied AI agents (i.e., vehicles), reducing transmission data size by approximately more than 90\% while retaining essential content for vehicular communication and decision-making. In the dynamic vehicular environment, we employ a generalized advantage estimation-based proximal policy optimization (GAE-PPO) method to stabilize decision-making under uncertainty. Simulation results show that attention maps from LLAVA highlight the model's focus on relevant image regions, enhancing semantic representation accuracy. Additionally, our proposed transmission strategy improves QoE by up to 36\% compared to DDPG and accelerates convergence by reducing required steps by up to 47\% compared to pure PPO. Further analysis indicates that adapting semantic symbol length provides an effective trade-off between transmission quality and bandwidth, achieving up to a 61.4\% improvement in QoE when scaling from 4 to 8 vehicles.
Réseaux Véhiculaires Améliorés par l'IA Incarnée : Une Méthode Intégrée de Modèles de Langage de Grande Taille et d'Apprentissage par Renforcement
- ID de l'article : 2501.01141
- Titre : Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method
- Auteurs : Ruichen Zhang, Changyuan Zhao, Hongyang Du, Dusit Niyato, Jiacheng Wang, Suttinee Sawadsitang, Xuemin Shen, Dong In Kim
- Classification : cs.NI (Architecture des Réseaux et Internet)
- Date de Publication : 2 janvier 2025 (Prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2501.01141
Cet article étudie les stratégies de transmission adaptatives dans les réseaux véhiculaires améliorés par l'IA incarnée, intégrant l'extraction d'informations sémantiques par des modèles de langage de grande taille (LLMs) et la prise de décision par apprentissage par renforcement profond (DRL). Le cadre vise à optimiser l'efficacité de la transmission de données et la précision décisionnelle en formulant un problème d'optimisation équilibrant l'utilisation de la bande passante et la qualité d'expérience utilisateur (QoE), incorporant la loi de Weber-Fechner. Spécifiquement, le modèle LLAVA (Large Language and Vision Assistant) est utilisé pour extraire les informations sémantiques essentielles à partir de données d'images brutes capturées par des agents IA incarnés (c'est-à-dire des véhicules), réduisant la taille des données transmises de plus de 90 % tout en préservant le contenu fondamental nécessaire à la communication et à la prise de décision dans les réseaux véhiculaires. Dans les environnements dynamiques des réseaux véhiculaires, la méthode d'optimisation des politiques proximales avec estimation d'avantage généralisée (GAE-PPO) est adoptée pour stabiliser la prise de décision sous l'incertitude.
Avec l'avènement de l'ère 6G, les réseaux véhiculaires (IoV) devraient réaliser des progrès sans précédent, avec une densité de trafic dépassant 0,1-10 Gbps/m² et une densité de connectivité atteignant 10 millions d'appareils par kilomètre carré. Ces améliorations augmenteront considérablement les débits de données, la connectivité et la capacité du réseau, transformant fondamentalement les services IoV tels que la navigation en temps réel, la perception de l'environnement et la prise de décision autonome.
- Défis du Traitement des Données : Avec la croissance du nombre de véhicules connectés, le déploiement de nombreux capteurs pour collecter et traiter de grandes quantités de données en temps réel est nécessaire. Les modèles d'IA discriminatifs traditionnels ont du mal à maintenir des performances élevées dans des conditions dynamiques.
- Problèmes d'Efficacité de Transmission : La transmission de données brutes de capteurs nécessite une bande passante considérable. Comment réduire le volume de données transmises tout en garantissant la qualité de l'information devient un défi clé.
- Complexité de la Prise de Décision : L'environnement des réseaux véhiculaires est hautement dynamique, nécessitant un système de prise de décision intelligente capable de s'adapter en temps réel aux changements environnementaux.
- Les méthodes traditionnelles se concentrent principalement sur les indicateurs de performance conventionnels tels que l'efficacité spectrale, la latence et la sécurité
- Manque de considération pour la transmission de données sémantiques et l'efficacité décisionnelle
- Exploration insuffisante de l'intégration des LLMs et du DRL dans l'optimisation des ressources des réseaux véhiculaires
- Modélisation de la Transmission de Données : Formulation d'un problème d'optimisation équilibrant l'efficacité de la transmission de données et la précision de la prise de décision, introduisant la loi de Weber-Fechner comme indicateur pour quantifier la qualité d'expérience utilisateur (QoE).
- Traitement des Données Sémantiques Basé sur les LLMs : Utilisation de LLAVA pour extraire les informations sémantiques à partir de données d'images brutes, réduisant considérablement la bande passante de transmission tout en préservant les détails contextuels fondamentaux nécessaires à la communication et à la prise de décision dans les réseaux véhiculaires.
- Prise de Décision Améliorée Basée sur le DRL : Proposition de la méthode GAE-PPO pour améliorer la prise de décision dans les environnements dynamiques des réseaux véhiculaires, réduisant la variance des mises à jour de gradient de politique par estimation d'avantage généralisée et stabilisant le processus d'entraînement.
- Travail Novateur : À la connaissance des auteurs, c'est le premier travail explorant l'application conjointe du traitement de données par LLMs et de la prise de décision par DRL dans les réseaux véhiculaires améliorés par l'IA incarnée.
Considération d'un réseau de communication véhiculaire basé sur le réseau cellulaire dans un environnement urbain, où I véhicules équipés de systèmes IA incarnés circulent dans la portée de communication des stations de base (BS). Le réseau comprend W liaisons véhicule-infrastructure (V2I) et Q liaisons véhicule-véhicule (V2V).
Objectif : Optimiser la puissance de transmission, l'allocation de symboles sémantiques et l'utilisation des canaux pour maximiser la QoE tout en garantissant une utilisation efficace des ressources.
Conception de l'Architecture :
- Encodeur Visuel : Utilisation d'un encodeur visuel CLIP (Contrastive Language-Image Pre-training) pour convertir les images en vecteurs de caractéristiques :
- Matrice de Projection : Projection des caractéristiques vers l'espace d'intégration du modèle de langage via une matrice de projection linéaire entraînable W :
- Extraction Sémantique : Génération d'informations sémantiques via le modèle LLAVA :
Ajustement Fin du Modèle :
- Fonction de perte :
L = Σ||Mi - M̂i||² - Perte d'entropie croisée :
LCE = Σq(vi,l)log p(vi,l)
Conception du MDP :
- Espace d'Actions :
at = [{bq[w]}, {P^V2V_q[w]}, {uq}] (Dimension : 3Q) - Espace d'États :
st = [{H^(w)_i}, {γ^V2V_q(t)}, {γ^V2I_w(t)}] (Dimension : 2W+Q) - Fonction de Récompense : Récompense basée sur la QoE, incluant des termes de pénalité pour violation de contraintes
Algorithme GAE-PPO :
- Fonction objectif de l'agent :
J(θA) = Et[ρt(θA)A^π_θold_A_t] - Objectif écrêté :
Jclip(θA) = Et[min(ρt(θA)A^π_θold_A_t, clip(ρt(θA), 1-ε, 1+ε)A^π_θold_A_t)] - Estimation d'avantage généralisée :
A^π_θold_A_t = Σ(γλ)^l δt+l
- Modélisation de la QoE par la Loi de Weber-Fechner : Introduction pour la première fois d'une loi de psychophysique dans l'évaluation de la QoE des réseaux véhiculaires, reflétant plus précisément la qualité perçue par l'utilisateur.
- Compression Sémantique Multimodale : Réalisation de la conversion sémantique image-texte via LLAVA, avec un taux de compression de données supérieur à 90 %.
- Apprentissage par Renforcement Stabilisé : Le mécanisme GAE améliore considérablement la stabilité de convergence de l'algorithme PPO dans les environnements dynamiques.
- Ensemble de Données Textuelles : Ensemble de données du Parlement Européen, contenant environ 2 millions de phrases et 53 millions de mots
- Ensemble de Données d'Images : 30 images de scènes de conduite, utilisées pour l'évaluation de l'extraction sémantique
- Modèle LLAVA : LLAVA-v1.5-7B, contenant 7 milliards de paramètres ajustables
- Similarité Sémantique : Similarité cosinus utilisant les intégrations BERT
- QoE : Qualité d'expérience utilisateur basée sur la loi de Weber-Fechner
- Performance de Convergence : Récompense cumulée et nombre d'étapes de convergence
- Efficacité de Transmission : SINR, allocation de puissance, etc.
- Comparaison de Modèles LLM : LLAVA-1.5-13b-hf, Qwen-VL-Chat, Deepseek-vl-7b-base, Moondream2
- Comparaison d'Algorithmes DRL : Pure PPO, DDPG, Random Policy
- Architecture Réseau : 3 couches Transformer, 8 têtes d'attention, activation ReLU
- Optimiseur : Optimiseur Adam, taux d'apprentissage de 1×10⁻⁴ à 1×10⁻⁸
- Paramètres GAE-PPO : γ=0,99, ε=0,5, λ₁=λ₂=1
- Efficacité des Paramètres : LLAVA-1.5-7b-hf réduit les paramètres de 46,2 % par rapport à LLAVA-1.5-13b-hf
- Temps d'Inférence : En moyenne 40 % plus rapide que LLAVA-1.5-13b-hf
- Précision Sémantique : Performance optimale dans les tâches d'identification des places de stationnement
- Performance de Convergence : Amélioration de la récompense cumulée d'environ 61 % par rapport au PPO pur
- Amélioration de la QoE : Amélioration de 36 % par rapport à DDPG, amélioration significative par rapport au PPO pur dans le scénario à 8 véhicules
- Vitesse de Convergence : Réduction respective de 10, 23 et 54 étapes du temps de convergence pour les véhicules 1, 2 et 3
- 4→8 véhicules : Amélioration de la QoE de 61,4 %
- 8→12 véhicules : Amélioration de la QoE de 31,9 %
- 12→16 véhicules : Amélioration de la QoE de 25,2 %
- Relation SINR et Longueur de Phrase : Dans les environnements à SINR élevé, la longueur de phrase a peu d'impact sur le SSIM ; dans les environnements à SINR faible, les phrases courtes maintiennent un SSIM plus élevé
- Analyse du Mécanisme d'Attention : Les cartes d'attention de LLAVA se concentrent précisément sur les régions d'image pertinentes, telles que les véhicules et les places de stationnement
Exemple d'Extraction Sémantique :
- Image originale : 614 KB → Texte extrait : 12,1 KB (Taux de compression > 98 %)
- Identification précise : « Quatre places de stationnement, trois occupées, une libre »
- Description de localisation : « La place libre est située entre la voiture rouge et la voiture jaune »
- Partage Spectral : Cadre d'apprentissage par renforcement multi-agents optimisant la communication V2V et V2I
- Allocation de Puissance : Solution DRL pour le problème d'allocation de puissance URLLC
- Transmission Sécurisée : Schémas de transmission sécurisée pour les systèmes radar-communication intégrés
- Extraction de Données : Utilisation des LLMs pour le traitement et la transmission efficace de données multimodales
- Prise de Décision : DRL développant des stratégies adaptatives dans les environnements dynamiques
- Méthodes Intégrées : Combinaison de LLM et DRL pour la prise de décision dans les environnements incarnés
- Validation de l'Efficacité : Le cadre IA incarnée proposé surpasse les méthodes traditionnelles en termes d'efficacité de transmission, de vitesse de convergence et de performance système
- Avantages de la Compression Sémantique : LLAVA réalise un taux de compression de données supérieur à 90 % tout en maintenant l'intégrité sémantique
- Stabilité Décisionnelle : GAE-PPO améliore considérablement la stabilité décisionnelle et la performance de convergence dans les environnements dynamiques
- Complexité Computationnelle : La complexité globale est O(L²·d + L·d²) + O(T·Σnp-1·np), pouvant présenter des défis dans les environnements à ressources limitées
- Taille de l'Ensemble de Données : L'ensemble de données d'images utilisé dans les expériences est relativement petit (30 images), pouvant affecter la capacité de généralisation
- Déploiement Pratique : Manque de validation dans les environnements réels des réseaux véhiculaires
- Optimisation Algorithmique : Réduction supplémentaire de la complexité computationnelle pour s'adapter aux environnements informatiques en périphérie
- Extension de l'Ensemble de Données : Construction d'ensembles de données plus volumineux et plus diversifiés pour les scénarios des réseaux véhiculaires
- Validation Pratique : Vérification de la performance du cadre dans des testbeds réels des réseaux véhiculaires
- Innovation Forte : Première intégration de LLM et DRL pour les réseaux véhiculaires IA incarnée, avec une approche technique novatrice
- Contribution Théorique : Introduction de la loi de Weber-Fechner pour la modélisation de la QoE, offrant une nouvelle perspective pour l'évaluation des performances des réseaux véhiculaires
- Expériences Complètes : Expériences comparatives multidimensionnelles, incluant différents modèles LLM, algorithmes DRL et analyses de scalabilité
- Valeur Pratique : Taux de compression de données significatif et améliorations de performance avec potentiel d'application pratique
- Analyse de Complexité Insuffisante : Bien que fournissant une analyse théorique de la complexité, manque d'évaluation du temps d'exécution réel et de la consommation énergétique
- Vérification de Robustesse Limitée : Manque de vérification des performances dans les environnements adversariels et les conditions extrêmes
- Analyse Coût-Bénéfice : Discussion insuffisante du compromis entre les coûts de déploiement et les bénéfices de performance
- Valeur Académique : Fournit une nouvelle direction de recherche pour l'application de l'IA incarnée dans les réseaux véhiculaires
- Perspectives Pratiques : Larges perspectives d'application dans les systèmes de transport intelligents, la conduite autonome et autres domaines
- Reproductibilité : Fournit des paramètres détaillés et des descriptions d'algorithmes, facilitant la reproduction
- Systèmes de Transport Intelligents : Traitement d'informations de trafic en temps réel et prise de décision
- Conduite Autonome : Perception de l'environnement et optimisation de la planification de trajectoire
- Informatique en Périphérie : Traitement efficace des données dans les environnements à ressources limitées
- Réseaux 6G : Gestion intelligente des ressources dans les réseaux mobiles de prochaine génération
L'article cite 51 références connexes, couvrant principalement :
- Travaux connexes sur l'optimisation de la communication des réseaux véhiculaires 15-19
- Recherche sur les applications de l'IA incarnée et des LLMs 20-29
- Méthodes d'apprentissage par renforcement profond 39-43
- Communication sémantique et modélisation de la QoE 33-36
Évaluation Globale : Cet article est un travail de rupture dans le domaine des réseaux véhiculaires améliorés par l'IA incarnée, avec une approche technique novatrice et une vérification expérimentale complète, possédant une valeur académique et des perspectives pratiques importantes. Bien qu'il y ait encore de la place pour l'amélioration en termes d'optimisation de la complexité et de vérification du déploiement pratique, il fournit une base théorique importante et une référence technique pour le développement du domaine.