2025-11-19T21:10:14.255447

Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method

Zhang, Zhao, Du et al.

This paper investigates adaptive transmission strategies in embodied AI-enhanced vehicular networks by integrating large language models (LLMs) for semantic information extraction and deep reinforcement learning (DRL) for decision-making. The proposed framework aims to optimize both data transmission efficiency and decision accuracy by formulating an optimization problem that incorporates the Weber-Fechner law, serving as a metric for balancing bandwidth utilization and quality of experience (QoE). Specifically, we employ the large language and vision assistant (LLAVA) model to extract critical semantic information from raw image data captured by embodied AI agents (i.e., vehicles), reducing transmission data size by approximately more than 90\% while retaining essential content for vehicular communication and decision-making. In the dynamic vehicular environment, we employ a generalized advantage estimation-based proximal policy optimization (GAE-PPO) method to stabilize decision-making under uncertainty. Simulation results show that attention maps from LLAVA highlight the model's focus on relevant image regions, enhancing semantic representation accuracy. Additionally, our proposed transmission strategy improves QoE by up to 36\% compared to DDPG and accelerates convergence by reducing required steps by up to 47\% compared to pure PPO. Further analysis indicates that adapting semantic symbol length provides an effective trade-off between transmission quality and bandwidth, achieving up to a 61.4\% improvement in QoE when scaling from 4 to 8 vehicles.

academic

Réseaux Véhiculaires Améliorés par l'IA Incarnée : Une Méthode Intégrée de Modèles de Langage de Grande Taille et d'Apprentissage par Renforcement

Informations Fondamentales

ID de l'article : 2501.01141
Titre : Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method
Auteurs : Ruichen Zhang, Changyuan Zhao, Hongyang Du, Dusit Niyato, Jiacheng Wang, Suttinee Sawadsitang, Xuemin Shen, Dong In Kim
Classification : cs.NI (Architecture des Réseaux et Internet)
Date de Publication : 2 janvier 2025 (Prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2501.01141

Résumé

Cet article étudie les stratégies de transmission adaptatives dans les réseaux véhiculaires améliorés par l'IA incarnée, intégrant l'extraction d'informations sémantiques par des modèles de langage de grande taille (LLMs) et la prise de décision par apprentissage par renforcement profond (DRL). Le cadre vise à optimiser l'efficacité de la transmission de données et la précision décisionnelle en formulant un problème d'optimisation équilibrant l'utilisation de la bande passante et la qualité d'expérience utilisateur (QoE), incorporant la loi de Weber-Fechner. Spécifiquement, le modèle LLAVA (Large Language and Vision Assistant) est utilisé pour extraire les informations sémantiques essentielles à partir de données d'images brutes capturées par des agents IA incarnés (c'est-à-dire des véhicules), réduisant la taille des données transmises de plus de 90 % tout en préservant le contenu fondamental nécessaire à la communication et à la prise de décision dans les réseaux véhiculaires. Dans les environnements dynamiques des réseaux véhiculaires, la méthode d'optimisation des politiques proximales avec estimation d'avantage généralisée (GAE-PPO) est adoptée pour stabiliser la prise de décision sous l'incertitude.

Contexte et Motivation de la Recherche

Définition du Problème

Avec l'avènement de l'ère 6G, les réseaux véhiculaires (IoV) devraient réaliser des progrès sans précédent, avec une densité de trafic dépassant 0,1-10 Gbps/m² et une densité de connectivité atteignant 10 millions d'appareils par kilomètre carré. Ces améliorations augmenteront considérablement les débits de données, la connectivité et la capacité du réseau, transformant fondamentalement les services IoV tels que la navigation en temps réel, la perception de l'environnement et la prise de décision autonome.

Motivation de la Recherche

Défis du Traitement des Données : Avec la croissance du nombre de véhicules connectés, le déploiement de nombreux capteurs pour collecter et traiter de grandes quantités de données en temps réel est nécessaire. Les modèles d'IA discriminatifs traditionnels ont du mal à maintenir des performances élevées dans des conditions dynamiques.
Problèmes d'Efficacité de Transmission : La transmission de données brutes de capteurs nécessite une bande passante considérable. Comment réduire le volume de données transmises tout en garantissant la qualité de l'information devient un défi clé.
Complexité de la Prise de Décision : L'environnement des réseaux véhiculaires est hautement dynamique, nécessitant un système de prise de décision intelligente capable de s'adapter en temps réel aux changements environnementaux.

Limitations des Approches Existantes

Les méthodes traditionnelles se concentrent principalement sur les indicateurs de performance conventionnels tels que l'efficacité spectrale, la latence et la sécurité
Manque de considération pour la transmission de données sémantiques et l'efficacité décisionnelle
Exploration insuffisante de l'intégration des LLMs et du DRL dans l'optimisation des ressources des réseaux véhiculaires

Contributions Principales

Modélisation de la Transmission de Données : Formulation d'un problème d'optimisation équilibrant l'efficacité de la transmission de données et la précision de la prise de décision, introduisant la loi de Weber-Fechner comme indicateur pour quantifier la qualité d'expérience utilisateur (QoE).
Traitement des Données Sémantiques Basé sur les LLMs : Utilisation de LLAVA pour extraire les informations sémantiques à partir de données d'images brutes, réduisant considérablement la bande passante de transmission tout en préservant les détails contextuels fondamentaux nécessaires à la communication et à la prise de décision dans les réseaux véhiculaires.
Prise de Décision Améliorée Basée sur le DRL : Proposition de la méthode GAE-PPO pour améliorer la prise de décision dans les environnements dynamiques des réseaux véhiculaires, réduisant la variance des mises à jour de gradient de politique par estimation d'avantage généralisée et stabilisant le processus d'entraînement.
Travail Novateur : À la connaissance des auteurs, c'est le premier travail explorant l'application conjointe du traitement de données par LLMs et de la prise de décision par DRL dans les réseaux véhiculaires améliorés par l'IA incarnée.

Détails de la Méthode

Définition de la Tâche

Considération d'un réseau de communication véhiculaire basé sur le réseau cellulaire dans un environnement urbain, où I véhicules équipés de systèmes IA incarnés circulent dans la portée de communication des stations de base (BS). Le réseau comprend W liaisons véhicule-infrastructure (V2I) et Q liaisons véhicule-véhicule (V2V).

Objectif : Optimiser la puissance de transmission, l'allocation de symboles sémantiques et l'utilisation des canaux pour maximiser la QoE tout en garantissant une utilisation efficace des ressources.

Architecture du Modèle

1. Extraction d'Informations Sémantiques par LLAVA

Conception de l'Architecture :

Encodeur Visuel : Utilisation d'un encodeur visuel CLIP (Contrastive Language-Image Pre-training) pour convertir les images en vecteurs de caractéristiques :
```
Zi = g(Ii)
```
Matrice de Projection : Projection des caractéristiques vers l'espace d'intégration du modèle de langage via une matrice de projection linéaire entraînable W :
```
Ei = W · Zi
```
Extraction Sémantique : Génération d'informations sémantiques via le modèle LLAVA :
```
Mi = LLAVA(Ii; θi)
```

Ajustement Fin du Modèle :

Fonction de perte : L = Σ||Mi - M̂i||²
Perte d'entropie croisée : LCE = Σq(vi,l)log p(vi,l)

2. Optimisation de la Stratégie de Transmission GAE-PPO

Conception du MDP :

Espace d'Actions : at = [{bq[w]}, {P^V2V_q[w]}, {uq}] (Dimension : 3Q)
Espace d'États : st = [{H^(w)_i}, {γ^V2V_q(t)}, {γ^V2I_w(t)}] (Dimension : 2W+Q)
Fonction de Récompense : Récompense basée sur la QoE, incluant des termes de pénalité pour violation de contraintes

Algorithme GAE-PPO :

Fonction objectif de l'agent : J(θA) = Et[ρt(θA)A^π_θold_A_t]
Objectif écrêté : Jclip(θA) = Et[min(ρt(θA)A^π_θold_A_t, clip(ρt(θA), 1-ε, 1+ε)A^π_θold_A_t)]
Estimation d'avantage généralisée : A^π_θold_A_t = Σ(γλ)^l δt+l

Points d'Innovation Technique

Modélisation de la QoE par la Loi de Weber-Fechner : Introduction pour la première fois d'une loi de psychophysique dans l'évaluation de la QoE des réseaux véhiculaires, reflétant plus précisément la qualité perçue par l'utilisateur.
Compression Sémantique Multimodale : Réalisation de la conversion sémantique image-texte via LLAVA, avec un taux de compression de données supérieur à 90 %.
Apprentissage par Renforcement Stabilisé : Le mécanisme GAE améliore considérablement la stabilité de convergence de l'algorithme PPO dans les environnements dynamiques.

Configuration Expérimentale

Ensembles de Données

Ensemble de Données Textuelles : Ensemble de données du Parlement Européen, contenant environ 2 millions de phrases et 53 millions de mots
Ensemble de Données d'Images : 30 images de scènes de conduite, utilisées pour l'évaluation de l'extraction sémantique
Modèle LLAVA : LLAVA-v1.5-7B, contenant 7 milliards de paramètres ajustables

Métriques d'Évaluation

Similarité Sémantique : Similarité cosinus utilisant les intégrations BERT
QoE : Qualité d'expérience utilisateur basée sur la loi de Weber-Fechner
Performance de Convergence : Récompense cumulée et nombre d'étapes de convergence
Efficacité de Transmission : SINR, allocation de puissance, etc.

Méthodes de Comparaison

Comparaison de Modèles LLM : LLAVA-1.5-13b-hf, Qwen-VL-Chat, Deepseek-vl-7b-base, Moondream2
Comparaison d'Algorithmes DRL : Pure PPO, DDPG, Random Policy

Détails d'Implémentation

Architecture Réseau : 3 couches Transformer, 8 têtes d'attention, activation ReLU
Optimiseur : Optimiseur Adam, taux d'apprentissage de 1×10⁻⁴ à 1×10⁻⁸
Paramètres GAE-PPO : γ=0,99, ε=0,5, λ₁=λ₂=1

Résultats Expérimentaux

Résultats Principaux

1. Évaluation des Performances de LLAVA

Efficacité des Paramètres : LLAVA-1.5-7b-hf réduit les paramètres de 46,2 % par rapport à LLAVA-1.5-13b-hf
Temps d'Inférence : En moyenne 40 % plus rapide que LLAVA-1.5-13b-hf
Précision Sémantique : Performance optimale dans les tâches d'identification des places de stationnement

2. Amélioration des Performances de GAE-PPO

Performance de Convergence : Amélioration de la récompense cumulée d'environ 61 % par rapport au PPO pur
Amélioration de la QoE : Amélioration de 36 % par rapport à DDPG, amélioration significative par rapport au PPO pur dans le scénario à 8 véhicules
Vitesse de Convergence : Réduction respective de 10, 23 et 54 étapes du temps de convergence pour les véhicules 1, 2 et 3

3. Analyse de Scalabilité

4→8 véhicules : Amélioration de la QoE de 61,4 %
8→12 véhicules : Amélioration de la QoE de 31,9 %
12→16 véhicules : Amélioration de la QoE de 25,2 %

Études d'Ablation

Relation SINR et Longueur de Phrase : Dans les environnements à SINR élevé, la longueur de phrase a peu d'impact sur le SSIM ; dans les environnements à SINR faible, les phrases courtes maintiennent un SSIM plus élevé
Analyse du Mécanisme d'Attention : Les cartes d'attention de LLAVA se concentrent précisément sur les régions d'image pertinentes, telles que les véhicules et les places de stationnement

Étude de Cas

Exemple d'Extraction Sémantique :

Image originale : 614 KB → Texte extrait : 12,1 KB (Taux de compression > 98 %)
Identification précise : « Quatre places de stationnement, trois occupées, une libre »
Description de localisation : « La place libre est située entre la voiture rouge et la voiture jaune »

Travaux Connexes

Recherche sur les Réseaux Véhiculaires

Partage Spectral : Cadre d'apprentissage par renforcement multi-agents optimisant la communication V2V et V2I
Allocation de Puissance : Solution DRL pour le problème d'allocation de puissance URLLC
Transmission Sécurisée : Schémas de transmission sécurisée pour les systèmes radar-communication intégrés

Recherche sur l'IA Incarnée

Extraction de Données : Utilisation des LLMs pour le traitement et la transmission efficace de données multimodales
Prise de Décision : DRL développant des stratégies adaptatives dans les environnements dynamiques
Méthodes Intégrées : Combinaison de LLM et DRL pour la prise de décision dans les environnements incarnés

Conclusion et Discussion

Conclusions Principales

Validation de l'Efficacité : Le cadre IA incarnée proposé surpasse les méthodes traditionnelles en termes d'efficacité de transmission, de vitesse de convergence et de performance système
Avantages de la Compression Sémantique : LLAVA réalise un taux de compression de données supérieur à 90 % tout en maintenant l'intégrité sémantique
Stabilité Décisionnelle : GAE-PPO améliore considérablement la stabilité décisionnelle et la performance de convergence dans les environnements dynamiques

Limitations

Complexité Computationnelle : La complexité globale est O(L²·d + L·d²) + O(T·Σnp-1·np), pouvant présenter des défis dans les environnements à ressources limitées
Taille de l'Ensemble de Données : L'ensemble de données d'images utilisé dans les expériences est relativement petit (30 images), pouvant affecter la capacité de généralisation
Déploiement Pratique : Manque de validation dans les environnements réels des réseaux véhiculaires

Directions Futures

Optimisation Algorithmique : Réduction supplémentaire de la complexité computationnelle pour s'adapter aux environnements informatiques en périphérie
Extension de l'Ensemble de Données : Construction d'ensembles de données plus volumineux et plus diversifiés pour les scénarios des réseaux véhiculaires
Validation Pratique : Vérification de la performance du cadre dans des testbeds réels des réseaux véhiculaires

Évaluation Approfondie

Points Forts

Innovation Forte : Première intégration de LLM et DRL pour les réseaux véhiculaires IA incarnée, avec une approche technique novatrice
Contribution Théorique : Introduction de la loi de Weber-Fechner pour la modélisation de la QoE, offrant une nouvelle perspective pour l'évaluation des performances des réseaux véhiculaires
Expériences Complètes : Expériences comparatives multidimensionnelles, incluant différents modèles LLM, algorithmes DRL et analyses de scalabilité
Valeur Pratique : Taux de compression de données significatif et améliorations de performance avec potentiel d'application pratique

Insuffisances

Analyse de Complexité Insuffisante : Bien que fournissant une analyse théorique de la complexité, manque d'évaluation du temps d'exécution réel et de la consommation énergétique
Vérification de Robustesse Limitée : Manque de vérification des performances dans les environnements adversariels et les conditions extrêmes
Analyse Coût-Bénéfice : Discussion insuffisante du compromis entre les coûts de déploiement et les bénéfices de performance

Impact

Valeur Académique : Fournit une nouvelle direction de recherche pour l'application de l'IA incarnée dans les réseaux véhiculaires
Perspectives Pratiques : Larges perspectives d'application dans les systèmes de transport intelligents, la conduite autonome et autres domaines
Reproductibilité : Fournit des paramètres détaillés et des descriptions d'algorithmes, facilitant la reproduction

Scénarios Applicables

Systèmes de Transport Intelligents : Traitement d'informations de trafic en temps réel et prise de décision
Conduite Autonome : Perception de l'environnement et optimisation de la planification de trajectoire
Informatique en Périphérie : Traitement efficace des données dans les environnements à ressources limitées
Réseaux 6G : Gestion intelligente des ressources dans les réseaux mobiles de prochaine génération

Références

L'article cite 51 références connexes, couvrant principalement :

Travaux connexes sur l'optimisation de la communication des réseaux véhiculaires 15-19
Recherche sur les applications de l'IA incarnée et des LLMs 20-29
Méthodes d'apprentissage par renforcement profond 39-43
Communication sémantique et modélisation de la QoE 33-36

Évaluation Globale : Cet article est un travail de rupture dans le domaine des réseaux véhiculaires améliorés par l'IA incarnée, avec une approche technique novatrice et une vérification expérimentale complète, possédant une valeur académique et des perspectives pratiques importantes. Bien qu'il y ait encore de la place pour l'amélioration en termes d'optimisation de la complexité et de vérification du déploiement pratique, il fournit une base théorique importante et une référence technique pour le développement du domaine.