This paper investigates adaptive transmission strategies in embodied AI-enhanced vehicular networks by integrating large language models (LLMs) for semantic information extraction and deep reinforcement learning (DRL) for decision-making. The proposed framework aims to optimize both data transmission efficiency and decision accuracy by formulating an optimization problem that incorporates the Weber-Fechner law, serving as a metric for balancing bandwidth utilization and quality of experience (QoE). Specifically, we employ the large language and vision assistant (LLAVA) model to extract critical semantic information from raw image data captured by embodied AI agents (i.e., vehicles), reducing transmission data size by approximately more than 90\% while retaining essential content for vehicular communication and decision-making. In the dynamic vehicular environment, we employ a generalized advantage estimation-based proximal policy optimization (GAE-PPO) method to stabilize decision-making under uncertainty. Simulation results show that attention maps from LLAVA highlight the model's focus on relevant image regions, enhancing semantic representation accuracy. Additionally, our proposed transmission strategy improves QoE by up to 36\% compared to DDPG and accelerates convergence by reducing required steps by up to 47\% compared to pure PPO. Further analysis indicates that adapting semantic symbol length provides an effective trade-off between transmission quality and bandwidth, achieving up to a 61.4\% improvement in QoE when scaling from 4 to 8 vehicles.
- Paper-ID: 2501.01141
- Titel: Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method
- Autoren: Ruichen Zhang, Changyuan Zhao, Hongyang Du, Dusit Niyato, Jiacheng Wang, Suttinee Sawadsitang, Xuemin Shen, Dong In Kim
- Klassifizierung: cs.NI (Netzwerk- und Internetarchitektur)
- Veröffentlichungsdatum: 2. Januar 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2501.01141
Dieses Papier untersucht adaptive Übertragungsstrategien in verkörperten KI-erweiterten Fahrzeugnetzen durch die Integration von großen Sprachmodellen (LLMs) zur semantischen Informationsextraktion und tiefem Reinforcement Learning (DRL) zur Entscheidungsfindung. Das Framework zielt darauf ab, die Datenübertragungseffizienz und Entscheidungsgenauigkeit zu optimieren, indem ein Optimierungsproblem formuliert wird, das das Weber-Fechner-Gesetz berücksichtigt, um die Bandbreitennutzung und die Benutzerqualität (QoE) auszugleichen. Konkret wird das LLAVA-Modell (Large Language and Vision Assistant) verwendet, um kritische semantische Informationen aus rohen Bilddaten zu extrahieren, die von verkörperten KI-Agenten (d. h. Fahrzeugen) erfasst werden, während die Übertragungsdatengröße um über 90 % reduziert wird und gleichzeitig die für Fahrzeugnetzkommunikation und Entscheidungsfindung erforderlichen wesentlichen Inhalte erhalten bleiben. In dynamischen Fahrzeugnetzen wird die Proximal Policy Optimization (GAE-PPO) mit generalisierter Advantage Estimation verwendet, um die Entscheidungsfindung unter Unsicherheit zu stabilisieren.
Mit dem Aufkommen der 6G-Ära wird erwartet, dass das Internet der Fahrzeuge (IoV) beispiellose Fortschritte erzielen wird, mit Verkehrsdichten von über 0,1-10 Gbps/m² und Verbindungsdichten von 10 Millionen Geräten pro Quadratkilometer. Diese Verbesserungen werden die Datenraten, Konnektivität und Netzwerkkapazität erheblich verbessern und IoV-Dienste wie Echtzeit-Navigation, Umgebungserkennung und autonome Entscheidungsfindung grundlegend verändern.
- Datenverarbeitungsherausforderungen: Mit der wachsenden Anzahl vernetzter Fahrzeuge müssen zahlreiche Sensoren eingesetzt werden, um große Mengen an Echtzeitdaten zu erfassen und zu verarbeiten. Traditionelle diskriminative KI-Modelle haben Schwierigkeiten, unter dynamischen Bedingungen hohe Leistung zu erbringen.
- Übertragungseffizienzprobleme: Die Übertragung von Rohdaten von Sensoren erfordert große Bandbreitenmengen. Wie man die Datenmenge reduziert und gleichzeitig die Informationsqualität gewährleistet, ist eine Schlüsselherausforderung.
- Komplexität der Entscheidungsfindung: Die IoV-Umgebung ist hochdynamisch und erfordert intelligente Entscheidungsfindungssysteme, die sich in Echtzeit an Umweltveränderungen anpassen.
- Traditionelle Methoden konzentrieren sich hauptsächlich auf konventionelle Leistungsindikatoren wie Spektrumeffizienz, Latenz und Sicherheit
- Mangelnde Berücksichtigung von semantischer Datenübertragung und Entscheidungseffizienz
- Unzureichende Erforschung der integrierten Anwendung von LLMs und DRL bei der Ressourcenoptimierung in Fahrzeugnetzen
- Datenübertragungsmodellierung: Formulierung eines Optimierungsproblems, das die Datenübertragungseffizienz und Entscheidungsgenauigkeit ausgleicht, mit Einführung des Weber-Fechner-Gesetzes als Metrik zur Quantifizierung der Benutzerqualität (QoE).
- LLM-basierte semantische Datenverarbeitung: Nutzung von LLAVA zur Extraktion semantischer Informationen aus rohen Bilddaten, signifikante Reduzierung der Übertragungsbandbreite bei Beibehaltung der für Fahrzeugnetzkommunikation und Entscheidungsfindung erforderlichen wesentlichen Kontextdetails.
- DRL-basierte verbesserte Entscheidungsfindung: Vorschlag der GAE-PPO-Methode zur Verbesserung der Entscheidungsfindung in dynamischen Fahrzeugnetzen durch generalisierte Advantage Estimation zur Reduzierung der Varianz bei Policy-Gradient-Updates und Stabilisierung des Trainingsprozesses.
- Bahnbrechende Arbeit: Nach Aussage der Autoren ist dies die erste Arbeit, die die gemeinsame Anwendung von LLM-Datenverarbeitung und DRL-Entscheidungsfindung in verkörperten KI-erweiterten Fahrzeugnetzen untersucht.
Betrachtet wird ein auf Mobilfunknetzen basierendes Fahrzeugnetzkommunikationsnetz in einer städtischen Umgebung, in dem I Fahrzeuge mit verkörperten KI-Systemen im Kommunikationsbereich einer Basisstation (BS) fahren. Das Netz umfasst W Fahrzeug-zu-Infrastruktur-(V2I)-Verbindungen und Q Fahrzeug-zu-Fahrzeug-(V2V)-Verbindungen.
Ziel: Optimierung der Übertragungsleistung, semantischen Symbolzuweisung und Kanalnutzung zur Maximierung der QoE bei gleichzeitiger Gewährleistung einer effizienten Ressourcennutzung.
Architekturdesign:
- Visueller Encoder: Verwendung eines CLIP-Visionsencoders (Contrastive Language-Image Pre-training) zur Umwandlung von Bildern in Merkmalsvektoren:
- Projektionsmatrix: Projektion von Merkmalen in den Worteinbettungsraum des Sprachmodells durch eine trainierbare lineare Projektionsmatrix W:
- Semantische Extraktion: Generierung semantischer Informationen durch das LLAVA-Modell:
Modell-Feinabstimmung:
- Verlustfunktion:
L = Σ||Mi - M̂i||² - Kreuzentropie-Verlust:
LCE = Σq(vi,l)log p(vi,l)
MDP-Design:
- Aktionsraum:
at = [{bq[w]}, {P^V2V_q[w]}, {uq}] (Dimension: 3Q) - Zustandsraum:
st = [{H^(w)_i}, {γ^V2V_q(t)}, {γ^V2I_w(t)}] (Dimension: 2W+Q) - Belohnungsfunktion: QoE-basierte Belohnung mit Strafterm für Verletzung von Nebenbedingungen
GAE-PPO-Algorithmus:
- Agentenziel-Funktion:
J(θA) = Et[ρt(θA)A^π_θold_A_t] - Beschnittenes Ziel:
Jclip(θA) = Et[min(ρt(θA)A^π_θold_A_t, clip(ρt(θA), 1-ε, 1+ε)A^π_θold_A_t)] - Generalisierte Advantage Estimation:
A^π_θold_A_t = Σ(γλ)^l δt+l
- Weber-Fechner-Gesetz QoE-Modellierung: Erstmalige Anwendung des psychophysikalischen Gesetzes auf die QoE-Bewertung in Fahrzeugnetzen für genauere Abbildung der wahrgenommenen Benutzerqualität.
- Cross-modale semantische Kompression: Realisierung der Bild-zu-Text-Semantik-Konvertierung durch LLAVA mit Kompressionsrate über 90 %.
- Stabilisiertes Reinforcement Learning: Der GAE-Mechanismus verbessert erheblich die Konvergenzstabilität des PPO-Algorithmus in dynamischen Umgebungen.
- Textdatensatz: Europäisches Parlamentsdatensatz mit etwa 2 Millionen Sätzen und 53 Millionen Wörtern
- Bilddatensatz: 30 Bilder von Fahrszenarios zur Bewertung der semantischen Extraktion
- LLAVA-Modell: LLAVA-v1.5-7B mit 7 Milliarden trainierbaren Parametern
- Semantische Ähnlichkeit: Kosinus-Ähnlichkeit mit BERT-Einbettungen
- QoE: Benutzerqualität basierend auf dem Weber-Fechner-Gesetz
- Konvergenzleistung: Kumulierte Belohnung und Konvergenzschritte
- Übertragungseffizienz: SINR, Leistungsverteilung usw.
- LLM-Modellvergleich: LLAVA-1.5-13b-hf, Qwen-VL-Chat, Deepseek-vl-7b-base, Moondream2
- DRL-Algorithmusvergleich: Pure PPO, DDPG, Random Policy
- Netzwerkarchitektur: 3-schichtiger Transformer mit 8 Aufmerksamkeitsköpfen, ReLU-Aktivierung
- Optimierer: Adam-Optimierer mit Lernrate 1×10⁻⁴ bis 1×10⁻⁸
- GAE-PPO-Parameter: γ=0,99, ε=0,5, λ₁=λ₂=1
- Parametereffizienz: LLAVA-1.5-7b-hf mit 46,2 % weniger Parametern als LLAVA-1.5-13b-hf
- Inferenzzeit: Durchschnittlich 40 % schneller als LLAVA-1.5-13b-hf
- Semantische Genauigkeit: Beste Leistung bei der Aufgabe der Parkplatzidentifikation
- Konvergenzleistung: Etwa 61 % Verbesserung der kumulierten Belohnung gegenüber reinem PPO
- QoE-Verbesserung: 36 % Verbesserung gegenüber DDPG, signifikante Verbesserung gegenüber reinem PPO im 8-Fahrzeug-Szenario
- Konvergenzgeschwindigkeit: Reduzierung der Konvergenzzeit um 10, 23 bzw. 54 Schritte für Fahrzeuge 1, 2 und 3
- 4→8 Fahrzeuge: QoE-Verbesserung von 61,4 %
- 8→12 Fahrzeuge: QoE-Verbesserung von 31,9 %
- 12→16 Fahrzeuge: QoE-Verbesserung von 25,2 %
- SINR- und Satzlängen-Beziehung: In Hochs-SINR-Umgebungen hat die Satzlänge geringen Einfluss auf SSIM; in Niedrig-SINR-Umgebungen behalten kürzere Sätze höhere SSIM-Werte.
- Aufmerksamkeitsmechanismus-Analyse: LLAVA-Aufmerksamkeitskarten konzentrieren sich genau auf relevante Bildbereiche wie Fahrzeuge und Parkplätze.
Semantische Extraktionsbeispiel:
- Originalbild: 614 KB → Extrahierter Text: 12,1 KB (Kompressionsrate > 98 %)
- Genaue Identifikation: "Vier Parkplätze, drei besetzt, einer frei"
- Standortbeschreibung: "Der freie Parkplatz befindet sich zwischen dem roten und gelben Auto"
- Spektrumfreigabe: Multi-Agent-Reinforcement-Learning-Framework zur Optimierung von V2V- und V2I-Kommunikation
- Leistungsverteilung: DRL zur Lösung des URLLC-Leistungsverteilungsproblems
- Sichere Übertragung: Sichere Übertragungsschemata für integrierte Radar-Kommunikationssysteme
- Datenextraktion: LLM für effiziente Verarbeitung und Übertragung multimodaler Daten
- Entscheidungsfindung: DRL zur Entwicklung adaptiver Strategien in dynamischen Umgebungen
- Integrationsmethoden: Kombination von LLM und DRL für Entscheidungsfindung in verkörperten Umgebungen
- Wirksamkeitsvalidierung: Das vorgeschlagene verkörperte KI-Framework übertrifft traditionelle Methoden in Bezug auf Übertragungseffizienz, Konvergenzgeschwindigkeit und Systemleistung.
- Semantische Kompressionsvorteil: LLAVA erreicht eine Datenkompressionsrate von über 90 % bei gleichzeitiger Beibehaltung der semantischen Integrität.
- Entscheidungsstabilität: GAE-PPO verbessert erheblich die Entscheidungsstabilität und Konvergenzleistung in dynamischen Umgebungen.
- Rechenkomplexität: Die Gesamtkomplexität von O(L²·d + L·d²) + O(T·Σnp-1·np) kann in ressourcenbeschränkten Umgebungen eine Herausforderung darstellen.
- Datensatzgröße: Der in Experimenten verwendete Bilddatensatz ist relativ klein (30 Bilder), was die Verallgemeinerungsfähigkeit beeinträchtigen kann.
- Praktische Bereitstellung: Fehlende Validierung in echten Fahrzeugnetzen-Umgebungen.
- Algorithmusoptimierung: Weitere Reduzierung der Rechenkomplexität zur Anpassung an Edge-Computing-Umgebungen.
- Datensatzerweiterung: Aufbau größerer und vielfältigerer Fahrzeugnetze-Szenario-Datensätze.
- Praktische Validierung: Validierung der Framework-Leistung in echten Fahrzeugnetzen-Testbeds.
- Starke Innovativität: Erstmalige Integration von LLM und DRL für verkörperte KI-Fahrzeugnetze mit neuartiger technischer Route.
- Theoretischer Beitrag: Einführung des Weber-Fechner-Gesetzes zur QoE-Modellierung bietet neue Perspektive für die Leistungsbewertung von Fahrzeugnetzen.
- Umfangreiche Experimente: Mehrdimensionale Vergleichsexperimente einschließlich verschiedener LLM-Modelle, DRL-Algorithmen und Skalierbarkeitsanalyse.
- Praktischer Wert: Signifikante Datenkompressionsrate und Leistungsverbesserungen haben praktisches Anwendungspotenzial.
- Unzureichende Komplexitätsanalyse: Obwohl theoretische Komplexitätsanalyse bereitgestellt wird, fehlen tatsächliche Laufzeit- und Energieverbrauchsbewertungen.
- Begrenzte Robustheitsvalidierung: Fehlende Leistungsvalidierung in gegnerischen Umgebungen und extremen Bedingungen.
- Unvollständige Kosten-Nutzen-Analyse: Unzureichende Diskussion des Kompromisses zwischen Bereitstellungskosten und Leistungsgewinnen.
- Akademischer Wert: Bietet neue Forschungsrichtungen für die Anwendung verkörperter KI in Fahrzeugnetzen.
- Praktische Aussichten: Breite Anwendungsaussichten in 6G-Fahrzeugnetzen, autonomem Fahren usw.
- Reproduzierbarkeit: Detaillierte Parametersettings und Algorithmusbeschreibungen ermöglichen einfache Reproduktion.
- Intelligente Verkehrssysteme: Echtzeit-Verkehrsinformationsverarbeitung und Entscheidungsfindung.
- Autonomes Fahren: Umgebungserkennung und Pfadplanungsoptimierung.
- Edge Computing: Effiziente Datenverarbeitung in ressourcenbeschränkten Umgebungen.
- 6G-Netzwerk: Intelligente Ressourcenverwaltung in Netzwerken der nächsten Generation.
Das Papier zitiert 51 relevante Arbeiten, die hauptsächlich folgende Bereiche abdecken:
- Fahrzeugnetzkommunikationsoptimierungsarbeiten 15-19
- Forschung zu verkörperter KI und LLM-Anwendungen 20-29
- Methoden des tiefen Reinforcement Learning 39-43
- Semantische Kommunikation und QoE-Modellierung 33-36
Gesamtbewertung: Dies ist eine bahnbrechende Arbeit im Bereich der verkörperten KI-Fahrzeugnetze mit neuartiger technischer Route und umfassender experimenteller Validierung, die wichtigen akademischen Wert und praktische Aussichten hat. Obwohl es noch Raum für Verbesserungen bei der Komplexitätsoptimierung und praktischen Bereitstellungsvalidierung gibt, bietet es wichtige theoretische Grundlagen und technische Referenzen für die Entwicklung dieses Feldes.