2025-11-19T21:10:14.255447

Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method

Zhang, Zhao, Du et al.

This paper investigates adaptive transmission strategies in embodied AI-enhanced vehicular networks by integrating large language models (LLMs) for semantic information extraction and deep reinforcement learning (DRL) for decision-making. The proposed framework aims to optimize both data transmission efficiency and decision accuracy by formulating an optimization problem that incorporates the Weber-Fechner law, serving as a metric for balancing bandwidth utilization and quality of experience (QoE). Specifically, we employ the large language and vision assistant (LLAVA) model to extract critical semantic information from raw image data captured by embodied AI agents (i.e., vehicles), reducing transmission data size by approximately more than 90\% while retaining essential content for vehicular communication and decision-making. In the dynamic vehicular environment, we employ a generalized advantage estimation-based proximal policy optimization (GAE-PPO) method to stabilize decision-making under uncertainty. Simulation results show that attention maps from LLAVA highlight the model's focus on relevant image regions, enhancing semantic representation accuracy. Additionally, our proposed transmission strategy improves QoE by up to 36\% compared to DDPG and accelerates convergence by reducing required steps by up to 47\% compared to pure PPO. Further analysis indicates that adapting semantic symbol length provides an effective trade-off between transmission quality and bandwidth, achieving up to a 61.4\% improvement in QoE when scaling from 4 to 8 vehicles.

academic

Воплощённый ИИ-улучшенные транспортные сети: интегрированный метод больших языковых моделей и обучения с подкреплением

Основная информация

ID статьи: 2501.01141
Название: Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method
Авторы: Ruichen Zhang, Changyuan Zhao, Hongyang Du, Dusit Niyato, Jiacheng Wang, Suttinee Sawadsitang, Xuemin Shen, Dong In Kim
Категория: cs.NI (Архитектура сетей и интернета)
Дата публикации: 2 января 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.01141

Аннотация

В данной работе исследуются адаптивные стратегии передачи в воплощённых ИИ-улучшенных транспортных сетях (IoV) путём интеграции больших языковых моделей (LLM) для извлечения семантической информации и глубокого обучения с подкреплением (DRL) для принятия решений. Предложенная структура направлена на оптимизацию эффективности передачи данных и точности принятия решений путём формулирования задачи оптимизации, включающей закон Вебера-Фехнера, для балансирования использования полосы пропускания и качества восприятия пользователем (QoE). В частности, модель LLAVA (большой языковой и визуальный помощник) используется для извлечения ключевой семантической информации из необработанных данных изображений, захватываемых агентами воплощённого ИИ (т.е. транспортными средствами), сокращая размер передаваемых данных более чем на 90% при сохранении основного содержания, необходимого для коммуникации и принятия решений в IoV. В динамической среде IoV применяется метод оптимизации ближайшей политики (GAE-PPO) на основе обобщённой оценки преимущества для стабилизации принятия решений в условиях неопределённости.

Исследовательский контекст и мотивация

Определение проблемы

С наступлением эры 6G сети IoV, как ожидается, достигнут беспрецедентного прогресса с плотностью трафика, превышающей 0,1-10 Гбит/с/м², и плотностью подключения до 10 миллионов устройств на квадратный километр. Эти улучшения значительно повысят скорость передачи данных, связность и ёмкость сети, фундаментально трансформируя услуги IoV, такие как навигация в реальном времени, восприятие окружающей среды и автономное принятие решений.

Исследовательская мотивация

Вызовы обработки данных: С ростом количества подключённых транспортных средств необходимо развёртывание большого количества датчиков для сбора и обработки больших объёмов данных в реальном времени. Традиционные дискриминативные модели ИИ испытывают трудности с поддержанием высокой производительности в динамических условиях.
Проблемы эффективности передачи: Передача необработанных данных датчиков требует значительной полосы пропускания. Ключевой вызов заключается в том, как уменьшить объём передаваемых данных, сохраняя качество информации.
Сложность принятия решений: Среда IoV высокодинамична и требует интеллектуальной системы принятия решений, способной адаптироваться к изменениям окружающей среды в реальном времени.

Ограничения существующих методов

Традиционные подходы сосредоточены на классических показателях производительности, таких как спектральная эффективность, задержка и безопасность
Отсутствует рассмотрение семантической передачи данных и эффективности принятия решений
Недостаточно исследована интегрированная применение LLM и DRL в оптимизации ресурсов IoV

Основные вклады

Моделирование передачи данных: Формулирование задачи оптимизации, балансирующей эффективность передачи данных и точность принятия решений, с введением закона Вебера-Фехнера в качестве метрики для количественной оценки качества восприятия пользователем (QoE).
Обработка семантических данных на основе LLM: Использование LLAVA для извлечения семантической информации из необработанных данных изображений, значительно сокращая требуемую полосу пропускания при сохранении основных деталей контекста, необходимых для коммуникации и принятия решений в IoV.
Улучшенное принятие решений на основе DRL: Предложение метода GAE-PPO для улучшения принятия решений в динамической среде IoV, снижение дисперсии обновлений градиента политики через обобщённую оценку преимущества и стабилизация процесса обучения.
Новаторская работа: По знанию авторов, это первая работа, исследующая совместное применение обработки данных LLM и принятия решений DRL в воплощённых ИИ-улучшенных транспортных сетях.

Подробное описание методологии

Определение задачи

Рассматривается сеть коммуникации IoV на основе сотовой сети в городской среде, где I транспортных средств, оснащённых системами воплощённого ИИ, движутся в зоне покрытия базовой станции (BS). Сеть включает W каналов связи "транспортное средство-инфраструктура" (V2I) и Q каналов связи "транспортное средство-транспортное средство" (V2V).

Цель: Оптимизация мощности передачи, распределения семантических символов и использования канала для максимизации QoE при обеспечении эффективного использования ресурсов.

Архитектура модели

1. Извлечение семантической информации LLAVA

Проектирование архитектуры:

Визуальный кодировщик: Использование визуального кодировщика CLIP (контрастное обучение языка и изображения) для преобразования изображения в вектор признаков:
```
Zi = g(Ii)
```
Матрица проекции: Проекция признаков в пространство встраивания слов языковой модели через обучаемую линейную матрицу проекции W:
```
Ei = W · Zi
```
Извлечение семантики: Генерирование семантической информации через модель LLAVA:
```
Mi = LLAVA(Ii; θi)
```

Тонкая настройка модели:

Функция потерь: L = Σ||Mi - M̂i||²
Потери перекрёстной энтропии: LCE = Σq(vi,l)log p(vi,l)

2. Оптимизация стратегии передачи GAE-PPO

Проектирование MDP:

Пространство действий: at = [{bq[w]}, {P^V2V_q[w]}, {uq}] (размерность: 3Q)
Пространство состояний: st = [{H^(w)_i}, {γ^V2V_q(t)}, {γ^V2I_w(t)}] (размерность: 2W+Q)
Функция вознаграждения: Вознаграждение на основе QoE с штрафными членами за нарушение ограничений

Алгоритм GAE-PPO:

Целевая функция агента: J(θA) = Et[ρt(θA)A^π_θold_A_t]
Обрезанная цель: Jclip(θA) = Et[min(ρt(θA)A^π_θold_A_t, clip(ρt(θA), 1-ε, 1+ε)A^π_θold_A_t)]
Обобщённая оценка преимущества: A^π_θold_A_t = Σ(γλ)^l δt+l

Технические инновации

Моделирование QoE по закону Вебера-Фехнера: Первое применение психофизического закона в оценке QoE IoV для более точного отражения восприятия пользователем качества.
Кросс-модальное семантическое сжатие: Реализация преобразования изображения в текст через LLAVA с коэффициентом сжатия данных более 90%.
Стабилизированное обучение с подкреплением: Механизм GAE значительно повышает стабильность сходимости алгоритма PPO в динамической среде.

Экспериментальная установка

Наборы данных

Текстовый набор данных: Набор данных Европейского парламента, содержащий примерно 2 миллиона предложений и 53 миллиона слов
Набор данных изображений: 30 изображений сцен вождения для оценки извлечения семантики
Модель LLAVA: LLAVA-v1.5-7B с 7 миллиардами настраиваемых параметров

Метрики оценки

Семантическое сходство: Косинусное сходство с использованием встраивания BERT
QoE: Качество восприятия пользователем на основе закона Вебера-Фехнера
Производительность сходимости: Накопленное вознаграждение и количество шагов сходимости
Эффективность передачи: SINR, распределение мощности и т.д.

Методы сравнения

Сравнение моделей LLM: LLAVA-1.5-13b-hf, Qwen-VL-Chat, Deepseek-vl-7b-base, Moondream2
Сравнение алгоритмов DRL: Pure PPO, DDPG, Random Policy

Детали реализации

Архитектура сети: 3-слойный Transformer с 8 головками внимания, активация ReLU
Оптимизатор: Оптимизатор Adam с коэффициентом обучения от 1×10⁻⁴ до 1×10⁻⁸
Параметры GAE-PPO: γ=0.99, ε=0.5, λ₁=λ₂=1

Результаты экспериментов

Основные результаты

1. Оценка производительности LLAVA

Эффективность параметров: LLAVA-1.5-7b-hf сокращает параметры на 46,2% по сравнению с LLAVA-1.5-13b-hf
Время вывода: В среднем на 40% быстрее, чем LLAVA-1.5-13b-hf
Точность семантики: Лучшие результаты в задаче распознавания парковочных мест

2. Улучшение производительности GAE-PPO

Производительность сходимости: Накопленное вознаграждение улучшено примерно на 61% по сравнению с чистым PPO
Улучшение QoE: Улучшение на 36% по сравнению с DDPG и значительное улучшение по сравнению с чистым PPO в сценарии с 8 транспортными средствами
Скорость сходимости: Сокращение времени сходимости на 10, 23 и 54 шага соответственно для транспортных средств 1, 2 и 3

3. Анализ масштабируемости

4→8 транспортных средств: Улучшение QoE на 61,4%
8→12 транспортных средств: Улучшение QoE на 31,9%
12→16 транспортных средств: Улучшение QoE на 25,2%

Абляционные исследования

Связь SINR и длины предложения: В среде с высоким SINR длина предложения оказывает меньшее влияние на SSIM; в среде с низким SINR короткие предложения сохраняют более высокий SSIM
Анализ механизма внимания: Карты внимания LLAVA точно сосредоточены на релевантных областях изображения, таких как транспортные средства и парковочные места

Анализ примеров

Пример извлечения семантики:

Исходное изображение: 614 КБ → Извлечённый текст: 12,1 КБ (коэффициент сжатия >98%)
Точное распознавание: "Четыре парковочных места, три заняты, одно свободно"
Описание местоположения: "Свободное парковочное место расположено между красным и жёлтым автомобилями"

Связанные работы

Исследования IoV

Совместное использование спектра: Структура многоагентного обучения с подкреплением для оптимизации коммуникации V2V и V2I
Распределение мощности: DRL для решения проблемы распределения мощности URLLC
Безопасная передача: Схемы безопасной передачи для интегрированных систем радара и коммуникации

Исследования воплощённого ИИ

Извлечение данных: LLM для эффективной обработки и передачи мультимодальных данных
Принятие решений: DRL для разработки адаптивных стратегий в динамической среде
Интегрированные методы: Комбинирование LLM и DRL для принятия решений в воплощённой среде

Выводы и обсуждение

Основные выводы

Проверка эффективности: Предложенная структура воплощённого ИИ превосходит традиционные методы по эффективности передачи, скорости сходимости и производительности системы
Преимущества семантического сжатия: LLAVA достигает коэффициента сжатия данных более 90% при сохранении семантической целостности
Стабильность принятия решений: GAE-PPO значительно повышает стабильность принятия решений и производительность сходимости в динамической среде

Ограничения

Вычислительная сложность: Общая сложность O(L²·d + L·d²) + O(T·Σnp-1·np) может представлять вызовы в среде с ограниченными ресурсами
Размер набора данных: Используемый в экспериментах набор данных изображений относительно небольшой (30 изображений), что может повлиять на способность к обобщению
Практическое развёртывание: Отсутствие проверки в реальной среде IoV

Будущие направления

Оптимизация алгоритма: Дальнейшее снижение вычислительной сложности для адаптации к среде граничных вычислений
Расширение набора данных: Создание более крупного и разнообразного набора данных сценариев IoV
Практическая проверка: Проверка производительности структуры на реальном стенде IoV

Глубокая оценка

Преимущества

Сильная инновационность: Первое интегрирование LLM и DRL для воплощённого ИИ IoV с новаторским техническим подходом
Теоретический вклад: Введение закона Вебера-Фехнера для моделирования QoE предоставляет новую перспективу оценки производительности IoV
Полные эксперименты: Многомерные сравнительные эксперименты, включая различные модели LLM, алгоритмы DRL и анализ масштабируемости
Практическая ценность: Значительный коэффициент сжатия данных и улучшение производительности имеют потенциал практического применения

Недостатки

Недостаточный анализ сложности: Хотя предоставлен теоретический анализ сложности, отсутствуют оценки фактического времени выполнения и потребления энергии
Ограниченная проверка надёжности: Отсутствует проверка производительности в враждебной среде и экстремальных условиях
Недостаточный анализ затрат и выгод: Недостаточное обсуждение компромисса между стоимостью развёртывания и выигрышем в производительности

Влияние

Академическая ценность: Предоставляет новое направление исследований для применения воплощённого ИИ в IoV
Практические перспективы: Имеет широкие перспективы применения в интеллектуальных транспортных системах, автономном вождении и других областях
Воспроизводимость: Предоставляет подробные параметры и описания алгоритмов, облегчающие воспроизведение

Применимые сценарии

Интеллектуальные транспортные системы: Обработка информации о трафике в реальном времени и принятие решений
Автономное вождение: Оптимизация восприятия окружающей среды и планирования маршрута
Граничные вычисления: Эффективная обработка данных в среде с ограниченными ресурсами
Сети 6G: Интеллектуальное управление ресурсами в сетях следующего поколения

Библиография

Статья цитирует 51 соответствующую работу, охватывающую в основном:

Работы по оптимизации коммуникации IoV 15-19
Исследования применения воплощённого ИИ и LLM 20-29
Методы глубокого обучения с подкреплением 39-43
Семантическую коммуникацию и моделирование QoE 33-36

Общая оценка: Это новаторская работа в области воплощённого ИИ IoV с инновационным техническим подходом и полной экспериментальной проверкой, имеющая важную академическую ценность и практические перспективы. Хотя существует пространство для улучшения в оптимизации сложности и проверке практического развёртывания, работа предоставляет важную теоретическую основу и технический справочник для развития этой области.