This paper investigates adaptive transmission strategies in embodied AI-enhanced vehicular networks by integrating large language models (LLMs) for semantic information extraction and deep reinforcement learning (DRL) for decision-making. The proposed framework aims to optimize both data transmission efficiency and decision accuracy by formulating an optimization problem that incorporates the Weber-Fechner law, serving as a metric for balancing bandwidth utilization and quality of experience (QoE). Specifically, we employ the large language and vision assistant (LLAVA) model to extract critical semantic information from raw image data captured by embodied AI agents (i.e., vehicles), reducing transmission data size by approximately more than 90\% while retaining essential content for vehicular communication and decision-making. In the dynamic vehicular environment, we employ a generalized advantage estimation-based proximal policy optimization (GAE-PPO) method to stabilize decision-making under uncertainty. Simulation results show that attention maps from LLAVA highlight the model's focus on relevant image regions, enhancing semantic representation accuracy. Additionally, our proposed transmission strategy improves QoE by up to 36\% compared to DDPG and accelerates convergence by reducing required steps by up to 47\% compared to pure PPO. Further analysis indicates that adapting semantic symbol length provides an effective trade-off between transmission quality and bandwidth, achieving up to a 61.4\% improvement in QoE when scaling from 4 to 8 vehicles.
- ID статьи: 2501.01141
- Название: Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method
- Авторы: Ruichen Zhang, Changyuan Zhao, Hongyang Du, Dusit Niyato, Jiacheng Wang, Suttinee Sawadsitang, Xuemin Shen, Dong In Kim
- Категория: cs.NI (Архитектура сетей и интернета)
- Дата публикации: 2 января 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2501.01141
В данной работе исследуются адаптивные стратегии передачи в воплощённых ИИ-улучшенных транспортных сетях (IoV) путём интеграции больших языковых моделей (LLM) для извлечения семантической информации и глубокого обучения с подкреплением (DRL) для принятия решений. Предложенная структура направлена на оптимизацию эффективности передачи данных и точности принятия решений путём формулирования задачи оптимизации, включающей закон Вебера-Фехнера, для балансирования использования полосы пропускания и качества восприятия пользователем (QoE). В частности, модель LLAVA (большой языковой и визуальный помощник) используется для извлечения ключевой семантической информации из необработанных данных изображений, захватываемых агентами воплощённого ИИ (т.е. транспортными средствами), сокращая размер передаваемых данных более чем на 90% при сохранении основного содержания, необходимого для коммуникации и принятия решений в IoV. В динамической среде IoV применяется метод оптимизации ближайшей политики (GAE-PPO) на основе обобщённой оценки преимущества для стабилизации принятия решений в условиях неопределённости.
С наступлением эры 6G сети IoV, как ожидается, достигнут беспрецедентного прогресса с плотностью трафика, превышающей 0,1-10 Гбит/с/м², и плотностью подключения до 10 миллионов устройств на квадратный километр. Эти улучшения значительно повысят скорость передачи данных, связность и ёмкость сети, фундаментально трансформируя услуги IoV, такие как навигация в реальном времени, восприятие окружающей среды и автономное принятие решений.
- Вызовы обработки данных: С ростом количества подключённых транспортных средств необходимо развёртывание большого количества датчиков для сбора и обработки больших объёмов данных в реальном времени. Традиционные дискриминативные модели ИИ испытывают трудности с поддержанием высокой производительности в динамических условиях.
- Проблемы эффективности передачи: Передача необработанных данных датчиков требует значительной полосы пропускания. Ключевой вызов заключается в том, как уменьшить объём передаваемых данных, сохраняя качество информации.
- Сложность принятия решений: Среда IoV высокодинамична и требует интеллектуальной системы принятия решений, способной адаптироваться к изменениям окружающей среды в реальном времени.
- Традиционные подходы сосредоточены на классических показателях производительности, таких как спектральная эффективность, задержка и безопасность
- Отсутствует рассмотрение семантической передачи данных и эффективности принятия решений
- Недостаточно исследована интегрированная применение LLM и DRL в оптимизации ресурсов IoV
- Моделирование передачи данных: Формулирование задачи оптимизации, балансирующей эффективность передачи данных и точность принятия решений, с введением закона Вебера-Фехнера в качестве метрики для количественной оценки качества восприятия пользователем (QoE).
- Обработка семантических данных на основе LLM: Использование LLAVA для извлечения семантической информации из необработанных данных изображений, значительно сокращая требуемую полосу пропускания при сохранении основных деталей контекста, необходимых для коммуникации и принятия решений в IoV.
- Улучшенное принятие решений на основе DRL: Предложение метода GAE-PPO для улучшения принятия решений в динамической среде IoV, снижение дисперсии обновлений градиента политики через обобщённую оценку преимущества и стабилизация процесса обучения.
- Новаторская работа: По знанию авторов, это первая работа, исследующая совместное применение обработки данных LLM и принятия решений DRL в воплощённых ИИ-улучшенных транспортных сетях.
Рассматривается сеть коммуникации IoV на основе сотовой сети в городской среде, где I транспортных средств, оснащённых системами воплощённого ИИ, движутся в зоне покрытия базовой станции (BS). Сеть включает W каналов связи "транспортное средство-инфраструктура" (V2I) и Q каналов связи "транспортное средство-транспортное средство" (V2V).
Цель: Оптимизация мощности передачи, распределения семантических символов и использования канала для максимизации QoE при обеспечении эффективного использования ресурсов.
Проектирование архитектуры:
- Визуальный кодировщик: Использование визуального кодировщика CLIP (контрастное обучение языка и изображения) для преобразования изображения в вектор признаков:
- Матрица проекции: Проекция признаков в пространство встраивания слов языковой модели через обучаемую линейную матрицу проекции W:
- Извлечение семантики: Генерирование семантической информации через модель LLAVA:
Тонкая настройка модели:
- Функция потерь:
L = Σ||Mi - M̂i||² - Потери перекрёстной энтропии:
LCE = Σq(vi,l)log p(vi,l)
Проектирование MDP:
- Пространство действий:
at = [{bq[w]}, {P^V2V_q[w]}, {uq}] (размерность: 3Q) - Пространство состояний:
st = [{H^(w)_i}, {γ^V2V_q(t)}, {γ^V2I_w(t)}] (размерность: 2W+Q) - Функция вознаграждения: Вознаграждение на основе QoE с штрафными членами за нарушение ограничений
Алгоритм GAE-PPO:
- Целевая функция агента:
J(θA) = Et[ρt(θA)A^π_θold_A_t] - Обрезанная цель:
Jclip(θA) = Et[min(ρt(θA)A^π_θold_A_t, clip(ρt(θA), 1-ε, 1+ε)A^π_θold_A_t)] - Обобщённая оценка преимущества:
A^π_θold_A_t = Σ(γλ)^l δt+l
- Моделирование QoE по закону Вебера-Фехнера: Первое применение психофизического закона в оценке QoE IoV для более точного отражения восприятия пользователем качества.
- Кросс-модальное семантическое сжатие: Реализация преобразования изображения в текст через LLAVA с коэффициентом сжатия данных более 90%.
- Стабилизированное обучение с подкреплением: Механизм GAE значительно повышает стабильность сходимости алгоритма PPO в динамической среде.
- Текстовый набор данных: Набор данных Европейского парламента, содержащий примерно 2 миллиона предложений и 53 миллиона слов
- Набор данных изображений: 30 изображений сцен вождения для оценки извлечения семантики
- Модель LLAVA: LLAVA-v1.5-7B с 7 миллиардами настраиваемых параметров
- Семантическое сходство: Косинусное сходство с использованием встраивания BERT
- QoE: Качество восприятия пользователем на основе закона Вебера-Фехнера
- Производительность сходимости: Накопленное вознаграждение и количество шагов сходимости
- Эффективность передачи: SINR, распределение мощности и т.д.
- Сравнение моделей LLM: LLAVA-1.5-13b-hf, Qwen-VL-Chat, Deepseek-vl-7b-base, Moondream2
- Сравнение алгоритмов DRL: Pure PPO, DDPG, Random Policy
- Архитектура сети: 3-слойный Transformer с 8 головками внимания, активация ReLU
- Оптимизатор: Оптимизатор Adam с коэффициентом обучения от 1×10⁻⁴ до 1×10⁻⁸
- Параметры GAE-PPO: γ=0.99, ε=0.5, λ₁=λ₂=1
- Эффективность параметров: LLAVA-1.5-7b-hf сокращает параметры на 46,2% по сравнению с LLAVA-1.5-13b-hf
- Время вывода: В среднем на 40% быстрее, чем LLAVA-1.5-13b-hf
- Точность семантики: Лучшие результаты в задаче распознавания парковочных мест
- Производительность сходимости: Накопленное вознаграждение улучшено примерно на 61% по сравнению с чистым PPO
- Улучшение QoE: Улучшение на 36% по сравнению с DDPG и значительное улучшение по сравнению с чистым PPO в сценарии с 8 транспортными средствами
- Скорость сходимости: Сокращение времени сходимости на 10, 23 и 54 шага соответственно для транспортных средств 1, 2 и 3
- 4→8 транспортных средств: Улучшение QoE на 61,4%
- 8→12 транспортных средств: Улучшение QoE на 31,9%
- 12→16 транспортных средств: Улучшение QoE на 25,2%
- Связь SINR и длины предложения: В среде с высоким SINR длина предложения оказывает меньшее влияние на SSIM; в среде с низким SINR короткие предложения сохраняют более высокий SSIM
- Анализ механизма внимания: Карты внимания LLAVA точно сосредоточены на релевантных областях изображения, таких как транспортные средства и парковочные места
Пример извлечения семантики:
- Исходное изображение: 614 КБ → Извлечённый текст: 12,1 КБ (коэффициент сжатия >98%)
- Точное распознавание: "Четыре парковочных места, три заняты, одно свободно"
- Описание местоположения: "Свободное парковочное место расположено между красным и жёлтым автомобилями"
- Совместное использование спектра: Структура многоагентного обучения с подкреплением для оптимизации коммуникации V2V и V2I
- Распределение мощности: DRL для решения проблемы распределения мощности URLLC
- Безопасная передача: Схемы безопасной передачи для интегрированных систем радара и коммуникации
- Извлечение данных: LLM для эффективной обработки и передачи мультимодальных данных
- Принятие решений: DRL для разработки адаптивных стратегий в динамической среде
- Интегрированные методы: Комбинирование LLM и DRL для принятия решений в воплощённой среде
- Проверка эффективности: Предложенная структура воплощённого ИИ превосходит традиционные методы по эффективности передачи, скорости сходимости и производительности системы
- Преимущества семантического сжатия: LLAVA достигает коэффициента сжатия данных более 90% при сохранении семантической целостности
- Стабильность принятия решений: GAE-PPO значительно повышает стабильность принятия решений и производительность сходимости в динамической среде
- Вычислительная сложность: Общая сложность O(L²·d + L·d²) + O(T·Σnp-1·np) может представлять вызовы в среде с ограниченными ресурсами
- Размер набора данных: Используемый в экспериментах набор данных изображений относительно небольшой (30 изображений), что может повлиять на способность к обобщению
- Практическое развёртывание: Отсутствие проверки в реальной среде IoV
- Оптимизация алгоритма: Дальнейшее снижение вычислительной сложности для адаптации к среде граничных вычислений
- Расширение набора данных: Создание более крупного и разнообразного набора данных сценариев IoV
- Практическая проверка: Проверка производительности структуры на реальном стенде IoV
- Сильная инновационность: Первое интегрирование LLM и DRL для воплощённого ИИ IoV с новаторским техническим подходом
- Теоретический вклад: Введение закона Вебера-Фехнера для моделирования QoE предоставляет новую перспективу оценки производительности IoV
- Полные эксперименты: Многомерные сравнительные эксперименты, включая различные модели LLM, алгоритмы DRL и анализ масштабируемости
- Практическая ценность: Значительный коэффициент сжатия данных и улучшение производительности имеют потенциал практического применения
- Недостаточный анализ сложности: Хотя предоставлен теоретический анализ сложности, отсутствуют оценки фактического времени выполнения и потребления энергии
- Ограниченная проверка надёжности: Отсутствует проверка производительности в враждебной среде и экстремальных условиях
- Недостаточный анализ затрат и выгод: Недостаточное обсуждение компромисса между стоимостью развёртывания и выигрышем в производительности
- Академическая ценность: Предоставляет новое направление исследований для применения воплощённого ИИ в IoV
- Практические перспективы: Имеет широкие перспективы применения в интеллектуальных транспортных системах, автономном вождении и других областях
- Воспроизводимость: Предоставляет подробные параметры и описания алгоритмов, облегчающие воспроизведение
- Интеллектуальные транспортные системы: Обработка информации о трафике в реальном времени и принятие решений
- Автономное вождение: Оптимизация восприятия окружающей среды и планирования маршрута
- Граничные вычисления: Эффективная обработка данных в среде с ограниченными ресурсами
- Сети 6G: Интеллектуальное управление ресурсами в сетях следующего поколения
Статья цитирует 51 соответствующую работу, охватывающую в основном:
- Работы по оптимизации коммуникации IoV 15-19
- Исследования применения воплощённого ИИ и LLM 20-29
- Методы глубокого обучения с подкреплением 39-43
- Семантическую коммуникацию и моделирование QoE 33-36
Общая оценка: Это новаторская работа в области воплощённого ИИ IoV с инновационным техническим подходом и полной экспериментальной проверкой, имеющая важную академическую ценность и практические перспективы. Хотя существует пространство для улучшения в оптимизации сложности и проверке практического развёртывания, работа предоставляет важную теоретическую основу и технический справочник для развития этой области.