2025-11-19T21:10:14.255447

Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method

Zhang, Zhao, Du et al.

This paper investigates adaptive transmission strategies in embodied AI-enhanced vehicular networks by integrating large language models (LLMs) for semantic information extraction and deep reinforcement learning (DRL) for decision-making. The proposed framework aims to optimize both data transmission efficiency and decision accuracy by formulating an optimization problem that incorporates the Weber-Fechner law, serving as a metric for balancing bandwidth utilization and quality of experience (QoE). Specifically, we employ the large language and vision assistant (LLAVA) model to extract critical semantic information from raw image data captured by embodied AI agents (i.e., vehicles), reducing transmission data size by approximately more than 90\% while retaining essential content for vehicular communication and decision-making. In the dynamic vehicular environment, we employ a generalized advantage estimation-based proximal policy optimization (GAE-PPO) method to stabilize decision-making under uncertainty. Simulation results show that attention maps from LLAVA highlight the model's focus on relevant image regions, enhancing semantic representation accuracy. Additionally, our proposed transmission strategy improves QoE by up to 36\% compared to DDPG and accelerates convergence by reducing required steps by up to 47\% compared to pure PPO. Further analysis indicates that adapting semantic symbol length provides an effective trade-off between transmission quality and bandwidth, achieving up to a 61.4\% improvement in QoE when scaling from 4 to 8 vehicles.

academic

구체화된 AI 강화 차량 네트워크: 대규모 언어 모델과 강화학습 통합 방법

기본 정보

논문 ID: 2501.01141
제목: Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method
저자: Ruichen Zhang, Changyuan Zhao, Hongyang Du, Dusit Niyato, Jiacheng Wang, Suttinee Sawadsitang, Xuemin Shen, Dong In Kim
분류: cs.NI (네트워킹 및 인터넷 아키텍처)
발표 시간: 2025년 1월 2일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2501.01141

초록

본 논문은 대규모 언어 모델(LLMs)을 통한 의미론적 정보 추출과 심층 강화학습(DRL)을 통한 의사결정을 통합한 구체화된 AI 강화 차량 네트워크의 적응형 전송 전략을 연구한다. 본 프레임워크는 Weber-Fechner 법칙을 포함한 최적화 문제를 수립하여 대역폭 활용률과 사용자 경험 품질(QoE) 간의 균형을 맞춤으로써 데이터 전송 효율성과 의사결정 정확성을 최적화하는 것을 목표로 한다. 구체적으로, 대규모 언어 및 시각 보조 모델(LLAVA)을 사용하여 구체화된 AI 에이전트(즉, 차량)에서 캡처한 원본 이미지 데이터에서 핵심 의미론적 정보를 추출하며, 차량 네트워크 통신 및 의사결정에 필요한 기본 내용을 유지하면서 전송 데이터 크기를 90% 이상 감소시킨다. 동적 차량 네트워크 환경에서는 일반화된 이점 추정(GAE) 기반 근접 정책 최적화(GAE-PPO) 방법을 채택하여 불확실성 하에서의 의사결정을 안정화한다.

연구 배경 및 동기

문제 정의

6G 시대의 도래와 함께 차량 사물 인터넷(IoV)은 0.1-10 Gbps/m²를 초과하는 트래픽 밀도와 제곱킬로미터당 1,000만 개 디바이스에 달하는 연결 밀도를 달성할 것으로 예상된다. 이러한 개선은 데이터 속도, 연결성 및 네트워크 용량을 크게 향상시켜 실시간 네비게이션, 환경 인식 및 자율 의사결정과 같은 IoV 서비스를 근본적으로 변화시킬 것이다.

연구 동기

데이터 처리 과제: 연결된 차량 수의 증가에 따라 대량의 실시간 데이터를 수집하고 처리하기 위해 많은 센서를 배포해야 하며, 기존의 판별식 AI 모델은 동적 조건에서 높은 성능을 유지하기 어렵다.
전송 효율 문제: 원본 센서 데이터 전송에는 많은 대역폭이 필요하며, 정보 품질을 보장하면서 데이터 전송량을 줄이는 방법이 핵심 과제이다.
의사결정 복잡성: 차량 네트워크 환경은 매우 동적이며 환경 변화에 실시간으로 적응하는 지능형 의사결정 시스템이 필요하다.

기존 방법의 한계

기존 방법은 주로 스펙트럼 효율성, 지연 및 보안 등 전통적인 성능 지표에 중점을 둔다
의미론적 데이터 전송 및 의사결정 효율성에 대한 고려가 부족하다
차량 네트워크 자원 최적화에서 LLMs과 DRL의 통합 응용을 충분히 탐색하지 못했다

핵심 기여

데이터 전송 모델링: 데이터 전송 효율성과 의사결정 정확성의 균형을 맞추는 최적화 문제를 수립하고, Weber-Fechner 법칙을 사용자 경험 품질(QoE)을 정량화하는 지표로 도입한다.
LLM 기반 의미론적 데이터 처리: LLAVA를 활용하여 원본 이미지 데이터에서 의미론적 정보를 추출하며, 차량 네트워크 통신 및 의사결정에 필요한 기본 맥락 세부 정보를 유지하면서 전송 대역폭을 크게 감소시킨다.
DRL 기반 강화 의사결정: 동적 차량 네트워크 환경에서 의사결정을 개선하기 위해 GAE-PPO 방법을 제안하며, 일반화된 이점 추정을 통해 정책 그래디언트 업데이트의 분산을 줄이고 훈련 과정을 안정화한다.
선도적 작업: 저자의 지식으로는 이것이 구체화된 AI 강화 차량 네트워크에서 LLMs 데이터 처리와 DRL 의사결정의 결합 응용을 탐색하는 첫 번째 작업이다.

방법론 상세 설명

작업 정의

도시 환경에서 기지국(BS) 통신 범위 내에서 주행하는 구체화된 AI 시스템을 갖춘 I대의 차량을 포함하는 셀룰러 네트워크 기반 차량 네트워크 통신 네트워크를 고려한다. 네트워크는 W개의 차량-인프라(V2I) 링크와 Q개의 차량-차량(V2V) 링크를 포함한다.

목표: 전송 전력, 의미론적 심볼 할당 및 채널 사용을 최적화하여 QoE를 최대화하면서 효율적인 자원 활용을 보장한다.

모델 아키텍처

1. LLAVA 의미론적 정보 추출

아키텍처 설계:

시각 인코더: 대조 언어-이미지 사전 훈련(CLIP) 시각 인코더를 사용하여 이미지를 특징 벡터로 변환:
```
Zi = g(Ii)
```
투영 행렬: 훈련 가능한 선형 투영 행렬 W를 통해 특징을 언어 모델 단어 임베딩 공간으로 투영:
```
Ei = W · Zi
```
의미론적 추출: LLAVA 모델을 통해 의미론적 정보 생성:
```
Mi = LLAVA(Ii; θi)
```

모델 미세 조정:

손실 함수: L = Σ||Mi - M̂i||²
교차 엔트로피 손실: LCE = Σq(vi,l)log p(vi,l)

2. GAE-PPO 전송 전략 최적화

MDP 설계:

행동 공간: at = [{bq[w]}, {P^V2V_q[w]}, {uq}] (차원: 3Q)
상태 공간: st = [{H^(w)_i}, {γ^V2V_q(t)}, {γ^V2I_w(t)}] (차원: 2W+Q)
보상 함수: QoE 기반 보상, 제약 조건 위반 페널티 항 포함

GAE-PPO 알고리즘:

에이전트 목적 함수: J(θA) = Et[ρt(θA)A^π_θold_A_t]
클리핑 목적: Jclip(θA) = Et[min(ρt(θA)A^π_θold_A_t, clip(ρt(θA), 1-ε, 1+ε)A^π_θold_A_t)]
일반화된 이점 추정: A^π_θold_A_t = Σ(γλ)^l δt+l

기술 혁신 포인트

Weber-Fechner 법칙 QoE 모델링: 심리물리학 법칙을 차량 네트워크 QoE 평가에 처음 도입하여 사용자 인식 품질을 더 정확하게 반영한다.
교차 모달 의미론적 압축: LLAVA를 통해 이미지에서 텍스트로의 의미론적 변환을 실현하며, 데이터 압축률이 90%를 초과한다.
안정화된 강화학습: GAE 메커니즘은 동적 환경에서 PPO 알고리즘의 수렴 안정성을 크게 향상시킨다.

실험 설정

데이터셋

텍스트 데이터셋: 약 200만 개의 문장과 5,300만 개의 단어를 포함하는 유럽 의회 데이터셋
이미지 데이터셋: 의미론적 추출 평가를 위한 30장의 운전 장면 이미지
LLAVA 모델: LLAVA-v1.5-7B, 70억 개의 조정 가능한 매개변수 포함

평가 지표

의미론적 유사성: BERT 임베딩의 코사인 유사성 사용
QoE: Weber-Fechner 법칙 기반 사용자 경험 품질
수렴 성능: 누적 보상 및 수렴 단계
전송 효율: SINR, 전력 할당 등

비교 방법

LLM 모델 비교: LLAVA-1.5-13b-hf, Qwen-VL-Chat, Deepseek-vl-7b-base, Moondream2
DRL 알고리즘 비교: Pure PPO, DDPG, Random Policy

구현 세부 사항

네트워크 아키텍처: 3층 Transformer, 8개의 주의 헤드, ReLU 활성화
최적화기: Adam 최적화기, 학습률 1×10⁻⁴에서 1×10⁻⁸
GAE-PPO 매개변수: γ=0.99, ε=0.5, λ₁=λ₂=1

실험 결과

주요 결과

1. LLAVA 성능 평가

매개변수 효율성: LLAVA-1.5-7b-hf는 LLAVA-1.5-13b-hf보다 매개변수 46.2% 감소
추론 시간: LLAVA-1.5-13b-hf보다 평균 40% 빠름
의미론적 정확성: 주차 공간 인식 작업에서 최고 성능

2. GAE-PPO 성능 향상

수렴 성능: Pure PPO 대비 누적 보상 약 61% 향상
QoE 개선: DDPG 대비 36% 향상, 8대 차량 시나리오에서 Pure PPO 대비 현저한 향상
수렴 속도: 각각 차량 1, 2, 3에 대해 수렴 시간 10, 23, 54단계 감소

3. 확장성 분석

4→8 차량: QoE 61.4% 향상
8→12 차량: QoE 31.9% 향상
12→16 차량: QoE 25.2% 향상

절제 실험

SINR과 문장 길이 관계: 높은 SINR 환경에서 문장 길이가 SSIM에 미치는 영향이 적음; 낮은 SINR 환경에서 짧은 문장이 더 높은 SSIM 유지
주의 메커니즘 분석: LLAVA 주의 맵이 차량 및 주차 공간과 같은 관련 이미지 영역에 정확하게 집중

사례 분석

의미론적 추출 예시:

원본 이미지: 614KB → 추출 텍스트: 12.1KB (압축률 >98%)
정확한 인식: "네 개의 주차 공간, 세 개 점유, 하나 비어있음"
위치 설명: "빈 주차 공간은 빨간 차와 노란 차 사이에 위치"

결론 및 토론

주요 결론

유효성 검증: 제안된 구체화된 AI 프레임워크는 전송 효율성, 수렴 속도 및 시스템 성능 측면에서 기존 방법을 능가한다
의미론적 압축 장점: LLAVA는 의미론적 완전성을 유지하면서 90% 이상의 데이터 압축률을 달성한다
의사결정 안정성: GAE-PPO는 동적 환경에서 의사결정 안정성과 수렴 성능을 크게 향상시킨다

한계

계산 복잡도: 전체 복잡도는 O(L²·d + L·d²) + O(T·Σnp-1·np)이며, 자원 제한 환경에서 과제에 직면할 수 있다
데이터셋 규모: 실험에 사용된 이미지 데이터셋이 상대적으로 작음(30장)으로 일반화 능력에 영향을 미칠 수 있다
실제 배포: 실제 차량 네트워크 환경에서의 검증 부족

향후 방향

알고리즘 최적화: 계산 복잡도를 더욱 낮추어 엣지 컴퓨팅 환경에 적응
데이터셋 확장: 더 크고 다양한 차량 네트워크 시나리오 데이터셋 구축
실제 검증: 실제 차량 네트워크 테스트베드에서 프레임워크 성능 검증

심층 평가

장점

높은 혁신성: LLM과 DRL을 구체화된 AI 차량 네트워크에 처음 통합하며 기술 경로가 새롭다
이론적 기여: Weber-Fechner 법칙을 도입하여 QoE를 모델링하며 차량 네트워크 성능 평가에 새로운 관점을 제공한다
충분한 실험: 다양한 LLM 모델, DRL 알고리즘 및 확장성 분석을 포함한 다차원 비교 실험
실용적 가치: 현저한 데이터 압축률과 성능 향상은 실제 응용 잠재력을 가진다

부족한 점

복잡도 분석 부족: 이론적 복잡도 분석을 제공하지만 실제 실행 시간 및 에너지 소비 평가가 부족하다
견고성 검증 제한: 적대적 환경 및 극한 조건에서의 성능 검증이 부족하다
비용 효과 분석: 배포 비용과 성능 이득의 균형에 대한 충분한 논의가 없다

영향력

학술적 가치: 구체화된 AI의 차량 네트워크 응용에 새로운 연구 방향을 제공한다
실용적 전망: 6G 차량 네트워크, 자율 주행 등 분야에서 광범위한 응용 전망을 가진다
재현성: 상세한 매개변수 설정 및 알고리즘 설명을 제공하여 재현을 용이하게 한다

적용 시나리오

지능형 교통 시스템: 실시간 교통 정보 처리 및 의사결정
자율 주행: 환경 인식 및 경로 계획 최적화
엣지 컴퓨팅: 자원 제한 환경에서의 효율적인 데이터 처리
6G 네트워크: 차세대 이동 네트워크에서의 지능형 자원 관리

참고문헌

논문은 51개의 관련 문헌을 인용하며, 주로 다음을 포함한다:

차량 네트워크 통신 최적화 관련 연구15-19
구체화된 AI 및 LLM 응용 연구20-29
심층 강화학습 방법39-43
의미론적 통신 및 QoE 모델링33-36

전체 평가: 이는 구체화된 AI 차량 네트워크 분야에서 개척적인 작업으로, 기술 경로가 새롭고 실험 검증이 충분하며 중요한 학술적 가치와 실용적 전망을 가진다. 복잡도 최적화 및 실제 배포 검증 측면에서 개선의 여지가 있지만, 해당 분야의 발전에 중요한 이론적 기초와 기술적 참고를 제공한다.