2025-11-20T21:55:15.461429

Diffusion Generative Recommendation with Continuous Tokens

Qu, Lin, Ding et al.

Recent advances in generative artificial intelligence, particularly large language models (LLMs), have opened new opportunities for enhancing recommender systems (RecSys). Most existing LLM-based RecSys approaches operate in a discrete space, using vector-quantized tokenizers to align with the inherent discrete nature of language models. However, these quantization methods often result in lossy tokenization and suboptimal learning, primarily due to inaccurate gradient propagation caused by the non-differentiable argmin operation in standard vector quantization. Inspired by the emerging trend of embracing continuous tokens in language models, we propose ContRec, a novel framework that seamlessly integrates continuous tokens into LLM-based RecSys. Specifically, ContRec consists of two key modules: a sigma-VAE Tokenizer, which encodes users/items with continuous tokens; and a Dispersive Diffusion module, which captures implicit user preference. The tokenizer is trained with a continuous Variational Auto-Encoder (VAE) objective, where three effective techniques are adopted to avoid representation collapse. By conditioning on the previously generated tokens of the LLM backbone during user modeling, the Dispersive Diffusion module performs a conditional diffusion process with a novel Dispersive Loss, enabling high-quality user preference generation through next-token diffusion. Finally, ContRec leverages both the textual reasoning output from the LLM and the latent representations produced by the diffusion model for Top-K item retrieval, thereby delivering comprehensive recommendation results. Extensive experiments on four datasets demonstrate that \ourname{} consistently outperforms both traditional and SOTA LLM-based recommender systems. Our results highlight the potential of continuous tokenization and generative modeling for advancing the next generation of recommender systems.

academic

연속 토큰을 이용한 확산 생성 추천

기본 정보

논문 ID: 2504.12007
제목: Diffusion Generative Recommendation with Continuous Tokens
저자: Haohao Qu, Shanru Lin, Yujuan Ding, Yiqi Wang, Wenqi Fan
분류: cs.IR cs.AI
발표 시간/학회: arXiv 사전인쇄본 (2025년 10월 10일 개정판)
논문 링크: https://arxiv.org/abs/2504.12007

초록

본 논문은 대규모 언어모델(LLM) 기반 추천 시스템에서 이산 토큰화 방법의 한계를 해결하기 위해 ContRec 프레임워크를 제안합니다. ContRec은 연속 토큰을 LLM 추천 시스템에 원활하게 통합합니다. ContRec은 두 가지 핵심 모듈을 포함합니다: σ-VAE 토크나이저(사용자/물품을 연속 토큰으로 인코딩)와 분산 확산 모듈(암묵적 사용자 선호도 포착). LLM의 텍스트 추론 출력과 확산 모델이 생성한 잠재 표현을 결합하여 상위-K 물품 검색을 수행하며, 4개 데이터셋에서의 실험은 ContRec이 기존 및 최첨단 LLM 추천 시스템을 크게 능가함을 보여줍니다.

연구 배경 및 동기

문제 정의

기존 LLM 기반 추천 시스템이 직면한 두 가지 핵심 문제:

손실 있는 토큰화: 벡터 양자화 방법이 압축 과정에서 불가피하게 정보 손실 발생
부정확한 기울기 전파: 표준 벡터 양자화의 미분 불가능한 argmin 연산으로 인한 "직통(straight-through)" 기법 사용으로 부정확한 기울기 발생

연구의 중요성

LLM은 추천 시스템에서 강력한 일반화 능력과 문맥 학습 능력 시연
사용자 및 물품 집합이 일반적으로 백만 단위에 달하여 기존 인덱싱 방법의 효율성 저하
양자화 방법은 실용적이지만 재구성 품질 및 생성 성능의 한계 존재

기존 방법의 한계

이산 방법: TIGER, UTGRec 등이 VQ-VAE를 사용하여 이산 어휘표 구성하나 정보 압축 손실 존재
연속 투영 방법: CoLLM, LlaRA 등이 입력 부분에만 연속 토큰 사용하고 출력은 여전히 이산 생성기에 의존하여 이산-연속 불일치 존재

연구 동기

언어 모델에서 연속 토큰 채택 추세에 영감을 받아, 추천 시나리오에서 연속 토큰과 확산 모델 사용의 잠재력을 탐색하여 더 높은 품질의 사용자 선호도 모델링 실현

핵심 기여

ContRec 프레임워크 제안: LLM 추천 시스템에 연속 토큰을 원활하게 통합하는 첫 번째 프레임워크로 양자화 한계 극복
두 가지 핵심 모듈 설계:
- σ-VAE 토크나이저: 표현 붕괴 방지를 위한 세 가지 기술을 채택한 견고한 연속 토크나이저
- 분산 확산 모듈: 대조 자기지도 학습을 통한 암묵적 사용자 선호도 표현 생성
분산 손실 도입: 명시적 양성/음성 샘플 쌍이 필요 없는 대조 학습 메커니즘
실험 검증: 4개 데이터셋에서 평균 HR@10 11.76% 및 NDCG@10 10.11% 향상

방법론 상세 설명

작업 정의

사용자 집합 U = {u₁, u₂, ..., uₙ}과 물품 집합 V = {v₁, v₂, ..., vₘ}이 주어졌을 때, 목표는 과거 상호작용을 분석하여 사용자의 미래 선호도를 예측하고 순차 추천을 언어 모델 패러다임으로 재정의하는 것입니다:

Yᵢ = LLM(P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)}))

모델 아키텍처

1. σ-VAE 토크나이저

양자화 없는 토큰화를 위해 VAE 프레임워크 채택, 세 가지 핵심 기술 포함:

마스킹 연산: 베르누이 분포 기반 요소 수준 마스킹 전략

μₖ = Encₖ(Mask(x, ρ))

K-경로 인코더: 병렬 인코딩 채널을 통한 암묵적 인코딩 실현

zₖ = μₖ + σₖ ⊙ ε, where ε ~ N(0,1), σₖ ~ N(0,Σ)

가우시안 커널: 분산 붕괴 방지

x̂ = Dec(Concat{zₖ}ᴷ)

손실 함수:

Lvae = ||x̂ - x||₂² + (β/K)∑ᵏ₌₁ᴷ ||μₖ||₂²

2. LLM 사용자 모델링

이산 의미 정보와 연속 협업 지식 결합:

Xᵢ := P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)})

특수 토큰 ⟨z_start⟩와 ⟨z_end⟩를 사용하여 연속 토큰 시퀀스의 시작과 끝 표시.

3. 분산 확산 모듈

조건부 확산 프로세스:

Ldiff = E(yᵢ,cᵢ,t) ||ε - εθ(y^t_i, cᵢ, t)||₂²

분산 손실:

Ldisp = log E_{i,j}[exp(-D(hᵢ, hⱼ)/τ)]

이는 "양성 샘플 쌍 없는 대조 손실"로, 배치 내 표현의 분산을 장려합니다.

기술 혁신점

연속 토큰화: 양자화 연산을 완전히 회피하여 정보 완전성 유지
혼합 검색 메커니즘: LLM 텍스트 추론과 확산 생성 암묵적 표현 결합
종단간 최적화: 세 가지 손실 함수를 통합한 통일된 최적화 목표
분류기 자유 가이던스: 추론 시 개인화 강도 제어

실험 설정

데이터셋

4개의 벤치마크 데이터셋 사용:

데이터셋	사용자 수	물품 수	상호작용 수	평균 길이	밀도(%)
LastFM	1,091	3,685	52,670	48.3	1.31
ML1M	6,040	3,416	447,294	165.5	2.17
Beauty	22,363	12,101	278,641	8.9	0.07
Games	47,568	16,834	266,139	9.5	0.03

평가 지표

HR@K (적중률): 상위-K 적중률
NDCG@K (정규화 할인 누적 이득): 정규화 할인 누적 이득
K 값은 10과 20으로 설정

비교 방법

전통적 순차 추천: GRU4Rec, SASRec, SSD4Rec, DreamRec LLM 추천 시스템: P5, CoLLM, TIGER, TokenRec, LLaRA

구현 세부사항

기본 모델: Llama-3.2-1B-Instruct
최적화기: AdamW (학습률 1e-5/1e-4)
배치 크기: 24
최대 시퀀스 길이: 20
확산 단계: 훈련 1000단계, 추론 100단계

실험 결과

주요 결과

ContRec은 모든 데이터셋에서 최고 성능 달성:

데이터셋	지표	최고 기준선	ContRec	향상도
Beauty	HR@10	0.0442	0.0473±0.0017	7.74%
Games	HR@10	0.1018	0.1041±0.0036	8.66%
LastFM	HR@10	0.0525	0.0539±0.0034	15.42%
ML1M	HR@10	0.1076	0.1099±0.0066	15.20%

TIGER(전형적 이산 방법)와 비교하여 평균 HR@10 11.76% 및 NDCG@10 10.11% 향상.

제거 실험

핵심 구성 요소 기여도 분석:

구성 요소	Beauty HR@10	ML1M HR@10	영향
완전 모델	0.0473	0.1099	-
확산 제거	0.0431	0.1007	현저한 감소
분산 손실 제거	0.0448	0.1042	명백한 감소
σ 제거	0.0457	0.1051	성능 감소
VQ-VAE 포함	0.0426	0.0974	대폭 감소

재구성 평가

물품 임베딩 재구성 작업에서 연속 방법이 이산 방법을 크게 능가:

확산 모델 재구성 오차 최소
VAE가 다양한 양자화 방법(VQ-VAE, RQ-VAE, MQ-VAE)을 능가
손실 수렴이 더 부드러움

하이퍼파라미터 민감도

마스킹 비율 ρ: 0.2가 최적값
토큰 수량 K: 3-4개 토큰이 최고 성능
가이던스 강도 ω: 작은 값(ω=2)이 개선 가져옴
가중치 파라미터: γ₁=1, γ₂=0.5일 때 최고 성능

결론 및 논의

주요 결론

연속 토큰 장점 검증: 양자화 손실 회피로 더 정확한 표현 학습 실현
확산 모델의 추천 적용성: 사용자 선호도 모델링에서 강력한 능력 시연
혼합 검색 메커니즘의 효과성: 명시적 추론과 암묵적 표현의 장점 결합
종단간 최적화의 실현 가능성: 통일된 프레임워크로 각 구성 요소의 협동 최적화 달성

한계

계산 오버헤드: 추론 시간이 주로 LLM 추론으로 인함(약 88.6%)
사용자 선호도 변화: 갑작스러운 선호도 변화에 대한 적응성 제한
적용 시나리오: 대규모 온라인 시스템보다 개인화 대화 추천에 더 적합
데이터 의존성: 풍부한 물품 텍스트 정보 지원 필요

향후 방향

효율성 최적화: 더 효율적인 연속 토큰 생성 방법 탐색
동적 모델링: 사용자 선호도 진화에 대한 모델링 능력 강화
다중모달 확장: 이미지, 비디오 등 다중모달 정보 통합
이론적 분석: 추천에서 연속 토큰의 이론적 기초 심화 이해

심층 평가

장점

높은 혁신성: 연속 토큰을 LLM 추천 시스템에 체계적으로 도입한 첫 사례
기술적 엄밀성: σ-VAE 설계가 정교하고 표현 붕괴 효과적 방지
충분한 실험: 다중 데이터셋 검증, 상세한 제거 및 민감도 분석
이론적 지원: 분산 손실의 수학적 유도가 명확하고 설계가 합리적

부족한 점

계산 효율성: 추론 지연이 높아 실제 적용 시나리오 제한
일반화 능력: 사용자 선호도 급변 시나리오에서 성능 제한
불충분한 비교: 더 많은 최신 LLM 추천 방법과의 비교 부족
이론적 분석 부족: 연속 토큰 장점에 대한 이론적 설명 필요

영향력

학술 기여: LLM 추천 시스템에 새로운 기술 경로 제공
실용적 가치: 대화 추천 등 시나리오에서 좋은 적용 전망
재현성: 상세한 구현 세부사항 및 하이퍼파라미터 설정 제공
영감 제공: 추천 시스템과 생성형 AI 결합에 새로운 사고 제시

적용 시나리오

개인화 대화 추천: 설명성과 상호작용성이 필요한 시나리오
콜드 스타트 추천: 텍스트 정보를 활용한 신규 사용자/물품 처리
크로스 도메인 추천: LLM의 일반화 능력을 활용한 도메인 이전
연구 프로토타입: 연속 토큰 추천 탐색의 기초 프레임워크

참고문헌

본 논문은 추천 시스템, 대규모 언어모델, 확산 모델 등 분야의 중요한 연구를 인용하며, 다음을 포함합니다:

고전 추천 알고리즘: LightGCN, SASRec 등
LLM 추천 시스템: P5, TIGER, TokenRec 등
확산 모델: DDPM, Classifier-free Guidance 등
연속 토큰화: VAE-MAR, Next-Token Diffusion 등

종합 평가: 이는 LLM 추천 시스템 분야에서 중요한 혁신 의의를 가진 연구로, 연속 토큰화와 확산 모델을 도입하여 기존 방법의 한계를 효과적으로 해결합니다. 계산 효율성과 특정 시나리오의 적용성 측면에서 개선 여지가 있지만, 기술 혁신과 실험 검증이 충분하며 해당 분야의 발전에 가치 있는 기여를 제공합니다.