2025-11-20T21:55:15.461429

Diffusion Generative Recommendation with Continuous Tokens

Qu, Lin, Ding et al.

Recent advances in generative artificial intelligence, particularly large language models (LLMs), have opened new opportunities for enhancing recommender systems (RecSys). Most existing LLM-based RecSys approaches operate in a discrete space, using vector-quantized tokenizers to align with the inherent discrete nature of language models. However, these quantization methods often result in lossy tokenization and suboptimal learning, primarily due to inaccurate gradient propagation caused by the non-differentiable argmin operation in standard vector quantization. Inspired by the emerging trend of embracing continuous tokens in language models, we propose ContRec, a novel framework that seamlessly integrates continuous tokens into LLM-based RecSys. Specifically, ContRec consists of two key modules: a sigma-VAE Tokenizer, which encodes users/items with continuous tokens; and a Dispersive Diffusion module, which captures implicit user preference. The tokenizer is trained with a continuous Variational Auto-Encoder (VAE) objective, where three effective techniques are adopted to avoid representation collapse. By conditioning on the previously generated tokens of the LLM backbone during user modeling, the Dispersive Diffusion module performs a conditional diffusion process with a novel Dispersive Loss, enabling high-quality user preference generation through next-token diffusion. Finally, ContRec leverages both the textual reasoning output from the LLM and the latent representations produced by the diffusion model for Top-K item retrieval, thereby delivering comprehensive recommendation results. Extensive experiments on four datasets demonstrate that \ourname{} consistently outperforms both traditional and SOTA LLM-based recommender systems. Our results highlight the potential of continuous tokenization and generative modeling for advancing the next generation of recommender systems.

academic

ক্রমাগত টোকেন সহ বিস্তার জেনারেটিভ সুপারিশ

মৌলিক তথ্য

পেপার আইডি: 2504.12007
শিরোনাম: ক্রমাগত টোকেন সহ বিস্তার জেনারেটিভ সুপারিশ
লেখক: Haohao Qu, Shanru Lin, Yujuan Ding, Yiqi Wang, Wenqi Fan
শ্রেণীবিভাগ: cs.IR cs.AI
প্রকাশনার সময়/সম্মেলন: arXiv প্রাক-প্রিন্ট (২০২৫ সালের অক্টোবর ১০ তারিখে সংশোধিত সংস্করণ)
পেপার লিঙ্ক: https://arxiv.org/abs/2504.12007

সারসংক্ষেপ

এই পেপারটি বৃহৎ ভাষা মডেল (LLM) ভিত্তিক সুপারিশ সিস্টেমে বিচ্ছিন্ন টোকেনাইজেশন পদ্ধতির সীমাবদ্ধতার সমাধান করে ContRec ফ্রেমওয়ার্ক প্রস্তাব করে। এটি ক্রমাগত টোকেনকে LLM সুপারিশ সিস্টেমে নির্বিঘ্নে একীভূত করে। ContRec দুটি মূল মডিউল অন্তর্ভুক্ত করে: σ-VAE টোকেনাইজার (ব্যবহারকারী/আইটেম এনকোডিংয়ের জন্য) এবং বিচ্ছুরণ বিস্তার মডিউল (অন্তর্নিহিত ব্যবহারকারী পছন্দ ক্যাপচার করতে)। LLM এর পাঠ্য যুক্তি আউটপুট এবং বিস্তার মডেল দ্বারা উত্পন্ন সুপ্ত প্রতিনিধিত্ব একত্রিত করে শীর্ষ-K আইটেম পুনরুদ্ধারের জন্য, চারটি ডেটাসেটে পরীক্ষা-নিরীক্ষা দেখায় যে ContRec ঐতিহ্যবাহী এবং অত্যাধুনিক LLM সুপারিশ সিস্টেমকে উল্লেখযোগ্যভাবে অতিক্রম করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বিদ্যমান LLM ভিত্তিক সুপারিশ সিস্টেম প্রধানত দুটি মূল সমস্যার সম্মুখীন:

ক্ষতিকর টোকেনাইজেশন: ভেক্টর কোয়ান্টাইজেশন পদ্ধতি সংকোচন প্রক্রিয়ায় অনিবার্যভাবে তথ্য হারায়
অনুপযুক্ত গ্রেডিয়েন্ট প্রচার: মানক ভেক্টর কোয়ান্টাইজেশনে অ-পার্থক্যযোগ্য argmin অপারেশন "সরাসরি-মাধ্যমে" কৌশলের ব্যবহার করে, যা অনুপযুক্ত গ্রেডিয়েন্ট তৈরি করে

গবেষণার গুরুত্ব

LLM সুপারিশ সিস্টেমে শক্তিশালী সাধারণীকরণ ক্ষমতা এবং প্রসঙ্গ শেখার ক্ষমতা প্রদর্শন করে
ব্যবহারকারী এবং আইটেম সেট সাধারণত লক্ষ লক্ষ স্তরে পৌঁছায়, ঐতিহ্যবাহী সূচকীকরণ পদ্ধতি অদক্ষ
কোয়ান্টাইজেশন পদ্ধতি ব্যবহারিক হলেও, পুনর্নির্মাণ গুণমান এবং উৎপাদন কর্মক্ষমতার সীমাবদ্ধতা রয়েছে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিচ্ছিন্ন পদ্ধতি: TIGER, UTGRec ইত্যাদি VQ-VAE ব্যবহার করে বিচ্ছিন্ন শব্দভাণ্ডার তৈরি করে, তথ্য সংকোচন ক্ষতি রয়েছে
ক্রমাগত প্রক্ষেপণ পদ্ধতি: CoLLM, LlaRA শুধুমাত্র ইনপুট অংশে ক্রমাগত টোকেন ব্যবহার করে, আউটপুট এখনও বিচ্ছিন্ন জেনারেটরের উপর নির্ভর করে, বিচ্ছিন্ন-ক্রমাগত পার্থক্য রয়েছে

গবেষণা প্রেরণা

ভাষা মডেলে ক্রমাগত টোকেন গ্রহণের প্রবণতা দ্বারা অনুপ্রাণিত, সুপারিশ পরিস্থিতিতে ক্রমাগত টোকেন এবং বিস্তার মডেল ব্যবহারের সম্ভাবনা অন্বেষণ করে, উচ্চতর গুণমানের ব্যবহারকারী পছন্দ মডেলিং অর্জন করে।

মূল অবদান

ContRec ফ্রেমওয়ার্ক প্রস্তাব: প্রথম যা ক্রমাগত টোকেনকে LLM সুপারিশ সিস্টেমে নির্বিঘ্নে একীভূত করে, কোয়ান্টাইজেশন সীমাবদ্ধতা অতিক্রম করে
দুটি মূল মডিউল ডিজাইন:
- σ-VAE টোকেনাইজার: প্রতিনিধিত্ব পতন প্রতিরোধের জন্য তিনটি প্রযুক্তি ব্যবহার করে শক্তিশালী ক্রমাগত টোকেনাইজার
- বিচ্ছুরণ বিস্তার মডিউল: বৈসাদৃশ্য স্ব-তত্ত্বাবধানী শেখার মাধ্যমে অন্তর্নিহিত ব্যবহারকারী পছন্দ প্রতিনিধিত্ব তৈরি করে
বিচ্ছুরণ ক্ষতি প্রবর্তন: স্পষ্ট নেতিবাচক ইতিবাচক নমুনা জোড়া ছাড়াই বৈসাদৃশ্য শেখার প্রক্রিয়া
পরীক্ষামূলক যাচাইকরণ: চারটি ডেটাসেটে গড়ে ১১.৭৬% HR@10 এবং ১০.১১% NDCG@10 উন্নতি

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ব্যবহারকারী সেট U = {u₁, u₂, ..., uₙ} এবং আইটেম সেট V = {v₁, v₂, ..., vₘ} দেওয়া, লক্ষ্য হল ঐতিহাসিক মিথস্ক্রিয়া বিশ্লেষণের মাধ্যমে ব্যবহারকারীর ভবিষ্যত পছন্দ পূর্বাভাস দেওয়া, ক্রম সুপারিশকে ভাষা মডেল প্যারাডাইমে পুনর্নির্ধারণ করা:

Yᵢ = LLM(P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)}))

মডেল আর্কিটেকচার

১. σ-VAE টোকেনাইজার

অ-কোয়ান্টাইজড টোকেনাইজেশনের জন্য VAE ফ্রেমওয়ার্ক ব্যবহার করে, তিনটি মূল প্রযুক্তি অন্তর্ভুক্ত করে:

মাস্কিং অপারেশন: বার্নুলি বিতরণের উপর ভিত্তি করে উপাদান-স্তরের মাস্কিং কৌশল

μₖ = Encₖ(Mask(x, ρ))

K-পথ এনকোডার: সমান্তরাল এনকোডিং চ্যানেল অন্তর্নিহিত এনকোডিং বাস্তবায়ন করে

zₖ = μₖ + σₖ ⊙ ε, যেখানে ε ~ N(0,1), σₖ ~ N(0,Σ)

গাউসীয় কার্নেল: বৈচিত্র্য পতন প্রতিরোধ করে

x̂ = Dec(Concat{zₖ}ᴷ)

ক্ষতি ফাংশন:

Lvae = ||x̂ - x||₂² + (β/K)∑ᵏ₌₁ᴷ ||μₖ||₂²

২. LLM ব্যবহারকারী মডেলিং

বিচ্ছিন্ন শব্দার্থ তথ্য এবং ক্রমাগত সহযোগিতামূলক জ্ঞান একত্রিত করে:

Xᵢ := P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)})

বিশেষ টোকেন ⟨z_start⟩ এবং ⟨z_end⟩ ব্যবহার করে ক্রমাগত টোকেন ক্রমের শুরু এবং শেষ চিহ্নিত করে।

३. বিচ্ছুরণ বিস্তার মডিউল

শর্তসাপেক্ষ বিস্তার প্রক্রিয়া:

Ldiff = E(yᵢ,cᵢ,t) ||ε - εθ(y^t_i, cᵢ, t)||₂²

বিচ্ছুরণ ক্ষতি:

Ldisp = log E_{i,j}[exp(-D(hᵢ, hⱼ)/τ)]

এটি একটি "ইতিবাচক নমুনা জোড়া ছাড়াই বৈসাদৃশ্য ক্ষতি", যা ব্যাচ অভ্যন্তরীণ প্রতিনিধিত্ব বিচ্ছুরণ উৎসাহিত করে।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

ক্রমাগত টোকেনাইজেশন: সম্পূর্ণভাবে কোয়ান্টাইজেশন অপারেশন এড়ায়, তথ্য সম্পূর্ণতা বজায় রাখে
হাইব্রিড পুনরুদ্ধার প্রক্রিয়া: LLM পাঠ্য যুক্তি এবং বিস্তার-উত্পন্ন অন্তর্নিহিত প্রতিনিধিত্ব একত্রিত করে
শেষ থেকে শেষ অপ্টিমাইজেশন: তিনটি ক্ষতি ফাংশন একীভূত করে একীভূত অপ্টিমাইজেশন লক্ষ্য
শ্রেণীবিভাগকারী-মুক্ত নির্দেশনা: অনুমানের সময় ব্যক্তিগতকরণ শক্তি নিয়ন্ত্রণ করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

চারটি বেঞ্চমার্ক ডেটাসেট ব্যবহার করে:

ডেটাসেট	ব্যবহারকারী সংখ্যা	আইটেম সংখ্যা	মিথস্ক্রিয়া সংখ্যা	গড় দৈর্ঘ্য	ঘনত্ব(%)
LastFM	১,০৯১	३,६८५	५२,६७०	४८.३	१.३१
ML1M	६,०४०	३,४१६	४४७,२९४	१६५.५	२.१७
Beauty	२२,३६३	१२,१०१	२७८,६४१	८.९	०.०७
Games	४७,५६८	१६,८३४	२६६,१३९	९.५	०.०३

মূল্যায়ন মেট্রিক্স

HR@K (হিট রেশিও): শীর্ষ-K হিট রেট
NDCG@K (স্বাভাবিকীকৃত ছাড় সংগৃহীত লাভ): স্বাভাবিকীকৃত ছাড় সংগৃহীত লাভ
K মান ১০ এবং ২০ এ সেট করা হয়েছে

তুলনামূলক পদ্ধতি

ঐতিহ্যবাহী ক্রম সুপারিশ: GRU4Rec, SASRec, SSD4Rec, DreamRec LLM সুপারিশ সিস্টেম: P5, CoLLM, TIGER, TokenRec, LLaRA

বাস্তবায়ন বিবরণ

ভিত্তি মডেল: Llama-3.2-1B-Instruct
অপ্টিমাইজার: AdamW (শেখার হার ১e-५/१e-४)
ব্যাচ আকার: २४
সর্বাধিক ক্রম দৈর্ঘ্য: २०
বিস্তার পদক্ষেপ: প্রশিক্ষণ १००० পদক্ষেপ, অনুমান १०० পদক্ষেপ

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

ContRec সমস্ত ডেটাসেটে সর্বোত্তম কর্মক্ষমতা অর্জন করে:

ডেটাসেট	মেট্রিক	সেরা ভিত্তি	ContRec	উন্নতি
Beauty	HR@10	०.०४४२	०.०४७३±०.००१७	७.७४%
Games	HR@10	०.१०१८	०.१०४१±०.००३६	८.६६%
LastFM	HR@10	०.०५२५	०.०५३९±०.००३४	१५.४२%
ML1M	HR@10	०.१०७६	०.१०९९±००६६	१५.२०%

TIGER (সাধারণ বিচ্ছিন্ন পদ্ধতি) এর তুলনায় গড়ে ११.७६% HR@१० এবং १०.११% NDCG@१० উন্নতি।

বিলোপন পরীক্ষা

মূল উপাদান অবদান বিশ্লেষণ:

উপাদান	Beauty HR@10	ML1M HR@10	প্রভাব
সম্পূর্ণ মডেল	०.०४७३	०.१०९९	-
বিস্তার ছাড়া	०.०४३१	०.१००७	উল্লেখযোগ্য হ্রাস
বিচ্ছুরণ ক্ষতি ছাড়া	०.०४४८	०.१०४२	স্পষ্ট হ্রাস
σ ছাড়া	०.०४५७	०.१०५१	কর্মক্ষমতা হ্রাস
VQ-VAE সহ	०.०४२६	०.०९७४	উল্লেখযোগ্য হ্রাস

পুনর্নির্মাণ মূল্যায়ন

আইটেম এম্বেডিং পুনর্নির্মাণ কাজে, ক্রমাগত পদ্ধতি বিচ্ছিন্ন পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল:

বিস্তার মডেল পুনর্নির্মাণ ত্রুটি সর্বনিম্ন
VAE বিভিন্ন কোয়ান্টাইজেশন পদ্ধতির চেয়ে ভাল (VQ-VAE, RQ-VAE, MQ-VAE)
ক্ষতি সংমিশ্রণ আরও মসৃণ

হাইপারপ্যারামিটার সংবেদনশীলতা

মাস্কিং অনুপাত ρ: ०.२ সর্বোত্তম মান
টোকেন সংখ্যা K: ३-४ টোকেন সেরা কর্মক্ষমতা
নির্দেশনা শক্তি ω: ছোট মান (ω=२) উন্নতি নিয়ে আসে
ওজন প্যারামিটার: γ₁=१, γ₂=०.५ সময় সর্বোত্তম কর্মক্ষমতা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. ক্রমাগত টোকেন সুবিধা যাচাইকৃত: কোয়ান্টাইজেশন ক্ষতি এড়ায়, আরও নির্ভুল প্রতিনিধিত্ব শেখা অর্জন করে २. বিস্তার মডেল সুপারিশের জন্য উপযুক্ত: ব্যবহারকারী পছন্দ মডেলিংয়ে শক্তিশালী ক্ষমতা প্রদর্শন করে ३. হাইব্রিড পুনরুদ্ধার প্রক্রিয়া কার্যকর: স্পষ্ট যুক্তি এবং অন্তর্নিহিত প্রতিনিধিত্বের সুবিধা একত্রিত করে ४. শেষ থেকে শেষ অপ্টিমাইজেশন সম্ভব: একীভূত ফ্রেমওয়ার্ক প্রতিটি উপাদানের সহযোগী অপ্টিমাইজেশন অর্জন করে

সীমাবদ্ধতা

१. গণনা ওভারহেড: অনুমান সময় প্রধানত LLM অনুমান দ্বারা দখল করা হয় (প্রায় ८८.६%) २. ব্যবহারকারী পছন্দ পরিবর্তন: হঠাৎ পছন্দ পরিবর্তনের প্রতি অভিযোজন সীমিত ३. প্রয়োগের পরিস্থিতি: ব্যক্তিগতকৃত কথোপকথন সুপারিশের জন্য আরও উপযুক্ত বড় আকারের অনলাইন সিস্টেমের চেয়ে ४. ডেটা নির্ভরতা: সমৃদ্ধ আইটেম পাঠ্য তথ্য সমর্থন প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. দক্ষতা অপ্টিমাইজেশন: আরও দক্ষ ক্রমাগত টোকেন প্রজন্ম পদ্ধতি অন্বেষণ করে २. গতিশীল মডেলিং: ব্যবহারকারী পছন্দ বিবর্তনের মডেলিং ক্ষমতা বৃদ্ধি করে ३. বহু-মোডেল সম্প্রসারণ: ছবি, ভিডিও ইত্যাদি বহু-মোডেল তথ্য একীভূত করে ४. তাত্ত্বিক বিশ্লেষণ: সুপারিশে ক্রমাগত টোকেনের তাত্ত্বিক ভিত্তি গভীরভাবে বোঝে

গভীর মূল্যায়ন

শক্তি

१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো সিস্টেমিকভাবে ক্রমাগত টোকেন LLM সুপারিশ সিস্টেমে প্রবর্তন করে २. প্রযুক্তিগতভাবে কঠোর: σ-VAE ডিজাইন চতুর, কার্যকরভাবে প্রতিনিধিত্ব পতন প্রতিরোধ করে ३. পরীক্ষা ব্যাপক: একাধিক ডেটাসেট যাচাইকরণ, বিস্তারিত বিলোপন এবং সংবেদনশীলতা বিশ্লেষণ ४. তাত্ত্বিক সমর্থন: বিচ্ছুরণ ক্ষতির গাণিতিক ব্যুৎপত্তি স্পষ্ট, ডিজাইন যুক্তিসঙ্গত

অপূর্ণতা

१. গণনা দক্ষতা: অনুমান বিলম্ব উচ্চ, বাস্তব প্রয়োগের পরিস্থিতি সীমিত করে २. সাধারণীকরণ ক্ষমতা: ব্যবহারকারী পছন্দ হঠাৎ পরিবর্তন পরিস্থিতিতে সীমিত কর্মক্ষমতা ३. তুলনা সম্পূর্ণ নয়: আরও সর্বশেষ LLM সুপারিশ পদ্ধতির সাথে তুলনা অনুপস্থিত ४. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: ক্রমাগত টোকেন সুবিধার তাত্ত্বিক ব্যাখ্যা গভীর হওয়ার অপেক্ষায়

প্রভাব

१. একাডেমিক অবদান: LLM সুপারিশ সিস্টেমের জন্য নতুন প্রযুক্তিগত পথ প্রদান করে २. ব্যবহারিক মূল্য: কথোপকথন সুপারিশ ইত্যাদি পরিস্থিতিতে ভাল প্রয়োগের সম্ভাবনা ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং হাইপারপ্যারামিটার সেটিংস প্রদান করে ४. অনুপ্রেরণামূলক অর্থ: সুপারিশ সিস্টেম এবং উৎপাদনশীল AI এর সংমিশ্রণের জন্য নতুন চিন্তাভাবনা প্রদান করে

প্রযোজ্য পরিস্থিতি

१. ব্যক্তিগতকৃত কথোপকথন সুপারিশ: ব্যাখ্যা এবং ইন্টারঅ্যাক্টিভিটি প্রয়োজন এমন পরিস্থিতি २. ঠান্ডা শুরু সুপারিশ: নতুন ব্যবহারকারী/আইটেম পরিচালনার জন্য পাঠ্য তথ্য ব্যবহার করে ३. ক্রস-ডোমেইন সুপারিশ: LLM এর সাধারণীকরণ ক্ষমতা ব্যবহার করে ডোমেইন স্থানান্তর পরিচালনা করে ४. গবেষণা প্রোটোটাইপ: ক্রমাগত টোকেন সুপারিশ অন্বেষণের ভিত্তি ফ্রেমওয়ার্ক হিসাবে

রেফারেন্স

এই পেপারটি সুপারিশ সিস্টেম, বৃহৎ ভাষা মডেল, বিস্তার মডেল ইত্যাদি ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

ক্লাসিক সুপারিশ অ্যালগরিদম: LightGCN, SASRec ইত্যাদি
LLM সুপারিশ সিস্টেম: P५, TIGER, TokenRec ইত্যাদি
বিস্তার মডেল: DDPM, Classifier-free Guidance ইত্যাদি
ক্রমাগত টোকেনাইজেশন: VAE-MAR, Next-Token Diffusion ইত্যাদি

সামগ্রিক মূল্যায়ন: এটি LLM সুপারিশ সিস্টেম ক্ষেত্রে গুরুত্বপূর্ণ উদ্ভাবনী কাজ, ক্রমাগত টোকেনাইজেশন এবং বিস্তার মডেল প্রবর্তনের মাধ্যমে বিদ্যমান পদ্ধতির সীমাবদ্ধতা কার্যকরভাবে সমাধান করে। যদিও গণনা দক্ষতা এবং নির্দিষ্ট পরিস্থিতির প্রয়োজনীয়তায় উন্নতির অবকাশ রয়েছে, তবে এর প্রযুক্তিগত উদ্ভাবন এবং পরীক্ষামূলক যাচাইকরণ যথেষ্ট সম্পূর্ণ, এই ক্ষেত্রের উন্নয়নে মূল্যবান অবদান প্রদান করে।