2025-11-20T21:55:15.461429

Diffusion Generative Recommendation with Continuous Tokens

Qu, Lin, Ding et al.

Recent advances in generative artificial intelligence, particularly large language models (LLMs), have opened new opportunities for enhancing recommender systems (RecSys). Most existing LLM-based RecSys approaches operate in a discrete space, using vector-quantized tokenizers to align with the inherent discrete nature of language models. However, these quantization methods often result in lossy tokenization and suboptimal learning, primarily due to inaccurate gradient propagation caused by the non-differentiable argmin operation in standard vector quantization. Inspired by the emerging trend of embracing continuous tokens in language models, we propose ContRec, a novel framework that seamlessly integrates continuous tokens into LLM-based RecSys. Specifically, ContRec consists of two key modules: a sigma-VAE Tokenizer, which encodes users/items with continuous tokens; and a Dispersive Diffusion module, which captures implicit user preference. The tokenizer is trained with a continuous Variational Auto-Encoder (VAE) objective, where three effective techniques are adopted to avoid representation collapse. By conditioning on the previously generated tokens of the LLM backbone during user modeling, the Dispersive Diffusion module performs a conditional diffusion process with a novel Dispersive Loss, enabling high-quality user preference generation through next-token diffusion. Finally, ContRec leverages both the textual reasoning output from the LLM and the latent representations produced by the diffusion model for Top-K item retrieval, thereby delivering comprehensive recommendation results. Extensive experiments on four datasets demonstrate that \ourname{} consistently outperforms both traditional and SOTA LLM-based recommender systems. Our results highlight the potential of continuous tokenization and generative modeling for advancing the next generation of recommender systems.

academic

निरंतर टोकन के साथ विसरण जनरेटिव सिफारिश

बुनियादी जानकारी

पेपर ID: 2504.12007
शीर्षक: निरंतर टोकन के साथ विसरण जनरेटिव सिफारिश
लेखक: हाओहाओ कू, शानरु लिन, युजुआन डिंग, यिकी वांग, वेनकी फैन
वर्गीकरण: cs.IR cs.AI
प्रकाशन समय/सम्मेलन: arXiv प्रीप्रिंट (10 अक्टूबर 2025 को संशोधित संस्करण)
पेपर लिंक: https://arxiv.org/abs/2504.12007

सारांश

यह पेपर बड़े भाषा मॉडल (LLM) आधारित सिफारिश प्रणालियों में असतत टोकनीकरण विधियों की सीमाओं को संबोधित करता है और ContRec ढांचा प्रस्तावित करता है, जो निरंतर टोकन को LLM सिफारिश प्रणालियों में निर्बाध रूप से एकीकृत करता है। ContRec में दो मुख्य मॉड्यूल हैं: σ-VAE टोकनाइजर (उपयोगकर्ता/वस्तु को निरंतर टोकन के साथ एन्कोड करने के लिए) और विसरण विसरण मॉड्यूल (अंतर्निहित उपयोगकर्ता वरीयताओं को कैप्चर करने के लिए)। LLM के पाठ तर्क आउटपुट और विसरण मॉडल द्वारा उत्पन्न अव्यक्त प्रतिनिधित्व को शीर्ष-K वस्तु पुनर्प्राप्ति के लिए जोड़कर, चार डेटासेट पर प्रयोग दिखाते हैं कि ContRec पारंपरिक और अत्याधुनिक LLM सिफारिश प्रणालियों से काफी बेहतर है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा LLM आधारित सिफारिश प्रणालियों को मुख्य रूप से दो महत्वपूर्ण समस्याओं का सामना करना पड़ता है:

हानिकारक टोकनीकरण: वेक्टर क्वांटाइजेशन विधियां संपीड़न प्रक्रिया में अनिवार्य रूप से जानकारी खो देती हैं
अनुचित ग्रेडिएंट प्रसार: मानक वेक्टर क्वांटाइजेशन में गैर-अवकलनीय argmin ऑपरेशन "सीधे-थ्रू" तकनीक के उपयोग की ओर ले जाता है, जिससे अनुचित ग्रेडिएंट उत्पन्न होते हैं

अनुसंधान का महत्व

LLM सिफारिश प्रणालियों में मजबूत सामान्यीकरण क्षमता और संदर्भ सीखने की क्षमता प्रदर्शित करते हैं
उपयोगकर्ता और वस्तु सेट आमतौर पर लाखों के स्तर तक पहुंचते हैं, पारंपरिक अनुक्रमण विधियां अक्षम हैं
क्वांटाइजेशन विधियां व्यावहारिक हैं, लेकिन पुनर्निर्माण गुणवत्ता और जनरेटिव प्रदर्शन में सीमाएं हैं

मौजूदा विधियों की सीमाएं

असतत विधियां: TIGER, UTGRec जैसी विधियां VQ-VAE का उपयोग करके असतत शब्दावली बनाती हैं, जिसमें सूचना संपीड़न हानि होती है
निरंतर प्रक्षेपण विधियां: CoLLM, LlaRA जैसी विधियां केवल इनपुट भाग में निरंतर टोकन का उपयोग करती हैं, आउटपुट अभी भी असतत जनरेटर पर निर्भर है, असतत-निरंतर अंतर मौजूद है

अनुसंधान प्रेरणा

भाषा मॉडल में निरंतर टोकन को अपनाने की प्रवृत्ति से प्रेरित होकर, सिफारिश परिदृश्यों में निरंतर टोकन और विसरण मॉडल के उपयोग की क्षमता की खोज करना, उपयोगकर्ता वरीयता के उच्च गुणवत्ता वाले मॉडलिंग को प्राप्त करना।

मुख्य योगदान

ContRec ढांचा प्रस्तावित करना: पहला ढांचा जो निरंतर टोकन को LLM सिफारिश प्रणालियों में निर्बाध रूप से एकीकृत करता है, क्वांटाइजेशन सीमाओं को तोड़ता है
दो मुख्य मॉड्यूल डिजाइन करना:
- σ-VAE टोकनाइजर: प्रतिनिधित्व पतन को रोकने के लिए तीन तकनीकों का उपयोग करने वाला मजबूत निरंतर टोकनाइजर
- विसरण विसरण मॉड्यूल: विपरीत स्व-पर्यवेक्षित सीखने के माध्यम से अंतर्निहित उपयोगकर्ता वरीयता प्रतिनिधित्व उत्पन्न करना
विसरण हानि का परिचय: स्पष्ट नकारात्मक सकारात्मक नमूना जोड़ी के बिना विपरीत सीखने की तंत्र
प्रायोगिक सत्यापन: चार डेटासेट पर औसतन 11.76% HR@10 और 10.11% NDCG@10 में सुधार

विधि विवरण

कार्य परिभाषा

उपयोगकर्ता सेट U = {u₁, u₂, ..., uₙ} और वस्तु सेट V = {v₁, v₂, ..., vₘ} दिए गए, लक्ष्य ऐतिहासिक इंटरैक्शन का विश्लेषण करके उपयोगकर्ता की भविष्य की वरीयताओं की भविष्यवाणी करना है, अनुक्रम सिफारिश को भाषा मॉडल प्रतिमान में पुनः तैयार करना:

Yᵢ = LLM(P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)}))

मॉडल आर्किटेक्चर

1. σ-VAE टोकनाइजर

गैर-क्वांटाइजेशन टोकनीकरण के लिए VAE ढांचा अपनाता है, जिसमें तीन मुख्य तकनीकें शामिल हैं:

मास्किंग ऑपरेशन: बर्नौली वितरण आधारित तत्व-स्तरीय मास्किंग रणनीति

μₖ = Encₖ(Mask(x, ρ))

K-पथ एन्कोडर: समानांतर एन्कोडिंग चैनल अंतर्निहित एन्कोडिंग को लागू करते हैं

zₖ = μₖ + σₖ ⊙ ε, जहां ε ~ N(0,1), σₖ ~ N(0,Σ)

गाऊसी कर्नेल: विचरण पतन को रोकना

x̂ = Dec(Concat{zₖ}ᴷ)

हानि फ़ंक्शन:

Lvae = ||x̂ - x||₂² + (β/K)∑ᵏ₌₁ᴷ ||μₖ||₂²

2. LLM उपयोगकर्ता मॉडलिंग

असतत शब्दार्थ जानकारी और निरंतर सहयोगी ज्ञान को जोड़ता है:

Xᵢ := P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)})

निरंतर टोकन अनुक्रम की शुरुआत और अंत को चिह्नित करने के लिए विशेष टोकन ⟨z_start⟩ और ⟨z_end⟩ का उपयोग करता है।

3. विसरण विसरण मॉड्यूल

सशर्त विसरण प्रक्रिया:

Ldiff = E(yᵢ,cᵢ,t) ||ε - εθ(y^t_i, cᵢ, t)||₂²

विसरण हानि:

Ldisp = log E_{i,j}[exp(-D(hᵢ, hⱼ)/τ)]

यह "सकारात्मक नमूना जोड़ी के बिना विपरीत हानि" है, जो बैच के भीतर प्रतिनिधित्व के विसरण को प्रोत्साहित करता है।

तकनीकी नवाचार बिंदु

निरंतर टोकनीकरण: क्वांटाइजेशन ऑपरेशन को पूरी तरह से टालता है, सूचना पूर्णता बनाए रखता है
मिश्रित पुनर्प्राप्ति तंत्र: LLM पाठ तर्क और विसरण-उत्पन्न अव्यक्त प्रतिनिधित्व को जोड़ता है
अंत-से-अंत अनुकूलन: तीन हानि कार्यों को एकीकृत करने वाले एकीकृत अनुकूलन उद्देश्य
वर्गीकरणकर्ता-मुक्त मार्गदर्शन: अनुमान समय पर व्यक्तिगतकरण की तीव्रता को नियंत्रित करता है

प्रायोगिक सेटअप

डेटासेट

चार बेंचमार्क डेटासेट का उपयोग करता है:

डेटासेट	उपयोगकर्ता	वस्तुएं	इंटरैक्शन	औसत लंबाई	घनत्व(%)
LastFM	1,091	3,685	52,670	48.3	1.31
ML1M	6,040	3,416	447,294	165.5	2.17
Beauty	22,363	12,101	278,641	8.9	0.07
Games	47,568	16,834	266,139	9.5	0.03

मूल्यांकन मेट्रिक्स

HR@K (हिट अनुपात): शीर्ष-K हिट दर
NDCG@K (सामान्यीकृत छूट संचयी लाभ): सामान्यीकृत छूट संचयी लाभ
K मान 10 और 20 पर सेट किए गए हैं

तुलनात्मक विधियां

पारंपरिक अनुक्रम सिफारिश: GRU4Rec, SASRec, SSD4Rec, DreamRec LLM सिफारिश प्रणालियां: P5, CoLLM, TIGER, TokenRec, LLaRA

कार्यान्वयन विवरण

आधार मॉडल: Llama-3.2-1B-Instruct
अनुकूलक: AdamW (सीखने की दर 1e-5/1e-4)
बैच आकार: 24
अधिकतम अनुक्रम लंबाई: 20
विसरण चरण: प्रशिक्षण 1000 चरण, अनुमान 100 चरण

प्रायोगिक परिणाम

मुख्य परिणाम

ContRec सभी डेटासेट पर सर्वोत्तम प्रदर्शन प्राप्त करता है:

डेटासेट	मेट्रिक	सर्वश्रेष्ठ आधार	ContRec	सुधार
Beauty	HR@10	0.0442	0.0473±0.0017	7.74%
Games	HR@10	0.1018	0.1041±0.0036	8.66%
LastFM	HR@10	0.0525	0.0539±0.0034	15.42%
ML1M	HR@10	0.1076	0.1099±0.0066	15.20%

TIGER (विशिष्ट असतत विधि) की तुलना में औसतन 11.76% HR@10 और 10.11% NDCG@10 में सुधार।

विलोपन प्रयोग

मुख्य घटक योगदान विश्लेषण:

घटक	Beauty HR@10	ML1M HR@10	प्रभाव
पूर्ण मॉडल	0.0473	0.1099	-
विसरण के बिना	0.0431	0.1007	महत्वपूर्ण गिरावट
विसरण हानि के बिना	0.0448	0.1042	स्पष्ट गिरावट
σ के बिना	0.0457	0.1051	प्रदर्शन गिरावट
VQ-VAE के साथ	0.0426	0.0974	बड़ी गिरावट

पुनर्निर्माण मूल्यांकन

वस्तु एम्बेडिंग पुनर्निर्माण कार्य पर, निरंतर विधि असतत विधि से काफी बेहतर है:

विसरण मॉडल पुनर्निर्माण त्रुटि सबसे कम
VAE विभिन्न क्वांटाइजेशन विधियों (VQ-VAE, RQ-VAE, MQ-VAE) से बेहतर है
हानि अभिसरण अधिक सुचारु है

हाइपरपैरामीटर संवेदनशीलता

मास्किंग अनुपात ρ: 0.2 इष्टतम मान है
टोकन संख्या K: 3-4 टोकन सर्वोत्तम प्रभाव देते हैं
मार्गदर्शन तीव्रता ω: छोटे मान (ω=2) सुधार लाते हैं
वजन पैरामीटर: γ₁=1, γ₂=0.5 पर सर्वोत्तम प्रदर्शन

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

निरंतर टोकन लाभ सत्यापित: क्वांटाइजेशन हानि से बचता है, अधिक सटीक प्रतिनिधित्व सीखना प्राप्त करता है
विसरण मॉडल सिफारिश के लिए उपयुक्त: उपयोगकर्ता वरीयता मॉडलिंग में मजबूत क्षमता प्रदर्शित करता है
मिश्रित पुनर्प्राप्ति तंत्र प्रभावी: स्पष्ट तर्क और अव्यक्त प्रतिनिधित्व के लाभों को जोड़ता है
अंत-से-अंत अनुकूलन व्यावहारिक: एकीकृत ढांचा घटकों के सहयोगी अनुकूलन को प्राप्त करता है

सीमाएं

कम्प्यूटेशनल ओवरहेड: अनुमान समय मुख्य रूप से LLM अनुमान द्वारा कब्जा किया जाता है (लगभग 88.6%)
उपयोगकर्ता वरीयता परिवर्तन: अचानक वरीयता परिवर्तन के अनुकूलन में सीमित क्षमता
आवेदन परिदृश्य: व्यक्तिगत संवाद सिफारिश के लिए अधिक उपयुक्त, बड़े पैमाने पर ऑनलाइन प्रणालियों के लिए नहीं
डेटा निर्भरता: समृद्ध वस्तु पाठ जानकारी समर्थन की आवश्यकता है

भविष्य की दिशाएं

दक्षता अनुकूलन: अधिक कुशल निरंतर टोकन जनरेशन विधियों की खोज करना
गतिशील मॉडलिंग: उपयोगकर्ता वरीयता विकास के मॉडलिंग को बढ़ाना
बहु-मोडल विस्तार: छवि, वीडियो आदि बहु-मोडल जानकारी को एकीकृत करना
सैद्धांतिक विश्लेषण: सिफारिश में निरंतर टोकन के सैद्धांतिक आधार को गहराई से समझना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार LLM सिफारिश प्रणालियों में निरंतर टोकन को व्यवस्थित रूप से पेश करता है
तकनीकी कठोरता: σ-VAE डिजाइन चतुर है, प्रतिनिधित्व पतन को प्रभावी ढंग से रोकता है
पर्याप्त प्रयोग: बहु-डेटासेट सत्यापन, विस्तृत विलोपन और संवेदनशीलता विश्लेषण
सैद्धांतिक समर्थन: विसरण हानि की गणितीय व्युत्पत्ति स्पष्ट है, डिजाइन उचित है

कमियां

कम्प्यूटेशनल दक्षता: अनुमान विलंबता अधिक है, वास्तविक आवेदन परिदृश्य को सीमित करता है
सामान्यीकरण क्षमता: उपयोगकर्ता वरीयता अचानक परिवर्तन परिदृश्य में सीमित प्रदर्शन
अपूर्ण तुलना: अधिक नवीनतम LLM सिफारिश विधियों के साथ तुलना की कमी
अपर्याप्त सैद्धांतिक विश्लेषण: निरंतर टोकन लाभों की सैद्धांतिक व्याख्या गहराई से की जानी चाहिए

प्रभाव

शैक्षणिक योगदान: LLM सिफारिश प्रणालियों के लिए नई तकनीकी पथ प्रदान करता है
व्यावहारिक मूल्य: व्यक्तिगत संवाद सिफारिश आदि परिदृश्यों में अच्छी आवेदन संभावना
पुनरुत्पादनशीलता: विस्तृत कार्यान्वयन विवरण और हाइपरपैरामीटर सेटिंग प्रदान करता है
प्रेरणा महत्व: सिफारिश प्रणालियों और जनरेटिव AI के संयोजन के लिए नई सोच प्रदान करता है

लागू परिदृश्य

व्यक्तिगत संवाद सिफारिश: व्याख्या और इंटरैक्टिविटी की आवश्यकता वाले परिदृश्य
ठंडी शुरुआत सिफारिश: नए उपयोगकर्ता/वस्तु को संभालने के लिए पाठ जानकारी का उपयोग करना
क्रॉस-डोमेन सिफारिश: LLM की सामान्यीकरण क्षमता का उपयोग करके डोमेन माइग्रेशन करना
अनुसंधान प्रोटोटाइप: निरंतर टोकन सिफारिश की खोज के लिए आधार ढांचा

संदर्भ

यह पेपर सिफारिश प्रणालियों, बड़े भाषा मॉडल, विसरण मॉडल आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

शास्त्रीय सिफारिश एल्गोरिदम: LightGCN, SASRec आदि
LLM सिफारिश प्रणालियां: P5, TIGER, TokenRec आदि
विसरण मॉडल: DDPM, Classifier-free Guidance आदि
निरंतर टोकनीकरण: VAE-MAR, Next-Token Diffusion आदि

समग्र मूल्यांकन: यह LLM सिफारिश प्रणाली क्षेत्र में महत्वपूर्ण नवाचार महत्व का एक पेपर है, जो निरंतर टोकनीकरण और विसरण मॉडल को पेश करके, मौजूदा विधियों की सीमाओं को प्रभावी ढंग से हल करता है। हालांकि कम्प्यूटेशनल दक्षता और कुछ परिदृश्यों की प्रयोज्यता के पहलुओं में सुधार की गुंजाइश है, लेकिन इसकी तकनीकी नवाचार और प्रायोगिक सत्यापन दोनों काफी पर्याप्त हैं, इस क्षेत्र के विकास के लिए मूल्यवान योगदान प्रदान करते हैं।