2025-11-20T21:55:15.461429

Diffusion Generative Recommendation with Continuous Tokens

Qu, Lin, Ding et al.
Recent advances in generative artificial intelligence, particularly large language models (LLMs), have opened new opportunities for enhancing recommender systems (RecSys). Most existing LLM-based RecSys approaches operate in a discrete space, using vector-quantized tokenizers to align with the inherent discrete nature of language models. However, these quantization methods often result in lossy tokenization and suboptimal learning, primarily due to inaccurate gradient propagation caused by the non-differentiable argmin operation in standard vector quantization. Inspired by the emerging trend of embracing continuous tokens in language models, we propose ContRec, a novel framework that seamlessly integrates continuous tokens into LLM-based RecSys. Specifically, ContRec consists of two key modules: a sigma-VAE Tokenizer, which encodes users/items with continuous tokens; and a Dispersive Diffusion module, which captures implicit user preference. The tokenizer is trained with a continuous Variational Auto-Encoder (VAE) objective, where three effective techniques are adopted to avoid representation collapse. By conditioning on the previously generated tokens of the LLM backbone during user modeling, the Dispersive Diffusion module performs a conditional diffusion process with a novel Dispersive Loss, enabling high-quality user preference generation through next-token diffusion. Finally, ContRec leverages both the textual reasoning output from the LLM and the latent representations produced by the diffusion model for Top-K item retrieval, thereby delivering comprehensive recommendation results. Extensive experiments on four datasets demonstrate that \ourname{} consistently outperforms both traditional and SOTA LLM-based recommender systems. Our results highlight the potential of continuous tokenization and generative modeling for advancing the next generation of recommender systems.
academic

التوصية التوليدية بالانتشار مع الرموز المستمرة

المعلومات الأساسية

  • معرّف الورقة: 2504.12007
  • العنوان: التوصية التوليدية بالانتشار مع الرموز المستمرة
  • المؤلفون: Haohao Qu, Shanru Lin, Yujuan Ding, Yiqi Wang, Wenqi Fan
  • التصنيف: cs.IR cs.AI
  • تاريخ النشر/المؤتمر: ورقة arXiv (نسخة منقحة في 10 أكتوبر 2025)
  • رابط الورقة: https://arxiv.org/abs/2504.12007

الملخص

تقدم هذه الورقة إطار عمل ContRec لمعالجة قيود طرق الترميز المنفصل في أنظمة التوصية المستندة إلى نماذج اللغة الكبيرة (LLM). يدمج ContRec الرموز المستمرة بسلاسة في أنظمة التوصية القائمة على LLM ويتضمن وحدتين أساسيتين: مرمز σ-VAE (لترميز المستخدمين/العناصر بالرموز المستمرة) ووحدة الانتشار المشتتة (لالتقاط تفضيلات المستخدم الضمنية). من خلال الجمع بين مخرجات التفكير النصي من LLM والتمثيلات الكامنة التي ينتجها نموذج الانتشار لاسترجاع العناصر Top-K، تُظهر التجارب على أربع مجموعات بيانات أن ContRec يتفوق بشكل ملحوظ على أنظمة التوصية التقليدية والمتقدمة القائمة على LLM.

الخلفية البحثية والدافع

تعريف المشكلة

تواجه أنظمة التوصية الحالية المستندة إلى LLM مشكلتين رئيسيتين:

  1. الترميز الفاقد للمعلومات: تفقد طرق التكميم المتجهي المعلومات بشكل حتمي أثناء عملية الضغط
  2. انتشار التدرج غير الدقيق: تؤدي عملية argmin غير القابلة للاشتقاق في التكميم المتجهي القياسي إلى استخدام تقنية "المرور المباشر"، مما ينتج عنه تدرجات غير دقيقة

أهمية البحث

  • تُظهر نماذج اللغة الكبيرة قدرات تعميم قوية وقدرات التعلم السياقي في أنظمة التوصية
  • تصل مجموعات المستخدمين والعناصر عادة إلى مستويات الملايين، مما يجعل طرق الفهرسة التقليدية غير فعالة
  • على الرغم من أن طرق التكميم عملية، إلا أنها تعاني من قيود في جودة إعادة البناء والأداء التوليدي

قيود الطرق الموجودة

  1. الطرق المنفصلة: مثل TIGER و UTGRec التي تستخدم VQ-VAE لبناء مفردات منفصلة، تعاني من فقدان ضغط المعلومات
  2. طرق الإسقاط المستمر: مثل CoLLM و LlaRA التي تستخدم الرموز المستمرة فقط في جزء الإدخال، بينما يعتمد الإخراج على مولدات منفصلة، مما يخلق فجوة منفصلة-مستمرة

الدافع البحثي

مستوحاة من الاتجاه نحو احتضان الرموز المستمرة في نماذج اللغة، استكشاف إمكانيات استخدام الرموز المستمرة ونماذج الانتشار في سيناريوهات التوصية، لتحقيق نمذجة تفضيلات المستخدم بجودة أعلى.

المساهمات الأساسية

  1. اقتراح إطار عمل ContRec: أول إطار عمل يدمج الرموز المستمرة بسلاسة في أنظمة التوصية القائمة على LLM، متجاوزاً قيود التكميم
  2. تصميم وحدتين رئيسيتين:
    • مرمز σ-VAE: مرمز رموز مستمر قوي يستخدم ثلاث تقنيات لمنع انهيار التمثيل
    • وحدة الانتشار المشتتة: توليد تمثيلات تفضيلات المستخدم الضمنية من خلال التعلم الذاتي الإشرافي المتناقض
  3. إدخال خسارة التشتت: آلية التعلم المتناقض بدون الحاجة إلى أزواج عينات موجبة وسالبة صريحة
  4. التحقق التجريبي: متوسط تحسن بنسبة 11.76% في HR@10 و 10.11% في NDCG@10 عبر أربع مجموعات بيانات

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة المستخدمين U = {u₁, u₂, ..., uₙ} ومجموعة العناصر V = {v₁, v₂, ..., vₘ}، الهدف هو التنبؤ بتفضيلات المستخدم المستقبلية من خلال تحليل التفاعلات التاريخية، وإعادة صياغة التوصية التسلسلية كنموذج لغة:

Yᵢ = LLM(P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)}))

معمارية النموذج

1. مرمز σ-VAE

يستخدم إطار عمل VAE للترميز غير الكمي، يتضمن ثلاث تقنيات رئيسية:

العملية المقنعة: استراتيجية إخفاء على مستوى العنصر بناءً على توزيع برنولي

μₖ = Encₖ(Mask(x, ρ))

المشفر متعدد المسارات: قنوات ترميز متوازية لتحقيق الترميز الضمني

zₖ = μₖ + σₖ ⊙ ε, where ε ~ N(0,1), σₖ ~ N(0,Σ)

النواة الغاوسية: منع انهيار التباين

x̂ = Dec(Concat{zₖ}ᴷ)

دالة الخسارة:

Lvae = ||x̂ - x||₂² + (β/K)∑ᵏ₌₁ᴷ ||μₖ||₂²

2. نمذجة المستخدم باستخدام LLM

الجمع بين المعلومات الدلالية المنفصلة والمعرفة التعاونية المستمرة:

Xᵢ := P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)})

استخدام الرموز الخاصة ⟨z_start⟩ و ⟨z_end⟩ لتحديد بداية ونهاية تسلسل الرموز المستمرة.

3. وحدة الانتشار المشتتة

عملية الانتشار المشروطة:

Ldiff = E(yᵢ,cᵢ,t) ||ε - εθ(y^t_i, cᵢ, t)||₂²

خسارة التشتت:

Ldisp = log E_{i,j}[exp(-D(hᵢ, hⱼ)/τ)]

هذه خسارة متناقضة "بدون أزواج عينات موجبة"، تشجع على تشتت التمثيلات داخل الدفعة.

نقاط الابتكار التقني

  1. الترميز المستمر: تجنب العمليات الكمية بالكامل، الحفاظ على سلامة المعلومات
  2. آلية الاسترجاع الهجينة: الجمع بين التفكير النصي من LLM والتمثيلات الضمنية التي ينتجها الانتشار
  3. التحسين من طرف إلى طرف: دمج ثلاث دوال خسارة في هدف تحسين موحد
  4. التوجيه الخالي من المصنف: التحكم في قوة التخصيص أثناء الاستدلال

إعداد التجارب

مجموعات البيانات

استخدام أربع مجموعات بيانات معيارية:

مجموعة البياناتعدد المستخدمينعدد العناصرعدد التفاعلاتمتوسط الطولالكثافة (%)
LastFM1,0913,68552,67048.31.31
ML1M6,0403,416447,294165.52.17
Beauty22,36312,101278,6418.90.07
Games47,56816,834266,1399.50.03

مقاييس التقييم

  • HR@K (نسبة الضربة): معدل الضربة في Top-K
  • NDCG@K (المكسب التراكمي المخصوم المعياري): المكسب التراكمي المخصوم المعياري
  • تم تعيين قيم K إلى 10 و 20

طرق المقارنة

التوصية التسلسلية التقليدية: GRU4Rec, SASRec, SSD4Rec, DreamRec أنظمة التوصية القائمة على LLM: P5, CoLLM, TIGER, TokenRec, LLaRA

تفاصيل التنفيذ

  • النموذج الأساسي: Llama-3.2-1B-Instruct
  • محسّن: AdamW (معدل التعلم 1e-5/1e-4)
  • حجم الدفعة: 24
  • الحد الأقصى لطول التسلسل: 20
  • خطوات الانتشار: 1000 خطوة للتدريب، 100 خطوة للاستدلال

نتائج التجارب

النتائج الرئيسية

يحقق ContRec أفضل أداء على جميع مجموعات البيانات:

مجموعة البياناتالمقياسأفضل خط أساسContRecالتحسن
BeautyHR@100.04420.0473±0.00177.74%
GamesHR@100.10180.1041±0.00368.66%
LastFMHR@100.05250.0539±0.003415.42%
ML1MHR@100.10760.1099±0.006615.20%

متوسط تحسن بنسبة 11.76% في HR@10 و 10.11% في NDCG@10 مقارنة بـ TIGER (طريقة منفصلة نموذجية).

تجارب الاستئصال

تحليل مساهمة المكونات الرئيسية:

المكونBeauty HR@10ML1M HR@10التأثير
النموذج الكامل0.04730.1099-
بدون انتشار0.04310.1007انخفاض كبير
بدون خسارة التشتت0.04480.1042انخفاض واضح
بدون σ0.04570.1051انخفاض الأداء
مع VQ-VAE0.04260.0974انخفاض كبير

تقييم إعادة البناء

في مهمة إعادة بناء تضمين العناصر، تتفوق الطرق المستمرة بشكل ملحوظ على الطرق المنفصلة:

  • نموذج الانتشار لديه أقل خطأ إعادة بناء
  • VAE يتفوق على طرق التكميم المختلفة (VQ-VAE, RQ-VAE, MQ-VAE)
  • تقارب الخسارة أكثر سلاسة

حساسية المعاملات الفائقة

  • نسبة الإخفاء ρ: 0.2 هي القيمة المثلى
  • عدد الرموز K: 3-4 رموز تعطي أفضل النتائج
  • قوة التوجيه ω: القيم الصغيرة (ω=2) تحقق تحسناً
  • معاملات الأوزان: γ₁=1, γ₂=0.5 تحقق أفضل أداء

الأعمال ذات الصلة

أنظمة التوصية القائمة على LLM

  1. الترميز المنفصل: P5 يوحد المهام المتعددة إلى توليد نصي، TIGER/TokenRec يستخدم التكميم المتجهي
  2. الإسقاط المستمر: CoLLM/LlaRA يسقط التمثيلات التعاونية مباشرة، مع وجود فجوة منفصلة-مستمرة

نماذج الانتشار والرموز المستمرة

  1. توليد الصور: VAE-MAR, Next-Token Diffusion توضح إمكانيات الرموز المستمرة
  2. النمذجة متعددة الأنماط: DEEM وغيرها تستخدم الانتشار كـ "عين" لـ LLM
  3. نمذجة البروتين: DPLM وغيرها تحقق نجاحاً في التضمينات الهيكلية المستمرة

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. تم التحقق من مزايا الرموز المستمرة: تجنب فقدان التكميم، تحقيق تعلم تمثيل أكثر دقة
  2. نماذج الانتشار قابلة للتطبيق في التوصية: تُظهر قدرة قوية في نمذجة تفضيلات المستخدم
  3. آلية الاسترجاع الهجينة فعالة: الجمع بين مزايا التفكير الصريح والتمثيلات الضمنية
  4. التحسين من طرف إلى طرف ممكن: إطار عمل موحد يحقق التحسين المتعاون للمكونات

القيود

  1. التكلفة الحسابية: وقت الاستدلال يهيمن عليه استدلال LLM (حوالي 88.6%)
  2. تحول تفضيلات المستخدم: قدرة محدودة على التكيف مع التغييرات المفاجئة في التفضيلات
  3. سيناريوهات التطبيق: أكثر ملاءمة للتوصية الحوارية الشخصية بدلاً من الأنظمة الضخمة عبر الإنترنت
  4. الاعتماد على البيانات: يتطلب معلومات نصية غنية عن العناصر

الاتجاهات المستقبلية

  1. تحسين الكفاءة: استكشاف طرق أكثر كفاءة لتوليد الرموز المستمرة
  2. النمذجة الديناميكية: تعزيز القدرة على نمذجة تطور تفضيلات المستخدم
  3. التوسع متعدد الأنماط: دمج المعلومات متعددة الأنماط مثل الصور والفيديو
  4. التحليل النظري: فهم أعمق للأساس النظري للرموز المستمرة في التوصية

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول عمل يدمج الرموز المستمرة بشكل منهجي في أنظمة التوصية القائمة على LLM
  2. صرامة تقنية: تصميم σ-VAE ذكي، يمنع بشكل فعال انهيار التمثيل
  3. تجارب شاملة: التحقق على عدة مجموعات بيانات، تحليل استئصال وحساسية مفصل
  4. دعم نظري: الاشتقاق الرياضي لخسارة التشتت واضح، التصميم معقول

أوجه القصور

  1. كفاءة حسابية: تأخير الاستدلال مرتفع نسبياً، يحد من سيناريوهات التطبيق العملي
  2. القدرة على التعميم: أداء محدودة في سيناريوهات تحول تفضيلات المستخدم المفاجئ
  3. المقارنة غير شاملة: تفتقد المقارنة مع المزيد من طرق LLM الحديثة
  4. التحليل النظري غير كافٍ: شرح نظري لمزايا الرموز المستمرة يحتاج إلى تعمق أكثر

التأثير

  1. المساهمة الأكاديمية: توفر مسار تقني جديد لأنظمة التوصية القائمة على LLM
  2. القيمة العملية: آفاق تطبيق جيدة في سيناريوهات مثل التوصية الحوارية
  3. قابلية إعادة الإنتاج: توفير تفاصيل تنفيذ مفصلة وإعدادات معاملات فائقة
  4. الدلالة الإرشادية: توفير أفكار جديدة لدمج أنظمة التوصية والذكاء الاصطناعي التوليدي

السيناريوهات المناسبة

  1. التوصية الحوارية الشخصية: سيناريوهات تتطلب قابلية التفسير والتفاعل
  2. توصية البداية الباردة: الاستفادة من معلومات النص للتعامل مع المستخدمين/العناصر الجديدة
  3. التوصية عبر المجالات: الاستفادة من قدرة التعميم لـ LLM لنقل المجالات
  4. النماذج الأولية البحثية: كإطار عمل أساسي لاستكشاف التوصية بالرموز المستمرة

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجالات أنظمة التوصية ونماذج اللغة الكبيرة ونماذج الانتشار، بما في ذلك:

  • الخوارزميات الكلاسيكية للتوصية: LightGCN, SASRec وغيرها
  • أنظمة التوصية القائمة على LLM: P5, TIGER, TokenRec وغيرها
  • نماذج الانتشار: DDPM, Classifier-free Guidance وغيرها
  • الترميز المستمر: VAE-MAR, Next-Token Diffusion وغيرها

التقييم الإجمالي: هذا عمل ذو أهمية ابتكارية مهمة في مجال أنظمة التوصية القائمة على LLM. من خلال إدخال الترميز المستمر ونماذج الانتشار، يحل بشكل فعال قيود الطرق الموجودة. على الرغم من وجود مجال للتحسين في كفاءة الحساب وقابلية التطبيق في بعض السيناريوهات، فإن الابتكار التقني والتحقق التجريبي شاملان نسبياً، مما يوفر مساهمة قيمة لتطور هذا المجال.