2025-11-20T21:55:15.461429

Diffusion Generative Recommendation with Continuous Tokens

Qu, Lin, Ding et al.
Recent advances in generative artificial intelligence, particularly large language models (LLMs), have opened new opportunities for enhancing recommender systems (RecSys). Most existing LLM-based RecSys approaches operate in a discrete space, using vector-quantized tokenizers to align with the inherent discrete nature of language models. However, these quantization methods often result in lossy tokenization and suboptimal learning, primarily due to inaccurate gradient propagation caused by the non-differentiable argmin operation in standard vector quantization. Inspired by the emerging trend of embracing continuous tokens in language models, we propose ContRec, a novel framework that seamlessly integrates continuous tokens into LLM-based RecSys. Specifically, ContRec consists of two key modules: a sigma-VAE Tokenizer, which encodes users/items with continuous tokens; and a Dispersive Diffusion module, which captures implicit user preference. The tokenizer is trained with a continuous Variational Auto-Encoder (VAE) objective, where three effective techniques are adopted to avoid representation collapse. By conditioning on the previously generated tokens of the LLM backbone during user modeling, the Dispersive Diffusion module performs a conditional diffusion process with a novel Dispersive Loss, enabling high-quality user preference generation through next-token diffusion. Finally, ContRec leverages both the textual reasoning output from the LLM and the latent representations produced by the diffusion model for Top-K item retrieval, thereby delivering comprehensive recommendation results. Extensive experiments on four datasets demonstrate that \ourname{} consistently outperforms both traditional and SOTA LLM-based recommender systems. Our results highlight the potential of continuous tokenization and generative modeling for advancing the next generation of recommender systems.
academic

拡散生成推薦システムにおける連続トークン

基本情報

  • 論文ID: 2504.12007
  • タイトル: Diffusion Generative Recommendation with Continuous Tokens
  • 著者: Haohao Qu, Shanru Lin, Yujuan Ding, Yiqi Wang, Wenqi Fan
  • 分類: cs.IR cs.AI
  • 発表時期/会議: arXivプレプリント (2025年10月10日改訂版)
  • 論文リンク: https://arxiv.org/abs/2504.12007

要約

本論文は、大規模言語モデル(LLM)ベースの推薦システムにおける離散トークン化手法の限界に対処するため、ContRecフレームワークを提案する。このフレームワークは連続トークンをLLM推薦システムにシームレスに統合する。ContRecは2つのコアモジュールで構成される:σ-VAEトークナイザー(ユーザー/アイテムを連続トークンで符号化)と分散拡散モジュール(暗黙的なユーザー嗜好を捉える)。LLMのテキスト推論出力と拡散モデルが生成した潜在表現を組み合わせてTop-Kアイテム検索を行うことで、4つのデータセットでの実験がContRecが従来型および最先端のLLM推薦システムを大幅に上回ることを示している。

研究背景と動機

問題定義

既存のLLMベース推薦システムは主に2つの重要な問題に直面している:

  1. 損失のあるトークン化:ベクトル量子化手法は圧縮プロセスにおいて必然的に情報を喪失する
  2. 勾配伝播の不正確性:標準ベクトル量子化における微分不可能なargmin操作は「直通(straight-through)」トリックの使用をもたらし、不正確な勾配を生成する

研究の重要性

  • LLMは推薦システムにおいて強力な汎化能力と文脈学習能力を示している
  • ユーザーおよびアイテム集合は通常百万規模に達し、従来のインデックス方法は効率が低い
  • 量子化手法は実用的であるが、再構成品質と生成性能に制限がある

既存手法の限界

  1. 離散手法:TIGER、UTGRecなどはVQ-VAEを使用して離散語彙表を構築するが、情報圧縮損失が存在する
  2. 連続投影手法:CoLLM、LlaRAは入力部分のみで連続トークンを使用し、出力は依然として離散生成器に依存し、離散-連続の不一致が存在する

研究動機

言語モデルにおける連続トークン採用の傾向に触発され、推薦シナリオにおける連続トークンと拡散モデルの使用可能性を探索し、より高品質なユーザー嗜好モデリングを実現する。

コア貢献

  1. ContRecフレームワークの提案:LLM推薦システムに連続トークンをシームレスに統合する初めてのフレームワークで、量子化の制限を突破する
  2. 2つの重要なモジュールの設計
    • σ-VAEトークナイザー:表現崩壊を防ぐ3つの技術を採用した堅牢な連続トークナイザー
    • 分散拡散モジュール:対比的自己教師学習を通じて暗黙的なユーザー嗜好表現を生成
  3. 分散損失の導入:明示的な負のサンプルペアを必要としない対比学習メカニズム
  4. 実験検証:4つのデータセットで平均11.76% HR@10および10.11% NDCG@10の向上

方法の詳細

タスク定義

ユーザー集合U = {u₁, u₂, ..., uₙ}とアイテム集合V = {v₁, v₂, ..., vₘ}が与えられたとき、目標は履歴インタラクションを分析してユーザーの将来の嗜好を予測することであり、シーケンス推薦を言語モデルパラダイムとして再定式化する:

Yᵢ = LLM(P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)}))

モデルアーキテクチャ

1. σ-VAEトークナイザー

非量子化トークン化のためのVAEフレームワークを採用し、3つの重要な技術を含む:

マスキング操作:ベルヌーイ分布に基づく要素レベルのマスキング戦略

μₖ = Encₖ(Mask(x, ρ))

K路エンコーダー:並列エンコーディングチャネルによる暗黙的エンコーディング

zₖ = μₖ + σₖ ⊙ ε, where ε ~ N(0,1), σₖ ~ N(0,Σ)

ガウスカーネル:分散崩壊の防止

x̂ = Dec(Concat{zₖ}ᴷ)

損失関数

Lvae = ||x̂ - x||₂² + (β/K)∑ᵏ₌₁ᴷ ||μₖ||₂²

2. LLMユーザーモデリング

離散的意味情報と連続的協調知識の結合:

Xᵢ := P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)})

特殊トークン⟨z_start⟩と⟨z_end⟩を使用して連続トークンシーケンスの開始と終了をマーク。

3. 分散拡散モジュール

条件付き拡散プロセス

Ldiff = E(yᵢ,cᵢ,t) ||ε - εθ(y^t_i, cᵢ, t)||₂²

分散損失

Ldisp = log E_{i,j}[exp(-D(hᵢ, hⱼ)/τ)]

これは「正のサンプルペアなしの対比損失」であり、バッチ内表現の分散性を促進する。

技術的革新点

  1. 連続トークン化:量子化操作を完全に回避し、情報の完全性を維持
  2. ハイブリッド検索メカニズム:LLMテキスト推論と拡散生成の暗黙的表現を結合
  3. エンドツーエンド最適化:3つの損失関数を統合した統一最適化目標
  4. 分類器自由ガイダンス:推論時に個性化強度を制御

実験設定

データセット

4つのベンチマークデータセットを使用:

データセットユーザー数アイテム数インタラクション数平均長密度(%)
LastFM1,0913,68552,67048.31.31
ML1M6,0403,416447,294165.52.17
Beauty22,36312,101278,6418.90.07
Games47,56816,834266,1399.50.03

評価指標

  • HR@K (ヒット率):Top-Kヒット率
  • NDCG@K (正規化割引累積利得):正規化割引累積利得
  • K値は10および20に設定

比較手法

従来的シーケンス推薦:GRU4Rec、SASRec、SSD4Rec、DreamRec LLM推薦システム:P5、CoLLM、TIGER、TokenRec、LLaRA

実装詳細

  • 基本モデル:Llama-3.2-1B-Instruct
  • オプティマイザー:AdamW (学習率 1e-5/1e-4)
  • バッチサイズ:24
  • 最大シーケンス長:20
  • 拡散ステップ:訓練1000ステップ、推論100ステップ

実験結果

主要結果

ContRecはすべてのデータセットで最高性能を達成:

データセット指標最良基線ContRec向上
BeautyHR@100.04420.0473±0.00177.74%
GamesHR@100.10180.1041±0.00368.66%
LastFMHR@100.05250.0539±0.003415.42%
ML1MHR@100.10760.1099±0.006615.20%

典型的な離散手法であるTIGERと比較して平均11.76% HR@10および10.11% NDCG@10の向上。

アブレーション実験

重要なコンポーネントの貢献度分析:

コンポーネントBeauty HR@10ML1M HR@10影響
完全なモデル0.04730.1099-
拡散なし0.04310.1007大幅な低下
分散損失なし0.04480.1042明らかな低下
σなし0.04570.1051性能低下
VQ-VAE付き0.04260.0974大幅な低下

再構成評価

アイテム埋め込み再構成タスクにおいて、連続手法は離散手法を大幅に上回る:

  • 拡散モデルは最低の再構成誤差を実現
  • VAEは各種量子化手法(VQ-VAE、RQ-VAE、MQ-VAE)を上回る
  • 損失収束がより滑らか

ハイパーパラメータ感度

  • マスキング比率ρ:0.2が最適値
  • トークン数K:3~4個のトークンが最良の効果
  • ガイダンス強度ω:小さい値(ω=2)が改善をもたらす
  • 重み付けパラメータ:γ₁=1、γ₂=0.5で最適性能

関連研究

LLM推薦システム

  1. 離散トークン化:P5が複数タスクをテキスト生成に統一、TIGER/TokenRecはベクトル量子化を使用
  2. 連続投影:CoLLM/LlaRAが協調表現を直接投影し、離散-連続の不一致が存在

拡散モデルと連続トークン

  1. 画像生成:VAE-MAR、Next-Token Diffusionが連続トークンの可能性を示す
  2. マルチモーダルモデリング:DEEMなどが拡散をLLMの「目」として使用
  3. タンパク質モデリング:DPLMなどが連続構造埋め込みでの成功を示す

結論と考察

主要な結論

  1. 連続トークンの利点が検証された:量子化損失を回避し、より正確な表現学習を実現
  2. 拡散モデルが推薦に適用可能:ユーザー嗜好モデリングで強力な能力を示す
  3. ハイブリッド検索メカニズムが有効:明示的推論と暗黙的表現の利点を結合
  4. エンドツーエンド最適化が実現可能:統一フレームワークで各コンポーネントの協調最適化を実現

限界

  1. 計算オーバーヘッド:推論時間は主にLLM推論で占有(約88.6%)
  2. ユーザー嗜好の変化:急激な嗜好変化への適応性が限定的
  3. 応用シナリオ:大規模オンラインシステムより対話型推薦に適している
  4. データ依存性:豊富なアイテムテキスト情報サポートが必要

今後の方向性

  1. 効率最適化:より効率的な連続トークン生成手法の探索
  2. 動的モデリング:ユーザー嗜好進化のモデリング能力の強化
  3. マルチモーダル拡張:画像、ビデオなどのマルチモーダル情報の統合
  4. 理論分析:推薦における連続トークンの理論的基礎の深化

深層評価

強み

  1. 革新性が高い:LLM推薦システムに連続トークンを初めて体系的に導入
  2. 技術が厳密:σ-VAE設計が巧妙で、表現崩壊を効果的に防止
  3. 実験が充分:複数データセット検証、詳細なアブレーション・感度分析
  4. 理論的支持:分散損失の数学的導出が明確で、設計が合理的

不足

  1. 計算効率:推論遅延が高く、実際の応用シナリオを制限
  2. 汎化能力:ユーザー嗜好の急変シナリオでの性能が限定的
  3. 比較が不十分:より多くの最新LLM推薦手法との比較が欠落
  4. 理論分析が不足:連続トークン利点の理論的説明が深化の余地あり

影響力

  1. 学術的貢献:LLM推薦システムに新しい技術パスを提供
  2. 実用的価値:対話型推薦などのシナリオで良好な応用前景
  3. 再現性:詳細な実装詳細とハイパーパラメータ設定を提供
  4. 啓発的意義:推薦システムと生成型AIの結合に新しい思考を提供

適用シナリオ

  1. 個性化対話推薦:説明性と相互作用性が必要なシナリオ
  2. コールドスタート推薦:テキスト情報を活用した新規ユーザー/アイテム処理
  3. クロスドメイン推薦:LLMの汎化能力を活用したドメイン間転移
  4. 研究プロトタイプ:連続トークン推薦探索の基礎フレームワーク

参考文献

本論文は推薦システム、大規模言語モデル、拡散モデルなど複数分野の重要な研究を引用している:

  • 古典的推薦アルゴリズム:LightGCN、SASRecなど
  • LLM推薦システム:P5、TIGER、TokenRecなど
  • 拡散モデル:DDPM、Classifier-free Guidanceなど
  • 連続トークン化:VAE-MAR、Next-Token Diffusionなど

総合評価:これはLLM推薦システム分野において重要な革新的意義を持つ研究である。連続トークン化と拡散モデルの導入を通じて、既存手法の限界を効果的に解決している。計算効率と特定シナリオの適用性の面でまだ改善の余地があるが、技術革新と実験検証は十分であり、該分野の発展に価値ある貢献を提供している。