2025-11-20T21:55:15.461429

Diffusion Generative Recommendation with Continuous Tokens

Qu, Lin, Ding et al.
Recent advances in generative artificial intelligence, particularly large language models (LLMs), have opened new opportunities for enhancing recommender systems (RecSys). Most existing LLM-based RecSys approaches operate in a discrete space, using vector-quantized tokenizers to align with the inherent discrete nature of language models. However, these quantization methods often result in lossy tokenization and suboptimal learning, primarily due to inaccurate gradient propagation caused by the non-differentiable argmin operation in standard vector quantization. Inspired by the emerging trend of embracing continuous tokens in language models, we propose ContRec, a novel framework that seamlessly integrates continuous tokens into LLM-based RecSys. Specifically, ContRec consists of two key modules: a sigma-VAE Tokenizer, which encodes users/items with continuous tokens; and a Dispersive Diffusion module, which captures implicit user preference. The tokenizer is trained with a continuous Variational Auto-Encoder (VAE) objective, where three effective techniques are adopted to avoid representation collapse. By conditioning on the previously generated tokens of the LLM backbone during user modeling, the Dispersive Diffusion module performs a conditional diffusion process with a novel Dispersive Loss, enabling high-quality user preference generation through next-token diffusion. Finally, ContRec leverages both the textual reasoning output from the LLM and the latent representations produced by the diffusion model for Top-K item retrieval, thereby delivering comprehensive recommendation results. Extensive experiments on four datasets demonstrate that \ourname{} consistently outperforms both traditional and SOTA LLM-based recommender systems. Our results highlight the potential of continuous tokenization and generative modeling for advancing the next generation of recommender systems.
academic

Diffusion Generative Recommendation with Continuous Tokens

Grundinformationen

  • Papier-ID: 2504.12007
  • Titel: Diffusion Generative Recommendation with Continuous Tokens
  • Autoren: Haohao Qu, Shanru Lin, Yujuan Ding, Yiqi Wang, Wenqi Fan
  • Klassifizierung: cs.IR cs.AI
  • Veröffentlichungsdatum/Konferenz: arXiv-Preprint (überarbeitete Fassung vom 10. Oktober 2025)
  • Papierlink: https://arxiv.org/abs/2504.12007

Zusammenfassung

Das vorliegende Papier adressiert die Limitierungen diskreter Tokenisierungsmethoden in auf großen Sprachmodellen (LLM) basierenden Empfehlungssystemen und schlägt das ContRec-Framework vor. Dieses Framework integriert kontinuierliche Token nahtlos in LLM-Empfehlungssysteme. ContRec umfasst zwei Kernmodule: einen σ-VAE-Tokenizer (zur Kodierung von Benutzern/Objekten mit kontinuierlichen Token) und ein Dispersions-Diffusionsmodul (zur Erfassung impliziter Benutzerpräferenzen). Durch die Kombination von Textausgaben aus LLM-Reasoning und latenten Darstellungen aus Diffusionsmodellen für die Top-K-Objektabruf zeigen Experimente auf vier Datensätzen, dass ContRec traditionelle und hochmoderne LLM-Empfehlungssysteme erheblich übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Bestehende LLM-basierte Empfehlungssysteme stehen zwei kritischen Herausforderungen gegenüber:

  1. Verlustbehaftete Tokenisierung: Vektorquantisierungsmethoden verlieren während der Kompression unweigerlich Informationen
  2. Ungenaue Gradientenausbreitung: Die nicht-differenzierbare Argmin-Operation in der Standard-Vektorquantisierung führt zur Verwendung des "Straight-Through"-Tricks, was zu ungenauen Gradienten führt

Forschungsrelevanz

  • LLM zeigen starke Verallgemeinerungsfähigkeiten und kontextabhängiges Lernvermögen in Empfehlungssystemen
  • Benutzer- und Objektmengen erreichen typischerweise Millionengröße, was traditionelle Indexierungsmethoden ineffizient macht
  • Quantisierungsmethoden sind zwar praktisch, weisen aber Einschränkungen bei Rekonstruktionsqualität und Generierungsleistung auf

Limitierungen bestehender Methoden

  1. Diskrete Methoden: Wie TIGER, UTGRec verwenden VQ-VAE zur Erstellung diskreter Vokabulare, leiden aber unter Informationskomprimierungsverlusten
  2. Kontinuierliche Projektionsmethoden: Wie CoLLM, LlaRA verwenden kontinuierliche Token nur in der Eingabephase, während die Ausgabe weiterhin auf diskrete Generatoren angewiesen ist, was zu Diskret-Kontinuierlich-Diskrepanzen führt

Forschungsmotivation

Inspiriert durch den Trend kontinuierlicher Token in Sprachmodellen wird das Potenzial kontinuierlicher Token und Diffusionsmodelle in Empfehlungsszenarien erforscht, um eine hochwertigere Modellierung von Benutzerpräferenzen zu erreichen.

Kernbeiträge

  1. Vorschlag des ContRec-Frameworks: Das erste Framework, das kontinuierliche Token nahtlos in LLM-Empfehlungssysteme integriert und Quantisierungsbeschränkungen überwindet
  2. Entwurf zweier Schlüsselmodule:
    • σ-VAE-Tokenizer: Ein robuster kontinuierlicher Tokenizer mit drei Techniken zur Vermeidung von Darstellungskollaps
    • Dispersions-Diffusionsmodul: Generiert implizite Benutzerpräferenzdarstellungen durch kontrastives selbstüberwachtes Lernen
  3. Einführung der Dispersionsverlustfunktion: Ein kontrastiver Lernmechanismus ohne explizite positive/negative Stichprobenpaare
  4. Experimentelle Validierung: Durchschnittliche Verbesserungen von 11,76% HR@10 und 10,11% NDCG@10 über vier Datensätze

Methodische Details

Aufgabendefinition

Gegeben eine Benutzermenge U = {u₁, u₂, ..., uₙ} und eine Objektmenge V = {v₁, v₂, ..., vₘ} besteht das Ziel darin, zukünftige Benutzerpräferenzen durch Analyse historischer Interaktionen vorherzusagen, indem die Sequenzempfehlung als Sprachmodell-Paradigma reformuliert wird:

Yᵢ = LLM(P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)}))

Modellarchitektur

1. σ-VAE-Tokenizer

Verwendet ein VAE-Framework für nicht-quantisierte Tokenisierung mit drei Schlüsseltechniken:

Maskierungsoperation: Elementweise Maskierungsstrategie basierend auf Bernoulli-Verteilung

μₖ = Encₖ(Mask(x, ρ))

K-Wege-Encoder: Parallele Kodierungskanäle für implizite Kodierung

zₖ = μₖ + σₖ ⊙ ε, wobei ε ~ N(0,1), σₖ ~ N(0,Σ)

Gaußscher Kern: Verhindert Varianzenkollaps

x̂ = Dec(Concat{zₖ}ᴷ)

Verlustfunktion:

Lvae = ||x̂ - x||₂² + (β/K)∑ᵏ₌₁ᴷ ||μₖ||₂²

2. LLM-Benutzermodellierung

Kombiniert diskrete semantische Informationen und kontinuierliches Kollaborationswissen:

Xᵢ := P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)})

Verwendet spezielle Token ⟨z_start⟩ und ⟨z_end⟩ zur Markierung des Anfangs und Endes kontinuierlicher Tokensequenzen.

3. Dispersions-Diffusionsmodul

Bedingter Diffusionsprozess:

Ldiff = E(yᵢ,cᵢ,t) ||ε - εθ(y^t_i, cᵢ, t)||₂²

Dispersionsverlust:

Ldisp = log E_{i,j}[exp(-D(hᵢ, hⱼ)/τ)]

Dies ist eine "kontrastive Verlustfunktion ohne positive Stichprobenpaare", die die Dispersion von Darstellungen innerhalb eines Batches fördert.

Technische Innovationen

  1. Kontinuierliche Tokenisierung: Vermeidet vollständig Quantisierungsoperationen und bewahrt Informationsvollständigkeit
  2. Hybrider Abrufmechanismus: Kombiniert LLM-Textreasoning und implizite Darstellungen aus Diffusionsgenerierung
  3. End-to-End-Optimierung: Einheitliche Optimierungsziele integrieren drei Verlustfunktionen
  4. Klassifizierer-freie Anleitung: Kontrolliert Personalisierungsintensität während der Inferenz

Experimentelle Einrichtung

Datensätze

Verwendet vier Benchmark-Datensätze:

DatensatzBenutzerObjekteInteraktionenDurchschn. LängeDichte(%)
LastFM1.0913.68552.67048,31,31
ML1M6.0403.416447.294165,52,17
Beauty22.36312.101278.6418,90,07
Games47.56816.834266.1399,50,03

Bewertungsmetriken

  • HR@K (Hit Ratio): Top-K-Trefferquote
  • NDCG@K (Normalized Discounted Cumulative Gain): Normalisierter diskontierter kumulativer Gewinn
  • K-Werte auf 10 und 20 gesetzt

Vergleichsmethoden

Traditionelle Sequenzempfehlung: GRU4Rec, SASRec, SSD4Rec, DreamRec LLM-Empfehlungssysteme: P5, CoLLM, TIGER, TokenRec, LLaRA

Implementierungsdetails

  • Basismodell: Llama-3.2-1B-Instruct
  • Optimierer: AdamW (Lernrate 1e-5/1e-4)
  • Batch-Größe: 24
  • Maximale Sequenzlänge: 20
  • Diffusionsschritte: 1000 beim Training, 100 bei der Inferenz

Experimentelle Ergebnisse

Hauptergebnisse

ContRec erreicht optimale Leistung auf allen Datensätzen:

DatensatzMetrikBeste BaselineContRecVerbesserung
BeautyHR@100,04420,0473±0,00177,74%
GamesHR@100,10180,1041±0,00368,66%
LastFMHR@100,05250,0539±0,003415,42%
ML1MHR@100,10760,1099±0,006615,20%

Im Vergleich zu TIGER (typische diskrete Methode) durchschnittliche Verbesserungen von 11,76% HR@10 und 10,11% NDCG@10.

Ablationsstudien

Analyse der Beiträge von Schlüsselkomponenten:

KomponenteBeauty HR@10ML1M HR@10Auswirkung
Vollständiges Modell0,04730,1099-
ohne Diffusion0,04310,1007Signifikanter Rückgang
ohne Dispersionsverlust0,04480,1042Deutlicher Rückgang
ohne σ0,04570,1051Leistungsrückgang
mit VQ-VAE0,04260,0974Großer Rückgang

Rekonstruktionsbewertung

Bei der Aufgabe der Objekteinbettungsrekonstruktion übertreffen kontinuierliche Methoden diskrete Methoden erheblich:

  • Diffusionsmodell zeigt niedrigsten Rekonstruktionsfehler
  • VAE übertrifft verschiedene Quantisierungsmethoden (VQ-VAE, RQ-VAE, MQ-VAE)
  • Verlustkonvergenz ist glatter

Hyperparameter-Sensitivität

  • Maskierungsverhältnis ρ: 0,2 ist optimal
  • Token-Anzahl K: 3-4 Token zeigen beste Leistung
  • Anleitungsintensität ω: Kleine Werte (ω=2) bringen Verbesserungen
  • Gewichtungsparameter: Optimale Leistung bei γ₁=1, γ₂=0,5

Verwandte Arbeiten

LLM-Empfehlungssysteme

  1. Diskrete Tokenisierung: P5 vereinheitlicht Multi-Task-Probleme als Textgenerierung, TIGER/TokenRec verwenden Vektorquantisierung
  2. Kontinuierliche Projektion: CoLLM/LlaRA projizieren direkt kollaborative Darstellungen, weisen aber Diskret-Kontinuierlich-Diskrepanzen auf

Diffusionsmodelle und kontinuierliche Token

  1. Bildgenerierung: VAE-MAR, Next-Token Diffusion zeigen Potenzial kontinuierlicher Token
  2. Multimodale Modellierung: DEEM nutzt Diffusion als "Auge" für LLM
  3. Proteinmodellierung: DPLM zeigt Erfolg bei kontinuierlichen Struktureinbettungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Vorteile kontinuierlicher Token validiert: Vermeidet Quantisierungsverluste und ermöglicht präziseres Darstellungslernen
  2. Diffusionsmodelle geeignet für Empfehlungen: Zeigen starke Fähigkeiten bei der Modellierung von Benutzerpräferenzen
  3. Hybrider Abrufmechanismus effektiv: Kombiniert Vorteile expliziter Reasoning und impliziter Darstellungen
  4. End-to-End-Optimierung machbar: Einheitliches Framework ermöglicht synergistische Optimierung aller Komponenten

Limitierungen

  1. Rechenkomplexität: Inferenzzeit wird hauptsächlich durch LLM-Inferenz dominiert (ca. 88,6%)
  2. Benutzerpräferenzwechsel: Begrenzte Anpassungsfähigkeit an plötzliche Präferenzänderungen
  3. Anwendungsszenarien: Besser geeignet für personalisierte Konversationsempfehlungen als für großflächige Online-Systeme
  4. Datenabhängigkeit: Erfordert umfangreiche Objekttextinformationen

Zukünftige Richtungen

  1. Effizienzoptimierung: Erkundung effizienterer Methoden zur kontinuierlichen Tokengenerierung
  2. Dynamische Modellierung: Verbesserung der Modellierungsfähigkeit für Benutzerpräferenzentwicklung
  3. Multimodale Erweiterung: Integration von Bild-, Video- und anderen multimodalen Informationen
  4. Theoretische Analyse: Tieferes Verständnis der theoretischen Grundlagen kontinuierlicher Token in Empfehlungen

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erste systematische Integration kontinuierlicher Token in LLM-Empfehlungssysteme
  2. Technische Strenge: Ausgefeilter σ-VAE-Entwurf verhindert effektiv Darstellungskollaps
  3. Umfangreiche Experimente: Validierung über mehrere Datensätze mit detaillierten Ablations- und Sensitivitätsanalysen
  4. Theoretische Unterstützung: Klare mathematische Herleitung der Dispersionsverlustfunktion mit durchdachtem Design

Schwächen

  1. Rechnerische Effizienz: Höhere Inferenzlatenz begrenzt praktische Anwendungsszenarien
  2. Verallgemeinerungsfähigkeit: Begrenzte Leistung bei Szenarien mit plötzlichen Benutzerpräferenzänderungen
  3. Unvollständige Vergleiche: Fehlende Vergleiche mit mehr aktuellen LLM-Empfehlungsmethoden
  4. Unzureichende theoretische Analyse: Theoretische Erklärung der Vorteile kontinuierlicher Token bedarf Vertiefung

Auswirkungen

  1. Akademischer Beitrag: Bietet neuen technischen Weg für LLM-Empfehlungssysteme
  2. Praktischer Wert: Gute Anwendungsaussichten in Szenarien wie Konversationsempfehlungen
  3. Reproduzierbarkeit: Detaillierte Implementierungsdetails und Hyperparameter-Einstellungen bereitgestellt
  4. Inspirationswert: Bietet neue Perspektiven für die Kombination von Empfehlungssystemen und generativer KI

Anwendungsszenarien

  1. Personalisierte Konversationsempfehlung: Szenarien, die Erklärbarkeit und Interaktivität erfordern
  2. Kaltstart-Empfehlung: Nutzung von Textinformationen für neue Benutzer/Objekte
  3. Cross-Domain-Empfehlung: Nutzung der Verallgemeinerungsfähigkeit von LLM für Domänentransfer
  4. Forschungsprototyp: Als Grundlagen-Framework zur Erkundung kontinuierlicher Token-Empfehlungen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus den Bereichen Empfehlungssysteme, große Sprachmodelle und Diffusionsmodelle, einschließlich:

  • Klassische Empfehlungsalgorithmen: LightGCN, SASRec etc.
  • LLM-Empfehlungssysteme: P5, TIGER, TokenRec etc.
  • Diffusionsmodelle: DDPM, Classifier-free Guidance etc.
  • Kontinuierliche Tokenisierung: VAE-MAR, Next-Token Diffusion etc.

Gesamtbewertung: Dies ist eine Arbeit mit bedeutender Innovationskraft im Bereich LLM-Empfehlungssysteme. Durch die Einführung kontinuierlicher Tokenisierung und Diffusionsmodelle werden die Limitierungen bestehender Methoden effektiv gelöst. Obwohl es noch Verbesserungspotenzial bei Rechnerischer Effizienz und Anwendbarkeit in bestimmten Szenarien gibt, sind sowohl die technischen Innovationen als auch die experimentelle Validierung umfassend und liefern wertvolle Beiträge zur Entwicklung dieses Forschungsbereichs.