Recovering user preferences from user-item interaction matrices is a key challenge in recommender systems. While diffusion models can sample and reconstruct preferences from latent distributions, they often fail to capture similar users' collective preferences effectively. Additionally, latent variables degrade into pure Gaussian noise during the forward process, lowering the signal-to-noise ratio, which in turn degrades performance. To address this, we propose S-Diff, inspired by graph-based collaborative filtering, better to utilize low-frequency components in the graph spectral domain. S-Diff maps user interaction vectors into the spectral domain and parameterizes diffusion noise to align with graph frequency. This anisotropic diffusion retains significant low-frequency components, preserving a high signal-to-noise ratio. S-Diff further employs a conditional denoising network to encode user interactions, recovering true preferences from noisy data. This method achieves strong results across multiple datasets.
- পেপার আইডি: 2501.00384
- শিরোনাম: S-Diff: An Anisotropic Diffusion Model for Collaborative Filtering in Spectral Domain
- লেখক: Rui Xia, Yanhua Cheng, Yongxiang Tang, Xiaocheng Liu, Xialong Liu, Lisong Wang, Peng Jiang
- শ্রেণীবিভাগ: cs.IR (তথ্য পুনরুদ্ধার)
- প্রকাশনা সম্মেলন: WSDM '25 (ওয়েব সার্চ এবং ডেটা মাইনিং এ আঠারোতম ACM আন্তর্জাতিক সম্মেলন)
- পেপার লিঙ্ক: https://arxiv.org/abs/2501.00384
সুপারিশ ব্যবস্থায় ব্যবহারকারী-পণ্য ইন্টারঅ্যাকশন ম্যাট্রিক্স থেকে ব্যবহারকারীর পছন্দ পুনরুদ্ধার করা একটি মূল চ্যালেঞ্জ। যদিও ডিফিউশন মডেলগুলি সুপ্ত বিতরণ থেকে নমুনা এবং পছন্দ পুনর্নির্মাণ করতে পারে, তারা প্রায়শই অনুরূপ ব্যবহারকারীদের সম্মিলিত পছন্দ কার্যকরভাবে ক্যাপচার করতে ব্যর্থ হয়। অধিকন্তু, এগিয়ে যাওয়ার প্রক্রিয়ায় সুপ্ত ভেরিয়েবলগুলি বিশুদ্ধ গাউসিয়ান শব্দে অবনত হয়, সংকেত-থেকে-শব্দ অনুপাত হ্রাস করে এবং কর্মক্ষমতা প্রভাবিত করে। এই সমস্যাগুলি সমাধান করার জন্য, আমরা S-Diff প্রস্তাব করি, যা গ্রাফ-ভিত্তিক সহযোগিতামূলক ফিল্টারিং দ্বারা অনুপ্রাণিত, স্পেকট্রাল ডোমেইনে নিম্ন-ফ্রিকোয়েন্সি উপাদানগুলি আরও ভালভাবে ব্যবহার করে। S-Diff ব্যবহারকারীর ইন্টারঅ্যাকশন ভেক্টরগুলিকে স্পেকট্রাল ডোমেইনে ম্যাপ করে এবং ডিফিউশন শব্দকে গ্রাফ ফ্রিকোয়েন্সির সাথে সারিবদ্ধ করার জন্য প্যারামিটারাইজ করে। এই অ্যানিসোট্রপিক ডিফিউশন গুরুত্বপূর্ণ নিম্ন-ফ্রিকোয়েন্সি উপাদানগুলি সংরক্ষণ করে এবং উচ্চ সংকেত-থেকে-শব্দ অনুপাত বজায় রাখে। S-Diff আরও শর্তসাপেক্ষ ডিনোইজিং নেটওয়ার্ক ব্যবহার করে ব্যবহারকারীর ইন্টারঅ্যাকশন এনকোড করে এবং শব্দযুক্ত ডেটা থেকে প্রকৃত পছন্দ পুনরুদ্ধার করে। এই পদ্ধতি একাধিক ডেটাসেটে শক্তিশালী ফলাফল অর্জন করে।
সুপারিশ ব্যবস্থার মূল কাজ হল বিরল ব্যবহারকারী-পণ্য ইন্টারঅ্যাকশন ম্যাট্রিক্স থেকে ব্যবহারকারীর প্রকৃত পছন্দ পুনরুদ্ধার করা, যা মূলত একটি বিপরীত সমস্যা। ঐতিহ্যবাহী সহযোগিতামূলক ফিল্টারিং পদ্ধতি ব্যবহারকারীদের মধ্যে সাদৃশ্য খনন করে এই সমস্যা সমাধান করে।
- ঐতিহ্যবাহী ডিফিউশন মডেলের অপর্যাপ্ততা:
- প্রধানত ব্যক্তিগত ব্যবহারকারীর ইন্টারঅ্যাকশন ভেক্টরের উপর নির্ভর করে শর্তসাপেক্ষ ইনপুট হিসাবে, সহযোগিতামূলক ফিল্টারিংয়ে ব্যবহারকারীদের মধ্যে ভাগ করা পছন্দের তথ্য সম্পূর্ণভাবে ব্যবহার করে না
- উচ্চ-মাত্রিক ঐতিহ্যগত ইন্টারঅ্যাকশন ভেক্টরে বিপুল পরিমাণ গাউসিয়ান শব্দ ইনজেক্ট করে, যা ডিনোইজিং ডিকোডারের পুনরুদ্ধার প্রক্রিয়া জটিল করে তোলে
- এনকোডিং-ডিকোডিং অসামঞ্জস্য:
- কিছু মডেল ডিকোডিং নেটওয়ার্কে স্পষ্টভাবে সহযোগিতামূলক তথ্য শর্তসাপেক্ষ নির্দেশনা হিসাবে ব্যবহার করে, কিন্তু এগিয়ে যাওয়ার প্রক্রিয়া সহযোগিতামূলক সংকেত প্রতিফলিত করে না
- এনকোডিং এবং ডিকোডিং প্রক্রিয়ার মধ্যে অসামঞ্জস্য তৈরি করে
- সংকেত-থেকে-শব্দ অনুপাত অবনতি সমস্যা:
- সুপ্ত ভেরিয়েবলগুলি এগিয়ে যাওয়ার প্রক্রিয়ায় বিশুদ্ধ গাউসিয়ান শব্দে অবনত হয়, সংকেত-থেকে-শব্দ অনুপাত হ্রাস করে
- মডেলের সামগ্রিক কর্মক্ষমতা প্রভাবিত করে
গ্রাফ-ভিত্তিক সহযোগিতামূলক ফিল্টারিং এবং গ্রাফ সিগন্যাল প্রসেসিংয়ের সাফল্য দ্বারা অনুপ্রাণিত, লেখকরা পর্যবেক্ষণ করেছেন যে গ্রাফ কনভোলিউশনের "অতিরিক্ত মসৃণকরণ" প্রক্রিয়া ডিফিউশন প্রক্রিয়ায় সংকেত মসৃণকরণের অনুরূপ। এই অন্তর্দৃষ্টির উপর ভিত্তি করে, তারা গ্রাফ স্পেকট্রাল ডোমেইনে অ্যানিসোট্রপিক ডিফিউশন পরিচালনা করার প্রস্তাব দেয় যাতে নিম্ন-ফ্রিকোয়েন্সি তথ্য (বৈশ্বিক পছন্দ প্রতিনিধিত্ব করে) আরও ভালভাবে সংরক্ষণ করা যায়।
- স্পেকট্রাল ডোমেইন এগিয়ে যাওয়ার ডিফিউশন প্রক্রিয়া প্রস্তাব: গ্রাফ স্পেকট্রাল ডোমেইনে সংজ্ঞায়িত একটি এগিয়ে যাওয়ার ডিফিউশন প্রক্রিয়া চালু করে, ব্যবহারকারীর বৈশ্বিক পছন্দ তথ্য কার্যকরভাবে একীভূত করে
- অ্যানিসোট্রপিক শব্দ প্যারামিটারাইজেশন পদ্ধতি: বিভিন্ন ফ্রিকোয়েন্সি উপাদানের শব্দ স্কেল মডুলেট করার জন্য প্যারামিটারাইজেশন পদ্ধতি প্রস্তাব করে, তাত্ত্বিক বিশ্লেষণ এবং পরীক্ষামূলক ফলাফল সংকেত-থেকে-শব্দ অনুপাতের ক্ষেত্রে এই সেটআপের সুবিধা প্রমাণ করে
- উপাদান-স্তরের সংমিশ্রণ ডিনোইজিং মডিউল: বিপরীত প্রক্রিয়ায় উপাদান-স্তরের সংমিশ্রণের উপর ভিত্তি করে একটি ডিনোইজিং মডিউল ডিজাইন করে, ব্যাপক পরীক্ষা প্রস্তাবিত পদ্ধতির কার্যকারিতা যাচাই করে
- তাত্ত্বিক গ্যারান্টি: স্পেকট্রাল ডোমেইন ডিফিউশন প্রক্রিয়ার সীমাবদ্ধতা বৈশিষ্ট্য বিশ্লেষণ প্রদান করে, পদ্ধতির তাত্ত্বিক যুক্তিসঙ্গততা প্রমাণ করে
ব্যবহারকারী সেট U এবং পণ্য সেট I দেওয়া, ব্যবহারকারী-পণ্য ইন্টারঅ্যাকশন ম্যাট্রিক্স X ∈ {0,1}^{|U|×|I|}, যেখানে x_{u,i} = 1 নির্দেশ করে যে ব্যবহারকারী u পণ্য i এর সাথে ইন্টারঅ্যাক্ট করেছে। লক্ষ্য হল মূল্যায়ন ভেক্টর x̂ ∈ ℝ^{|I|} পূর্বাভাস দেওয়া, নির্দিষ্ট ব্যবহারকারীর জন্য সমস্ত পণ্যের সম্ভাব্য পছন্দ স্কোর তৈরি করা।
- পণ্য সাদৃশ্য গ্রাফ: সাধারণীকৃত সাদৃশ্য সংলগ্ন ম্যাট্রিক্স সংজ্ঞায়িত করে A = X̃^TX̃, যেখানে X̃ = D_U^{-1/2}X****D_I^{-1/2}
- ল্যাপ্লেসিয়ান অপারেটর: L = I - A
- বৈশিষ্ট্য বিয়োজন: L = UΛU^T, যেখানে Λ বৈশিষ্ট্যমান এবং U বৈশিষ্ট্য ভেক্টর ধারণ করে
ঐতিহ্যবাহী ডিফিউশন প্রক্রিয়া: x_t = α_tx_0 + σ_tε_t
উন্নত গ্রাফ-নির্দেশিত ডিফিউশন: x_t = C_tx_0 + σ_tε_t
যেখানে C_t = e^{-Lt} ল্যাপ্লেসিয়ান ম্যাট্রিক্স দ্বারা সংজ্ঞায়িত সময় ক্ষয় অপারেটর।
স্পেকট্রাল রূপান্তর v_t = U^Tx_t এর মাধ্যমে, ডিফিউশন প্রক্রিয়া স্পেকট্রাল ডোমেইনে রূপান্তরিত করে:
v_t = λ_t ⊙ v_0 + σtv{ε,t}
যেখানে:
- v_0 = U^Tx_0 হল x_0 এর ফ্রিকোয়েন্সি প্রতিক্রিয়া
- λ_t = e^{-t·d_1}, e^{-t·d_2}, ..., e^{-t·d_{|I|}} হল বৈশিষ্ট্যমান ভেক্টর
- ⊙ উপাদান-স্তরের গুণন নির্দেশ করে
বৈচিত্র্য-সংরক্ষণ ডিফিউশন মডেল গ্রহণ করে:
- α_t = λ_t
- σ_t^2 = 1 - λ_t^2
সীমানা প্যারামিটার নিয়ন্ত্রণ প্রবর্তন করে:
- αt = (1 - α) · λt + α
- σ_t = Min(√(1 - λt^2), σ)
নিউরাল নেটওয়ার্ক φ_θ ব্যবহার করে ডিনোইজিং, অপ্টিমাইজেশন উদ্দেশ্য:
L_t = E_{(v_0,v_t)~q_0(v_0)q_t(v_t|v_0)}||φ_θ(v_t, U^Tc, t) - v_0||^2
- স্পেকট্রাল ডোমেইন ম্যাপিং: ঐতিহ্যবাহী স্থানিক ডোমেইন ডিফিউশনকে গ্রাফ স্পেকট্রাল ডোমেইনে রূপান্তরিত করে, গ্রাফের ফ্রিকোয়েন্সি বৈশিষ্ট্য ব্যবহার করে
- অ্যানিসোট্রপিক শব্দ: বৈশিষ্ট্যমান অনুযায়ী বিভিন্ন ফ্রিকোয়েন্সি উপাদানের শব্দ স্তর মডুলেট করে, নিম্ন-ফ্রিকোয়েন্সি তথ্য সংরক্ষণ করে
- সীমাবদ্ধতা বৈশিষ্ট্য: ল্যাপ্লেসিয়ান ম্যাট্রিক্স বৈশিষ্ট্যমানের সীমাবদ্ধতার কারণে, সংকেত-থেকে-শব্দ অনুপাতের নিম্ন সীমা নিশ্চিত করে
- FiLM সংমিশ্রণ: উপাদান-স্তরের শর্তসাপেক্ষ সংমিশ্রণের জন্য Feature-wise Linear Modulation ব্যবহার করে
তিনটি জনসাধারণ ডেটাসেট ব্যবহার করে:
- MovieLens-1M: 5,949 ব্যবহারকারী, 2,810 পণ্য, 571,531 ইন্টারঅ্যাকশন, বিরলতা 96.6%
- Yelp: 54,574 ব্যবহারকারী, 34,395 পণ্য, 1,402,736 ইন্টারঅ্যাকশন, বিরলতা 99.93%
- Amazon-Book: 108,822 ব্যবহারকারী, 94,949 পণ্য, 3,146,256 ইন্টারঅ্যাকশন, বিরলতা 99.97%
ডেটা 7:1:2 অনুপাতে প্রশিক্ষণ, যাচাইকরণ এবং পরীক্ষা সেটে বিভক্ত।
- Recall@K: শীর্ষ-K সুপারিশ তালিকায় প্রাসঙ্গিক পণ্যের অনুপাত পরিমাপ করে
- NDCG@K: র্যাঙ্কিং-সংবেদনশীল মেট্রিক, উচ্চতর অবস্থানে প্রাসঙ্গিক পণ্যকে উচ্চতর স্কোর দেয়
ঐতিহ্যবাহী সহযোগিতামূলক ফিল্টারিং পদ্ধতি, গ্রাফ নিউরাল নেটওয়ার্ক পদ্ধতি এবং ডিফিউশন মডেল অন্তর্ভুক্ত করে:
- MF, LightGCN, CDAE, MultiDAE/MultiVAE
- CODIGEM, DiffRec (ডিফিউশন মডেল)
- LinkProp, BSPM, Giff (গ্রাফ সিগন্যাল প্রসেসিং পদ্ধতি)
- ব্যাচ আকার: 100
- শেখার হার: 1e-4
- সর্বাধিক প্রশিক্ষণ পুনরাবৃত্তি: 1,000
- ডিফিউশন ধাপ: T=5
- স্পেকট্রাল বিয়োজন মাত্রা: 200 মাত্রা
সমস্ত ডেটাসেট এবং মূল্যায়ন মেট্রিক্সে, S-Diff সমস্ত তুলনা পদ্ধতিকে উল্লেখযোগ্যভাবে অতিক্রম করে:
Amazon-Book ডেটাসেট:
- Recall@10: 0.1155 (বনাম সেরা baseline Giff: 0.1109)
- NDCG@10: 0.0746 (বনাম সেরা baseline Giff: 0.0733)
Yelp ডেটাসেট:
- Recall@10: 0.0635 (বনাম সেরা baseline Giff: 0.0639)
- NDCG@20: 0.0561 (বনাম সেরা baseline Giff: 0.0520)
MovieLens-1M ডেটাসেট:
- Recall@10: 0.1277 (বনাম সেরা baseline Giff: 0.1108)
- NDCG@10: 0.0970 (বনাম সেরা baseline Giff: 0.0952)
বিভিন্ন শব্দ সময়সূচী কৌশল তুলনা করে:
- DDPM in Spectral: স্পেকট্রাল ডোমেইনে ঐতিহ্যবাহী গাউসিয়ান শব্দ ব্যবহার করে
- S-Diff-VE: বৈচিত্র্য বিস্ফোরণ ডিফিউশন
- S-Diff-VP: বৈচিত্র্য-সংরক্ষণ ডিফিউশন (এই পদ্ধতি)
ফলাফল দেখায় যে S-Diff-VP সংকেত-থেকে-শব্দ অনুপাত এবং কর্মক্ষমতা উভয় ক্ষেত্রেই সর্বোত্তম।
FiLM স্তর সরানোর পরে কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস পায়, উপাদান-স্তরের সংমিশ্রণের গুরুত্ব যাচাই করে।
তাত্ত্বিক বিশ্লেষণ এবং পরীক্ষা প্রমাণ করে যে স্পেকট্রাল ডোমেইন অ্যানিসোট্রপিক ডিফিউশন ঐতিহ্যবাহী ডিফিউশন মডেলের তুলনায় আরও ভাল সংকেত-থেকে-শব্দ অনুপাত নিম্ন সীমা রয়েছে:
SNR(t) = α_t^2/σ_t^2 ≥ (e^{-2τ})^2/(1-(e^{-2τ})^2)
পরীক্ষা দেখায় যে 1000 ধাপ ডিফিউশনের পরেও, S-Diff সনাক্তযোগ্য সংকেত-থেকে-শব্দ অনুপাত বজায় রাখে।
- স্পেকট্রাল বিয়োজন মাত্রা K: K=200 এ সর্বোত্তম কর্মক্ষমতা অর্জিত হয়
- সীমানা প্যারামিটার: α_ ∈ 0, 0.1, σ_ ∈ 0.4, 0.5 এ সেরা প্রভাব
- CODIGEM: প্রথমবার DDPM সহযোগিতামূলক ফিল্টারিংয়ে প্রয়োগ করে
- DiffRec: সুপ্ত স্থান ম্যাপিং এবং সময় ধাপ নির্দেশনার মাধ্যমে ডিফিউশন মডেল উন্নত করে
- CF-Diff: শর্তসাপেক্ষ হিসাবে বহু-হপ প্রতিবেশী তথ্য পূর্বগণনা করে
- Giff: সংকেত মসৃণকরণ এবং পুনরুদ্ধারের জন্য গ্রাফ প্রচার ব্যবহার করে
- LightGCN: প্রতিবেশী তথ্য একাধিক স্তরের রৈখিক সমন্বয়
- Poly-CF: স্ব-অভিযোজিত স্পেকট্রাল গ্রাফ ফিল্টারিং
- SGFCF: সহযোগিতামূলক ফিল্টারিংকে স্ব-অভিযোজিত ফিল্টার ডিজাইন সমস্যায় রূপান্তরিত করে
- S-Diff সফলভাবে গ্রাফ স্পেকট্রাল তত্ত্ব এবং ডিফিউশন মডেল একত্রিত করে, স্পেকট্রাল ডোমেইনে অ্যানিসোট্রপিক ডিফিউশন পরিচালনা করে
- নিম্ন-ফ্রিকোয়েন্সি উপাদান সংরক্ষণ এবং উচ্চ সংকেত-থেকে-শব্দ অনুপাত বজায় রেখে, সুপারিশ কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
- পদ্ধতি ভাল তাত্ত্বিক ভিত্তি এবং পরীক্ষামূলক যাচাইকরণ রয়েছে
- গণনা জটিলতা: স্পেকট্রাল বিয়োজন প্রয়োজন, সময় জটিলতা O(K|I|m)
- প্যারামিটার টিউনিং: সীমানা প্যারামিটার α_ এবং σ_ সাবধানে সামঞ্জস্য প্রয়োজন
- স্কেলেবিলিটি: অতি-বড় আকারের ডেটাসেটে প্রয়োগযোগ্যতা যাচাই করা প্রয়োজন
- গণনা দক্ষতা অপ্টিমাইজ করা: আরও দক্ষ স্পেকট্রাল বিয়োজন এবং ডিফিউশন প্রক্রিয়া গবেষণা করা
- স্ব-অভিযোজিত প্যারামিটার: শব্দ প্যারামিটার স্বয়ংক্রিয়ভাবে সামঞ্জস্য করার পদ্ধতি বিকাশ করা
- মাল্টিমোডাল সম্প্রসারণ: পদ্ধতি মাল্টিমোডাল সুপারিশ দৃশ্যে সম্প্রসারিত করা
- তাত্ত্বিক উদ্ভাবন: গ্রাফ সিগন্যাল প্রসেসিং এবং ডিফিউশন মডেলকে চতুরভাবে একত্রিত করে, নতুন তাত্ত্বিক দৃষ্টিভঙ্গি প্রদান করে
- প্রযুক্তিগত অগ্রগতি: অ্যানিসোট্রপিক শব্দ সময়সূচী এবং স্পেকট্রাল ডোমেইন ডিফিউশন গুরুত্বপূর্ণ প্রযুক্তিগত অবদান
- ব্যাপক পরীক্ষা: একাধিক ডেটাসেটে ব্যাপক তুলনা এবং বিয়োজন পরীক্ষা পরিচালিত
- উচ্চতর কর্মক্ষমতা: সমস্ত মূল্যায়ন মেট্রিক্সে সর্বোত্তম কর্মক্ষমতা অর্জন করে
- উচ্চ জটিলতা: স্পেকট্রাল বিয়োজন গণনা ওভারহেড যোগ করে, বড় আকারের ডেটায় প্রয়োগ সীমিত করতে পারে
- প্যারামিটার সংবেদনশীলতা: পদ্ধতি একাধিক হাইপারপ্যারামিটার জড়িত, সাবধানে টিউনিং প্রয়োজন
- অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: অ্যানিসোট্রপিক ডিফিউশন কেন আরও কার্যকর তার গভীর তাত্ত্বিক ব্যাখ্যা অভাব
- একাডেমিক মূল্য: সুপারিশ ব্যবস্থায় ডিফিউশন মডেলের প্রয়োগের জন্য নতুন চিন্তাভাবনা প্রদান করে
- ব্যবহারিক মূল্য: পদ্ধতি ভাল কর্মক্ষমতা উন্নতি রয়েছে, ব্যবহারিক প্রয়োগ সম্ভাবনা রয়েছে
- পুনরুৎপাদনযোগ্যতা: কাগজ বিস্তারিত বাস্তবায়ন বিবরণ এবং অ্যালগরিদম বর্ণনা প্রদান করে
- মধ্যম আকারের সুপারিশ ব্যবস্থা
- সুপারিশ গুণমান উচ্চ প্রয়োজনীয়তার দৃশ্য
- স্পষ্ট সহযোগিতামূলক ফিল্টারিং বৈশিষ্ট্য সহ ডেটাসেট
- গণনা সম্পদ তুলনামূলকভাবে পর্যাপ্ত পরিবেশ
কাগজ 52টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, ডিফিউশন মডেল, সহযোগিতামূলক ফিল্টারিং, গ্রাফ নিউরাল নেটওয়ার্ক এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ কভার করে, এই গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা কাগজ, তাত্ত্বিক উদ্ভাবন এবং পরীক্ষামূলক যাচাইকরণ উভয় ক্ষেত্রেই চমৎকার কর্মক্ষমতা প্রদর্শন করে। গ্রাফ স্পেকট্রাল তত্ত্ব এবং ডিফিউশন মডেলের সংমিশ্রণ একটি মূল্যবান অবদান, সুপারিশ ব্যবস্থা ক্ষেত্রের জন্য নতুন গবেষণা দিকনির্দেশনা প্রদান করে। কিছু সীমাবদ্ধতা থাকলেও, সামগ্রিকভাবে এটি একটি মনোযোগ দেওয়ার যোগ্য কাজ।