2025-11-22T10:40:16.215584

What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context

Ouyang, Wen, Zhang et al.
Sequential recommendation systems aspire to profile users by interpreting their interaction histories, echoing how humans make decisions by weighing experience, relative preference strength, and situational relevance. Yet, existing large language model (LLM)-based recommenders often fall short of mimicking the flexible, context-aware decision strategies humans exhibit, neglecting the structured, dynamic, and context-aware mechanisms fundamental to human behaviors. To bridge this gap, we propose RecPO, a preference optimization framework that models structured feedback and contextual delay to emulate human-like prioritization in sequential recommendation. RecPO exploits adaptive reward margins based on inferred preference hierarchies and temporal signals, enabling the model to favor immediately relevant items and to distinguish between varying degrees of preference and aversion. Extensive experiments across five real-world datasets demonstrate that RecPO not only yields performance gains over state-of-the-art baselines, but also mirrors key characteristics of human decision-making: favoring timely satisfaction, maintaining coherent preferences, and exercising discernment under shifting contexts.
academic

LLM-গুলিকে কার্যকর ক্রমিক সুপারিশকারী করে তোলে কী? পছন্দের তীব্রতা এবং সময়গত প্রসঙ্গের একটি অধ্যয়ন

মৌলিক তথ্য

  • পেপার আইডি: 2506.02261
  • শিরোনাম: What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context
  • লেখক: Zhongyu Ouyang, Qianlong Wen, Chunhui Zhang, Yanfang Ye, Soroush Vosoughi
  • প্রতিষ্ঠান: Dartmouth College, University of Notre Dame
  • শ্রেণীবিভাগ: cs.IR, cs.LG
  • প্রকাশনার সময়: ২০২৫ সালের অক্টোবর ১০ (arXiv v2)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2506.02261v2

সারসংক্ষেপ

ক্রমিক সুপারিশ ব্যবস্থা ব্যবহারকারীদের তাদের ইন্টারঅ্যাকশন ইতিহাস ব্যাখ্যা করে প্রোফাইল করার লক্ষ্য রাখে, যা মানুষ অভিজ্ঞতা, আপেক্ষিক পছন্দের শক্তি এবং পরিস্থিতিগত প্রাসঙ্গিকতা বিবেচনা করে সিদ্ধান্ত নেওয়ার পদ্ধতির প্রতিফলন। তবে, বিদ্যমান বড় ভাষা মডেল (LLM)-ভিত্তিক সুপারিশকারীরা প্রায়শই মানুষের প্রদর্শিত নমনীয়, প্রসঙ্গ-সচেতন সিদ্ধান্ত কৌশলগুলি অনুকরণ করতে ব্যর্থ হয়, মানব আচরণের জন্য মৌলিক কাঠামোগত, গতিশীল এবং প্রসঙ্গ-সচেতন প্রক্রিয়াগুলি উপেক্ষা করে। এই ব্যবধান পূরণের জন্য, আমরা RecPO প্রস্তাব করি, একটি পছন্দ অপ্টিমাইজেশন কাঠামো যা ক্রমিক সুপারিশে মানব-সদৃশ অগ্রাধিকার অনুকরণ করতে কাঠামোগত প্রতিক্রিয়া এবং প্রসঙ্গগত বিলম্ব মডেল করে। RecPO অনুমানকৃত পছন্দের শ্রেণিবিন্যাস এবং সময়গত সংকেতের উপর ভিত্তি করে অভিযোজিত পুরস্কার মার্জিন ব্যবহার করে, মডেলটিকে অবিলম্বে প্রাসঙ্গিক আইটেমগুলিকে অনুকূল করতে এবং পছন্দ এবং বিরূপতার বিভিন্ন ডিগ্রি মধ্যে পার্থক্য করতে সক্ষম করে। পাঁচটি বাস্তব-বিশ্ব ডেটাসেট জুড়ে ব্যাপক পরীক্ষা-নিরীক্ষা দেখায় যে RecPO শুধুমাত্র অত্যাধুনিক ভিত্তিরেখার উপর কর্মক্ষমতা লাভ প্রদান করে না, বরং মানব সিদ্ধান্ত গ্রহণের মূল বৈশিষ্ট্যগুলিও প্রতিফলিত করে: সময়োপযোগী সন্তুষ্টি অনুকূল করা, সুসংগত পছন্দ বজায় রাখা এবং পরিবর্তনশীল প্রসঙ্গে বিচক্ষণতা প্রয়োগ করা।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বিদ্যমান বড় ভাষা মডেল (LLM)-ভিত্তিক ক্রমিক সুপারিশ ব্যবস্থা প্রধানত নিম্নলিখিত সমস্যাগুলির সম্মুখীন হয়:

  1. দ্বিমুখী পছন্দ মডেলিং: DPO এবং এর ভেরিয়েন্টগুলির মতো বিদ্যমান পদ্ধতিগুলি সমস্ত পছন্দগুলি দ্বিমুখী জোড়া তুলনার মাধ্যমে পরিচালনা করে, পছন্দের তীব্রতার পার্থক্যগুলি উপেক্ষা করে
  2. সময়গত প্রসঙ্গের অনুপস্থিতি: সময়-সংবেদনশীলতার মডেলিং অনুপস্থিত, অবিলম্বে সন্তুষ্টি এবং বিলম্বিত সন্তুষ্টির মধ্যে পার্থক্য করতে অক্ষম
  3. মানব সিদ্ধান্ত গ্রহণ প্রক্রিয়ার উপেক্ষা: সিদ্ধান্ত গ্রহণ প্রক্রিয়ায় অভিজ্ঞতা, আপেক্ষিক পছন্দের শক্তি এবং পরিস্থিতিগত প্রাসঙ্গিকতা ভারসাম্য রাখার জটিল প্রক্রিয়া অনুকরণ করতে ব্যর্থ

গবেষণা প্রেরণা

মানব সিদ্ধান্ত গ্রহণের আচরণ শ্রেণীবদ্ধ পছন্দ (শক্তিশালী পছন্দ বনাম হালকা পছন্দ) এবং সময়গত সংবেদনশীলতা (অবিলম্বে বনাম বিলম্বিত সন্তুষ্টি) প্রদর্শন করে, যা আচরণগত অর্থনীতি এবং জ্ঞানীয় বিজ্ঞানে সম্পূর্ণভাবে প্রমাণিত, কিন্তু বর্তমান LLM সুপারিশ ব্যবস্থার পছন্দ সারিবদ্ধকরণে ব্যাপকভাবে উপেক্ষা করা হয়। এই পেপারটি সিস্টেমেটিক অভিজ্ঞতামূলক গবেষণার মাধ্যমে আবিষ্কার করে যে সম্পূর্ণ প্রতিক্রিয়া (নেতিবাচক ইন্টারঅ্যাকশন সহ) এবং কাঠামোগত পছন্দ সংকেত (যেমন রেটিং) একীভূত করা কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করতে পারে।

মূল অন্তর্দৃষ্টি

ধারণা প্রমাণ পরীক্ষা-নিরীক্ষার মাধ্যমে, লেখকরা দুটি মূল কারণ চিহ্নিত করেন:

  • পছন্দের তীব্রতা: ব্যবহারকারীর সখ্যতা বা বিরূপতার শ্রেণীবদ্ধ তীব্রতা
  • সময়গত প্রসঙ্গ: সন্তুষ্টির অবিলম্বতা

মূল অবদান

  1. তাত্ত্বিক অবদান: সিস্টেমেটিকভাবে প্রমাণ করে যে পছন্দের তীব্রতা এবং সময়গত প্রসঙ্গ LLM সুপারিশ ব্যবস্থায় সূক্ষ্ম-দানাদার পছন্দ মডেলিংয়ের মূল কারণ, বিদ্যমান দ্বিমুখী পছন্দ প্যারাডাইমকে চ্যালেঞ্জ করে
  2. পদ্ধতিগত অবদান: RecPO কাঠামো প্রস্তাব করে, পছন্দের তীব্রতা এবং সময়গত প্রসঙ্গের উপর ভিত্তি করে অভিযোজিত পুরস্কার মার্জিনের মাধ্যমে এই কারণগুলি একীভূত করে
  3. অভিজ্ঞতামূলক অবদান: পাঁচটি ডেটাসেটে পরীক্ষা-নিরীক্ষা দেখায় যে RecPO শুধুমাত্র নির্ভুলতা উন্নত করে না, বরং মানব পছন্দের সাথে সামঞ্জস্যপূর্ণ আচরণগত বৈশিষ্ট্যও প্রদর্শন করে: সময়োপযোগী সন্তুষ্টি অগ্রাধিকার দেওয়া, পরিবর্তনশীল প্রসঙ্গে পছন্দ সামঞ্জস্য বজায় রাখা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

সময় t-তে ব্যবহারকারী u-এর ইন্টারঅ্যাকশন ইতিহাস HutH_u^t এবং প্রার্থী আইটেম সেট C={i(j)}j=1KC = \{i^{(j)}\}_{j=1}^K দেওয়া, যেখানে HutC=H_u^t \cap C = \emptyset এবং ipt+1Ci_p^{t+1} \in C, মডেল πθ\pi_\theta ব্যবহারকারী সবচেয়ে বেশি পছন্দ করার সম্ভাবনা আছে এমন আইটেম ipt+1i_p^{t+1} পূর্বাভাস দিতে প্রয়োজন।

মূল পদ্ধতি: RecPO কাঠামো

১. অভিযোজিত পুরস্কার মার্জিন

RecPO-এর মূল উদ্ভাবন অভিযোজিত লক্ষ্য পুরস্কার মার্জিন γr\gamma_r সংজ্ঞায়িত করা, যা কাঠামোগত পছন্দ এবং আপেক্ষিক সময়োপযোগীতা দ্বারা গতিশীলভাবে নির্ধারিত হয়:

γr=λϕ(sp,Δtp)ϕ(sd,Δtd)\gamma_r = \lambda \frac{\phi(s_p, \Delta t_p)}{\phi(s_d, \Delta t_d)}

যেখানে:

  • sp,sds_p, s_d যথাক্রমে পছন্দ এবং অ-পছন্দ আইটেমগুলির কাঠামোগত পছন্দ স্কোর
  • Δtp=tp+t\Delta t_p = t_p^+ - t ইন্টারঅ্যাকশনের সময়গত বিলম্ব প্রতিনিধিত্ব করে
  • ϕ(s,Δt)=s/(Δt)0.5\phi(s, \Delta t) = s/(\Delta t)^{0.5} উপযোগিতা ফাংশন
  • λ\lambda মার্জিনের প্রশস্ততা নিয়ন্ত্রণ করে

২. পছন্দ বিতরণ মডেলিং

Bradley-Terry মডেলের উপর ভিত্তি করে, RecPO পছন্দ সম্ভাবনা মডেল করে:

P(ypydxu)=σ(r(xu,yp)r(xu,yd)γr)P^*(y_p \succ y_d | x_u) = \sigma(r(x_u, y_p) - r(x_u, y_d) - \gamma_r)

३. উদ্দেশ্য ফাংশন

Plackett-Luce মডেল ব্যবহার করে জোড়া তুলনা থেকে তালিকা-স্তরের র‍্যাঙ্কিং কাঠামোতে সাধারণীকরণ করে, চূড়ান্ত উদ্দেশ্য ফাংশন:

L(πθ;πref)=E(xu,yp,Td)D[logσ(logydTdexp(βlogπθ(ydxu)πref(ydxu)βlogπθ(ypxu)πref(ypxu)λϕ(sp,Δtp)ϕ(sd,Δtd)))]L(\pi_\theta; \pi_{ref}) = -E_{(x_u,y_p,T_d)\sim D}\left[\log \sigma\left(-\log \sum_{y_d \in T_d} \exp\left(\beta \log \frac{\pi_\theta(y_d|x_u)}{\pi_{ref}(y_d|x_u)} - \beta \log \frac{\pi_\theta(y_p|x_u)}{\pi_{ref}(y_p|x_u)} - \lambda \frac{\phi(s_p,\Delta t_p)}{\phi(s_d,\Delta t_d)}\right)\right)\right]

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. অ-সমান মার্জিন ডিজাইন: পূর্ববর্তী কাজ যা একীভূত মার্জিন ব্যবহার করে তার থেকে ভিন্ন, RecPO পছন্দের তীব্রতা এবং সময়গত দূরত্বের উপর ভিত্তি করে মার্জিন গতিশীলভাবে সামঞ্জস্য করে
  2. সম্পূর্ণ প্রতিক্রিয়া ব্যবহার: সম্পূর্ণ ইন্টারঅ্যাকশন সিকোয়েন্স ধরে রাখে, নেতিবাচক প্রতিক্রিয়া সহ, এবং স্পষ্ট রেটিং একত্রিত করে
  3. মানব জ্ঞানীয় সারিবদ্ধকরণ: জ্ঞানীয় বিজ্ঞান নীতির উপর ভিত্তি করে ডিজাইন করা পছন্দ মডেলিং প্রক্রিয়া

পরীক্ষা সেটআপ

ডেটাসেট

পাঁচটি বাস্তব-বিশ্ব ক্রমিক সুপারিশ ডেটাসেট ব্যবহার করা হয়েছে:

  • স্পষ্ট প্রতিক্রিয়া ডেটাসেট: MovieLens-1M, Amazon-Books, BeerAdvocate
  • অন্তর্নিহিত প্রতিক্রিয়া ডেটাসেট: Steam, LastFM
ডেটাসেটসিকোয়েন্স সংখ্যাআইটেম সংখ্যাইন্টারঅ্যাকশন সংখ্যা
MovieLens6,0403,952994,169
Amazon-Books5,10338,20362,290
Steam3,1714,25182,072
BeerAdvocate4,7246,10591,207
LastFM982107,296307,829

মূল্যায়ন মেট্রিক্স

  • Hit Ratio@1: সঠিক আইটেম সুপারিশ করার জন্য মডেলের অনুপাত পরিমাপ করে
  • Valid Ratio: নির্দেশ অনুসরণ ক্ষমতা মূল্যায়ন করে, ফর্ম্যাট প্রয়োজনীয়তা পূরণ করে এমন আউটপুটের পরিমাণ পরিমাপ করে

তুলনামূলক পদ্ধতি

  • ঐতিহ্যবাহী পদ্ধতি: GRU4Rec, Caser, SASRec
  • LLM পদ্ধতি: DPO, SimPO, S-DPO
  • ভিত্তি মডেল: LLaMA3-8B, Qwen2.5-7B

বাস্তবায়ন বিবরণ

  • শেখার হার: 1e-5, অপ্টিমাইজার: AdamW
  • ব্যাচ আকার: 128, সিকোয়েন্স দৈর্ঘ্য: ডেটাসেট অনুযায়ী সামঞ্জস্য করা
  • নেতিবাচক নমুনা সংখ্যা: 3, মার্জিন প্যারামিটার λ: 2
  • হার্ডওয়্যার: 8×NVIDIA RTX A100 (80GB)

পরীক্ষার ফলাফল

প্রধান ফলাফল

সমস্ত পাঁচটি ডেটাসেটে, RecPO সর্বোত্তম কর্মক্ষমতা অর্জন করেছে:

মডেলMovieLens HR@1Amazon-Books HR@1BeerAdvocate HR@1Steam HR@1LastFM HR@1
SASRec0.26710.15590.38000.45870.6659
S-DPO0.29020.50650.46980.35880.5719
RecPO0.34510.58020.57710.46720.6830

মূল আবিষ্কার

  1. সম্পূর্ণ প্রতিক্রিয়ার গুরুত্ব: নেতিবাচক ইন্টারঅ্যাকশন ধরে রাখা শুধুমাত্র ইতিবাচক প্রতিক্রিয়া ব্যবহার করার চেয়ে কর্মক্ষমতা উন্নত করে
  2. কাঠামোগত সংকেতের মূল্য: রেটিং তথ্য যোগ করা উল্লেখযোগ্যভাবে কর্মক্ষমতা উন্নত করে
  3. কারণ পরিপূরকতা: সর্বোত্তম কর্মক্ষমতা সম্পূর্ণ প্রতিক্রিয়া এবং কাঠামোগত সংকেতের সমন্বয় থেকে আসে

বিলোপন পরীক্ষা

মার্জিন ফাংশনের বিলোপন গবেষণা দেখায়:

ডেটাসেটLog DiffLog RatioRecPO (Ratio)
MovieLens0.31600.32470.3451
Amazon-Books0.53700.54550.5802

অনুপাত-ভিত্তিক মার্জিন ফাংশন সমস্ত ডেটাসেটে সর্বোত্তম কর্মক্ষমতা অর্জন করে।

মানব সারিবদ্ধকরণ আচরণ বিশ্লেষণ

RecPO চারটি মূল মাত্রায় মানব-সারিবদ্ধ আচরণ প্রদর্শন করে:

  1. সময়গত প্রসঙ্গ সংবেদনশীলতা: ভবিষ্যতের উচ্চ-রেটেড আইটেম সহ প্রার্থী সেট সহ, RecPO সময়োপযোগী উপযুক্ত আইটেম সুপারিশ করতে আরও ভালভাবে অগ্রাধিকার দিতে পারে
  2. পছন্দ তীব্রতা উপলব্ধি: চূড়ান্তভাবে কম রেটিং দেওয়া আকর্ষণীয় আইটেম সুপারিশ এড়াতে পারে
  3. অন্তর্নিহিত বিরূপতা মডেলিং: স্পষ্ট বিরূপতা লেবেল ছাড়াই ব্যবহারকারী অপছন্দের আইটেম চিহ্নিত করতে পারে
  4. ক্রস-প্রসঙ্গ দৃঢ়তা: বিভিন্ন ইন্টারঅ্যাকশন ইতিহাস দৈর্ঘ্যে স্থিতিশীল কর্মক্ষমতা বজায় রাখে

সম্পর্কিত কাজ

ক্রমিক সুপারিশ

GRU4Rec-এর মতো প্রাথমিক পদ্ধতি পুনরাবৃত্তিমূলক স্নায়ু নেটওয়ার্ক ব্যবহার করে, SASRec স্ব-মনোযোগ প্রক্রিয়া প্রবর্তন করে। সাম্প্রতিক পদ্ধতি গ্রাফ কাঠামো, বৈপরীত্য শেখা ইত্যাদি প্রযুক্তি একীভূত করে।

LLM সুপারিশ ব্যবস্থা

LLaRA, TALLRec ইত্যাদি পদ্ধতি LLM-কে সুপারিশ ব্যবস্থায় একীভূত করে, কিন্তু প্রধানত শব্দার্থিক বোঝাপড়ার উপর ফোকাস করে পছন্দ মডেলিংয়ের সূক্ষ্ম-দানাদার কারণগুলি নয়।

LLM সারিবদ্ধকরণ প্রযুক্তি

RLHF থেকে DPO এবং এর ভেরিয়েন্ট (IPO, CPO, KTO, SimPO) পর্যন্ত, এই পদ্ধতিগুলি প্রধানত সাধারণ NLP কাজের জন্য লক্ষ্য করা হয়, S-DPO প্রথমবার সুপারিশ কাজে সারিবদ্ধকরণ প্রযুক্তি অভিযোজিত করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. পছন্দের তীব্রতা এবং সময়গত প্রসঙ্গ LLM সুপারিশ ব্যবস্থায় উপেক্ষা করা কিন্তু গুরুত্বপূর্ণ কারণ
  2. RecPO অভিযোজিত পুরস্কার মার্জিনের মাধ্যমে এই কারণগুলি কার্যকরভাবে একীভূত করে, কর্মক্ষমতা উন্নতি এবং মানব আচরণ সারিবদ্ধকরণ অর্জন করে
  3. এই পদ্ধতি স্পষ্ট এবং অন্তর্নিহিত প্রতিক্রিয়া ডেটাসেট উভয়েই সামঞ্জস্যপূর্ণ উন্নতি প্রদর্শন করে

সীমাবদ্ধতা

  1. সরলীকৃত পছন্দ কাঠামো: সরলীকৃত সিকোয়েন্স পছন্দ কাঠামো গ্রহণ করেছে
  2. একক প্রসঙ্গ কারণ: সন্তুষ্টি বিলম্ব শুধুমাত্র প্রসঙ্গ কারণ হিসাবে বিবেচনা করে
  3. মূল্যায়ন মেট্রিক্স সীমাবদ্ধতা: প্রধানত একক মেট্রিকের উপর নির্ভর করে, আরও ব্যাপক আচরণগত প্যাটার্ন ক্যাপচার করতে ব্যর্থ

ভবিষ্যত দিকনির্দেশনা

  1. জটিল পছন্দ শ্রেণিবিন্যাস মডেলিং: আরও জটিল জ্ঞানীয় বিশ্বাসযোগ্য পছন্দ কাঠামো অন্বেষণ করা
  2. সমৃদ্ধ প্রসঙ্গ কারণ: আরও প্রসঙ্গ প্রভাব কারণ একীভূত করা
  3. ব্যাপক মূল্যায়ন কাঠামো: আরও ব্যাপক আচরণ-ভিত্তিক মূল্যায়ন মেট্রিক্স বিকাশ করা

গভীর মূল্যায়ন

শক্তি

  1. সমস্যা চিহ্নিতকরণ নির্ভুল: বিদ্যমান পদ্ধতির মূল সমস্যা স্পষ্টভাবে চিহ্নিত করে (দ্বিমুখী পছন্দ মডেলিং)
  2. পদ্ধতি ডিজাইন যুক্তিসঙ্গত: জ্ঞানীয় বিজ্ঞান নীতির উপর ভিত্তি করে ডিজাইন করা অভিযোজিত মার্জিন প্রক্রিয়া তাত্ত্বিক ভিত্তি রয়েছে
  3. পরীক্ষা ডিজাইন সম্পূর্ণ: ধারণা প্রমাণ, প্রধান পরীক্ষা, বিলোপন পরীক্ষা এবং আচরণ বিশ্লেষণের সম্পূর্ণ পরীক্ষা কাঠামো অন্তর্ভুক্ত করে
  4. ফলাফল প্ররোচনা শক্তিশালী: একাধিক ডেটাসেটে সামঞ্জস্যপূর্ণ উন্নতি এবং মানব আচরণ সারিবদ্ধকরণ বিশ্লেষণ প্ররোচনা শক্তি বৃদ্ধি করে

অপূর্ণতা

  1. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: এই মার্জিন ডিজাইন কেন কার্যকর তার গভীর তাত্ত্বিক বিশ্লেষণ অনুপস্থিত
  2. গণনামূলক জটিলতা আলোচিত নয়: বেসলাইন পদ্ধতির তুলনায় গণনামূলক খরচ বিশ্লেষণ করা হয়নি
  3. হাইপারপ্যারামিটার সংবেদনশীলতা: মূল প্যারামিটার λ-এর সংবেদনশীলতা বিশ্লেষণ তুলনামূলকভাবে সহজ
  4. সাধারণীকরণ ক্ষমতা সীমিত: প্রধানত নির্দিষ্ট ধরনের সুপারিশ কাজে যাচাই করা হয়েছে, সাধারণীকরণ ক্ষমতা যাচাইয়ের অপেক্ষায়

প্রভাব

  1. একাডেমিক অবদান: LLM সুপারিশ ব্যবস্থা গবেষণার জন্য নতুন গবেষণা দিকনির্দেশনা এবং তাত্ত্বিক কাঠামো প্রদান করে
  2. ব্যবহারিক মূল্য: সরাসরি প্রয়োগযোগ্য উন্নতি পদ্ধতি প্রদান করে, কোড ওপেন সোর্স পুনরুৎপাদনযোগ্যতা বৃদ্ধি করে
  3. অনুপ্রেরণা তাৎপর্য: AI সিস্টেম ডিজাইনে জ্ঞানীয় বিজ্ঞান নীতির গুরুত্ব জোর দেয়

প্রযোজ্য দৃশ্যকল্প

  1. ক্রমিক সুপারিশ ব্যবস্থা: বিশেষত স্পষ্ট সময় সিকোয়েন্স এবং রেটিং তথ্য সহ সুপারিশ দৃশ্যকল্পের জন্য উপযুক্ত
  2. ব্যক্তিগতকৃত অ্যাপ্লিকেশন: সূক্ষ্ম পছন্দ মডেলিং প্রয়োজন এমন ব্যক্তিগতকৃত সেবার জন্য উপযুক্ত
  3. বহু-মোডেল সুপারিশ: কাঠামো ডিজাইন সম্প্রসারণযোগ্যতা রয়েছে, বহু-মোডেল সুপারিশ কাজে অভিযোজিত হতে পারে

রেফারেন্স

এই পেপারটি সুপারিশ ব্যবস্থা, LLM সারিবদ্ধকরণ, জ্ঞানীয় বিজ্ঞান ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • ক্লাসিক সুপারিশ পদ্ধতি: GRU4Rec, SASRec, Caser
  • LLM সারিবদ্ধকরণ প্রযুক্তি: DPO, RLHF, SimPO
  • জ্ঞানীয় বিজ্ঞান ভিত্তি: Astington & Jenkins (1995) মানব সিদ্ধান্ত গ্রহণ প্রক্রিয়া সম্পর্কিত গবেষণা

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার, তাত্ত্বিক অবদান, পদ্ধতি উদ্ভাবন এবং পরীক্ষামূলক যাচাইকরণের ক্ষেত্রে চমৎকার পারফরম্যান্স প্রদর্শন করে। পেপারটি সফলভাবে LLM সুপারিশ ব্যবস্থায় মূল সমস্যা চিহ্নিত এবং সমাধান করে, প্রস্তাবিত RecPO কাঠামো ভাল তাত্ত্বিক ভিত্তি এবং ব্যবহারিক মূল্য রয়েছে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে সুপারিশ ব্যবস্থা এবং LLM সারিবদ্ধকরণ গবেষণা ক্ষেত্রে এর অবদান উল্লেখযোগ্য।