এই পেপারটি বৃহৎ ভাষা মডেল (LLM) ভিত্তিক সুপারিশ সিস্টেমে বিচ্ছিন্ন টোকেনাইজেশন পদ্ধতির সীমাবদ্ধতার সমাধান করে ContRec ফ্রেমওয়ার্ক প্রস্তাব করে। এটি ক্রমাগত টোকেনকে LLM সুপারিশ সিস্টেমে নির্বিঘ্নে একীভূত করে। ContRec দুটি মূল মডিউল অন্তর্ভুক্ত করে: σ-VAE টোকেনাইজার (ব্যবহারকারী/আইটেম এনকোডিংয়ের জন্য) এবং বিচ্ছুরণ বিস্তার মডিউল (অন্তর্নিহিত ব্যবহারকারী পছন্দ ক্যাপচার করতে)। LLM এর পাঠ্য যুক্তি আউটপুট এবং বিস্তার মডেল দ্বারা উত্পন্ন সুপ্ত প্রতিনিধিত্ব একত্রিত করে শীর্ষ-K আইটেম পুনরুদ্ধারের জন্য, চারটি ডেটাসেটে পরীক্ষা-নিরীক্ষা দেখায় যে ContRec ঐতিহ্যবাহী এবং অত্যাধুনিক LLM সুপারিশ সিস্টেমকে উল্লেখযোগ্যভাবে অতিক্রম করে।
বিদ্যমান LLM ভিত্তিক সুপারিশ সিস্টেম প্রধানত দুটি মূল সমস্যার সম্মুখীন:
ভাষা মডেলে ক্রমাগত টোকেন গ্রহণের প্রবণতা দ্বারা অনুপ্রাণিত, সুপারিশ পরিস্থিতিতে ক্রমাগত টোকেন এবং বিস্তার মডেল ব্যবহারের সম্ভাবনা অন্বেষণ করে, উচ্চতর গুণমানের ব্যবহারকারী পছন্দ মডেলিং অর্জন করে।
ব্যবহারকারী সেট U = {u₁, u₂, ..., uₙ} এবং আইটেম সেট V = {v₁, v₂, ..., vₘ} দেওয়া, লক্ষ্য হল ঐতিহাসিক মিথস্ক্রিয়া বিশ্লেষণের মাধ্যমে ব্যবহারকারীর ভবিষ্যত পছন্দ পূর্বাভাস দেওয়া, ক্রম সুপারিশকে ভাষা মডেল প্যারাডাইমে পুনর্নির্ধারণ করা:
Yᵢ = LLM(P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)}))
অ-কোয়ান্টাইজড টোকেনাইজেশনের জন্য VAE ফ্রেমওয়ার্ক ব্যবহার করে, তিনটি মূল প্রযুক্তি অন্তর্ভুক্ত করে:
মাস্কিং অপারেশন: বার্নুলি বিতরণের উপর ভিত্তি করে উপাদান-স্তরের মাস্কিং কৌশল
μₖ = Encₖ(Mask(x, ρ))
K-পথ এনকোডার: সমান্তরাল এনকোডিং চ্যানেল অন্তর্নিহিত এনকোডিং বাস্তবায়ন করে
zₖ = μₖ + σₖ ⊙ ε, যেখানে ε ~ N(0,1), σₖ ~ N(0,Σ)
গাউসীয় কার্নেল: বৈচিত্র্য পতন প্রতিরোধ করে
x̂ = Dec(Concat{zₖ}ᴷ)
ক্ষতি ফাংশন:
Lvae = ||x̂ - x||₂² + (β/K)∑ᵏ₌₁ᴷ ||μₖ||₂²
বিচ্ছিন্ন শব্দার্থ তথ্য এবং ক্রমাগত সহযোগিতামূলক জ্ঞান একত্রিত করে:
Xᵢ := P(Tᵢ, {Tⱼ|vⱼ ∈ V(uᵢ)})
বিশেষ টোকেন ⟨z_start⟩ এবং ⟨z_end⟩ ব্যবহার করে ক্রমাগত টোকেন ক্রমের শুরু এবং শেষ চিহ্নিত করে।
শর্তসাপেক্ষ বিস্তার প্রক্রিয়া:
Ldiff = E(yᵢ,cᵢ,t) ||ε - εθ(y^t_i, cᵢ, t)||₂²
বিচ্ছুরণ ক্ষতি:
Ldisp = log E_{i,j}[exp(-D(hᵢ, hⱼ)/τ)]
এটি একটি "ইতিবাচক নমুনা জোড়া ছাড়াই বৈসাদৃশ্য ক্ষতি", যা ব্যাচ অভ্যন্তরীণ প্রতিনিধিত্ব বিচ্ছুরণ উৎসাহিত করে।
চারটি বেঞ্চমার্ক ডেটাসেট ব্যবহার করে:
| ডেটাসেট | ব্যবহারকারী সংখ্যা | আইটেম সংখ্যা | মিথস্ক্রিয়া সংখ্যা | গড় দৈর্ঘ্য | ঘনত্ব(%) |
|---|---|---|---|---|---|
| LastFM | ১,০৯১ | ३,६८५ | ५२,६७० | ४८.३ | १.३१ |
| ML1M | ६,०४० | ३,४१६ | ४४७,२९४ | १६५.५ | २.१७ |
| Beauty | २२,३६३ | १२,१०१ | २७८,६४१ | ८.९ | ०.०७ |
| Games | ४७,५६८ | १६,८३४ | २६६,१३९ | ९.५ | ०.०३ |
ঐতিহ্যবাহী ক্রম সুপারিশ: GRU4Rec, SASRec, SSD4Rec, DreamRec LLM সুপারিশ সিস্টেম: P5, CoLLM, TIGER, TokenRec, LLaRA
ContRec সমস্ত ডেটাসেটে সর্বোত্তম কর্মক্ষমতা অর্জন করে:
| ডেটাসেট | মেট্রিক | সেরা ভিত্তি | ContRec | উন্নতি |
|---|---|---|---|---|
| Beauty | HR@10 | ०.०४४२ | ०.०४७३±०.००१७ | ७.७४% |
| Games | HR@10 | ०.१०१८ | ०.१०४१±०.००३६ | ८.६६% |
| LastFM | HR@10 | ०.०५२५ | ०.०५३९±०.००३४ | १५.४२% |
| ML1M | HR@10 | ०.१०७६ | ०.१०९९±००६६ | १५.२०% |
TIGER (সাধারণ বিচ্ছিন্ন পদ্ধতি) এর তুলনায় গড়ে ११.७६% HR@१० এবং १०.११% NDCG@१० উন্নতি।
মূল উপাদান অবদান বিশ্লেষণ:
| উপাদান | Beauty HR@10 | ML1M HR@10 | প্রভাব |
|---|---|---|---|
| সম্পূর্ণ মডেল | ०.०४७३ | ०.१०९९ | - |
| বিস্তার ছাড়া | ०.०४३१ | ०.१००७ | উল্লেখযোগ্য হ্রাস |
| বিচ্ছুরণ ক্ষতি ছাড়া | ०.०४४८ | ०.१०४२ | স্পষ্ট হ্রাস |
| σ ছাড়া | ०.०४५७ | ०.१०५१ | কর্মক্ষমতা হ্রাস |
| VQ-VAE সহ | ०.०४२६ | ०.०९७४ | উল্লেখযোগ্য হ্রাস |
আইটেম এম্বেডিং পুনর্নির্মাণ কাজে, ক্রমাগত পদ্ধতি বিচ্ছিন্ন পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল:
१. বিচ্ছিন্ন টোকেনাইজেশন: P५ একাধিক কাজকে পাঠ্য প্রজন্মে একীভূত করে, TIGER/TokenRec ভেক্টর কোয়ান্টাইজেশন ব্যবহার করে २. ক্রমাগত প্রক্ষেপণ: CoLLM/LlaRA সরাসরি সহযোগিতামূলক প্রতিনিধিত্ব প্রজেক্ট করে, বিচ্ছিন্ন-ক্রমাগত পার্থক্য রয়েছে
१. ছবি প্রজন্ম: VAE-MAR, Next-Token Diffusion ক্রমাগত টোকেন সম্ভাবনা প্রদর্শন করে २. বহু-মোডেল মডেলিং: DEEM ইত্যাদি বিস্তারকে LLM এর "চোখ" হিসাবে ব্যবহার করে ३. প্রোটিন মডেলিং: DPLM ইত্যাদি ক্রমাগত কাঠামো এম্বেডিংয়ে সফল প্রয়োগ
१. ক্রমাগত টোকেন সুবিধা যাচাইকৃত: কোয়ান্টাইজেশন ক্ষতি এড়ায়, আরও নির্ভুল প্রতিনিধিত্ব শেখা অর্জন করে २. বিস্তার মডেল সুপারিশের জন্য উপযুক্ত: ব্যবহারকারী পছন্দ মডেলিংয়ে শক্তিশালী ক্ষমতা প্রদর্শন করে ३. হাইব্রিড পুনরুদ্ধার প্রক্রিয়া কার্যকর: স্পষ্ট যুক্তি এবং অন্তর্নিহিত প্রতিনিধিত্বের সুবিধা একত্রিত করে ४. শেষ থেকে শেষ অপ্টিমাইজেশন সম্ভব: একীভূত ফ্রেমওয়ার্ক প্রতিটি উপাদানের সহযোগী অপ্টিমাইজেশন অর্জন করে
१. গণনা ওভারহেড: অনুমান সময় প্রধানত LLM অনুমান দ্বারা দখল করা হয় (প্রায় ८८.६%) २. ব্যবহারকারী পছন্দ পরিবর্তন: হঠাৎ পছন্দ পরিবর্তনের প্রতি অভিযোজন সীমিত ३. প্রয়োগের পরিস্থিতি: ব্যক্তিগতকৃত কথোপকথন সুপারিশের জন্য আরও উপযুক্ত বড় আকারের অনলাইন সিস্টেমের চেয়ে ४. ডেটা নির্ভরতা: সমৃদ্ধ আইটেম পাঠ্য তথ্য সমর্থন প্রয়োজন
१. দক্ষতা অপ্টিমাইজেশন: আরও দক্ষ ক্রমাগত টোকেন প্রজন্ম পদ্ধতি অন্বেষণ করে २. গতিশীল মডেলিং: ব্যবহারকারী পছন্দ বিবর্তনের মডেলিং ক্ষমতা বৃদ্ধি করে ३. বহু-মোডেল সম্প্রসারণ: ছবি, ভিডিও ইত্যাদি বহু-মোডেল তথ্য একীভূত করে ४. তাত্ত্বিক বিশ্লেষণ: সুপারিশে ক্রমাগত টোকেনের তাত্ত্বিক ভিত্তি গভীরভাবে বোঝে
१. শক্তিশালী উদ্ভাবনী: প্রথমবারের মতো সিস্টেমিকভাবে ক্রমাগত টোকেন LLM সুপারিশ সিস্টেমে প্রবর্তন করে २. প্রযুক্তিগতভাবে কঠোর: σ-VAE ডিজাইন চতুর, কার্যকরভাবে প্রতিনিধিত্ব পতন প্রতিরোধ করে ३. পরীক্ষা ব্যাপক: একাধিক ডেটাসেট যাচাইকরণ, বিস্তারিত বিলোপন এবং সংবেদনশীলতা বিশ্লেষণ ४. তাত্ত্বিক সমর্থন: বিচ্ছুরণ ক্ষতির গাণিতিক ব্যুৎপত্তি স্পষ্ট, ডিজাইন যুক্তিসঙ্গত
१. গণনা দক্ষতা: অনুমান বিলম্ব উচ্চ, বাস্তব প্রয়োগের পরিস্থিতি সীমিত করে २. সাধারণীকরণ ক্ষমতা: ব্যবহারকারী পছন্দ হঠাৎ পরিবর্তন পরিস্থিতিতে সীমিত কর্মক্ষমতা ३. তুলনা সম্পূর্ণ নয়: আরও সর্বশেষ LLM সুপারিশ পদ্ধতির সাথে তুলনা অনুপস্থিত ४. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: ক্রমাগত টোকেন সুবিধার তাত্ত্বিক ব্যাখ্যা গভীর হওয়ার অপেক্ষায়
१. একাডেমিক অবদান: LLM সুপারিশ সিস্টেমের জন্য নতুন প্রযুক্তিগত পথ প্রদান করে २. ব্যবহারিক মূল্য: কথোপকথন সুপারিশ ইত্যাদি পরিস্থিতিতে ভাল প্রয়োগের সম্ভাবনা ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং হাইপারপ্যারামিটার সেটিংস প্রদান করে ४. অনুপ্রেরণামূলক অর্থ: সুপারিশ সিস্টেম এবং উৎপাদনশীল AI এর সংমিশ্রণের জন্য নতুন চিন্তাভাবনা প্রদান করে
१. ব্যক্তিগতকৃত কথোপকথন সুপারিশ: ব্যাখ্যা এবং ইন্টারঅ্যাক্টিভিটি প্রয়োজন এমন পরিস্থিতি २. ঠান্ডা শুরু সুপারিশ: নতুন ব্যবহারকারী/আইটেম পরিচালনার জন্য পাঠ্য তথ্য ব্যবহার করে ३. ক্রস-ডোমেইন সুপারিশ: LLM এর সাধারণীকরণ ক্ষমতা ব্যবহার করে ডোমেইন স্থানান্তর পরিচালনা করে ४. গবেষণা প্রোটোটাইপ: ক্রমাগত টোকেন সুপারিশ অন্বেষণের ভিত্তি ফ্রেমওয়ার্ক হিসাবে
এই পেপারটি সুপারিশ সিস্টেম, বৃহৎ ভাষা মডেল, বিস্তার মডেল ইত্যাদি ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
সামগ্রিক মূল্যায়ন: এটি LLM সুপারিশ সিস্টেম ক্ষেত্রে গুরুত্বপূর্ণ উদ্ভাবনী কাজ, ক্রমাগত টোকেনাইজেশন এবং বিস্তার মডেল প্রবর্তনের মাধ্যমে বিদ্যমান পদ্ধতির সীমাবদ্ধতা কার্যকরভাবে সমাধান করে। যদিও গণনা দক্ষতা এবং নির্দিষ্ট পরিস্থিতির প্রয়োজনীয়তায় উন্নতির অবকাশ রয়েছে, তবে এর প্রযুক্তিগত উদ্ভাবন এবং পরীক্ষামূলক যাচাইকরণ যথেষ্ট সম্পূর্ণ, এই ক্ষেত্রের উন্নয়নে মূল্যবান অবদান প্রদান করে।