In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $Ω(d\sqrt{T/K})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{T/K})$. We also provide instance-dependent minimax regret bounds under uniform rewards. Under non-uniform rewards, we prove a lower bound of $Ω(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
পেপার আইডি : 2405.09831শিরোনাম : Nearly Minimax Optimal Regret for Multinomial Logistic Banditলেখক : Joongkyu Lee (সিউল জাতীয় বিশ্ববিদ্যালয়), Min-hwan Oh (সিউল জাতীয় বিশ্ববিদ্যালয়)শ্রেণীবিভাগ : stat.ML cs.LGপ্রকাশনার সময়/সম্মেলন : NeurIPS 2024 (38তম নিউরাল ইনফরমেশন প্রসেসিং সিস্টেম সম্মেলন)পেপার লিংক : https://arxiv.org/abs/2405.09831 এই পেপারটি প্রসঙ্গ-সচেতন বহুপদী লজিস্টিক (MNL) ব্যান্ডিট সমস্যা অধ্যয়ন করে, যেখানে একটি শিক্ষণ এজেন্ট প্রসঙ্গ তথ্যের উপর ভিত্তি করে ক্রমানুসারে পণ্য সমন্বয় নির্বাচন করে এবং ব্যবহারকারীর প্রতিক্রিয়া MNL নির্বাচন মডেল অনুসরণ করে। বিদ্যমান কাজে নিম্ন এবং উপরের সীমানার মধ্যে উল্লেখযোগ্য ব্যবধান রয়েছে, বিশেষত সর্বাধিক পণ্য সমন্বয় আকার K এর ক্ষেত্রে। একীভূত পুরস্কার সেটিংয়ে, এই পেপারটি Ω(d√T/K) এর অনুশোচনা নিম্ন সীমা প্রতিষ্ঠা করে এবং একটি ধ্রুবক-সময় অ্যালগরিদম OFU-MNL+ প্রস্তাব করে যা মিলিত উপরের সীমা Õ(d√T/K) অর্জন করে। অ-একীভূত পুরস্কার সেটিংয়ে, Ω(d√T) এর নিম্ন সীমা এবং Õ(d√T) এর উপরের সীমা প্রমাণ করা হয়েছে। এটি প্রসঙ্গ-সচেতন MNL ব্যান্ডিট সাহিত্যে মিনিম্যাক্স সর্বোত্তমতা প্রমাণকারী প্রথম কাজ।
MNL ব্যান্ডিট সমস্যা : সুপারিশ ব্যবস্থা এবং অনলাইন খুচরা বিক্রয় ইত্যাদি প্রয়োগে, একটি এজেন্টকে ব্যবহারকারীদের পণ্যের একটি সেট প্রদান করতে হয়, যেখানে ব্যবহারকারীর নির্বাচন আচরণ বহুপদী লজিস্টিক (MNL) মডেল অনুসরণ করেপ্রসঙ্গ তথ্য : প্রতিটি রাউন্ডে এজেন্ট পণ্য বৈশিষ্ট্য এবং সম্ভাব্য ব্যবহারকারী প্রসঙ্গ তথ্য পর্যবেক্ষণ করতে পারেতাত্ত্বিক ফাঁক : বিদ্যমান কাজে অনুশোচনা সীমানার উপরের এবং নিম্ন সীমানার মধ্যে উল্লেখযোগ্য ব্যবধান রয়েছে, বিশেষত পণ্য সমন্বয় আকার K এর উপর নির্ভরতার ক্ষেত্রেতাত্ত্বিক সম্পূর্ণতা : MNL ব্যান্ডিট তাত্ত্বিক বিশ্লেষণে ফাঁক পূরণ করা এবং কঠোর অনুশোচনা সীমানা প্রতিষ্ঠা করাঅ্যালগরিদম দক্ষতা : গণনামূলকভাবে দক্ষ অ্যালগরিদম ডিজাইন করা, বিদ্যমান পদ্ধতির সূচকীয় সময় জটিলতা এড়ানোব্যবহারিক প্রয়োগ : সুপারিশ ব্যবস্থা ইত্যাদি ব্যবহারিক প্রয়োগের জন্য তাত্ত্বিক গ্যারান্টি এবং দক্ষ অ্যালগরিদম প্রদান করাতাত্ত্বিক ব্যবধান : নিম্ন সীমা Ω(d√T/K) এবং উপরের সীমা Õ(d√T) এর মধ্যে √K এর ব্যবধান রয়েছেগণনা জটিলতা : বিদ্যমান অ্যালগরিদমগুলিকে সমস্ত সম্ভাব্য পণ্য সমন্বয় গণনা করতে হয়, যা সূচকীয় সময় জটিলতার দিকে পরিচালিত করেপ্যারামিটার নির্ভরতা : সমস্যা-সম্পর্কিত ধ্রুবক κ এর উপর খারাপ নির্ভরতা, যেখানে 1/κ = O(K²)কঠোর অনুশোচনা সীমানা প্রতিষ্ঠা :একীভূত পুরস্কার: নিম্ন সীমা Ω(√(v₀K/(v₀+K))d√T), উপরের সীমা Õ(√(v₀K/(v₀+K))d√T) অ-একীভূত পুরস্কার: নিম্ন সীমা Ω(d√T), উপরের সীমা Õ(d√T) দক্ষ অ্যালগরিদম OFU-MNL+ প্রস্তাব :ধ্রুবক সময় জটিলতা O(1), রাউন্ড সংখ্যা t এর সাথে স্বাধীন MNL ব্যান্ডিটে প্রথম অ্যালগরিদম যা K বৃদ্ধির সাথে অনুশোচনা হ্রাস প্রমাণ করে তাত্ত্বিক উদ্ভাবন :বাহ্যিক বিকল্প আকর্ষণ প্যারামিটার v₀ এর অনুশোচনার উপর প্রভাব স্পষ্টভাবে প্রদর্শন করা উদাহরণ-সম্পর্কিত মিনিম্যাক্স অনুশোচনা সীমানা প্রদান করা প্রযুক্তিগত উন্নতি :উন্নত উপবৃত্তাকার সম্ভাব্যতা লেম্মা, K এর উপর নির্ভরতা দূর করা ধ্রুবক স্ব-সামঞ্জস্যপূর্ণ ক্ষতি ফাংশন বিশ্লেষণ ইনপুট :
প্রতিটি রাউন্ড t তে, N টি পণ্যের বৈশিষ্ট্য ভেক্টর x_ ∈ ℝᵈ পর্যবেক্ষণ করা সর্বাধিক পণ্য সমন্বয় আকার K বাহ্যিক বিকল্প আকর্ষণ প্যারামিটার v₀ আউটপুট :
পণ্য সমন্বয় S_t ⊆ {1,...,N}, |S_t| ≤ K নির্বাচন করা ব্যবহারকারী নির্বাচন c_t ∈ S_t ∪ {0} পর্যবেক্ষণ করা, MNL মডেল অনুসরণ করে লক্ষ্য : সংযুক্ত অনুশোচনা Reg_T(w*) = Σ_^T R_t(S_t, w ) - R_t(S_t, w*) ন্যূনতম করা
ব্যবহারকারী পণ্য i ∈ S_t নির্বাচনের সম্ভাবনা:
p_t(i|S_t, w*) = exp(x_{ti}^T w*) / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
বাহ্যিক বিকল্প (কোনো পণ্য নির্বাচন না করা) এর সম্ভাবনা:
p_t(0|S_t, w*) = v₀ / (v₀ + Σ_{j∈S_t} exp(x_{tj}^T w*))
অনলাইন প্যারামিটার অনুমান :w_{t+1} = argmin_{w∈W} ⟨∇ℓ_t(w_t), w⟩ + (1/2η)||w - w_t||²_{H̃_t}
যেখানে H̃_t = H_t + ηG_t(w_t), G_t(w) হল MNL ক্ষতির হেসিয়ান ম্যাট্রিক্সআস্থা সেট নির্মাণ :C_t(δ) = {w ∈ W : ||w_t - w||_{H_t} ≤ β_t(δ)}
যেখানে β_t(δ) = O(√(d log t log K))আশাবাদী উপযোগিতা গণনা :α_{ti} = x_{ti}^T w_t + β_t(δ)||x_{ti}||_{H_t^{-1}}
পণ্য সমন্বয় নির্বাচন :একীভূত পুরস্কার: সর্বোচ্চ α_ সহ K টি পণ্য নির্বাচন করা অ-একীভূত পুরস্কার: বহুপদী সময়ের সমন্বয় অপ্টিমাইজেশন সমস্যা সমাধান করা উন্নত স্ব-সামঞ্জস্যপূর্ণ বিশ্লেষণ : MNL ক্ষতি ফাংশন 3√2-স্ব-সামঞ্জস্যপূর্ণ বৈশিষ্ট্য প্রমাণ করা, যা পূর্ববর্তী √(6K) থেকে √K ফ্যাক্টর দ্বারা উন্নতK-স্বাধীন উপবৃত্তাকার সম্ভাব্যতা লেম্মা :Σ_{t=1}^T Σ_{i∈S_t} p_t(i|S_t,w_{t+1})p_t(0|S_t,w_{t+1})||x_{ti}||²_{H_t^{-1}} ≤ 2d log(1 + T/(dλ))
কঠোর KL বিচ্যুতি সীমানা : আরও কঠোর KL বিচ্যুতি উপরের সীমানা প্রতিষ্ঠা করা, Chen ইত্যাদির ফলাফল উন্নত করাসংশ্লেষিত ডেটাসেট, প্যারামিটার w* ∈ ℝᵈ -1/√d, 1/√d ᵈ থেকে সমানভাবে নমুনা করা প্রসঙ্গ বৈশিষ্ট্য x_ বহুপরিবর্তনশীল গাউসিয়ান বিতরণ N(0_d, I_d) থেকে নমুনা করা এবং -1/√d, 1/√d ᵈ এ ছাঁটাই করা কনফিগারেশন: N=100, K∈{5,10,15}, d=5, T=3000 সংযুক্ত অনুশোচনা: Σ_^T R_t(S_t, w ) - R_t(S_t, w*) প্রতি রাউন্ড গণনা সময় UCB-MNL: আস্থা উপরের সীমানা-ভিত্তিক পদ্ধতি TS-MNL: Thompson নমুনা-ভিত্তিক পদ্ধতি নিয়মিতকরণ প্যারামিটার λ = 84√(2d)η ধাপ আকার η = (1/2)log(K+1) + 2 আস্থা ব্যাসার্ধ β_t(δ) = O(√(d log t log K)) অনুশোচনা কর্মক্ষমতা :একীভূত পুরস্কারে, K বৃদ্ধির সাথে সমস্ত অ্যালগরিদমের সংযুক্ত অনুশোচনা হ্রাস পায় অ-একীভূত পুরস্কারে, K এর বৃদ্ধি অনুশোচনা উন্নতির গ্যারান্টি দিতে পারে না OFU-MNL+ সমস্ত সেটিংয়ে বেসলাইন পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল গণনা দক্ষতা :OFU-MNL+ ধ্রুবক গণনা খরচ বজায় রাখে, রাউন্ড সংখ্যা t এর সাথে স্বাধীন বেসলাইন পদ্ধতির গণনা সময় t এর সাথে রৈখিকভাবে বৃদ্ধি পায় একীভূত পুরস্কার সেটিংয়ের চলমান সময় অ-একীভূত সেটিংয়ের প্রায় 1/10 পরীক্ষামূলক ফলাফল তাত্ত্বিক বিশ্লেষণ যাচাই করে:
v₀ = Θ(1) এর সময়, অনুশোচনা K এর সাথে হ্রাস পায় v₀ = Θ(K) এর সময়, অনুশোচনা K এর সাথে স্বাধীন অ-একীভূত পুরস্কারে অনুশোচনা K এর সাথে স্বাধীন অ-প্রসঙ্গ সেটিং : Agrawal ইত্যাদি Ω(√(NT/K)) নিম্ন সীমানা প্রতিষ্ঠা করেছেনপ্রসঙ্গ সেটিং : Chen ইত্যাদি Ω(d√T/K) নিম্ন সীমানা প্রস্তাব করেছেন, কিন্তু অ্যালগরিদম জটিলতা সূচকীয়গণনা দক্ষতা : Oh এবং Iyengar বহুপদী সময় অ্যালগরিদম প্রস্তাব করেছেন, কিন্তু অনুশোচনা সীমানা 1/κ নির্ভরতা রয়েছেবাইনারি লজিস্টিক ব্যান্ডিটের জন্য সর্বোত্তম অ্যালগরিদম ইতিমধ্যে রয়েছে MNL ব্যান্ডিট হল লজিস্টিক ব্যান্ডিটের বহু-নির্বাচন সম্প্রসারণ শীর্ষ-k সমন্বয় ব্যান্ডিটের সাথে সম্পর্কিত কিন্তু পুরস্কার কাঠামো ভিন্ন MNL মডেলে একক পণ্য পুরস্কার সম্পূর্ণ সমন্বয়ের উপর নির্ভর করে তাত্ত্বিক সম্পূর্ণতা : MNL ব্যান্ডিটে প্রথমবারের মতো মিনিম্যাক্স সর্বোত্তমতা অর্জন করাঅ্যালগরিদম দক্ষতা : প্রথম ধ্রুবক সময় জটিলতার সর্বোত্তম অ্যালগরিদম প্রস্তাব করাপ্যারামিটার প্রভাব : v₀ এবং K এর অনুশোচনার উপর প্রভাব স্পষ্টভাবে পরিমাপ করাসীমাবদ্ধ অনুমান : প্যারামিটার ||w*||₂ ≤ 1 প্রয়োজন, শিথিল করার পরে অনুশোচনা সীমানা অতিরিক্ত সূচকীয় ফ্যাক্টর থাকবেউদাহরণ-সম্পর্কিত সীমানা : অ-একীভূত পুরস্কারে উদাহরণ-সম্পর্কিত সীমানা প্রতিষ্ঠা করতে পারা যায় নাধ্রুবক ফ্যাক্টর : তাত্ত্বিক সীমানায় লগারিদম ফ্যাক্টর ব্যবহারিকভাবে বড় হতে পারেঅনুমান শিথিলকরণ : অসীম প্যারামিটার ক্ষেত্রে সর্বোত্তম অ্যালগরিদম গবেষণা করাউদাহরণ অভিযোজন : অ-একীভূত পুরস্কারের জন্য উদাহরণ-সম্পর্কিত সীমানা প্রতিষ্ঠা করাব্যবহারিক প্রয়োগ : প্রকৃত সুপারিশ ব্যবস্থায় অ্যালগরিদম কর্মক্ষমতা যাচাই করাউল্লেখযোগ্য তাত্ত্বিক অবদান : MNL ব্যান্ডিটে প্রথমবারের মতো সর্বোত্তমতা সমস্যা সমাধান করা, গুরুত্বপূর্ণ তাত্ত্বিক ফাঁক পূরণ করাউল্লেখযোগ্য প্রযুক্তিগত উদ্ভাবন : উন্নত স্ব-সামঞ্জস্যপূর্ণ বিশ্লেষণ এবং উপবৃত্তাকার সম্ভাব্যতা লেম্মা স্বাধীন মূল্য রাখেউচ্চ ব্যবহারিক মূল্য : ধ্রুবক সময় জটিলতা অ্যালগরিদমকে ব্যবহারিক প্রয়োগের জন্য উপযুক্ত করে তোলেব্যাপক বিশ্লেষণ : একীভূত এবং অ-একীভূত পুরস্কার উভয়ই বিবেচনা করা, সম্পূর্ণ তাত্ত্বিক চিত্র প্রদান করাঅনুমান সীমাবদ্ধতা : সীমাবদ্ধ প্যারামিটার অনুমান ব্যবহারিকভাবে অত্যন্ত কঠোর হতে পারেধ্রুবক অপ্টিমাইজেশন : তাত্ত্বিক সীমানায় ধ্রুবক ফ্যাক্টর যথেষ্ট কঠোর নাও হতে পারেপরীক্ষার স্কেল : পরীক্ষা শুধুমাত্র সংশ্লেষিত ডেটায় পরিচালিত, প্রকৃত ডেটা যাচাইকরণের অভাবএকাডেমিক মূল্য : MNL ব্যান্ডিট তত্ত্বের জন্য দৃঢ় ভিত্তি স্থাপন করা, উচ্চ উদ্ধৃতি প্রত্যাশিতব্যবহারিক মূল্য : সুপারিশ ব্যবস্থা, অনলাইন বিজ্ঞাপন ইত্যাদি প্রয়োগের জন্য তাত্ত্বিক নির্দেশনা প্রদান করাপদ্ধতিগত অবদান : প্রযুক্তিগত পদ্ধতি অন্যান্য সম্পর্কিত সমস্যায় প্রসারিত করা যায়সুপারিশ ব্যবস্থা : অনলাইন পণ্য সুপারিশ, বিষয়বস্তু সুপারিশঅনলাইন বিজ্ঞাপন : বিজ্ঞাপন সমন্বয় নির্বাচন এবং স্থাপনা অপ্টিমাইজেশনই-কমার্স : পণ্য প্রদর্শন এবং প্রচার কৌশল অপ্টিমাইজেশনপেপারটি 52টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:
MNL ব্যান্ডিট মৌলিক কাজ: Agrawal et al., Chen et al. লজিস্টিক ব্যান্ডিট তত্ত্ব: Faury et al., Abeille et al. অনলাইন শিক্ষার ভিত্তি: Lattimore & Szepesvári স্ব-সামঞ্জস্যপূর্ণ ফাংশন তত্ত্ব: Tran-Dinh et al. সামগ্রিক মূল্যায়ন : এটি একটি উচ্চ মানের পেপার যার তাত্ত্বিক অবদান উল্লেখযোগ্য, যা MNL ব্যান্ডিট ক্ষেত্রের মূল উন্মুক্ত সমস্যা সফলভাবে সমাধান করে, উল্লেখযোগ্য প্রযুক্তিগত উদ্ভাবন রয়েছে, পরীক্ষামূলক যাচাইকরণ পর্যাপ্ত, এবং সম্পর্কিত ক্ষেত্রে গুরুত্বপূর্ণ প্রচারমূলক প্রভাব রয়েছে।