This paper investigates the impact of perturbations on the best-response-based algorithms approximating Nash equilibria in zero-sum games, namely Double Oracle and Fictitious Play. More precisely, we assume that the oracle computing the best responses perturbs the utilities before selecting the best response. We show that using such an oracle reduces the number of iterations for both algorithms. For some cases, suitable perturbations ensure the expected number of iterations is logarithmic. Although the utility perturbation is computationally demanding as it requires iterating through all pure strategies, we demonstrate that one can efficiently perturb the utilities in games where pure strategies have further inner structure.
academic
শূন্য-সমষ্টি খেলায় সর্বোত্তম প্রতিক্রিয়া বিঘ্নিত করা
এই পেপারটি সর্বোত্তম প্রতিক্রিয়া অ্যালগরিদমে বিঘ্নের প্রভাব অধ্যয়ন করে, যা শূন্য-সমষ্টি খেলায় ন্যাশ সমতা অনুমান করতে ব্যবহৃত হয়, বিশেষত Double Oracle এবং Fictitious Play অ্যালগরিদমে মনোনিবেশ করে। গবেষণা অনুমান করে যে সর্বোত্তম প্রতিক্রিয়া গণনা করার অরাকেল সর্বোত্তম প্রতিক্রিয়া নির্বাচনের আগে উপযোগিতা বিঘ্নিত করে। গবেষণা দেখায় যে এই ধরনের বিঘ্নিত অরাকেল ব্যবহার করে উভয় অ্যালগরিদমের পুনরাবৃত্তি সংখ্যা হ্রাস করা যায়। কিছু ক্ষেত্রে, উপযুক্ত বিঘ্ন প্রত্যাশিত পুনরাবৃত্তি সংখ্যা লগারিদমিক স্তরে নিশ্চিত করতে পারে। যদিও উপযোগিতা বিঘ্ন সমস্ত বিশুদ্ধ কৌশল অতিক্রম করার প্রয়োজন, উচ্চ গণনা খরচ সহ, গবেষণা প্রমাণ করে যে বিশুদ্ধ কৌশলগুলির অভ্যন্তরীণ কাঠামো সহ খেলার জন্য (যেমন আংশিকভাবে পর্যবেক্ষণযোগ্য স্টোকাস্টিক খেলা), বিঘ্ন দক্ষতার সাথে প্রয়োগ করা যায়।
বৃহৎ কৌশল স্থানের দ্বি-খেলোয়াড় শূন্য-সমষ্টি খেলায় ন্যাশ সমতা গণনা করা একটি গণনামূলকভাবে নিবিড় সমস্যা। যদিও তাত্ত্বিকভাবে O(log n) আকারের ε-ন্যাশ সমতা বিদ্যমান তা জানা যায় (যেখানে n হল বিশুদ্ধ কৌশলের সংখ্যা), ঐতিহ্যবাহী সর্বোত্তম প্রতিক্রিয়া অরাকেল (BRO) ভিত্তিক অ্যালগরিদম যেমন Fictitious Play (FP) এবং Double Oracle (DO) সর্বনিম্ন ক্ষেত্রে Ω(n) পুনরাবৃত্তি প্রয়োজন।
তাত্ত্বিক-ব্যবহারিক ব্যবধান: Althöfer এবং Lipton প্রমাণ করেছেন যে লগারিদমিক আকারের ε-NE বিদ্যমান, কিন্তু প্রকৃত অ্যালগরিদম এই জটিলতা অর্জন করতে পারে না
নিম্ন সীমা সীমাবদ্ধতা: Hazan এবং Koren প্রমাণ করেছেন যে যেকোনো BRO-ভিত্তিক অ্যালগরিদমের কমপক্ষে Ω(√n/log³n) পুনরাবৃত্তি প্রয়োজন
ব্যবহারিক প্রয়োগের চাহিদা: গভীর শক্তিশালী শেখার অ্যালগরিদম (যেমন Policy Space Response Oracles) এই মৌলিক অ্যালগরিদমের উপর নির্ভর করে
FP এবং DO: সর্বনিম্ন ক্ষেত্রে O(n) পুনরাবৃত্তি প্রয়োজন
Hazan-Koren অ্যালগরিদম: যদিও O(√n/ε²) জটিলতা প্রদান করে, অ্যালগরিদম জটিল এবং শুধুমাত্র বর্গমূল স্তরের উন্নতি
নিয়মিতকরণ পদ্ধতি: যেমন PU এবং OMWU যদিও O(log n) পুনরাবৃত্তি অর্জন করে, সমস্ত বিশুদ্ধ কৌশলের সম্ভাব্যতা বিতরণ বজায় রাখার প্রয়োজন, বৃহৎ-স্কেল খেলার জন্য অনুপযুক্ত
বিঘ্নিত সর্বোত্তম প্রতিক্রিয়া অরাকেল (PBRO) প্রবর্তন: সর্বোত্তম প্রতিক্রিয়া গণনার আগে উপযোগিতা র্যান্ডমভাবে বিঘ্নিত করার প্রক্রিয়া প্রস্তাব করা
তাত্ত্বিক ফলাফল:
প্রমাণ করে যে Stochastic Fictitious Play (SFP) প্রত্যাশায় O(log n/ε²) পুনরাবৃত্তি জটিলতা অর্জন করে
প্রমাণ করে যে Stochastic Double Oracle (SDO) নির্দিষ্ট কঠিন উদাহরণে (Zhang এবং Sandholm এর উদাহরণ) O(log n) প্রত্যাশিত পুনরাবৃত্তি অর্জন করে
দক্ষ বাস্তবায়ন পরিকল্পনা: অভ্যন্তরীণ কাঠামো সহ খেলার জন্য (যেমন POSG, পথ পরিকল্পনা খেলা) দক্ষ বিঘ্ন পদ্ধতি প্রস্তাব করা, সমস্ত বিশুদ্ধ কৌশল অতিক্রম করার প্রয়োজন ছাড়াই
পরীক্ষামূলক যাচাইকরণ: একাধিক খেলার ধরনে বিঘ্ন পদ্ধতির কার্যকারিতা যাচাই করা, ম্যাট্রিক্স খেলা, স্টোকাস্টিক খেলা এবং পথ পরিকল্পনা খেলা সহ
তাত্ত্বিক সরঞ্জাম: Gumbel-max কৌশল ব্যবহার করে SFP এবং স্টোকাস্টিক সূচকীয় ওজন পূর্বাভাস (REWF) এর মধ্যে সংযোগ স্থাপন করা
Theorem 3 (SFP জটিলতা):
0,1 এ স্বাভাবিক করা ম্যাট্রিক্স খেলা M ∈ ℝ^(m×n) এর জন্য, m ≤ n, β = (2+√(2ln n))/(ε√(8ln n)) সেট করে, SFP O(log n/ε²) প্রত্যাশিত পুনরাবৃত্তির মধ্যে ε-NE খুঁজে পায়।
প্রমাণ কৌশল:
পুনরাবৃত্তি সংখ্যা T = ((2+√(2ln n))/ε)² ∈ O(log n/ε²) সেট করা
Corollary 2 (REWF এর অনুশোচনা সীমা) ব্যবহার করে, সম্ভাব্যতা ≥ 3/4:
Lemma 4 (সমান বিঘ্নের প্রত্যাশা):
k তম সারির জন্য x = ⟨1,...,1,0,-1,...,-1⟩, U(-1/2,1/2) বিঘ্ন ব্যবহার করে,
বিঘ্নিত সর্বোত্তম প্রতিক্রিয়ার প্রত্যাশিত সূচক EI = k/2
Theorem 6: SDO O(log n) প্রত্যাশিত পুনরাবৃত্তির মধ্যে L এর NE খুঁজে পায়
প্রমাণ কৌশল:
সম্ভাব্য ফাংশন সংজ্ঞায়িত করা X_t = max{r_t, c_t}, যেখানে r_t = min R_t, c_t = min C_t
ড্রিফট তত্ত্ব ব্যবহার করে প্রমাণ করা X_t - EX_{t+2} ≥ X_t/2
সম্পর্কিত কাজ:
5. Zhang & Sandholm (2024) - DO এর সূচকীয় নিম্ন সীমা
6. Cloud et al. (2023) - প্রত্যাশামূলক Fictitious Play
7. Lanctot et al. (2017) - নীতি স্থান প্রতিক্রিয়া অরাকেল
8. Cen et al. (2024) - নিয়মিতকৃত খেলা অ্যালগরিদম
সামগ্রিক মূল্যায়ন: এটি একটি চমৎকার পেপার যা তত্ত্ব এবং অনুশীলনের ভালো সমন্বয় প্রদর্শন করে। প্রধান অবদান হল বিঘ্ন প্রক্রিয়া BRO অ্যালগরিদমকে লগারিদমিক স্তরের জটিলতা অর্জন করতে সক্ষম করে, পরিচিত তাত্ত্বিক নিম্ন সীমা অতিক্রম করে (অরাকেল বর্ধিত করে)। SFP এর তাত্ত্বিক ফলাফল সম্পূর্ণ এবং কঠোর, SDO এর বিশ্লেষণ যদিও অসম্পূর্ণ কিন্তু মূল্যবান অন্তর্দৃষ্টি প্রদান করে। পরীক্ষা ডিজাইন ব্যাপক, পদ্ধতির প্রযোজ্য পরিসীমা সততার সাথে রিপোর্ট করা হয়। প্রধান অপূর্ণতা হল SDO এর সাধারণ জটিলতা অমীমাংসিত, এবং র্যান্ডম খেলায় দুর্বল কর্মক্ষমতার তাত্ত্বিক ব্যাখ্যা অভাব। এই কাজ খেলা তত্ত্ব অ্যালগরিদম গবেষণায় নতুন দিকনির্দেশনা খোলে, গভীর শক্তিশালী শেখায় সম্ভাব্য প্রয়োগ মূল্য সহ, আরও গবেষণার যোগ্য।