2025-11-17T07:58:12.711519

Posterior Sampling for Continuing Environments

Xu, Dong, Van Roy

We develop an extension of posterior sampling for reinforcement learning (PSRL) that is suited for a continuing agent-environment interface and integrates naturally into agent designs that scale to complex environments. The approach, continuing PSRL, maintains a statistically plausible model of the environment and follows a policy that maximizes expected $Î³$-discounted return in that model. At each time, with probability $1-Î³$, the model is replaced by a sample from the posterior distribution over environments. For a choice of discount factor that suitably depends on the horizon $T$, we establish an $\tilde{O}(ÏS \sqrt{A T})$ bound on the Bayesian regret, where $S$ is the number of environment states, $A$ is the number of actions, and $Ï$ denotes the reward averaging time, which is a bound on the duration required to accurately estimate the average reward of any policy. Our work is the first to formalize and rigorously analyze the resampling approach with randomized exploration.

academic

ক্রমাগত পরিবেশের জন্য পোস্টেরিয়র স্যাম্পলিং

মৌলিক তথ্য

পেপার আইডি: 2211.15931
শিরোনাম: Posterior Sampling for Continuing Environments
লেখক: Wanqiao Xu (স্ট্যানফোর্ড বিশ্ববিদ্যালয়), Shi Dong (গুগল ডিপমাইন্ড), Benjamin Van Roy (স্ট্যানফোর্ড বিশ্ববিদ্যালয়)
শ্রেণীবিভাগ: cs.LG stat.ML
প্রকাশনা সম্মেলন: RLJ | RLC 2024
পেপার লিঙ্ক: https://arxiv.org/abs/2211.15931

সারসংক্ষেপ

এই পেপারটি ক্রমাগত পরিবেশের জন্য একটি পোস্টেরিয়র স্যাম্পলিং শক্তিশালী শিক্ষা অ্যালগরিদম (Continuing PSRL) প্রস্তাব করে, যা স্কেলেবল এজেন্ট ডিজাইনে স্বাভাবিকভাবে একীভূত হতে পারে। অ্যালগরিদমটি পরিবেশ মডেলের একটি পরিসংখ্যানগতভাবে যুক্তিসঙ্গত রক্ষণাবেক্ষণ করে এবং সেই মডেলে γ-ছাড়প্রাপ্ত রিটার্ন সর্বাধিক করার নীতি অনুসরণ করে। প্রতিটি সময় ধাপে, অ্যালগরিদম সম্ভাবনা 1-γ সহ পরিবেশের পোস্টেরিয়র বিতরণ থেকে মডেলটি পুনরায় নমুনা করে। সময় পরিসীমা T-এর উপর নির্ভরশীল ছাড় ফ্যাক্টর যথাযথভাবে নির্বাচন করে, Õ(τS√AT) এর একটি বেয়েসিয়ান অনুশোচনা সীমানা প্রতিষ্ঠিত হয়, যেখানে S হল পরিবেশ অবস্থার সংখ্যা, A হল ক্রিয়াকলাপের সংখ্যা, এবং τ পুরস্কার গড় সময় নির্দেশ করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

বিদ্যমান পোস্টেরিয়র স্যাম্পলিং শক্তিশালী শিক্ষা অ্যালগরিদমগুলি প্রধানত পর্যায়ক্রমিক (episodic) পরিবেশের জন্য ডিজাইন করা হয়েছে, যা অবস্থা-ক্রিয়া পরিদর্শন গণনা বজায় রাখার উপর নির্ভর করে, যা উচ্চ-মাত্রিক অবস্থা স্থানের সাথে জটিল ক্রমাগত পরিবেশে তাদের অপ্রযোজ্য করে তোলে।

সমস্যার গুরুত্ব

ক্রমাগত পরিবেশ শিক্ষা শক্তিশালী শিক্ষায় একটি মৌলিক সমস্যা, তবে বিদ্যমান র্যান্ডমাইজড অন্বেষণ পদ্ধতিগুলি প্রধানত পর্যায়ক্রমিক পরিবেশে সীমাবদ্ধ
স্কেলেবিলিটি প্রয়োজনীয়তা: ঐতিহ্যবাহী পদ্ধতিগুলি অবস্থা-ক্রিয়া পরিদর্শন গণনার উপর নির্ভর করে, যা জটিল পরিবেশে অসম্ভব
তাত্ত্বিক শূন্যতা: ক্রমাগত পরিবেশের জন্য কঠোর তাত্ত্বিক বিশ্লেষণের অভাব

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

TSDE (Ouyang et al., 2017): জটিল পুনরায় নমুনা মানদণ্ড প্রয়োজন, পরিদর্শন গণনা দ্বিগুণকরণ শর্ত সহ, বড় অবস্থা স্থানে অসম্ভব
DS-PSRL (Theocharous et al., 2018): যদিও পরিদর্শন গণনা এড়ায়, বিশ্লেষণ শক্তিশালী প্রযুক্তিগত অনুমানের উপর নির্ভর করে, এই অনুমান ছাড়া অনুশোচনা সীমানা রৈখিকভাবে বৃদ্ধি পায়
ঐতিহ্যবাহী PSRL: শুধুমাত্র পর্যায়ক্রমিক পরিবেশের জন্য উপযুক্ত, ক্রমাগত সেটিংসে সরাসরি সম্প্রসারণ করা যায় না

গবেষণা প্রেরণা

একটি সহজ, স্কেলেবল এবং তাত্ত্বিকভাবে কঠোর ক্রমাগত পরিবেশ পোস্টেরিয়র স্যাম্পলিং অ্যালগরিদম প্রস্তাব করা, যা:

অবস্থা-ক্রিয়া পরিদর্শন গণনা বজায় রাখা এড়ায়
বিদ্যমান ফাংশন অনুমান পদ্ধতিতে স্বাভাবিকভাবে একীভূত হয়
বিদ্যমান সেরা পদ্ধতির সাথে মেলে এমন তাত্ত্বিক গ্যারান্টি প্রদান করে

মূল অবদান

প্রথম স্কেলেবল ক্রমাগত PSRL অ্যালগরিদম: সহজ র্যান্ডমাইজেশন স্কিমের উপর ভিত্তি করে Continuing PSRL প্রস্তাব করা, জটিল পুনরায় নমুনা মানদণ্ড এড়ায়
কঠোর তাত্ত্বিক বিশ্লেষণ: Õ(τS√AT) এর বেয়েসিয়ান অনুশোচনা সীমানা প্রতিষ্ঠা করা, বিদ্যমান সেরা ফলাফলের সাথে মেলে
স্কেলেবিলিটি অগ্রগতি: অ্যালগরিদম উচ্চ-মাত্রিক অবস্থা স্থান এবং ফাংশন অনুমান সেটিংসে স্বাভাবিকভাবে সম্প্রসারিত হতে পারে
ছাড় ফ্যাক্টরের নতুন দৃষ্টিভঙ্গি: ছাড় ফ্যাক্টরকে পরিবেশ বৈশিষ্ট্যের পরিবর্তে অ্যালগরিদম ডিজাইন সরঞ্জাম হিসাবে বিবেচনা করা, ছাড় ফ্যাক্টরের ভূমিকা বোঝার জন্য একটি নতুন দৃষ্টিভঙ্গি প্রদান করে

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

একটি অজানা পরিবেশ E = (A,S,ρ) দ্বারা মডেল করা মার্কভ সিদ্ধান্ত প্রক্রিয়া বিবেচনা করুন, যেখানে:

A হল সীমিত ক্রিয়া স্থান, |A| = A
S হল সীমিত অবস্থা স্থান, |S| = S
ρ হল অবস্থা রূপান্তর সম্ভাবনা ফাংশন
পুরস্কার ফাংশন r : S × A → 0,1 নির্ধারণমূলক এবং পরিচিত

লক্ষ্য হল সংগৃহীত অনুশোচনা কমানো: $\text{Regret}(T,π) := \sum_{t=0}^{T-1}(λ_{*,E} - R_{t+1})$

যেখানে λ_{*,E} হল সর্বোত্তম গড় পুরস্কার।

মডেল স্থাপত্য

সিউডো-এপিসোড নির্মাণ

অ্যালগরিদম অসীম সময় পরিসীমা শিক্ষা সমস্যাকে র্যান্ডম দৈর্ঘ্যের সিউডো-এপিসোডে বিভক্ত করে:

প্রতিটি সময় ধাপ t-এ, একটি বাইনারি সূচক X_t নমুনা করুন
যখন X_t = 0, একটি নতুন সিউডো-এপিসোড শুরু করুন এবং পরিবেশ মডেল পুনরায় নমুনা করুন
যখন X_t = 1, বর্তমান সিউডো-এপিসোড চালিয়ে যান

ছাড়প্রাপ্ত মূল্য ফাংশন

পরিবেশ E এবং নীতি π এর জন্য, γ-ছাড়প্রাপ্ত মূল্য ফাংশন সংজ্ঞায়িত করা হয়: $V^γ_{π,E} := \mathbb{E}\left[\sum_{h=0}^{H-1} P^h_π r_π | E\right] = \mathbb{E}\left[\sum_{h=0}^{∞} γ^h P^h_π r_π | E\right]$

যেখানে H হল সিউডো-এপিসোড দৈর্ঘ্য, যা জ্যামিতিক বিতরণ অনুসরণ করে।

পুরস্কার গড় সময়

মূল ধারণা হল পুরস্কার গড় সময় τ_{π,E}, যা ন্যূনতম τ হিসাবে সংজ্ঞায়িত: $\left|\mathbb{E}_π\left[\sum_{t=0}^{T-1} R_{t+1} | E, S_0 = s\right] - T \cdot λ_{π,E}(s)\right| \leq τ$

অ্যালগরিদম প্রবাহ

অ্যালগরিদম 1: Continuing PSRL

ইনপুট: পূর্ব বিতরণ f, ছাড় ফ্যাক্টর γ, মোট শিক্ষা সময় T
1. শুরু করুন t=1, k=1, X₁=0
2. t ≤ T এর জন্য:
3.   যদি Xₜ = 0:
4.     tₖ ← t
5.     নমুনা Eₖ ~ f(·|H_tₖ)
6.     গণনা করুন πₖ = π^γ_Eₖ
7.     k ← k+1
8.   নমুনা এবং সম্পাদন করুন Aₜ ~ πₖ(·|Sₜ)
9.   পর্যবেক্ষণ করুন Rₜ₊₁ এবং Sₜ₊₁
10.  t ← t+1
11.  নমুনা Xₜ₊₁ ~ Bernoulli(γ)

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

সহজ পুনরায় নমুনা প্রক্রিয়া: শুধুমাত্র বার্নুলি র্যান্ডম সংখ্যা জেনারেটর ব্যবহার করা, জটিল পরিদর্শন গণনা শর্ত এড়ায়
ছাড় ফ্যাক্টর এবং পুনরায় নমুনা সম্ভাবনার সংযোগ: γ = 1-p সেট করা, যেখানে p হল পুনরায় নমুনা সম্ভাবনা
নীতি-স্বাধীন পুনরায় নমুনা: পুনরায় নমুনা মানদণ্ড নীতি থেকে স্বাধীন, বিশ্লেষণ সরল করে
সময়-পরিবর্তনশীল ছাড় ফ্যাক্টর: ছাড় ফ্যাক্টরকে সময়ের সাথে বৃদ্ধি করার অনুমতি দেয়, সাব-লিনিয়ার অনুশোচনা অর্জন করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

টেবিউলার RiverSwim পরিবেশ:
- 6টি অবস্থার শৃঙ্খল কাঠামো
- বাম প্রান্তের অবস্থা পুরস্কার 0.005, ডান প্রান্তের অবস্থা পুরস্কার 1.0
- সর্বোত্তম নীতি সর্বদা ডানদিকে সাঁতার কাটা
ক্রমাগত বৈশিষ্ট্য RiverSwim পরিবেশ:
- অনুরূপ কাঠামো কিন্তু পিক্সেল বৈশিষ্ট্য পর্যবেক্ষণ ব্যবহার করে
- বৈশিষ্ট্য ম্যাপিং: φ(s_t) = 1{x ≤ s_t} ∈ 0,1^N
- ফাংশন অনুমান সেটিংসে অ্যালগরিদম কর্মক্ষমতা পরীক্ষা করা

মূল্যায়ন মেট্রিক্স

সংগৃহীত অনুশোচনা (Cumulative Regret)
সময়ের সাথে গড় অনুশোচনার পরিবর্তন

তুলনামূলক পদ্ধতি

TSDE (Ouyang et al., 2017): পরিদর্শন গণনা-ভিত্তিক থম্পসন স্যাম্পলিং
DS-PSRL (Theocharous et al., 2018): নির্দিষ্ট সময় ব্যবধানের পুনরায় নমুনা স্কিম
র্যান্ডম এজেন্ট: বেসলাইন হিসাবে
DQN with ε-greedy: ক্রমাগত বৈশিষ্ট্য পরিবেশে তুলনা

বাস্তবায়ন বিবরণ

পূর্ব বিতরণ: ডিরিচলেট বিতরণ (রূপান্তর) এবং স্বাভাবিক-গ্যামা বিতরণ (পুরস্কার)
হাইপারপ্যারামিটার: সিউডো-গণনা n=1, α=1/S, μ=σ²=1
ক্রমাগত পরিবেশে Bootstrapped DQN ব্যবহার করা, γ=0.99

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

টেবিউলার পরিবেশ:
- Continuing PSRL TSDE-এর সাথে তুলনীয় কর্মক্ষমতা, যদিও পরবর্তীটি সরাসরি গড় পুরস্কার অপ্টিমাইজ করে
- DS-PSRL-এর চেয়ে উল্লেখযোগ্যভাবে ভাল
- তাত্ত্বিক পূর্বাভাসিত সাব-লিনিয়ার অনুশোচনা বৃদ্ধি যাচাই করে
ক্রমাগত বৈশিষ্ট্য পরিবেশ:
- Bootstrapped DQN + র্যান্ডম পুনরায় নমুনা সাব-লিনিয়ার অনুশোচনা অর্জন করে
- ভ্যানিলা DQN with ε-greedy অন্বেষণের চেয়ে স্পষ্টভাবে ভাল
- জটিল পরিবেশে পদ্ধতির স্কেলেবিলিটি প্রমাণ করে

পরীক্ষামূলক আবিষ্কার

সহজ পুনরায় নমুনার কার্যকারিতা: যদিও পুনরায় নমুনা প্রক্রিয়া সহজ, কর্মক্ষমতা জটিল পদ্ধতির সাথে তুলনীয়
স্কেলেবিলিটি সুবিধা: উচ্চ-মাত্রিক অবস্থা স্থানে, পরিদর্শন গণনার উপর নির্ভরশীল ঐতিহ্যবাহী পদ্ধতিগুলি ব্যর্থ হয়, যখন এই পদ্ধতি এখনও কার্যকর
তাত্ত্বিক এবং ব্যবহারিকের সামঞ্জস্য: পরীক্ষামূলক ফলাফল তাত্ত্বিক বিশ্লেষণের সঠিকতা যাচাই করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

তাত্ত্বিক অবদান: Õ(τS√AT) এর অনুশোচনা সীমানা প্রতিষ্ঠা করা, বিদ্যমান সেরা ফলাফলের সাথে মেলে
অ্যালগরিদম সরলতা: কার্যকর অন্বেষণ বাস্তবায়নের জন্য শুধুমাত্র একটি বার্নুলি র্যান্ডম সংখ্যা জেনারেটর প্রয়োজন
ব্যবহারিক মূল্য: অ্যালগরিদম বিদ্যমান গভীর শক্তিশালী শিক্ষা পদ্ধতিতে সরাসরি একীভূত হতে পারে
ছাড় ফ্যাক্টরের নতুন দৃষ্টিভঙ্গি: ছাড় ফ্যাক্টরকে পরিবেশ বৈশিষ্ট্যের পরিবর্তে অ্যালগরিদম ডিজাইন সরঞ্জাম হিসাবে বিবেচনা করা

সীমাবদ্ধতা

তাত্ত্বিক অনুমান: দুর্বল সংযুক্ত MDP এবং সীমাবদ্ধ পুরস্কার গড় সময়ের অনুমান প্রয়োজন
পূর্ব নির্ভরতা: কর্মক্ষমতা যুক্তিসঙ্গত পূর্ব বিতরণ সেটিংসের উপর নির্ভর করে
প্যারামিটার টিউনিং: ছাড় ফ্যাক্টর γ-এর নির্বাচন সময় পরিসীমা T-এর জ্ঞানের উপর নির্ভর করে
পরীক্ষার পরিসীমা: পরীক্ষা প্রধানত তুলনামূলকভাবে সহজ পরিবেশে পরিচালিত হয়

ভবিষ্যত দিকনির্দেশনা

পূর্ব জ্ঞান ছাড়া সেটিংস: T পূর্ব জ্ঞান প্রয়োজন না করে এমন অভিযোজিত পদ্ধতি গবেষণা করা
আরও জটিল পরিবেশ: বৃহত্তর স্কেল এবং আরও জটিল পরিবেশে পদ্ধতি যাচাই করা
তাত্ত্বিক উন্নতি: দুর্বল সংযোগযোগ্যতা ইত্যাদি অনুমান শর্ত শিথিল করা
ব্যবহারিক প্রয়োগ: বাস্তব প্রয়োগ পরিস্থিতিতে অ্যালগরিদম কর্মক্ষমতা পরীক্ষা করা

গভীর মূল্যায়ন

শক্তি

তাত্ত্বিক কঠোরতা: সম্পূর্ণ তাত্ত্বিক বিশ্লেষণ এবং প্রমাণ প্রদান করা, ক্রমাগত পরিবেশ PSRL-এর তাত্ত্বিক শূন্যতা পূরণ করা
অ্যালগরিদম সরলতা: বিদ্যমান পদ্ধতির তুলনায়, পুনরায় নমুনা প্রক্রিয়া অত্যন্ত সহজ, বাস্তবায়ন এবং বোঝা সহজ
স্কেলেবিলিটি: স্বাভাবিকভাবে ফাংশন অনুমান এবং উচ্চ-মাত্রিক অবস্থা স্থান সমর্থন করে, শক্তিশালী ব্যবহারিক মূল্য রয়েছে
উদ্ভাবনী দৃষ্টিভঙ্গি: ছাড় ফ্যাক্টরকে অ্যালগরিদম ডিজাইন সরঞ্জাম হিসাবে পুনর্ব্যাখ্যা করা, ভবিষ্যত অ্যালগরিদম ডিজাইনকে প্রভাবিত করতে পারে

অপূর্ণতা

পরীক্ষামূলক গভীরতা অপর্যাপ্ত: পরীক্ষা প্রধানত সহজ পরিবেশে পরিচালিত হয়, বড় স্কেল জটিল পরিবেশের যাচাইকরণ অভাব
প্যারামিটার সংবেদনশীলতা: ছাড় ফ্যাক্টর γ-এর নির্বাচনে সমস্যা প্যারামিটারের উপর নির্ভরতা, ব্যবহারিক প্রয়োগে সাবধানে টিউনিং প্রয়োজন হতে পারে
অসম্পূর্ণ তুলনা: কিছু সম্পর্কিত অন্বেষণ পদ্ধতির সাথে তুলনা অভাব (যেমন UCB-শ্রেণী পদ্ধতি)
বাস্তব প্রয়োগ কেস অভাব: প্রধানত তাত্ত্বিক এবং সহজ অনুকরণ, বাস্তব প্রয়োগ পরিস্থিতির যাচাইকরণ অভাব

প্রভাব

তাত্ত্বিক অবদান: ক্রমাগত পরিবেশ অন্বেষণ সমস্যার জন্য একটি নতুন তাত্ত্বিক কাঠামো প্রদান করা
ব্যবহারিক মূল্য: অ্যালগরিদমের সরলতা এটিকে সহজে গ্রহণ এবং সম্প্রসারণ করা যায়
অনুপ্রেরণামূলক তাৎপর্য: ছাড় ফ্যাক্টরের নতুন ব্যাখ্যা ভবিষ্যত অ্যালগরিদম ডিজাইনকে প্রভাবিত করতে পারে
পুনরুৎপাদনযোগ্যতা: অ্যালগরিদম বর্ণনা স্পষ্ট, তাত্ত্বিক বিশ্লেষণ সম্পূর্ণ, ভাল পুনরুৎপাদনযোগ্যতা রয়েছে

প্রযোজ্য পরিস্থিতি

ক্রমাগত শক্তিশালী শিক্ষা: দীর্ঘমেয়াদী মিথস্ক্রিয়া প্রয়োজন এমন পরিবেশ যেখানে কোন প্রাকৃতিক পর্যায়ক্রমিক কাঠামো নেই
উচ্চ-মাত্রিক অবস্থা স্থান: ঐতিহ্যবাহী গণনা-ভিত্তিক পদ্ধতি অপ্রযোজ্য এমন জটিল পরিবেশ
অনলাইন শিক্ষা: মিথস্ক্রিয়া প্রক্রিয়ায় ক্রমাগত শিক্ষা এবং অভিযোজন প্রয়োজন এমন পরিস্থিতি
গভীর শক্তিশালী শিক্ষা: বিদ্যমান গভীর RL কাঠামোতে একীভূত করা যায়

সংদর্ভ

পেপারটি শক্তিশালী শিক্ষা ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

থম্পসন স্যাম্পলিংয়ের ক্লাসিক্যাল কাজ (Thompson, 1933)
PSRL-এর যুগান্তকারী কাজ (Osband et al., 2013)
ক্রমাগত পরিবেশের সম্পর্কিত গবেষণা (Ouyang et al., 2017; Theocharous et al., 2018)
গভীর শক্তিশালী শিক্ষার গুরুত্বপূর্ণ অগ্রগতি (Mnih et al., 2015)

সামগ্রিক মূল্যায়ন: এটি শক্তিশালী শিক্ষা তত্ত্বের একটি উচ্চ-মানের পেপার, যা ক্রমাগত পরিবেশের পোস্টেরিয়র স্যাম্পলিং পদ্ধতিতে গুরুত্বপূর্ণ অবদান রাখে। অ্যালগরিদম ডিজাইন সহজ এবং মার্জিত, তাত্ত্বিক বিশ্লেষণ কঠোর এবং সম্পূর্ণ, এই ক্ষেত্রের জন্য নতুন দৃষ্টিভঙ্গি এবং সরঞ্জাম প্রদান করে। যদিও পরীক্ষামূলক যাচাইকরণে উন্নতির অবকাশ রয়েছে, তবে এর তাত্ত্বিক মূল্য এবং ব্যবহারিক সম্ভাবনা উভয়ই অত্যন্ত উল্লেখযোগ্য।