2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Å iÅ¡ka, Szpruch

We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.

academic

সাধারণ অ্যাকশন স্পেসে এন্ট্রপি নিয়মিতকৃত MDPs-এর জন্য অ্যাক্টর-ক্রিটিক এর সংযোগ

মৌলিক তথ্য

পেপার আইডি: 2510.14898
শিরোনাম: সাধারণ অ্যাকশন স্পেসে এন্ট্রপি নিয়মিতকৃত MDPs-এর জন্য অ্যাক্টর-ক্রিটিক এর সংযোগ
লেখক: ডেনিস জোরবা, ডেভিড শিস্কা, লুকাস স্জপ্রুচ
শ্রেণীবিভাগ: math.OC (অপ্টিমাইজেশন এবং নিয়ন্ত্রণ)
প্রকাশনার সময়: ২০২৫ সালের অক্টোবর ১৬ (arXiv প্রি-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.14898

সারসংক্ষেপ

এই পেপারটি প্রমাণ করে যে ক্রমাগত অবস্থা এবং অ্যাকশন স্পেসে, রৈখিক ফাংশন অ্যাপ্রক্সিমেশন এবং Q ফাংশন বাস্তবায়নযোগ্যতা শর্তের অধীনে, অসীম দিগন্ত এন্ট্রপি নিয়মিতকৃত মার্কভ সিদ্ধান্ত প্রক্রিয়া (MDPs)-এর যুগ্ম অ্যাক্টর-ক্রিটিক গ্র্যাডিয়েন্ট প্রবাহের স্থিতিশীলতা এবং বৈশ্বিক সংযোগ। গবেষণা একটি অ্যাক্টর-ক্রিটিক গ্র্যাডিয়েন্ট প্রবাহ বৈকল্পিক বিবেচনা করে যেখানে ক্রিটিক সময়গত পার্থক্য (TD) শিক্ষা ব্যবহার করে আপডেট করে, যখন নীতি বিভিন্ন সময় স্কেলে নীতি মিরর ডিসেন্ট পদ্ধতি ব্যবহার করে আপডেট করে। পেপারটি অ্যাক্টর-ক্রিটিক প্রবাহের সর্বোত্তম নীতির দিকে স্থিতিশীলতা এবং সূচকীয় সংযোগ প্রমাণ করে এবং সময় স্কেল বিচ্ছেদন এবং এন্ট্রপি নিয়মিতকরণের মধ্যে মিথস্ক্রিয়া স্থিতিশীলতা এবং সংযোগের উপর প্রভাব বিশ্লেষণ করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই পেপারটি যে মূল সমস্যাটি সমাধান করে তা হল সাধারণ অ্যাকশন স্পেসে (ক্রমাগত বা অসীম) এন্ট্রপি নিয়মিতকৃত MDP-তে অ্যাক্টর-ক্রিটিক পদ্ধতির স্থিতিশীলতা এবং সংযোগ বিশ্লেষণ। নির্দিষ্টভাবে:

স্থিতিশীলতা সমস্যা: ক্রমাগত সময় গতিশীলতার অধীনে, অ্যাক্টর এবং ক্রিটিকের যুগ্ম আপডেট কি সিস্টেম অস্থিরতার দিকে পরিচালিত করে
সংযোগ সমস্যা: সিস্টেম কি সর্বোত্তম নীতিতে সংযুক্ত হয়, সংযোগের গতি কী
সময় স্কেল বিচ্ছেদন: বিভিন্ন আপডেট গতি সিস্টেম কর্মক্ষমতার উপর প্রভাব

গবেষণার গুরুত্ব

তাত্ত্বিক ভিত্তি: ব্যবহারিক প্রয়োগে ব্যাপকভাবে ব্যবহৃত অ্যাক্টর-ক্রিটিক অ্যালগরিদমের জন্য কঠোর তাত্ত্বিক গ্যারান্টি প্রদান করে
সাধারণ সম্প্রসারণ: বিদ্যমান সীমিত অ্যাকশন স্পেস ফলাফলগুলি ক্রমাগত/অসীম অ্যাকশন স্পেসে প্রসারিত করে
এন্ট্রপি নিয়মিতকরণ: অন্বেষণ প্রচার এবং সংযোগ ত্বরণে এন্ট্রপি নিয়মিতকরণের ভূমিকা বিশ্লেষণ করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

অ্যাকশন স্পেস সীমাবদ্ধতা: এন্ট্রপি নিয়মিতকৃত MDP-এর বিদ্যমান সংযোগ ফলাফলগুলি প্রধানত সীমিত অ্যাকশন স্পেসে সীমাবদ্ধ
ফাংশন অ্যাপ্রক্সিমেশন চ্যালেঞ্জ: সাধারণ অবস্থা এবং অ্যাকশন স্পেসে ফাংশন অ্যাপ্রক্সিমেশনের জন্য পূর্ববর্তী সীমাবদ্ধতার অভাব
যুগ্ম বিশ্লেষণ জটিলতা: ইউক্লিডীয় স্পেস এবং পরিমাপ স্পেসে উত্তল বিশ্লেষণ সরঞ্জাম একত্রিত করার প্রয়োজন

মূল অবদান

স্থিতিশীলতা কাঠামো: Lyapunov-ভিত্তিক স্থিতিশীলতা কাঠামো বিকশিত করা যা এন্ট্রপি নিয়মিতকরণ এবং সময় স্কেল বিচ্ছেদনের মধ্যে মিথস্ক্রিয়া ক্যাপচার করে
সংযোগ প্রমাণ: অসীম অ্যাকশন স্পেসের এন্ট্রপি নিয়মিতকৃত MDP-তে অ্যাক্টর-ক্রিটিক গতিশীলতার সংযোগ প্রমাণ করা
সূচকীয় সংযোগ হার: সর্বোত্তম নীতির দিকে সূচকীয় সংযোগ হার প্রতিষ্ঠা করা
ক্রমাগত সময় বিশ্লেষণ: ক্রমাগত সময় সীমায় যুগ্ম আপডেট বিশ্লেষণ করা, ক্রিটিকের অর্ধ-গ্র্যাডিয়েন্ট প্রবাহ এবং অ্যাক্টরের আনুমানিক Fisher-Rao গ্র্যাডিয়েন্ট প্রবাহ গঠন করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

অসীম দিগন্ত MDP বিবেচনা করুন $(S,A,P,c,γ)$ , যেখানে:

$S$ , $A$ : পোলিশ স্পেস (অবস্থা এবং অ্যাকশন স্পেস)
$P \in P(S|S \times A)$ : অবস্থা রূপান্তর কার্নেল
$c$ : সীমাবদ্ধ খরচ ফাংশন
$γ \in (0,1)$ : ছাড় ফ্যাক্টর
$τ > 0$ : নিয়মিতকরণ প্যারামিটার

এন্ট্রপি নিয়মিতকৃত মূল্য ফাংশন সংজ্ঞায়িত করা হয়: $V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]$

মডেল আর্কিটেকচার

১. নীতি প্যারামিটারাইজেশন

নীতি গ্রহণযোগ্য নীতি শ্রেণী $Π_μ$ এ অন্তর্গত: $π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)$

২. Q ফাংশন রৈখিক অ্যাপ্রক্সিমেশন

বৈশিষ্ট্য ম্যাপিং $φ: S \times A → R^N$ ব্যবহার করা: $Q(s,a;θ) = ⟨θ, φ(s,a)⟩$

३. যুগ্ম গতিশীলতা সিস্টেম

ক্রমাগত সময় অ্যাক্টর-ক্রিটিক প্রবাহ: $\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)$ $∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)$

যেখানে:

$g(θ,π)$ : গড় বর্গ বেলম্যান ত্রুটি (MSBE) এর অর্ধ-গ্র্যাডিয়েন্ট
$A_t(s,a)$ : আনুমানিক নরম সুবিধা ফাংশন
$η_t$ : সময় স্কেল বিচ্ছেদন প্যারামিটার

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

১. Fisher-Rao গ্র্যাডিয়েন্ট প্রবাহ

নীতি আপডেটকে সম্ভাব্যতা পরিমাপ স্পেসে Fisher-Rao গ্র্যাডিয়েন্ট প্রবাহ হিসাবে মডেল করা: $∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)$

२. দুই সময় স্কেল বিশ্লেষণ

ক্রিটিক দ্রুত সময় স্কেলে আপডেট করে (TD শিক্ষা)
অ্যাক্টর ধীর সময় স্কেলে আপডেট করে (নীতি মিরর ডিসেন্ট)

३. Lyapunov স্থিতিশীলতা বিশ্লেষণ

সিস্টেম স্থিতিশীলতা বিশ্লেষণের জন্য Lyapunov ফাংশন তৈরি করা, একত্রিত করা:

ইউক্লিডীয় স্পেসের উত্তল বিশ্লেষণ
পরিমাপ স্পেসের উত্তল বিশ্লেষণ

তাত্ত্বিক বিশ্লেষণ

মূল অনুমান

অনুমান ৪.১ (Q^π_τ-বাস্তবায়নযোগ্যতা): সমস্ত $π ∈ Π_μ$ এবং $(s,a) ∈ S × A$ এর জন্য, একটি $θ^π ∈ R^N$ বিদ্যমান যেমন: $Q^π(s,a) = ⟨θ^π, φ(s,a)⟩$

অনুমান ४.२: $|φ(s,a)| ≤ 1$ সমস্ত $(s,a) ∈ S × A$ এর জন্য ধারণ করে

অনুমান ४.३: ম্যাট্রিক্স $\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da)$ এর ন্যূনতম eigenvalue $λ_β > 0$

প্রধান তাত্ত্বিক ফলাফল

স্থিতিশীলতা উপপাদ্য (Theorem 5.1)

$η_0 > \frac{τ}{Γ}$ সেট করুন, যেখানে $Γ = λ_β(1-γ)(1-\sqrt{γ})$ , তারপর ধ্রুবক $a_1, a_2 > 0$ বিদ্যমান যেমন: $K_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr$

যেখানে $K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ)$ ।

সংযোগ উপপাদ্য (Theorem 6.1)

সমস্ত $t > 0$ এর জন্য: $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)$

সূচকীয় সংযোগ (Theorem 6.3)

উপযুক্ত শর্তের অধীনে, $η_t = η_0 e^{k_1 t}$ এবং ধ্রুবক $k_2 > 0$ বিদ্যমান যেমন: $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)$

মূল প্রযুক্তিগত সরঞ্জাম

१. কর্মক্ষমতা পার্থক্য লেম্মা (Performance Difference Lemma)

$V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)$

२. Gronwall অসমতা প্রয়োগ

KL বিচ্যুতি এবং প্যারামিটার নর্মের বৃদ্ধি নিয়ন্ত্রণের জন্য ব্যবহৃত।

३. অবস্থা-অ্যাকশন দখল পরিমাপ বৈশিষ্ট্য

লেম্মা ५.१: $d^π_{Jπβ}(E) = J_π d^π_β(E)$ $d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E)$

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. স্থিতিশীলতা গ্যারান্টি: উপযুক্ত সময় স্কেল বিচ্ছেদন শর্তের অধীনে, সিস্টেম স্থিতিশীল থাকে २. সূচকীয় সংযোগ: সর্বোত্তম নীতির দিকে সূচকীয় সংযোগ হার ३. এন্ট্রপি নিয়মিতকরণ প্রভাব: এন্ট্রপি নিয়মিতকরণ অনন্য সর্বোত্তম নীতি নিশ্চিত করে এবং সংযোগ ত্বরান্বিত করে

সীমাবদ্ধতা

१. ক্রমাগত সময় অনুমান: শুধুমাত্র ক্রমাগত সময় গতিশীলতা বিশ্লেষণ করে, বিচ্ছিন্ন সময় আরও ব্যবহারিক २. রৈখিক ফাংশন অ্যাপ্রক্সিমেশন: ব্যবহারিকভাবে প্রায়ই অ-রৈখিক স্নায়ু নেটওয়ার্ক ব্যবহার করা হয় ३. নির্ভুল ইন্টিগ্রেশন অনুমান: ব্যবহারিকভাবে নমুনা অনুমান প্রয়োজন, মন্টে কার্লো ত্রুটি প্রবর্তন করে ४. Q ফাংশন বাস্তবায়নযোগ্যতা: শক্তিশালী অনুমান, ব্যবহারিকভাবে সন্তুষ্ট নাও হতে পারে

ভবিষ্যত দিকনির্দেশনা

१. বিচ্ছিন্ন সময় অ্যালগরিদমের কঠোর বিশ্লেষণ २. অ-রৈখিক ফাংশন অ্যাপ্রক্সিমেশনের সম্প্রসারণ ३. নমুনা ত্রুটির চিকিত্সা ४. দুর্বল বাস্তবায়নযোগ্যতা শর্ত

গভীর মূল্যায়ন

সুবিধা

१. তাত্ত্বিক কঠোরতা: সম্পূর্ণ স্থিতিশীলতা এবং সংযোগ প্রমাণ প্রদান করে २. প্রযুক্তিগত উদ্ভাবন: Fisher-Rao জ্যামিতি এবং Lyapunov বিশ্লেষণ চতুরভাবে একত্রিত করে ३. সাধারণতা: ক্রমাগত অ্যাকশন স্পেসে প্রসারিত করে, তাত্ত্বিক শূন্যতা পূরণ করে ४. স্পষ্ট উপস্থাপনা: গাণিতিক ডেরিভেশন বিস্তারিত, যুক্তি স্পষ্ট

অপূর্ণতা

१. ব্যবহারিক সীমাবদ্ধতা: শক্তিশালী অনুমান শর্ত ব্যবহারিকভাবে পূরণ করা কঠিন २. পরীক্ষামূলক যাচাইকরণ অনুপস্থিত: বিশুদ্ধ তাত্ত্বিক কাজ, সংখ্যাগত যাচাইকরণ অনুপস্থিত ३. গণনামূলক জটিলতা: অ্যালগরিদমের গণনামূলক জটিলতা আলোচনা করা হয়নি ४. সীমিত প্রযোজ্যতা: ক্রমাগত সময় অনুমান ব্যবহারিক প্রয়োগ সীমিত করে

প্রভাব

१. তাত্ত্বিক অবদান: এন্ট্রপি নিয়মিতকৃত MDP-এর জন্য গুরুত্বপূর্ণ তাত্ত্বিক ভিত্তি প্রদান করে २. পদ্ধতিগত মূল্য: বিশ্লেষণ কৌশল অন্যান্য শক্তিশালী শিক্ষা অ্যালগরিদমে প্রয়োগ করা যায় ३. পরবর্তী গবেষণা: বিচ্ছিন্ন সময় এবং আরও সাধারণ সেটিংয়ের গবেষণার ভিত্তি স্থাপন করে

প্রযোজ্য পরিস্থিতি

१. তাত্ত্বিক গবেষণা: অন্যান্য গবেষণার জন্য তাত্ত্বিক সরঞ্জাম এবং অন্তর্দৃষ্টি প্রদান করে २. অ্যালগরিদম ডিজাইন: ব্যবহারিক অ্যালগরিদমের প্যারামিটার নির্বাচন এবং সংযোগ বিশ্লেষণ নির্দেশনা দেয় ३. ক্রমাগত নিয়ন্ত্রণ: ক্রমাগত অবস্থা-অ্যাকশন স্পেসের নিয়ন্ত্রণ সমস্যা

সংদর্ভ

পেপারটি २५টি গুরুত্বপূর্ণ সংদর্ভ উদ্ধৃত করে, যা অন্তর্ভুক্ত করে:

অ্যাক্টর-ক্রিটিক পদ্ধতির ক্লাসিক কাজ (কোন্ডা এবং সিৎসিকলিস, १९९९)
এন্ট্রপি নিয়মিতকৃত MDP (কেরিমকুলভ এট আল।, २०२४)
নীতি গ্র্যাডিয়েন্ট পদ্ধতি (শুলম্যান এট আল।, २०१५, २०१७)
ফাংশন অ্যাপ্রক্সিমেশন তত্ত্ব (ভান্ডারি এট আল।, २०२१)

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের তাত্ত্বিক পেপার যা এন্ট্রপি নিয়মিতকৃত MDP-তে অ্যাক্টর-ক্রিটিক পদ্ধতির জন্য কঠোর গাণিতিক বিশ্লেষণ প্রদান করে। যদিও ব্যবহারিক প্রয়োগের ক্ষেত্রে সীমাবদ্ধতা রয়েছে, তবে এর তাত্ত্বিক অবদান এবং পদ্ধতিগত মূল্য উল্লেখযোগ্য এবং এই ক্ষেত্রের আরও উন্নয়নের জন্য একটি গুরুত্বপূর্ণ ভিত্তি স্থাপন করে।