2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Šiška, Szpruch
We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
academic

সাধারণ অ্যাকশন স্পেসে এন্ট্রপি নিয়মিতকৃত MDPs-এর জন্য অ্যাক্টর-ক্রিটিক এর সংযোগ

মৌলিক তথ্য

  • পেপার আইডি: 2510.14898
  • শিরোনাম: সাধারণ অ্যাকশন স্পেসে এন্ট্রপি নিয়মিতকৃত MDPs-এর জন্য অ্যাক্টর-ক্রিটিক এর সংযোগ
  • লেখক: ডেনিস জোরবা, ডেভিড শিস্কা, লুকাস স্জপ্রুচ
  • শ্রেণীবিভাগ: math.OC (অপ্টিমাইজেশন এবং নিয়ন্ত্রণ)
  • প্রকাশনার সময়: ২০২৫ সালের অক্টোবর ১৬ (arXiv প্রি-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.14898

সারসংক্ষেপ

এই পেপারটি প্রমাণ করে যে ক্রমাগত অবস্থা এবং অ্যাকশন স্পেসে, রৈখিক ফাংশন অ্যাপ্রক্সিমেশন এবং Q ফাংশন বাস্তবায়নযোগ্যতা শর্তের অধীনে, অসীম দিগন্ত এন্ট্রপি নিয়মিতকৃত মার্কভ সিদ্ধান্ত প্রক্রিয়া (MDPs)-এর যুগ্ম অ্যাক্টর-ক্রিটিক গ্র্যাডিয়েন্ট প্রবাহের স্থিতিশীলতা এবং বৈশ্বিক সংযোগ। গবেষণা একটি অ্যাক্টর-ক্রিটিক গ্র্যাডিয়েন্ট প্রবাহ বৈকল্পিক বিবেচনা করে যেখানে ক্রিটিক সময়গত পার্থক্য (TD) শিক্ষা ব্যবহার করে আপডেট করে, যখন নীতি বিভিন্ন সময় স্কেলে নীতি মিরর ডিসেন্ট পদ্ধতি ব্যবহার করে আপডেট করে। পেপারটি অ্যাক্টর-ক্রিটিক প্রবাহের সর্বোত্তম নীতির দিকে স্থিতিশীলতা এবং সূচকীয় সংযোগ প্রমাণ করে এবং সময় স্কেল বিচ্ছেদন এবং এন্ট্রপি নিয়মিতকরণের মধ্যে মিথস্ক্রিয়া স্থিতিশীলতা এবং সংযোগের উপর প্রভাব বিশ্লেষণ করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই পেপারটি যে মূল সমস্যাটি সমাধান করে তা হল সাধারণ অ্যাকশন স্পেসে (ক্রমাগত বা অসীম) এন্ট্রপি নিয়মিতকৃত MDP-তে অ্যাক্টর-ক্রিটিক পদ্ধতির স্থিতিশীলতা এবং সংযোগ বিশ্লেষণ। নির্দিষ্টভাবে:

  1. স্থিতিশীলতা সমস্যা: ক্রমাগত সময় গতিশীলতার অধীনে, অ্যাক্টর এবং ক্রিটিকের যুগ্ম আপডেট কি সিস্টেম অস্থিরতার দিকে পরিচালিত করে
  2. সংযোগ সমস্যা: সিস্টেম কি সর্বোত্তম নীতিতে সংযুক্ত হয়, সংযোগের গতি কী
  3. সময় স্কেল বিচ্ছেদন: বিভিন্ন আপডেট গতি সিস্টেম কর্মক্ষমতার উপর প্রভাব

গবেষণার গুরুত্ব

  1. তাত্ত্বিক ভিত্তি: ব্যবহারিক প্রয়োগে ব্যাপকভাবে ব্যবহৃত অ্যাক্টর-ক্রিটিক অ্যালগরিদমের জন্য কঠোর তাত্ত্বিক গ্যারান্টি প্রদান করে
  2. সাধারণ সম্প্রসারণ: বিদ্যমান সীমিত অ্যাকশন স্পেস ফলাফলগুলি ক্রমাগত/অসীম অ্যাকশন স্পেসে প্রসারিত করে
  3. এন্ট্রপি নিয়মিতকরণ: অন্বেষণ প্রচার এবং সংযোগ ত্বরণে এন্ট্রপি নিয়মিতকরণের ভূমিকা বিশ্লেষণ করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. অ্যাকশন স্পেস সীমাবদ্ধতা: এন্ট্রপি নিয়মিতকৃত MDP-এর বিদ্যমান সংযোগ ফলাফলগুলি প্রধানত সীমিত অ্যাকশন স্পেসে সীমাবদ্ধ
  2. ফাংশন অ্যাপ্রক্সিমেশন চ্যালেঞ্জ: সাধারণ অবস্থা এবং অ্যাকশন স্পেসে ফাংশন অ্যাপ্রক্সিমেশনের জন্য পূর্ববর্তী সীমাবদ্ধতার অভাব
  3. যুগ্ম বিশ্লেষণ জটিলতা: ইউক্লিডীয় স্পেস এবং পরিমাপ স্পেসে উত্তল বিশ্লেষণ সরঞ্জাম একত্রিত করার প্রয়োজন

মূল অবদান

  1. স্থিতিশীলতা কাঠামো: Lyapunov-ভিত্তিক স্থিতিশীলতা কাঠামো বিকশিত করা যা এন্ট্রপি নিয়মিতকরণ এবং সময় স্কেল বিচ্ছেদনের মধ্যে মিথস্ক্রিয়া ক্যাপচার করে
  2. সংযোগ প্রমাণ: অসীম অ্যাকশন স্পেসের এন্ট্রপি নিয়মিতকৃত MDP-তে অ্যাক্টর-ক্রিটিক গতিশীলতার সংযোগ প্রমাণ করা
  3. সূচকীয় সংযোগ হার: সর্বোত্তম নীতির দিকে সূচকীয় সংযোগ হার প্রতিষ্ঠা করা
  4. ক্রমাগত সময় বিশ্লেষণ: ক্রমাগত সময় সীমায় যুগ্ম আপডেট বিশ্লেষণ করা, ক্রিটিকের অর্ধ-গ্র্যাডিয়েন্ট প্রবাহ এবং অ্যাক্টরের আনুমানিক Fisher-Rao গ্র্যাডিয়েন্ট প্রবাহ গঠন করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

অসীম দিগন্ত MDP বিবেচনা করুন (S,A,P,c,γ)(S,A,P,c,γ), যেখানে:

  • SS, AA: পোলিশ স্পেস (অবস্থা এবং অ্যাকশন স্পেস)
  • PP(SS×A)P \in P(S|S \times A): অবস্থা রূপান্তর কার্নেল
  • cc: সীমাবদ্ধ খরচ ফাংশন
  • γ(0,1)γ \in (0,1): ছাড় ফ্যাক্টর
  • τ>0τ > 0: নিয়মিতকরণ প্যারামিটার

এন্ট্রপি নিয়মিতকৃত মূল্য ফাংশন সংজ্ঞায়িত করা হয়: Vτπ(s)=Esπ[n=0γn(c(sn,an)+τKL(π(sn)μ))]V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]

মডেল আর্কিটেকচার

১. নীতি প্যারামিটারাইজেশন

নীতি গ্রহণযোগ্য নীতি শ্রেণী ΠμΠ_μ এ অন্তর্গত: π(das)=exp(f(s,a))Aexp(f(s,a))μ(da)μ(da)π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)

২. Q ফাংশন রৈখিক অ্যাপ্রক্সিমেশন

বৈশিষ্ট্য ম্যাপিং φ:S×ARNφ: S \times A → R^N ব্যবহার করা: Q(s,a;θ)=θ,φ(s,a)Q(s,a;θ) = ⟨θ, φ(s,a)⟩

३. যুগ্ম গতিশীলতা সিস্টেম

ক্রমাগত সময় অ্যাক্টর-ক্রিটিক প্রবাহ: dθtdt=ηtg(θt,πt)\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)tπt(das)=At(s,a)πt(das)∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)

যেখানে:

  • g(θ,π)g(θ,π): গড় বর্গ বেলম্যান ত্রুটি (MSBE) এর অর্ধ-গ্র্যাডিয়েন্ট
  • At(s,a)A_t(s,a): আনুমানিক নরম সুবিধা ফাংশন
  • ηtη_t: সময় স্কেল বিচ্ছেদন প্যারামিটার

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

১. Fisher-Rao গ্র্যাডিয়েন্ট প্রবাহ

নীতি আপডেটকে সম্ভাব্যতা পরিমাপ স্পেসে Fisher-Rao গ্র্যাডিয়েন্ট প্রবাহ হিসাবে মডেল করা: tlndπtdμ(s,a)=Aτπt(s,a)∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)

२. দুই সময় স্কেল বিশ্লেষণ

  • ক্রিটিক দ্রুত সময় স্কেলে আপডেট করে (TD শিক্ষা)
  • অ্যাক্টর ধীর সময় স্কেলে আপডেট করে (নীতি মিরর ডিসেন্ট)

३. Lyapunov স্থিতিশীলতা বিশ্লেষণ

সিস্টেম স্থিতিশীলতা বিশ্লেষণের জন্য Lyapunov ফাংশন তৈরি করা, একত্রিত করা:

  • ইউক্লিডীয় স্পেসের উত্তল বিশ্লেষণ
  • পরিমাপ স্পেসের উত্তল বিশ্লেষণ

তাত্ত্বিক বিশ্লেষণ

মূল অনুমান

অনুমান ৪.১ (Q^π_τ-বাস্তবায়নযোগ্যতা): সমস্ত πΠμπ ∈ Π_μ এবং (s,a)S×A(s,a) ∈ S × A এর জন্য, একটি θπRNθ^π ∈ R^N বিদ্যমান যেমন: Qπ(s,a)=θπ,φ(s,a)Q^π(s,a) = ⟨θ^π, φ(s,a)⟩

অনুমান ४.२: φ(s,a)1|φ(s,a)| ≤ 1 সমস্ত (s,a)S×A(s,a) ∈ S × A এর জন্য ধারণ করে

অনুমান ४.३: ম্যাট্রিক্স S×Aφ(s,a)φ(s,a)β(ds,da)\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da) এর ন্যূনতম eigenvalue λβ>0λ_β > 0

প্রধান তাত্ত্বিক ফলাফল

স্থিতিশীলতা উপপাদ্য (Theorem 5.1)

η0>τΓη_0 > \frac{τ}{Γ} সেট করুন, যেখানে Γ=λβ(1γ)(1γ)Γ = λ_β(1-γ)(1-\sqrt{γ}), তারপর ধ্রুবক a1,a2>0a_1, a_2 > 0 বিদ্যমান যেমন: Kt2a1+a20teτ(tr)Kr2drK_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr

যেখানে Kt=supsSKL(πt(s)μ)K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ)

সংযোগ উপপাদ্য (Theorem 6.1)

সমস্ত t>0t > 0 এর জন্য: minr[0,t]Vτπr(ρ)Vτπ(ρ)τ2(1γ)(1eτ2t)(eτ2tSKL(π(s)π0(s))dρπ(ds)+12τ0teτ2(tr)θrθπr2dr)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)

সূচকীয় সংযোগ (Theorem 6.3)

উপযুক্ত শর্তের অধীনে, ηt=η0ek1tη_t = η_0 e^{k_1 t} এবং ধ্রুবক k2>0k_2 > 0 বিদ্যমান যেমন: minr[0,t]Vτπr(ρ)Vτπ(ρ)τeτ2t2(1γ)(1eτ2t)(SKL(π(s)π0(s))dρπ(ds)+k22τ)\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)

মূল প্রযুক্তিগত সরঞ্জাম

१. কর্মক্ষমতা পার্থক্য লেম্মা (Performance Difference Lemma)

Vτπ(ρ)Vτπ(ρ)=11γS[A(Qτπ(s,a)+τlndπdμ(a,s))(ππ)(das)+τKL(π(s)π(s))]dρπ(ds)V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)

२. Gronwall অসমতা প্রয়োগ

KL বিচ্যুতি এবং প্যারামিটার নর্মের বৃদ্ধি নিয়ন্ত্রণের জন্য ব্যবহৃত।

३. অবস্থা-অ্যাকশন দখল পরিমাপ বৈশিষ্ট্য

লেম্মা ५.१: dJπβπ(E)=Jπdβπ(E)d^π_{Jπβ}(E) = J_π d^π_β(E)dβπ(E)γdJπβπ(E)=(1γ)β(E)d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E)

সম্পর্কিত কাজ

নিয়মিতকরণ ছাড়া সেটিং

  • বোরকার এবং কোন্ডা (१९९७): দ্বি-সময় স্কেল স্টোকাস্টিক অ্যাপ্রক্সিমেশন
  • ভান্ডারি এট আল। (२०२१): রৈখিক ফাংশন অ্যাপ্রক্সিমেশনের সীমিত সময় বিশ্লেষণ
  • ঝাং এট আল। (२०२१): Wasserstein প্রবাহ এবং প্রতিনিধিত্ব শিক্ষা

এন্ট্রপি নিয়মিতকরণ সেটিং

  • কায়সি এট আল। (२०२४): সীমিত অ্যাকশন স্পেসের প্রাকৃতিক নীতি গ্র্যাডিয়েন্ট
  • এই পেপার সাধারণ অ্যাকশন স্পেসে প্রসারিত করে

প্রযুক্তিগত অবদান তুলনা

বিদ্যমান কাজের উপর এই পেপারের সুবিধা: १. ক্রমাগত/অসীম অ্যাকশন স্পেস পরিচালনা করে २. কঠোর স্থিতিশীলতা এবং সংযোগ প্রমাণ ३. এন্ট্রপি নিয়মিতকরণ এবং সময় স্কেল বিচ্ছেদনের মধ্যে মিথস্ক্রিয়া বিশ্লেষণ

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. স্থিতিশীলতা গ্যারান্টি: উপযুক্ত সময় স্কেল বিচ্ছেদন শর্তের অধীনে, সিস্টেম স্থিতিশীল থাকে २. সূচকীয় সংযোগ: সর্বোত্তম নীতির দিকে সূচকীয় সংযোগ হার ३. এন্ট্রপি নিয়মিতকরণ প্রভাব: এন্ট্রপি নিয়মিতকরণ অনন্য সর্বোত্তম নীতি নিশ্চিত করে এবং সংযোগ ত্বরান্বিত করে

সীমাবদ্ধতা

१. ক্রমাগত সময় অনুমান: শুধুমাত্র ক্রমাগত সময় গতিশীলতা বিশ্লেষণ করে, বিচ্ছিন্ন সময় আরও ব্যবহারিক २. রৈখিক ফাংশন অ্যাপ্রক্সিমেশন: ব্যবহারিকভাবে প্রায়ই অ-রৈখিক স্নায়ু নেটওয়ার্ক ব্যবহার করা হয় ३. নির্ভুল ইন্টিগ্রেশন অনুমান: ব্যবহারিকভাবে নমুনা অনুমান প্রয়োজন, মন্টে কার্লো ত্রুটি প্রবর্তন করে ४. Q ফাংশন বাস্তবায়নযোগ্যতা: শক্তিশালী অনুমান, ব্যবহারিকভাবে সন্তুষ্ট নাও হতে পারে

ভবিষ্যত দিকনির্দেশনা

१. বিচ্ছিন্ন সময় অ্যালগরিদমের কঠোর বিশ্লেষণ २. অ-রৈখিক ফাংশন অ্যাপ্রক্সিমেশনের সম্প্রসারণ ३. নমুনা ত্রুটির চিকিত্সা ४. দুর্বল বাস্তবায়নযোগ্যতা শর্ত

গভীর মূল্যায়ন

সুবিধা

१. তাত্ত্বিক কঠোরতা: সম্পূর্ণ স্থিতিশীলতা এবং সংযোগ প্রমাণ প্রদান করে २. প্রযুক্তিগত উদ্ভাবন: Fisher-Rao জ্যামিতি এবং Lyapunov বিশ্লেষণ চতুরভাবে একত্রিত করে ३. সাধারণতা: ক্রমাগত অ্যাকশন স্পেসে প্রসারিত করে, তাত্ত্বিক শূন্যতা পূরণ করে ४. স্পষ্ট উপস্থাপনা: গাণিতিক ডেরিভেশন বিস্তারিত, যুক্তি স্পষ্ট

অপূর্ণতা

१. ব্যবহারিক সীমাবদ্ধতা: শক্তিশালী অনুমান শর্ত ব্যবহারিকভাবে পূরণ করা কঠিন २. পরীক্ষামূলক যাচাইকরণ অনুপস্থিত: বিশুদ্ধ তাত্ত্বিক কাজ, সংখ্যাগত যাচাইকরণ অনুপস্থিত ३. গণনামূলক জটিলতা: অ্যালগরিদমের গণনামূলক জটিলতা আলোচনা করা হয়নি ४. সীমিত প্রযোজ্যতা: ক্রমাগত সময় অনুমান ব্যবহারিক প্রয়োগ সীমিত করে

প্রভাব

१. তাত্ত্বিক অবদান: এন্ট্রপি নিয়মিতকৃত MDP-এর জন্য গুরুত্বপূর্ণ তাত্ত্বিক ভিত্তি প্রদান করে २. পদ্ধতিগত মূল্য: বিশ্লেষণ কৌশল অন্যান্য শক্তিশালী শিক্ষা অ্যালগরিদমে প্রয়োগ করা যায় ३. পরবর্তী গবেষণা: বিচ্ছিন্ন সময় এবং আরও সাধারণ সেটিংয়ের গবেষণার ভিত্তি স্থাপন করে

প্রযোজ্য পরিস্থিতি

१. তাত্ত্বিক গবেষণা: অন্যান্য গবেষণার জন্য তাত্ত্বিক সরঞ্জাম এবং অন্তর্দৃষ্টি প্রদান করে २. অ্যালগরিদম ডিজাইন: ব্যবহারিক অ্যালগরিদমের প্যারামিটার নির্বাচন এবং সংযোগ বিশ্লেষণ নির্দেশনা দেয় ३. ক্রমাগত নিয়ন্ত্রণ: ক্রমাগত অবস্থা-অ্যাকশন স্পেসের নিয়ন্ত্রণ সমস্যা

সংদর্ভ

পেপারটি २५টি গুরুত্বপূর্ণ সংদর্ভ উদ্ধৃত করে, যা অন্তর্ভুক্ত করে:

  • অ্যাক্টর-ক্রিটিক পদ্ধতির ক্লাসিক কাজ (কোন্ডা এবং সিৎসিকলিস, १९९९)
  • এন্ট্রপি নিয়মিতকৃত MDP (কেরিমকুলভ এট আল।, २०२४)
  • নীতি গ্র্যাডিয়েন্ট পদ্ধতি (শুলম্যান এট আল।, २०१५, २०१७)
  • ফাংশন অ্যাপ্রক্সিমেশন তত্ত্ব (ভান্ডারি এট আল।, २०२१)

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ মানের তাত্ত্বিক পেপার যা এন্ট্রপি নিয়মিতকৃত MDP-তে অ্যাক্টর-ক্রিটিক পদ্ধতির জন্য কঠোর গাণিতিক বিশ্লেষণ প্রদান করে। যদিও ব্যবহারিক প্রয়োগের ক্ষেত্রে সীমাবদ্ধতা রয়েছে, তবে এর তাত্ত্বিক অবদান এবং পদ্ধতিগত মূল্য উল্লেখযোগ্য এবং এই ক্ষেত্রের আরও উন্নয়নের জন্য একটি গুরুত্বপূর্ণ ভিত্তি স্থাপন করে।