2025-11-21T22:04:16.316942

Control of Conditional Processes and Fleming--Viot Dynamics

Jettkant
We discuss equivalent formulations of the control of conditional processes introduced by Lions. In this problem, a controlled diffusion process is killed once it hits the boundary of a given domain and the controller's reward is computed based on the conditional distribution given the process's survival. So far there is no clarity regarding the relationship between the open- and closed-loop formulation of this nonstandard control problem. We provide a short proof of their equivalence using measurable selection and mimicking arguments. In addition, we link the closed-loop formulation to Fleming--Viot dynamics of McKean--Vlasov type, where upon being killed the diffusion process is reinserted into the domain according to the current law of the process itself. This connection offers a new interpretation of the control problem and opens it up to applications that feature costs caused by reinsertion.
academic

শর্তসাপেক্ষ প্রক্রিয়া এবং Fleming--Viot গতিশীলতার নিয়ন্ত্রণ

মৌলিক তথ্য

  • পেপার আইডি: 2409.15195
  • শিরোনাম: Control of Conditional Processes and Fleming--Viot Dynamics
  • লেখক: Philipp Jettkant (ইম্পেরিয়াল কলেজ লন্ডন)
  • শ্রেণীবিভাগ: math.PR (সম্ভাব্যতা তত্ত্ব)
  • প্রকাশনার সময়: ২০২৪ সেপ্টেম্বর (arXiv প্রাক-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2409.15195

সারসংক্ষেপ

এই পেপারটি Lions দ্বারা প্রবর্তিত শর্তসাপেক্ষ প্রক্রিয়া নিয়ন্ত্রণ সমস্যার সমতুল্য প্রণয়ন নিয়ে আলোচনা করে। এই সমস্যায়, নিয়ন্ত্রিত বিস্তৃতি প্রক্রিয়া একবার প্রদত্ত অঞ্চলের সীমানায় পৌঁছালে "হত্যা" করা হয়, এবং নিয়ন্ত্রকের পুরস্কার প্রক্রিয়া বেঁচে থাকার শর্তে শর্তসাপেক্ষ বিতরণের উপর ভিত্তি করে গণনা করা হয়। এই অ-মানক নিয়ন্ত্রণ সমস্যার খোলা-লুপ এবং বন্ধ-লুপ প্রণয়নের মধ্যে সম্পর্ক বর্তমানে অস্পষ্ট। লেখক পরিমাপযোগ্য নির্বাচন এবং সিমুলেশন যুক্তি ব্যবহার করে তাদের সমতুল্যতার একটি সংক্ষিপ্ত প্রমাণ প্রদান করেন। অধিকন্তু, বন্ধ-লুপ প্রণয়নকে McKean-Vlasov ধরনের Fleming-Viot গতিশীলতার সাথে সংযুক্ত করেন, যেখানে হত্যা করা বিস্তৃতি প্রক্রিয়াগুলি প্রক্রিয়াটির নিজস্ব বর্তমান বিতরণ অনুযায়ী অঞ্চলে পুনরায় সন্নিবেশ করানো হয়। এই সংযোগ নিয়ন্ত্রণ সমস্যার জন্য নতুন ব্যাখ্যা প্রদান করে এবং এটিকে পুনরায় সন্নিবেশ খরচ সহ প্রয়োগে প্রসারিত করে।

গবেষণা পটভূমি এবং অনুপ্রেরণা

মূল সমস্যা

এই পেপারটি Lions দ্বারা Collège de France বক্তৃতায় প্রবর্তিত শর্তসাপেক্ষ প্রক্রিয়া নিয়ন্ত্রণ সমস্যা অধ্যয়ন করে। এই সমস্যার বিশেষত্ব নিম্নরূপ:

  1. হত্যা প্রক্রিয়া: নিয়ন্ত্রিত বিস্তৃতি প্রক্রিয়া একবার প্রদত্ত অঞ্চল D ছেড়ে গেলে "হত্যা" করা হয়
  2. শর্তসাপেক্ষ পুরস্কার: নিয়ন্ত্রকের পুরস্কার প্রক্রিয়া বেঁচে থাকার শর্তে শর্তসাপেক্ষ বিতরণ μₜ = L(Xₜ|τ > t) এর উপর ভিত্তি করে গণনা করা হয়
  3. অ-মানক প্রকৃতি: এটি একটি অ-মানক স্টোকাস্টিক নিয়ন্ত্রণ সমস্যা, যা ধ্রুবক McKean-Vlasov নিয়ন্ত্রণ থেকে আলাদা

গবেষণা অনুপ্রেরণা

  1. তাত্ত্বিক ফাঁক: খোলা-লুপ এবং বন্ধ-লুপ নিয়ন্ত্রণ প্রণয়নের মধ্যে সমতুল্যতা এখনও প্রতিষ্ঠিত হয়নি
  2. প্রয়োগের চাহিদা: পুনরায় সন্নিবেশ খরচ জড়িত বাস্তব প্রয়োগের জন্য তাত্ত্বিক ভিত্তি প্রয়োজন
  3. পদ্ধতিগত অবদান: বিদ্যমান McKean-Vlasov নিয়ন্ত্রণ তত্ত্বকে শর্তসাপেক্ষ প্রক্রিয়া সেটিংয়ে প্রসারিত করা

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  • Campi এবং অন্যদের সম্পর্কিত কাজ শর্তসাপেক্ষ বিতরণের পরিবর্তে উপ-সম্ভাব্যতা বিতরণের উপর ভিত্তি করে
  • Carmona এবং অন্যরা শুধুমাত্র "নরম হত্যা" এর শিথিল সংস্করণ বিবেচনা করেন, Lions এর মূল "কঠিন হত্যা" মডেল সরাসরি পরিচালনা করেন না
  • শর্তসাপেক্ষ প্রক্রিয়া নিয়ন্ত্রণ এবং Fleming-Viot গতিশীলতা সংযুক্ত করার তাত্ত্বিক কাঠামোর অভাব

মূল অবদান

  1. সমতুল্যতা প্রমাণ: শর্তসাপেক্ষ প্রক্রিয়া নিয়ন্ত্রণ সমস্যায় খোলা-লুপ এবং বন্ধ-লুপ প্রণয়নের সমতুল্যতা প্রমাণ করে (V = V_closed)
  2. পদ্ধতিগত উদ্ভাবন: Lacker এর পদ্ধতি উন্নত করে, সহায়ক প্রক্রিয়া (X,Λ) প্রবর্তন করে আপডেট ফাংশনের ব্যবহার এড়ায়
  3. Fleming-Viot সংযোগ: বন্ধ-লুপ নিয়ন্ত্রণ এবং McKean-Vlasov ধরনের Fleming-Viot গতিশীলতার মধ্যে সংযোগ স্থাপন করে
  4. প্রয়োগ সম্প্রসারণ: পুনরায় সন্নিবেশ খরচ সহ প্রয়োগের জন্য তাত্ত্বিক কাঠামো প্রদান করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

সীমাবদ্ধ খোলা সেট D ⊂ ℝᵈ এ নিয়ন্ত্রিত বিস্তৃতি প্রক্রিয়া বিবেচনা করুন:

dXₜ = b(t, Xₜ, μₜ, αₜ)dt + σdWₜ

যেখানে:

  • μₜ = L(Xₜ|τ > t) শর্তসাপেক্ষ বিতরণ
  • τ = inf{s > 0 : Xₛ ∉ D} প্রথম প্রস্থান সময়
  • নিয়ন্ত্রণ লক্ষ্য পুরস্কার ফাংশন J(α,μ) সর্বাধিক করা

মূল প্রযুক্তিগত পদ্ধতি

1. সমতুল্য প্রক্রিয়া প্রতিনিধিত্ব

মূল অন্তর্দৃষ্টি হল শর্তসাপেক্ষ McKean-Vlasov SDE কে সমতুল্যভাবে প্রতিনিধিত্ব করা:

dXₜ = b(t, Xₜ, μₜ, αₜ)dt + σdWₜ
dΛₜ = 1_{Xₜ∉D}dt

যেখানে μₜ = L(Xₜ|Λₜ = 0), τ = inf{t > 0 : Λₜ > 0} এর সত্যতা ব্যবহার করে।

2. পরিমাপযোগ্য নির্বাচন যুক্তি

Haussmann-Lepeltier এর পরিমাপযোগ্য নির্বাচন উপপাদ্য ব্যবহার করে প্রতিক্রিয়া ফাংশন গঠন করুন:

  • খোলা-লুপ নিয়ন্ত্রণ (α,μ) থেকে শুরু করুন
  • শর্তসাপেক্ষ প্রত্যাশা দ্বারা cb(t,x,λ,m) = Eb(t,Xₜ,m,αₜ)|Xₜ=x, Λₜ=λ সংজ্ঞায়িত করুন
  • উত্তলতা অনুমান ব্যবহার করে পরিমাপযোগ্য নির্বাচন প্রয়োগ করে ã(t,x,λ) পান

3. সিমুলেশন উপপাদ্য প্রয়োগ

Brunick-Shreve এর সিমুলেশন উপপাদ্য যৌথ প্রক্রিয়া (X,Λ) এ প্রয়োগ করুন:

  • একই প্রান্তিক বিতরণ সহ প্রক্রিয়া (X̃,Λ̃) গঠন করুন
  • নিশ্চিত করুন যে L(X̃ₜ,Λ̃ₜ) = L(Xₜ,Λₜ)
  • এর থেকে বন্ধ-লুপ নিয়ন্ত্রণের পুরস্কার খোলা-লুপ নিয়ন্ত্রণের চেয়ে কম নয় তা পান

Fleming-Viot গতিশীলতা

McKean-Vlasov ধরনের Fleming-Viot গতিশীলতা স্থাপন করুন:

dYₜ = b(t, Yₜ, L(Yₜ), a(t,Yₜ))dt + σdWₜ + dJₜ

যেখানে Jₜ পুনরায় সন্নিবেশ জাম্প প্রক্রিয়া প্রতিনিধিত্ব করে, প্রমাণ করুন যে L(Yₜ) = μₜ।

তাত্ত্বিক বিশ্লেষণ

প্রধান অনুমান

অনুমান 2.1 (প্রযুক্তিগত শর্ত):

  • b, f, g সীমাবদ্ধ পরিমাপযোগ্য ফাংশন
  • b পরিমাপ প্যারামিটারে মোট পরিবর্তন Lipschitz শর্ত সন্তুষ্ট করে
  • σ বিপরীতযোগ্য

অনুমান 2.2 (উত্তলতা শর্ত):

  • b নিয়ন্ত্রণ প্যারামিটারে ধারাবাহিক
  • f নিয়ন্ত্রণ প্যারামিটারে উপরের দিকে অর্ধ-ধারাবাহিক
  • উপরের গ্রাফ সেট বন্ধ উত্তল

মূল উপপাদ্য

উপপাদ্য 2.4 (সমতুল্যতা): উপযুক্ত অনুমানের অধীনে, যেকোনো সম্ভাব্য নিয়ন্ত্রণ (α,μ) এর জন্য, একটি বন্ধ-লুপ নিয়ন্ত্রণ (α̃,μ) বিদ্যমান যেমন J(α̃,μ) ≥ J(α,μ)। বিশেষত, V_closed = V।

উপপাদ্য 3.4 (Fleming-Viot অস্তিত্ব এবং অনন্যতা): McKean-Vlasov SDE (3.1) এর একটি শক্তিশালী সমাধান বিদ্যমান এবং পথ অনন্য, অধিকন্তু, L(Xₜ) = L(X'ₜ|τ' > t)।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. সহায়ক প্রক্রিয়া পদ্ধতি: (X,Λ) এর মাধ্যমে অনিয়মিত প্রথম প্রস্থান সময় সরাসরি পরিচালনা এড়ান
  2. মোট পরিবর্তন অনুমান: Campi-Fischer এর মোট পরিবর্তন কৌশল ব্যবহার করুন মানক Wasserstein মেট্রিকের পরিবর্তে
  3. একীভূত কাঠামো: শর্তসাপেক্ষ প্রক্রিয়া নিয়ন্ত্রণ এবং Fleming-Viot গতিশীলতা McKean-Vlasov তত্ত্ব কাঠামোতে একীভূত করুন

গাণিতিক প্রযুক্তিগত বিবরণ

অস্তিত্ব প্রমাণ (প্রস্তাব 2.3)

সংকোচন ম্যাপিং নীতি ব্যবহার করুন:

  1. অপারেটর Φ: C(0,T; P(ℝᵈ)) → C(0,T; P(ℝᵈ)) সংজ্ঞায়িত করুন
  2. Girsanov রূপান্তর এবং মোট পরিবর্তন অনুমান দ্বারা সংকোচন প্রমাণ করুন
  3. সম্পূর্ণ মেট্রিক স্থানে Banach স্থির বিন্দু উপপাদ্য ব্যবহার করুন

অনন্যতা এবং নিয়মিততা

  • প্রস্তাব A.2: P(τ = t) = 0 সকল t ≥ 0 এর জন্য ধারণ করে
  • লেম্মা A.1: বেঁচে থাকার সম্ভাবনা P(τ > t) সীমাবদ্ধ প্রবাহ শ্রেণীতে সমানভাবে নিম্নে সীমাবদ্ধ
  • প্রস্তাব A.3: Poincaré-Zaremba শঙ্কু শর্তের অধীনে তাৎক্ষণিক প্রস্থান সম্পত্তি

প্রয়োগ সম্ভাবনা

উৎপাদন শিল্প উদাহরণ

পেপারটি একটি নির্দিষ্ট প্রয়োগ দৃশ্যকল্প প্রদান করে:

  • Yₜ একটি বৃহৎ উৎপাদন কোম্পানির মেশিনের কর্মভার প্রতিনিধিত্ব করে
  • নিয়ন্ত্রণ a(t,Yₜ) কর্মচারীদের কর্মভার ব্যবস্থাপনা প্রতিনিধিত্ব করে
  • মেশিন অতিভার হলে ব্যর্থতা ঘটে, খরচ c এ প্রতিস্থাপন প্রয়োজন
  • লক্ষ্য: রাজস্ব উৎপাদন এবং অপারেশনাল খরচ ন্যূনতমকরণের মধ্যে ভারসাম্য রাখা

পুনরায় সন্নিবেশ খরচ

নতুন পুরস্কার ফাংশন ফর্ম:

J_FV(a) = E[∫₀ᵀ f(t,Xₜ,μₜ,a(t,Xₜ))dt - cFₜ + g(μₜ)]

যেখানে Fₜ = -log P(τ > t) প্রত্যাশিত পুনরায় সন্নিবেশ সংখ্যা প্রতিনিধিত্ব করে।

সম্পর্কিত কাজের তুলনা

বিদ্যমান সাহিত্যের সাথে সম্পর্ক

  1. Lacker (2017): ধ্রুবক McKean-Vlasov নিয়ন্ত্রণের খোলা-লুপ বন্ধ-লুপ সমতুল্যতা
  2. Campi-Fischer (2018): উপ-সম্ভাব্যতা বিতরণের উপর ভিত্তি করে সম্পর্কিত ফলাফল
  3. Carmona-Laurière-Lions (2023): নরম হত্যা সংস্করণের গবেষণা
  4. Burdzy এবং অন্যরা: Fleming-Viot কণা সিস্টেমের সীমা তত্ত্ব

প্রযুক্তিগত সুবিধা

  • কঠিন হত্যা সরাসরি পরিচালনা করুন শিথিল সংস্করণের পরিবর্তে
  • অ-স্থানীয় PDE বিশ্লেষণ এড়ান
  • শুধুমাত্র প্রান্তিক বিতরণের পরিবর্তে পথ-স্তরের সংযোগ প্রদান করুন

সীমাবদ্ধতা এবং ভবিষ্যত দিকনির্দেশনা

বর্তমান সীমাবদ্ধতা

  1. সীমানা শর্ত: Poincaré-Zaremba শঙ্কু শর্ত প্রয়োজন, মসৃণ সীমানা শর্তের চেয়ে দুর্বল কিন্তু এখনও সীমিত
  2. সীমাবদ্ধতা অনুমান: প্রবাহ সহগ সীমাবদ্ধ প্রয়োজন, যদিও কিছু অসীম ক্ষেত্রে প্রসারিত করা যায়
  3. প্রয়োগ পরিসীমা: পুনরায় সন্নিবেশ খরচের নির্দিষ্ট প্রয়োগ বিশ্লেষণ ভবিষ্যত কাজের জন্য রেখে যাওয়া হয়েছে

ভবিষ্যত গবেষণা দিকনির্দেশনা

  1. পুনরায় সন্নিবেশ খরচ সহ McKean-Vlasov নিয়ন্ত্রণ সমস্যার বিস্তারিত বিশ্লেষণ
  2. কণা সিস্টেম অনুমানের পথ-স্তরের সংগতি
  3. আরও সাধারণ হত্যা প্রক্রিয়া এবং অঞ্চল জ্যামিতিতে প্রসারণ

গভীর মূল্যায়ন

সুবিধা

  1. তাত্ত্বিক সম্পূর্ণতা: শর্তসাপেক্ষ প্রক্রিয়া নিয়ন্ত্রণ তত্ত্বের গুরুত্বপূর্ণ ফাঁক পূরণ করে
  2. পদ্ধতি উদ্ভাবন: সহায়ক প্রক্রিয়া কৌশল প্রযুক্তিগত কঠিনতা সরল করে
  3. একীভূত দৃষ্টিভঙ্গি: বিভিন্ন গাণিতিক বস্তুর মধ্যে গভীর সংযোগ স্থাপন করে
  4. প্রয়োগ সম্ভাবনা: বাস্তব প্রয়োগের জন্য তাত্ত্বিক ভিত্তি প্রদান করে

প্রযুক্তিগত অবদান

  1. প্রমাণ সরলীকরণ: Carmona-Lacker এর সমান্তরাল কাজের তুলনায়, আরও সরাসরি প্রমাণ পথ প্রদান করে
  2. সাধারণতা: McKean-Vlasov ধরনের প্রবাহ অনুমতি দেয়, রৈখিক ক্ষেত্রে সীমাবদ্ধ নয়
  3. সম্পূর্ণতা: একযোগে অস্তিত্ব, অনন্যতা এবং সমতুল্যতা ফলাফল স্থাপন করে

প্রভাব মূল্যায়ন

  • তাত্ত্বিক তাৎপর্য: স্টোকাস্টিক নিয়ন্ত্রণ এবং McKean-Vlasov তত্ত্বের উন্নয়ন অগ্রসর করে
  • পদ্ধতিগত মূল্য: সহায়ক প্রক্রিয়া কৌশল অন্যান্য সম্পর্কিত সমস্যায় প্রযোজ্য হতে পারে
  • প্রয়োগ সম্ভাবনা: আর্থিক, প্রকৌশল এবং অন্যান্য ক্ষেত্রের বাস্তব সমস্যার জন্য গাণিতিক সরঞ্জাম প্রদান করে

উপসংহার

এই পেপারটি সফলভাবে Lions দ্বারা প্রস্তাবিত শর্তসাপেক্ষ প্রক্রিয়া নিয়ন্ত্রণ সমস্যায় মূল তাত্ত্বিক সমস্যা সমাধান করে, খোলা-লুপ এবং বন্ধ-লুপ নিয়ন্ত্রণের সমতুল্যতা স্থাপন করে, এবং Fleming-Viot গতিশীলতার মাধ্যমে নতুন ব্যাখ্যা দৃষ্টিভঙ্গি প্রদান করে। প্রযুক্তিগতভাবে, সহায়ক প্রক্রিয়া পদ্ধতির প্রবর্তন প্রমাণ জটিলতা সরল করে, সম্পর্কিত গবেষণার জন্য মূল্যবান সরঞ্জাম প্রদান করে। তাত্ত্বিক ফলাফল শুধুমাত্র গাণিতিক সৌন্দর্য নয়, বরং পুনরায় সন্নিবেশ খরচ সহ বাস্তব প্রয়োগের জন্য পথ প্রশস্ত করে।