2025-11-21T22:52:15.782367

Physically Interpretable World Models via Weakly Supervised Representation Learning

Mao, Umasudhan, Ruchkin

Learning predictive models from high-dimensional sensory observations is fundamental for cyber-physical systems, yet the latent representations learned by standard world models lack physical interpretability. This limits their reliability, generalizability, and applicability to safety-critical tasks. We introduce Physically Interpretable World Models (PIWM), a framework that aligns latent representations with real-world physical quantities and constrains their evolution through partially known physical dynamics. Physical interpretability in PIWM is defined by two complementary properties: (i) the learned latent state corresponds to meaningful physical variables, and (ii) its temporal evolution follows physically consistent dynamics. To achieve this without requiring ground-truth physical annotations, PIWM employs weak distribution-based supervision that captures state uncertainty naturally arising from real-world sensing pipelines. The architecture integrates a VQ-based visual encoder, a transformer-based physical encoder, and a learnable dynamics model grounded in known physical equations. Across three case studies (Cart Pole, Lunar Lander, and Donkey Car), PIWM achieves accurate long-horizon prediction, recovers true system parameters, and significantly improves physical grounding over purely data-driven models. These results demonstrate the feasibility and advantages of learning physically interpretable world models directly from images under weak supervision.

academic

দুর্বল তত্ত্বাবধানে প্রতিনিধিত্ব শিক্ষার মাধ্যমে শারীরিকভাবে ব্যাখ্যাযোগ্য বিশ্ব মডেল

মৌলিক তথ্য

পেপার আইডি: 2412.12870
শিরোনাম: Physically Interpretable World Models via Weakly Supervised Representation Learning
লেখক: Zhenjiang Mao, Mrinall Eashaan Umasudhan, Ivan Ruchkin (ফ্লোরিডা বিশ্ববিদ্যালয়)
শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং)
প্রকাশনার সময়: ২০২৫ সালের নভেম্বর (arXiv v4)
পেপার লিঙ্ক: https://arxiv.org/abs/2412.12870v4

সারসংক্ষেপ

এই পেপারটি সাইবার-ফিজিক্যাল সিস্টেম (CPS) এ বিশ্ব মডেলগুলির শারীরিক ব্যাখ্যাযোগ্যতার অভাবের সমস্যার সমাধান করে। এটি শারীরিকভাবে ব্যাখ্যাযোগ্য বিশ্ব মডেল (PIWM) কাঠামো প্রস্তাব করে। এই কাঠামোটি দুর্বল বিতরণ তত্ত্বাবধানের মাধ্যমে সুপ্ত প্রতিনিধিত্বকে প্রকৃত শারীরিক পরিমাণের সাথে সারিবদ্ধ করে এবং আংশিকভাবে পরিচিত শারীরিক গতিশীলতা সীমাবদ্ধতার মাধ্যমে এর সময়ের বিবর্তন সীমাবদ্ধ করে। PIWM শারীরিক ব্যাখ্যাযোগ্যতার দুটি পরিপূরক বৈশিষ্ট্য সংজ্ঞায়িত করে: (i) শেখা সুপ্ত অবস্থা অর্থপূর্ণ শারীরিক চলকের সাথে সামঞ্জস্যপূর্ণ; (ii) এর সময়ের বিবর্তন শারীরিকভাবে সামঞ্জস্যপূর্ণ গতিশীলতা অনুসরণ করে। কার্ট পোল, লুনার ল্যান্ডার এবং ডংকি কার তিনটি কেস স্টাডিতে, PIWM নির্ভুল দীর্ঘ-সময়ের পূর্বাভাস, প্রকৃত সিস্টেম পরামিতি পুনরুদ্ধার এবং বিশুদ্ধ ডেটা-চালিত মডেলের তুলনায় উল্লেখযোগ্য শারীরিক ভিত্তি উন্নতি অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

১. মূল সমস্যা

মান বিশ্ব মডেলগুলি দীর্ঘ-সময়ের পূর্বাভাস কাজে চমৎকার পারফরম্যান্স প্রদান করে, তবে তাদের শেখা সুপ্ত প্রতিনিধিত্ব সাধারণত "ব্ল্যাক বক্স" এবং সিস্টেমের অন্তর্নিহিত শারীরিক অবস্থার সাথে স্পষ্ট সংযোগের অভাব রয়েছে। এই শারীরিক অব্যাখ্যাযোগ্যতা স্বয়ংচালিত গাড়ি এবং গৃহস্থালী রোবটের মতো নিরাপত্তা-সমালোচনামূলক CPS-এ মডেলের প্রয়োগকে গুরুতরভাবে সীমাবদ্ধ করে।

২. সমস্যার গুরুত্ব

নিরাপত্তা প্রয়োজনীয়তা: নিরাপত্তা-সমালোচনামূলক অ্যাপ্লিকেশনে, পূর্বাভাসিত অবস্থার আনুষ্ঠানিক যাচাইকরণ এবং রানটাইম পর্যবেক্ষণ প্রয়োজন
কারণগত ব্যাখ্যা: শারীরিকভাবে অর্থপূর্ণ সুপ্ত অবস্থা কারণগত ব্যাখ্যা প্রদান করতে পারে (যেমন বাধার কারণে হ্রাস)
সাধারণীকরণ ক্ষমতা: শারীরিক কাঠামো অন্তর্ভুক্ত করা পূর্বাভাসকে শারীরিকভাবে যুক্তিসঙ্গত ট্র্যাজেক্টরিতে সীমাবদ্ধ করে সাধারণীকরণ উন্নত করতে পারে

৩. বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিদ্যমান পদ্ধতিগুলি প্রধানত দুটি প্যারাডাইমে বিভক্ত:

বাহ্যিক পদ্ধতি (Extrinsic): প্রথমে বিমূর্ত ভিজ্যুয়াল সুপ্ত চলক শিখুন, তারপর অতিরিক্ত মডেলের মাধ্যমে শারীরিক পরিমাণে ম্যাপ করুন
অন্তর্নিহিত পদ্ধতি (Intrinsic): সরাসরি ইমেজ এনকোডারে শারীরিক কাঠামো এনকোড করুন

উভয়েরই গুরুত্বপূর্ণ সীমাবদ্ধতা রয়েছে:

সাধারণত প্রশিক্ষণের জন্য নির্ভুল শারীরিক লেবেল প্রয়োজন
বস্তু-কেন্দ্রিক বিয়োজনের উপর নির্ভর করে, প্রকৃত বিশ্ব CPS থেকে নির্ভরযোগ্যভাবে পাওয়া কঠিন
সেন্সর দ্বারা স্বাভাবিকভাবে উত্পাদিত অনিশ্চয়তা অনুমান ব্যবহার করতে ব্যর্থ

৪. গবেষণা প্রেরণা

প্রকৃত CPS-এর সেন্সর (যেমন GPS, রাডার) সাধারণত নির্ভুল পরিমাপের পরিবর্তে বিতরণ ফর্ম বা আস্থার ব্যবধানে অনিশ্চয়তা অনুমান তৈরি করে। এই পেপারটি এই বিতরণ-ভিত্তিক দুর্বল তত্ত্বাবধান ব্যবহার করে উচ্চ-মাত্রিক ইমেজকে শারীরিকভাবে অর্থপূর্ণ সুপ্ত অবস্থায় গাইড করে, আংশিকভাবে পরিচিত সিস্টেম গতিশীলতার সাথে মিলিত হয়ে প্রকৃত অবস্থা লেবেল ছাড়াই শারীরিকভাবে সামঞ্জস্যপূর্ণ বহু-পদক্ষেপ পূর্বাভাস অর্জন করে।

মূল অবদান

১. একীভূত শারীরিক ব্যাখ্যাযোগ্যতার সংজ্ঞা: উৎপাদনশীল বিশ্ব মডেলের শারীরিক ব্যাখ্যাযোগ্যতাকে দুটি পরিপূরক বৈশিষ্ট্য হিসাবে আনুষ্ঠানিকভাবে সংজ্ঞায়িত করে: (i) সুপ্ত প্রতিনিধিত্ব অর্থপূর্ণ শারীরিক চলকের সাথে সামঞ্জস্যপূর্ণ; (ii) সময়ের বিবর্তন শারীরিকভাবে বৈধ গতিশীলতা অনুসরণ করে

२. দুর্বল তত্ত্বাবধান শিক্ষা কাঠামো: একটি উপন্যাস স্থাপত্য এবং প্রশিক্ষণ প্রবাহ প্রস্তাব করে যা বিতরণ-ভিত্তিক দুর্বল তত্ত্বাবধান (নির্ভুল শারীরিক লেবেলের পরিবর্তে) ব্যবহার করে ইমেজ-ভিত্তিক সুপ্ত অবস্থাকে শারীরিক চলকের সাথে সারিবদ্ধ করে এবং কাঠামোগত গতিশীলতা এবং সুপ্ত চলক পরিমাণীকরণের মতো শারীরিক পূর্বশর্ত ব্যবহার করে

३. সিস্টেমেটিক অভিজ্ঞতামূলক অধ্যয়ন: কার্ট পোল, লুনার ল্যান্ডার এবং ডংকি কার-এ ব্যাপক পরীক্ষার মাধ্যমে, অন্তর্নিহিত বনাম বাহ্যিক স্থাপত্য, ক্রমাগত বনাম বিচ্ছিন্ন সুপ্ত চলকের ডিজাইন পছন্দগুলি সিস্টেমেটিকভাবে বিশ্লেষণ করে, যা প্রকাশ করে যে বাহ্যিক স্থাপত্য + পরিমাণিত সুপ্ত চলক সবচেয়ে শক্তিশালী এবং ব্যাখ্যাযোগ্য প্রতিনিধিত্ব অর্জন করতে পারে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

স্বায়ত্তশাসিত CPS সংজ্ঞা (সংজ্ঞা ১): একটি স্বায়ত্তশাসিত CPS $s = (X, I, Y, A, \phi_\theta, g, h)$ অন্তর্ভুক্ত করে:

অবস্থা সেট $X$ : সীমিত-মাত্রিক শারীরিক অবস্থা স্থান
প্রাথমিক সেট $I \subset X$ : সম্ভাব্য শুরুর অবস্থা
পর্যবেক্ষণ সেট $Y$ : সমস্ত সম্ভাব্য পর্যবেক্ষণ (যেমন ইমেজ)
ক্রিয়া সেট $A$ : উপলব্ধ নিয়ন্ত্রণ ক্রিয়া
সিস্টেম গতিশীলতা $\phi_\theta: X \times A \times \Theta \rightarrow X$ : শারীরিক পরামিতি $\theta$ অধীনে অবস্থা রূপান্তর পরিচালনা করে
পর্যবেক্ষণ ফাংশন $g: X \rightarrow Y$ : অবস্থাকে পর্যবেক্ষণে ম্যাপ করে
স্থির নিয়ন্ত্রক $h: Y \rightarrow A$ : পর্যবেক্ষণের উপর ভিত্তি করে ক্রিয়া নির্বাচন করে

অবস্থা বিবর্তন: $x_{t+1} = \phi(x_t, a_t, \theta^*)$ , যেখানে $\theta^*$ প্রকৃত (অজানা) শারীরিক পরামিতি।

বিশ্ব মডেল সংজ্ঞা (সংজ্ঞা २): একটি বিশ্ব মডেল $\mathcal{W} = (\mathcal{E}, f, \mathcal{D})$ অন্তর্ভুক্ত করে:

এনকোডার $\mathcal{E}: Y \rightarrow Z$ : উচ্চ-মাত্রিক পর্যবেক্ষণকে সুপ্ত প্রতিনিধিত্বে সংকুচিত করে
পূর্বাভাসক $f: Z \times A \rightarrow Z$ : ক্রিয়ার উপর ভিত্তি করে ভবিষ্যত সুপ্ত চলক পূর্বাভাস দেয়
ডিকোডার $\mathcal{D}: Z \rightarrow Y$ : পূর্বাভাসিত পর্যবেক্ষণ পুনর্নির্মাণ করে

মডেল স্থাপত্য

PIWM স্থাপত্যে তিনটি মূল উপাদান রয়েছে:

১. শারীরিকভাবে ব্যাখ্যাযোগ্য স্বয়ংএনকোডার

বাহ্যিক স্থাপত্য (দুই-পর্যায়):

পর্যায় ১: ভিজ্যুয়াল স্বয়ংএনকোডার $(\mathcal{E}_v, \mathcal{D}_v)$ $(E_{v}, D_{v})$ পর্যবেক্ষণ $y$ $y$ কে মধ্যবর্তী সুপ্ত চলক $z = \mathcal{E}_v(y)$ $z = E_{v} (y)$ এ ম্যাপ করে
- ক্রমাগত সংস্করণ: $\beta$ -VAE, ক্ষতি ফাংশন: $\mathcal{L}_{\text{vision-cont}} = \mathcal{L}_{\text{recon}}(y, \hat{y}) + \beta D_{KL}(q(z|y) \| \mathcal{N}(0, I))$
- বিচ্ছিন্ন সংস্করণ: VQ-VAE, ক্ষতি ফাংশন: $\mathcal{L}_{\text{vision-disc}} = \mathcal{L}_{VQ}(y, \hat{y})$
পর্যায় २: শারীরিক এনকোডার $\mathcal{E}_p$ $E_{p}$ $z$ $z$ কে শারীরিক অবস্থা $z^* = \mathcal{E}_p(z)$ $z^{*} = E_{p} (z)$ এ ম্যাপ করে
- প্রশিক্ষণ উদ্দেশ্য: $\mathcal{L}_{\text{physical}} = \lambda_{\text{interp}}\mathcal{L}_{\text{interp}}(z^*, \Xi) + \lambda_{\text{latent}}\mathcal{L}_{\text{recon}}(z, \mathcal{D}_p(z^*))$

অন্তর্নিহিত স্থাপত্য (একক-পর্যায়): সরাসরি এনকোড করুন $z^* = \mathcal{E}(y)$ , সুপ্ত চলকগুলি $z^* = [z^*_p, z^*_v]$ (শারীরিক এবং ভিজ্যুয়াল অংশ) এ বিভক্ত করুন

ক্রমাগত সংস্করণ ক্ষতি: $\mathcal{L}_{\text{intrinsic-cont}} = \mathcal{L}_{\text{recon}}(y,\hat{y}) + \lambda_{\text{interp}}\mathcal{L}_{\text{interp}}(z^*_p, \Xi) + \beta D_{KL}(q(z^*_v|y) \| \mathcal{N}(0, I))$
বিচ্ছিন্ন সংস্করণ: কোডবুক ভেক্টরগুলি $e_k = [e^p_k, e^v_k]$ এ বিভক্ত, যেখানে $e^p_k$ স্থির শারীরিক গ্রিড পয়েন্ট $\mathcal{L}_{\text{intrinsic-disc}} = \mathcal{L}_{VQ}(y,\hat{y}) + \lambda_{\text{interp}}\mathcal{L}_{\text{interp}}(z^*_p, \Xi)$

२. শিক্ষণীয় গতিশীলতা মডেল

কাঠামোগত দ্বিতীয়-ক্রম গতিশীলতা মডেল ব্যবহার করুন: $z^*_{t+2} = \phi_\theta(z^*_t, z^*_{t+1}, a_{t+1})$

যেখানে $\phi$ এর ফাংশন ফর্ম (যেমন গতিবিদ্যা সমীকরণ) পরিচিত, শুধুমাত্র পরামিতি $\theta$ (যেমন ভর, ঘর্ষণ সহগ) শিক্ষণীয়।

গতিশীলতা ক্ষতি: $\mathcal{L}_{\text{dyn}}(\theta) = \|z^*_{t+H} - \mu_{\xi_{t+H}}\|^2_2$

যেখানে $\mu_{\xi_{t+H}} = \frac{1}{L}\sum_{l=1}^L \xi^{(l)}_{t+H}$ দুর্বল তত্ত্বাবধান নমুনার অভিজ্ঞতামূলক গড়।

३. দুর্বল তত্ত্বাবধান প্রক্রিয়া

ব্যাখ্যাযোগ্যতা ক্ষতি: $\mathcal{L}_{\text{interp}}(z^*_p, \Xi) = \|z^*_p - \mu_\xi\|^2_2$

যেখানে $\Xi = \{\xi^{(l)}\}_{l=1}^L$ অজানা বিতরণ $p(x)$ থেকে আহরিত $L$ টি প্রতিনিধি নমুনা।

শব্দ মডেল: প্রকৃত মূল্য $x_i$ বিতরণ গড়কে কেন্দ্র করে আপেক্ষিক প্রস্থ $\delta$ এর ব্যবধানের মধ্যে অবস্থিত বলে অনুমান করুন: $x_i \in [\mathbb{E}[p(x)] - \frac{1}{2}\delta|\mathcal{X}_i|, \mathbb{E}[p(x)] + \frac{1}{2}\delta|\mathcal{X}_i|]$

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. বিয়োজন ডিজাইন: বাহ্যিক স্থাপত্য ভিজ্যুয়াল উপলব্ধি এবং শারীরিক অবস্থা অনুমানকে বিয়োজন করে, স্বাধীন অপ্টিমাইজেশন অনুমতি দেয় २. পরিমাণীকরণ নিয়মিতকরণ: VQ-VAE এর বিচ্ছিন্নতা শক্তিশালী নিয়মিতকারী হিসাবে কাজ করে, ভিজ্যুয়াল শব্দ দমন করে, শারীরিক অবস্থা ম্যাপিং স্থিতিশীল করে ३. কাঠামোগত গতিশীলতা: কালো-বাক্স ক্রম মডেলের পরিবর্তে আংশিকভাবে পরিচিত শারীরিক সমীকরণ ব্যবহার করুন, সাধারণীকরণ এবং ব্যাখ্যাযোগ্যতা উন্নত করে ४. দুর্বল তত্ত্বাবধান ব্যবহার: নির্ভুল শারীরিক লেবেলের প্রয়োজন নেই, শুধুমাত্র বিতরণ নমুনা প্রয়োজন, প্রকৃত সেন্সর বৈশিষ্ট্যের সাথে আরও সামঞ্জস্যপূর্ণ ५. দ্বিতীয়-ক্রম আরম্ভ: ক্রমাগত দুটি অবস্থা $(z^*_t, z^*_{t+1})$ ব্যবহার করে আরম্ভ করুন, মডেলকে বেগের মতো ডেরিভেটিভ পরিমাণ অভ্যন্তরীণভাবে গণনা করতে সক্ষম করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

তিনটি পরিবেশ: १. কার্ট পোল: ক্লাসিক নিয়ন্ত্রণ সমস্যা, ভারসাম্য দণ্ড সিস্টেম २. লুনার ল্যান্ডার: OpenAI Gym পরিবেশ, চন্দ্র ল্যান্ডার নিয়ন্ত্রণ ३. ডংকি কার: স্বায়ত্তশাসিত রেসিং প্ল্যাটফর্ম, প্রকৃত ভিজ্যুয়াল জটিল দৃশ্য

প্রতিটি পরিবেশ ৬০,০০০ ট্র্যাজেক্টরি সংগ্রহ করে, প্রতিটি কমপক্ষে ৫০ সময় পদক্ষেপ। ট্র্যাজেক্টরিগুলি র্যান্ডম ক্রিয়া এবং প্রশিক্ষিত নিউরাল নিয়ন্ত্রক দ্বারা উত্পন্ন হয়, অবস্থা স্থান কভারেজ বৈচিত্র্য নিশ্চিত করে।

দুর্বল তত্ত্বাবধান প্রজন্ম

তত্ত্বাবধান শব্দ $\delta \in \{0\%, 5\%, 10\%\}$ :

প্রতিটি অবস্থা উপাদান $x_i$ এর জন্য, অফসেট কেন্দ্র $\tilde{x}_i = x_i + \Delta_i$ উৎপন্ন করুন, যেখানে $\Delta_i \sim \text{Unif}[-\frac{1}{2}\delta|\mathcal{X}_i|, \frac{1}{2}\delta|\mathcal{X}_i|]$
তত্ত্বাবধান বিতরণ: $p_i(x) = \text{Unif}[\tilde{x}_i - \frac{1}{2}\delta|\mathcal{X}_i|, \tilde{x}_i + \frac{1}{2}\delta|\mathcal{X}_i|]$
প্রতিটি সময় পদক্ষেপে $L=50$ নমুনা আহরণ করুন প্রতিনিধি তত্ত্বাবধান সেট $\Xi$ গঠন করতে

মূল্যায়ন মেট্রিক্স

१. পূর্বাভাস নির্ভুলতা: ३০-পদক্ষেপ পূর্বাভাসের মূল গড় বর্গ ত্রুটি (RMSE) २. স্ট্যাটিক এনকোডিং গুণমান: সুপ্ত অবস্থা $z^*_p$ এবং দুর্বল তত্ত্বাবধান নমুনা গড়ের মধ্যে MSE এবং KL বিচ্যুতি ३. পরামিতি পুনরুদ্ধার: শেখা শারীরিক পরামিতি $\theta$ এবং প্রকৃত মূল্য $\theta^*$ এর আপেক্ষিক ত্রুটি ४. গুণগত মূল্যায়ন: দীর্ঘ-সময়ের ট্র্যাজেক্টরি রোলআউটের ভিজ্যুয়াল গুণমান ५. নিয়ন্ত্রক কর্মক্ষমতা: পুনর্নির্মাণিত পর্যবেক্ষণে ক্রিয়া RMSE/নির্ভুলতা

তুলনা পদ্ধতি

অন্তর্নিহিত পদ্ধতি বেসলাইন:

Vid2Para: ভিডিও থেকে শারীরিক পরামিতি শিখুন
GokuNet: ODE সীমাবদ্ধতা সহ উৎপাদনশীল মডেল

বাহ্যিক পদ্ধতি বেসলাইন:

DVBF (গভীর পরিবর্তনশীল বেয়েস ফিল্টার): গভীর পরিবর্তনশীল বেয়েস ফিল্টার
SindyC: বিরল গতিশীলতা সনাক্তকরণ (এই পেপারের এনকোডারের সুপ্ত চলকে কাজ করে)

ডেটা-চালিত বেসলাইন:

LSTM: দীর্ঘ স্বল্পমেয়াদী স্মৃতি নেটওয়ার্ক
Transformer: মান Transformer ক্রম মডেল

বাস্তবায়ন বিবরণ

ভিজ্যুয়াল এনকোডার: २-স্তর CNN, ६४-মাত্রিক সুপ্ত চলক
বিচ্ছিন্ন রূপান্তর: ५१२-প্রবেশ কোডবুক, প্রতিশ্রুতি ক্ষতি ওজন $\beta=0.25$
শারীরিক এনকোডার: २-স্তর Transformer (४-মাথা, ५१२ ফিডফরওয়ার্ড মাত্রা), গড় পুলিং + রৈখিক প্রজেকশন
অপ্টিমাইজার: Adam, ব্যাচ আকার ३२
শিক্ষার হার: ক্রমাগত রূপান্তর $10^{-4}$ , বিচ্ছিন্ন রূপান্তর $10^{-3}$
শিক্ষার হার সময়সূচী: কোসাইন ক্ষয়, ५ প্রি-ওয়ার্মিং epoch
প্রশিক্ষণ: সর্বাধিক २०० epoch, প্রাথমিক থামা ধৈর্য २० epoch
গ্রেডিয়েন্ট ক্লিপিং: १.०
মূল্যায়ন: ५-ফোল্ড ক্রস-ভ্যালিডেশন

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

দীর্ঘ-সময়ের পূর্বাভাস কর্মক্ষমতা (চিত্র ३, চিত্র ४):

ডংকি কার পরিবেশে:

বাহ্যিক বিচ্ছিন্ন PIWM (বেগুনি লাইন): সমস্ত শব্দ স্তরে সর্বনিম্ন এবং সবচেয়ে স্থিতিশীল পূর্বাভাস ত্রুটি অর্জন করে
বাহ্যিক ক্রমাগত PIWM (লাল লাইন): দ্বিতীয় সর্বোত্তম কর্মক্ষমতা
সমস্ত বেসলাইনের উপর উল্লেখযোগ্য উন্নতি (DVBF, SindyC, LSTM, Transformer)

কার্ট পোল এবং লুনার ল্যান্ডারে:

PIWM রূপান্তর $\delta=0\%$ এ RMSE প্রায় १.५-२.०
$\delta=10\%$ এ RMSE २.५-३.५ বৃদ্ধি পায়
বেসলাইন পদ্ধতি ত্রুটি দ্রুত জমা হয়, ३० পদক্ষেপে ३.५-४.० পৌঁছায়

অন্তর্নিহিত বনাম বাহ্যিক তুলনা:

অন্তর্নিহিত ক্রমাগত মডেল কিছু পরিস্থিতিতে বাহ্যিক মডেলের সাথে প্রতিযোগিতামূলক
অন্তর্নিহিত বিচ্ছিন্ন মডেল স্থিতিশীলতা কম, একক এনকোডারে বিচ্ছিন্ন কোডবুক সারিবদ্ধ করার অপ্টিমাইজেশন চ্যালেঞ্জ নির্দেশ করে
বাহ্যিক স্থাপত্য ভিজ্যুয়াল উপলব্ধি এবং শারীরিক ব্যাখ্যা বিয়োজন শক্তিশালী দীর্ঘ-সময়ের পূর্বাভাস অর্জনের মূল ডিজাইন

ক্রমাগত বনাম বিচ্ছিন্ন তুলনা:

অন্তর্নিহিত স্থাপত্য: ক্রমাগত সুপ্ত চলক ভাল পারফরম্যান্স (নমনীয় গ্রেডিয়েন্ট যৌথ ভিজ্যুয়াল-শারীরিক উদ্দেশ্য অভিযোজিত করে)
বাহ্যিক স্থাপত্য: বিচ্ছিন্ন সুপ্ত চলক উন্নত পারফরম্যান্স (পরিমাণীকরণ ভিজ্যুয়াল শব্দ দমন করে, শারীরিক অবস্থা ম্যাপিং স্থিতিশীল করে)

স্ট্যাটিক এনকোডিং গুণমান (সারণী १)

সমস্ত পরিবেশ এবং শব্দ স্তরে:

বাহ্যিক বিচ্ছিন্ন: সর্বনিম্ন MSE (ডংকি কার $\delta=0\%$ : ०.०३±०.०२)
অন্তর্নিহিত ক্রমাগত: দ্বিতীয় সর্বোত্তম (ডংকি কার $\delta=0\%$ : ०.१३±०.०५)
KL বিচ্যুতি প্রবণতা সামঞ্জস্যপূর্ণ, বাহ্যিক বিচ্ছিন্ন মডেল সর্বনিম্ন (०.१९±०.०३)

শব্দ প্রভাব:

$\delta$ ०% থেকে १०% বৃদ্ধি, MSE প্রায় ५०-१००% বৃদ্ধি পায়
বাহ্যিক বিচ্ছিন্ন মডেল শব্দের প্রতি সবচেয়ে শক্তিশালী

শারীরিক পরামিতি পুনরুদ্ধার (চিত্র ५)

কার্ট পোল:

দণ্ড ভর: শেখা মূল্য প্রকৃত মূল্যের সাথে (হলুদ লাইন) উচ্চ সামঞ্জস্য
দণ্ড দৈর্ঘ্য: সমস্ত শব্দ স্তরে নির্ভুল পুনরুদ্ধার
ছোট গাড়ি দৈর্ঘ্য এবং প্রয়োগকৃত শক্তি: আপেক্ষিক ত্রুটি <१०%

লুনার ল্যান্ডার:

প্রধান ইঞ্জিন শক্তি: নির্ভুল পুনরুদ্ধার (আপেক্ষিক ত্রুটি <५%)
পার্শ্ব ইঞ্জিন শক্তি: সামান্য বিচ্যুতি কিন্তু যুক্তিসঙ্গত পরিসরে

ডংকি কার:

আনুমানিক বাইসাইকেল মডেল ব্যবহার করুন, প্রকৃত পরামিতি অজানা
শেখা অক্ষদূরত্ব বিভিন্ন শব্দ স্তরে সামঞ্জস্যপূর্ণ থাকে

গুণগত বিশ্লেষণ (চিত্র ६, চিত্র ८)

३०-পদক্ষেপ ট্র্যাজেক্টরি রোলআউট তুলনা:

PIWM: উত্পাদিত ইমেজ সম্পূর্ণ পূর্বাভাস সময়ে ভিজ্যুয়াল স্পষ্টতা এবং শারীরিক সামঞ্জস্য বজায় রাখে
বেসলাইন: H=१५ এর পরে স্পষ্ট ঝাপসাতা এবং শারীরিকভাবে অযুক্তিসঙ্গত কনফিগারেশন
কার্ট পোল: PIWM দণ্ডের দোলন এবং ভারসাম্য অবস্থা সঠিকভাবে পূর্বাভাস দেয়
লুনার ল্যান্ডার: PIWM ল্যান্ডারের ভঙ্গি এবং অবস্থান পরিবর্তন সঠিকভাবে ক্যাপচার করে

নিয়ন্ত্রক কর্মক্ষমতা (সারণী २)

পুনর্নির্মাণিত পর্যবেক্ষণে মূল নিয়ন্ত্রক মূল্যায়ন:

ডংকি কার (ক্রিয়া RMSE, যত কম ভাল):

বাহ্যিক বিচ্ছিন্ন: $\delta=0\%$ এ ०.१५±०.०४, $\delta=10\%$ এ ०.१९±०.०५
অন্তর্নিহিত ক্রমাগত: $\delta=0\%$ এ ०.१२±०.०४, $\delta=10\%$ এ ०.१५±०.०५

লুনার ল্যান্ডার (ক্রিয়া নির্ভুলতা, যত বেশি ভাল):

বাহ্যিক বিচ্ছিন্ন: $\delta=0\%$ এ ९१.५%±२.१%, $\delta=10\%$ এ ८४.५%±२.५%
অন্তর্নিহিত ক্রমাগত: $\delta=0\%$ এ ९३.०%±१.८%, $\delta=10\%$ এ ८७.१%±२.२%

কার্ট পোল (ক্রিয়া নির্ভুলতা):

বাহ্যিক বিচ্ছিন্ন: $\delta=0\%$ এ ९७.२%±१.१%, $\delta=10\%$ এ ९२.५%±१.८%
অন্তর্নিহিত ক্রমাগত: $\delta=0\%$ এ ९८.०%±१.०%, $\delta=10\%$ এ ९४.०%±१.५%

মূল আবিষ্কার: শারীরিক ব্যাখ্যাযোগ্যতার উল্লেখযোগ্য উন্নতি ন্যূনতম ডাউনস্ট্রিম নিয়ন্ত্রক কর্মক্ষমতা ক্ষতির সাথে অর্জিত হয়।

পরীক্ষামূলক আবিষ্কার

१. স্থাপত্য পছন্দ অত্যন্ত গুরুত্বপূর্ণ: বাহ্যিক স্থাপত্য + বিচ্ছিন্ন সুপ্ত চলক সর্বোত্তম সমন্বয় २. দুর্বল তত্ত্বাবধান কার্যকারিতা: এমনকি $\delta=10\%$ শব্দে, PIWM শারীরিক পরামিতি পুনরুদ্ধার করতে পারে ३. দীর্ঘ-সময়ের স্থিতিশীলতা: কাঠামোগত গতিশীলতা ३० পদক্ষেপের উপরে পূর্বাভাস স্থিতিশীলতা উল্লেখযোগ্যভাবে উন্নত করে ४. শারীরিক ভিত্তি: শেখা প্রতিনিধিত্ব শুধুমাত্র প্রাসঙ্গিক নয় বরং শারীরিকভাবে ভিত্তিযুক্ত ५. সাধারণীকরণ ক্ষমতা: পরিমাণীকরণ নিয়মিতকরণ অদেখা অবস্থার সাধারণীকরণ উন্নত করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. বাহ্যিক + বিচ্ছিন্ন সর্বোত্তম কনফিগারেশন: পূর্বাভাস নির্ভুলতা, শারীরিক ভিত্তি এবং শক্তিশালীতায় সর্বোত্তম পারফরম্যান্স २. দুর্বল তত্ত্বাবধান যথেষ্টতা: বিতরণ-ভিত্তিক দুর্বল তত্ত্বাবধান শারীরিক অর্থপূর্ণ প্রতিনিধিত্ব শিখতে যথেষ্ট ३. শারীরিক ব্যাখ্যাযোগ্যতা যাচাইযোগ্য: পরামিতি পুনরুদ্ধারের মাধ্যমে সরাসরি প্রমাণ প্রদান করে ४. ব্যবহারিকতা: ন্যূনতম নিয়ন্ত্রক কর্মক্ষমতা ক্ষতিতে উল্লেখযোগ্য ব্যাখ্যাযোগ্যতা বৃদ্ধি

সীমাবদ্ধতা

१. মার্কভ অনুমান: বর্তমান পরীক্ষা মার্কভ গতিশীল সিস্টেমে ফোকাস করে, অ-মার্কভ বা বিলম্বিত প্রভাব সিস্টেমে সম্প্রসারণ অতিরিক্ত স্মৃতি প্রক্রিয়া প্রয়োজন २. সরল গতিশীলতা: পরীক্ষা তুলনামূলকভাবে সরল শারীরিক মডেল ব্যবহার করে (४-१० পরামিতি), জটিল সিস্টেমের স্কেলেবিলিটি যাচাই করা প্রয়োজন ३. দুর্বল তত্ত্বাবধান গুণমান: কর্মক্ষমতা তত্ত্বাবধান বিতরণের গুণমানের উপর নির্ভর করে, চরম শব্দ ব্যর্থতা হতে পারে ४. গণনা ওভারহেড: দুই-পর্যায়ের প্রশিক্ষণ (বাহ্যিক স্থাপত্য) প্রশিক্ষণ সময় বৃদ্ধি করে ५. পরিবেশ সীমাবদ্ধতা: প্রধানত অনুকরণ পরিবেশে যাচাই করা হয়, প্রকৃত বিশ্ব স্থাপনা আরও গবেষণা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. জটিল বিশ্ব প্রতিনিধিত্ব: সরল অবস্থা ভেক্টর পূর্বাভাস থেকে কাঠামোগত বিশ্ব প্রতিনিধিত্বে সম্প্রসারণ (যেমন গতিশীল ३D দখল গ্রিড) २. সময়গত তত্ত্বাবধান ব্যবহার: ফিল্টারিং বা ক্রম মডেলিং কৌশল ব্যবহার করে দুর্বল তত্ত্বাবধান সংকেত প্রক্রিয়া করুন, আরও সূক্ষ্ম সময়গত সামঞ্জস্যপূর্ণ শিক্ষা লক্ষ্য উত্পাদন করুন ३. অ-মার্কভ সিস্টেম: বহু-পদক্ষেপ জুড়ে সময়গত নির্ভরতা সিস্টেমে সম্প্রসারণ ४. খোলা বিশ্ব দৃশ্য: স্বয়ংচালিত গাড়ির মতো জটিল খোলা বিশ্ব দৃশ্যে প্রয়োগ, বহু-এজেন্ট পরিচালনা ५. অনলাইন অভিযোজন: শারীরিক পরামিতি অনলাইন আপডেটের জন্য প্রক্রিয়া বিকাশ করুন, পরিবেশ পরিবর্তন অভিযোজন

গভীর মূল্যায়ন

শক্তি

१. সমস্যা সংজ্ঞা স্পষ্ট: শারীরিক ব্যাখ্যাযোগ্যতার দুটি পরিপূরক মাত্রা আনুষ্ঠানিকভাবে সংজ্ঞায়িত করে, তাত্ত্বিক শূন্যতা পূরণ করে २. পদ্ধতি উদ্ভাবন শক্তিশালী:

দুর্বল তত্ত্বাবধান প্রক্রিয়া উপন্যাস, প্রকৃত সেন্সর বৈশিষ্ট্যের কাছাকাছি
অন্তর্নিহিত/বাহ্যিক × ক্রমাগত/বিচ্ছিন্ন ডিজাইন স্থান সিস্টেমেটিকভাবে অন্বেষণ করে
কাঠামোগত গতিশীলতা এবং শেখা প্রতিনিধিত্বের সমন্বয় মার্জিত ३. পরীক্ষামূলক ডিজাইন কঠোর:
তিনটি ভিন্ন জটিলতার পরিবেশ সাধারণীকরণ যাচাই করে
५-ফোল্ড ক্রস-ভ্যালিডেশন পরিসংখ্যানগত নির্ভরযোগ্যতা নিশ্চিত করে
বহু-মাত্রিক মূল্যায়ন (পূর্বাভাস, এনকোডিং, পরামিতি পুনরুদ্ধার, নিয়ন্ত্রক কর্মক্ষমতা) ४. ফলাফল প্রভাবশালী:
পরিমাণগত এবং গুণগত ফলাফল প্রধান যুক্তি সামঞ্জস্যপূর্ণভাবে সমর্থন করে
পরামিতি পুনরুদ্ধার শারীরিক ব্যাখ্যাযোগ্যতার সরাসরি প্রমাণ প্রদান করে
অ্যাবলেশন অধ্যয়ন (ক্রমাগত বনাম বিচ্ছিন্ন, অন্তর্নিহিত বনাম বাহ্যিক) গভীর অন্তর্দৃষ্টি প্রকাশ করে ५. লেখা স্পষ্ট: যুক্তিসঙ্গত কাঠামো, কঠোর গাণিতিক প্রকাশ, সমৃদ্ধ চিত্র

অপূর্ণতা

१. তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত:

দুর্বল তত্ত্বাবধানে সংগ্রহের তাত্ত্বিক গ্যারান্টি অভাব
শব্দ স্তর $\delta$ এর তাত্ত্বিক উপরের সীমা বিশ্লেষণ করা হয়নি
পরিমাণীকরণ নিয়মিতকরণ প্রভাব তাত্ত্বিক ব্যাখ্যা অভাব २. পরীক্ষামূলক সীমাবদ্ধতা:
শুধুমাত্র অনুকরণ পরিবেশে যাচাই করা হয়, প্রকৃত বিশ্ব সেন্সর শব্দ আরও জটিল
শারীরিক মডেল তুলনামূলকভাবে সরল (দ্বিতীয়-ক্রম গতিশীলতা), জটিল সিস্টেম (যেমন নরম রোবট) অন্তর্ভুক্ত নয়
সর্বশেষ Transformer-ভিত্তিক বিশ্ব মডেলের সাথে তুলনা নেই (যেমন IRIS, Genie) ३. স্কেলেবিলিটা সমস্যা:
দুই-পর্যায়ের প্রশিক্ষণ গণনা খরচ বৃদ্ধি করে
উচ্চ-মাত্রিক শারীরিক অবস্থা স্থান পরিচালনা অস্পষ্ট
কোডবুক আকার (५१२) আরও জটিল পরিবেশের জন্য অপর্যাপ্ত হতে পারে ४. পদ্ধতি সীমাবদ্ধতা:
আংশিকভাবে পরিচিত গতিশীলতা সমীকরণ প্রয়োজন, প্রয়োগের পরিধি সীমাবদ্ধ করে
দুর্বল তত্ত্বাবধান নমুনা সংখ্যা (L=५०) এর সংবেদনশীলতা সম্পূর্ণভাবে অধ্যয়ন করা হয়নি
নিয়ন্ত্রক স্থির, নীতি শিক্ষার সাথে যৌথ অপ্টিমাইজেশন অন্বেষণ করা হয়নি ५. বিশ্লেষণ গভীরতা:
অন্তর্নিহিত ক্রমাগত উপর বাহ্যিক বিচ্ছিন্ন কেন উন্নত তার প্রক্রিয়া ব্যাখ্যা অপর্যাপ্ত
বিভিন্ন শারীরিক পরামিতির পুনরুদ্ধারযোগ্যতা পার্থক্য বিস্তারিত আলোচনা করা হয়নি
ব্যর্থতা কেস বিশ্লেষণ অনুপস্থিত

প্রভাব

१. একাডেমিক অবদান:

শারীরিক ব্যাখ্যাযোগ্য বিশ্ব মডেলের জন্য একীভূত কাঠামো এবং মূল্যায়ন মানদণ্ড প্রদান করে
দুর্বল তত্ত্বাবধান প্যারাডাইম অন্যান্য শারীরিক সারিবদ্ধতা প্রয়োজন শিক্ষা কাজ অনুপ্রাণিত করতে পারে
ডিজাইন স্থান সিস্টেমেটিক অন্বেষণ পরবর্তী গবেষণার জন্য নির্দেশনা প্রদান করে २. ব্যবহারিক মূল্য:
নিরাপত্তা-সমালোচনামূলক CPS এর পূর্বাভাস এবং পর্যবেক্ষণে সরাসরি প্রয়োগ
নির্ভুল শারীরিক লেবেলের উপর নির্ভরতা হ্রাস করে, ডেটা সংগ্রহ খরচ কমায়
ব্যাখ্যাযোগ্যতা আনুষ্ঠানিক যাচাইকরণ এবং রানটাইম নিশ্চয়তা সমর্থন করে ३. পুনরুৎপাদনযোগ্যতা:
বিস্তারিত স্থাপত্য এবং হাইপারপ্যারামিটার বর্ণনা (সংযোজন)
মান পরিবেশ ব্যবহার করুন (OpenAI Gym)
কিন্তু কোড প্রকাশিত নয়, পুনরুৎপাদন প্রভাবিত করতে পারে ४. সম্ভাব্য প্রভাব:
বিশ্ব মডেলকে বিশুদ্ধ পূর্বাভাস কর্মক্ষমতা থেকে ব্যাখ্যাযোগ্যতা এবং বিশ্বাসযোগ্যতার দিকে পরিবর্তন চালিত করতে পারে
রোবটিক্স শিক্ষা, স্বয়ংচালিত গাড়ি এবং অন্যান্য ক্ষেত্রের জন্য নতুন সরঞ্জাম প্রদান করে
দুর্বল তত্ত্বাবধান ধারণা অন্যান্য শারীরিক এম্বেডিং শিক্ষা কাজে স্থানান্তরযোগ্য

প্রযোজ্য দৃশ্য

উপযুক্ত দৃশ্য: १. নিরাপত্তা-সমালোচনামূলক সিস্টেম: ব্যাখ্যাযোগ্য পূর্বাভাস প্রয়োজন স্বয়ংচালিত গাড়ি, বিমান চলাচল २. আংশিকভাবে পর্যবেক্ষণযোগ্য পরিবেশ: সেন্সর অনিশ্চয়তা অনুমান প্রদান করে রোবট সিস্টেম ३. পরিচিত গতিশীলতা কাঠামো: শারীরিক সমীকরণ ফর্ম পরিচিত কিন্তু পরামিতি অজানা সিস্টেম ४. দীর্ঘ-সময়ের পূর্বাভাস: শারীরিক সামঞ্জস্য প্রয়োজন বহু-পদক্ষেপ পূর্বাভাস কাজ ५. সীমিত লেবেলিং সম্পদ: নির্ভুল শারীরিক লেবেল পাওয়া কঠিন অ্যাপ্লিকেশন

অনুপযুক্ত দৃশ্য: १. সম্পূর্ণ অজানা গতিশীলতা: কোন শারীরিক পূর্বশর্ত প্রদান করতে পারে না কালো-বাক্স সিস্টেম २. অত্যন্ত অ-মার্কভ সিস্টেম: অবস্থা রূপান্তর দীর্ঘ ইতিহাসের উপর নির্ভর করে কাজ ३. চরম শব্দ পরিবেশ: দুর্বল তত্ত্বাবধান গুণমান অত্যন্ত খারাপ ( $\delta > 20\%$ ) পরিস্থিতি ४. কঠোর রিয়েল-টাইম প্রয়োজনীয়তা: দুই-পর্যায়ের প্রশিক্ষণ এবং Transformer অনুমান খুব ধীর হতে পারে ५. বিশুদ্ধ ভিজ্যুয়াল কাজ: শারীরিক ব্যাখ্যা প্রয়োজন নেই ইমেজ উত্পাদন কাজ

মূল উদ্ধৃতি

१. Ha & Schmidhuber (२०१८): বিশ্ব মডেল - ক্লাসিক বিশ্ব মডেল কাঠামো २. Hafner et al. (२०२०, २०२३): Dreamer সিরিজ - SOTA বিশ্ব মডেল বেসলাইন ३. Karl et al. (२०१६): DVBF - গভীর পরিবর্তনশীল বেয়েস ফিল্টার ४. Asenov et al. (२०१९): Vid2Param - ভিডিও থেকে শারীরিক পরামিতি শিখুন ५. Linial et al. (२०२१): GokuNet - ODE ব্যবহার করে উৎপাদনশীল মডেল ६. Van Den Oord et al. (२०१७): VQ-VAE - ভেক্টর পরিমাণীকরণ পরিবর্তনশীল স্বয়ংএনকোডার ७. Brunton et al. (२०१६): SINDYc - বিরল অ-রৈখিক গতিশীলতা সনাক্তকরণ

সামগ্রিক মূল্যায়ন: এটি শারীরিক ব্যাখ্যাযোগ্য বিশ্ব মডেল ক্ষেত্রে একটি উচ্চ-মানের গবেষণা পেপার যা গুরুত্বপূর্ণ অবদান করে। এর মূল উদ্ভাবন দুর্বল তত্ত্বাবধান এবং কাঠামোগত ডিজাইন চতুরভাবে ব্যবহার করে শারীরিক ব্যাখ্যাযোগ্যতা অর্জন করে, নির্ভুল লেবেলিং প্রয়োজন ছাড়াই। কঠোর পরীক্ষামূলক ডিজাইন এবং প্রভাবশালী ফলাফল এর প্রধান যুক্তি সমর্থন করে। যদিও তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত এবং প্রকৃত বিশ্ব যাচাইকরণ অনুপস্থিত থাকে, তবে এর পদ্ধতিবিদ্যা এবং আবিষ্কার ভবিষ্যত গবেষণার জন্য দৃঢ় ভিত্তি স্থাপন করে, উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য সহ।