2025-11-21T22:52:15.782367

Physically Interpretable World Models via Weakly Supervised Representation Learning

Mao, Umasudhan, Ruchkin

Learning predictive models from high-dimensional sensory observations is fundamental for cyber-physical systems, yet the latent representations learned by standard world models lack physical interpretability. This limits their reliability, generalizability, and applicability to safety-critical tasks. We introduce Physically Interpretable World Models (PIWM), a framework that aligns latent representations with real-world physical quantities and constrains their evolution through partially known physical dynamics. Physical interpretability in PIWM is defined by two complementary properties: (i) the learned latent state corresponds to meaningful physical variables, and (ii) its temporal evolution follows physically consistent dynamics. To achieve this without requiring ground-truth physical annotations, PIWM employs weak distribution-based supervision that captures state uncertainty naturally arising from real-world sensing pipelines. The architecture integrates a VQ-based visual encoder, a transformer-based physical encoder, and a learnable dynamics model grounded in known physical equations. Across three case studies (Cart Pole, Lunar Lander, and Donkey Car), PIWM achieves accurate long-horizon prediction, recovers true system parameters, and significantly improves physical grounding over purely data-driven models. These results demonstrate the feasibility and advantages of learning physically interpretable world models directly from images under weak supervision.

academic

कमजोर पर्यवेक्षित प्रतिनिधित्व शिक्षा के माध्यम से भौतिकी से व्याख्यायोग्य विश्व मॉडल

मूल जानकारी

पेपर ID: 2412.12870
शीर्षक: Physically Interpretable World Models via Weakly Supervised Representation Learning
लेखक: Zhenjiang Mao, Mrinall Eashaan Umasudhan, Ivan Ruchkin (University of Florida)
वर्गीकरण: cs.LG (मशीन लर्निंग)
प्रकाशन समय: 2025 नवंबर (arXiv v4)
पेपर लिंक: https://arxiv.org/abs/2412.12870v4

सारांश

यह पेपर साइबर-फिजिकल सिस्टम (CPS) में विश्व मॉडल की भौतिकी व्याख्यायोग्यता की कमी को संबोधित करता है। यह भौतिकी से व्याख्यायोग्य विश्व मॉडल (PIWM) ढांचा प्रस्तावित करता है। यह ढांचा कमजोर वितरण पर्यवेक्षण के माध्यम से अव्यक्त प्रतिनिधित्व को वास्तविक भौतिक मात्राओं के साथ संरेखित करता है, और आंशिक रूप से ज्ञात भौतिक गतिविज्ञान बाधाओं के माध्यम से इसके समय विकास को नियंत्रित करता है। PIWM भौतिकी व्याख्यायोग्यता के दो पूरक गुणों को परिभाषित करता है: (i) सीखे गए अव्यक्त अवस्था अर्थपूर्ण भौतिक चर के अनुरूप हैं; (ii) इसका समय विकास भौतिकी-सुसंगत गतिविज्ञान का पालन करता है। Cart Pole, Lunar Lander और Donkey Car के तीन केस अध्ययनों में, PIWM ने सटीक दीर्घकालीन पूर्वानुमान, वास्तविक प्रणाली पैरामीटर पुनर्प्राप्ति, और शुद्ध डेटा-संचालित मॉडल की तुलना में भौतिकी आधार में महत्वपूर्ण सुधार प्राप्त किए।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. मूल समस्या

मानक विश्व मॉडल दीर्घकालीन पूर्वानुमान कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन उनके द्वारा सीखे गए अव्यक्त प्रतिनिधित्व आमतौर पर "ब्लैक बॉक्स" होते हैं, जिनमें प्रणाली की अंतर्निहित भौतिक अवस्था के साथ स्पष्ट संबंध की कमी होती है। यह भौतिकी अव्याख्यायोग्यता सुरक्षा-महत्वपूर्ण CPS में मॉडल के अनुप्रयोग को गंभीरता से सीमित करती है, जैसे स्वायत्त ड्राइविंग और घरेलू रोबोटिक्स।

2. समस्या की महत्ता

सुरक्षा आवश्यकताएं: सुरक्षा-महत्वपूर्ण अनुप्रयोगों में, पूर्वानुमानित अवस्थाओं के औपचारिक सत्यापन और रनटाइम निगरानी की आवश्यकता होती है
कारणात्मक व्याख्या: भौतिकी से अर्थपूर्ण अव्यक्त अवस्था कारणात्मक व्याख्या प्रदान कर सकती है (जैसे अवरोधन के कारण धीमा होना)
सामान्यीकरण क्षमता: भौतिकी संरचना को एम्बेड करने से पूर्वानुमान को भौतिकी-उचित प्रक्षेपवक्र तक सीमित करके सामान्यीकरण में सुधार हो सकता है

3. मौजूदा विधियों की सीमाएं

मौजूदा विधियां मुख्य रूप से दो प्रतिमान में विभाजित हैं:

बाहरी विधि (Extrinsic): पहले अमूर्त दृश्य अव्यक्त चर सीखें, फिर अतिरिक्त मॉडल के माध्यम से भौतिक मात्राओं में मानचित्र करें
आंतरिक विधि (Intrinsic): सीधे छवि एनकोडर में भौतिक संरचना को एनकोड करें

दोनों में महत्वपूर्ण सीमाएं हैं:

आमतौर पर प्रशिक्षण के लिए सटीक भौतिक लेबल की आवश्यकता होती है
वस्तु-केंद्रित अपघटन पर निर्भर, वास्तविक विश्व CPS से विश्वसनीय रूप से प्राप्त करना मुश्किल
संवेदक द्वारा स्वाभाविक रूप से उत्पादित अनिश्चितता अनुमान का उपयोग करने में विफल

4. अनुसंधान प्रेरणा

वास्तविक CPS में सेंसर (जैसे GPS, रडार) आमतौर पर वितरण रूप या आत्मविश्वास अंतराल में अनिश्चितता अनुमान उत्पन्न करते हैं, न कि सटीक माप। यह पेपर इस वितरण-आधारित कमजोर पर्यवेक्षण का उपयोग करके उच्च-आयामी छवि को भौतिकी से अर्थपूर्ण अव्यक्त अवस्था में निर्देशित करता है, आंशिक रूप से ज्ञात प्रणाली गतिविज्ञान के साथ संयुक्त, वास्तविक अवस्था लेबलिंग के बिना भौतिकी-सुसंगत बहु-चरणीय पूर्वानुमान प्राप्त करता है।

मूल योगदान

भौतिकी व्याख्यायोग्यता की एकीकृत परिभाषा: जनरेटिव विश्व मॉडल की भौतिकी व्याख्यायोग्यता को दो पूरक गुणों के रूप में औपचारिक रूप से परिभाषित करता है: (i) अव्यक्त प्रतिनिधित्व अर्थपूर्ण भौतिक मात्राओं के अनुरूप हैं; (ii) समय विकास भौतिकी-वैध गतिविज्ञान का पालन करता है
कमजोर पर्यवेक्षण शिक्षा ढांचा: एक नवीन आर्किटेक्चर और प्रशिक्षण प्रक्रिया प्रस्तावित करता है जो वितरण-आधारित कमजोर पर्यवेक्षण (सटीक भौतिक लेबलिंग के बजाय) का उपयोग करके छवि-आधारित अव्यक्त अवस्था को भौतिक चर के साथ संरेखित करता है, और संरचित गतिविज्ञान और अव्यक्त चर परिमाणीकरण जैसे भौतिकी पूर्वधारणाओं का उपयोग करता है
व्यवस्थित अनुभवजन्य अध्ययन: Cart Pole, Lunar Lander और Donkey Car पर व्यापक प्रयोगों के माध्यम से, आंतरिक बनाम बाहरी आर्किटेक्चर, निरंतर बनाम असतत अव्यक्त चर के डिजाइन विकल्पों का व्यवस्थित विश्लेषण करता है, यह प्रकट करता है कि बाहरी आर्किटेक्चर + परिमाणित अव्यक्त चर सबसे मजबूत और व्याख्यायोग्य प्रतिनिधित्व प्राप्त कर सकते हैं

विधि विवरण

कार्य परिभाषा

स्वायत्त CPS परिभाषा (Definition 1): एक स्वायत्त CPS $s = (X, I, Y, A, \phi_\theta, g, h)$ में शामिल है:

अवस्था समुच्चय $X$ : परिमित-आयामी भौतिक अवस्था स्थान
प्रारंभिक समुच्चय $I \subset X$ : संभावित प्रारंभिक अवस्थाएं
अवलोकन समुच्चय $Y$ : सभी संभावित अवलोकन (जैसे छवियां)
क्रिया समुच्चय $A$ : उपलब्ध नियंत्रण क्रियाएं
प्रणाली गतिविज्ञान $\phi_\theta: X \times A \times \Theta \rightarrow X$ : भौतिक पैरामीटर $\theta$ के तहत अवस्था संक्रमण को नियंत्रित करता है
अवलोकन फलन $g: X \rightarrow Y$ : अवस्था को अवलोकन में मानचित्रित करता है
निश्चित नियंत्रक $h: Y \rightarrow A$ : अवलोकन के आधार पर क्रिया का चयन करता है

अवस्था विकास: $x_{t+1} = \phi(x_t, a_t, \theta^*)$ , जहां $\theta^*$ वास्तविक (अज्ञात) भौतिक पैरामीटर है।

विश्व मॉडल परिभाषा (Definition 2): विश्व मॉडल $\mathcal{W} = (\mathcal{E}, f, \mathcal{D})$ में शामिल है:

एनकोडर $\mathcal{E}: Y \rightarrow Z$ : उच्च-आयामी अवलोकन को अव्यक्त प्रतिनिधित्व में संपीड़ित करता है
भविष्यवक्ता $f: Z \times A \rightarrow Z$ : क्रिया के आधार पर भविष्य के अव्यक्त चर का पूर्वानुमान लगाता है
डिकोडर $\mathcal{D}: Z \rightarrow Y$ : पूर्वानुमानित अवलोकन का पुनर्निर्माण करता है

मॉडल आर्किटेक्चर

PIWM आर्किटेक्चर में तीन मूल घटक शामिल हैं:

1. भौतिकी से व्याख्यायोग्य ऑटोएनकोडर

बाहरी आर्किटेक्चर (दो-चरण):

चरण 1: दृश्य ऑटोएनकोडर $(\mathcal{E}_v, \mathcal{D}_v)$ $(E_{v}, D_{v})$ अवलोकन $y$ $y$ को मध्यवर्ती अव्यक्त चर $z = \mathcal{E}_v(y)$ $z = E_{v} (y)$ में मानचित्रित करता है
- निरंतर संस्करण: $\beta$ -VAE, हानि फलन: $\mathcal{L}_{\text{vision-cont}} = \mathcal{L}_{\text{recon}}(y, \hat{y}) + \beta D_{KL}(q(z|y) \| \mathcal{N}(0, I))$
- असतत संस्करण: VQ-VAE, हानि फलन: $\mathcal{L}_{\text{vision-disc}} = \mathcal{L}_{VQ}(y, \hat{y})$
चरण 2: भौतिकी एनकोडर $\mathcal{E}_p$ $E_{p}$ $z$ $z$ को भौतिक अवस्था $z^* = \mathcal{E}_p(z)$ $z^{*} = E_{p} (z)$ में मानचित्रित करता है
- प्रशिक्षण उद्देश्य: $\mathcal{L}_{\text{physical}} = \lambda_{\text{interp}}\mathcal{L}_{\text{interp}}(z^*, \Xi) + \lambda_{\text{latent}}\mathcal{L}_{\text{recon}}(z, \mathcal{D}_p(z^*))$

आंतरिक आर्किटेक्चर (एक-चरण): सीधे एनकोड करें $z^* = \mathcal{E}(y)$ , अव्यक्त चर को $z^* = [z^*_p, z^*_v]$ (भौतिक और दृश्य भाग) में विभाजित करें

निरंतर संस्करण हानि: $\mathcal{L}_{\text{intrinsic-cont}} = \mathcal{L}_{\text{recon}}(y,\hat{y}) + \lambda_{\text{interp}}\mathcal{L}_{\text{interp}}(z^*_p, \Xi) + \beta D_{KL}(q(z^*_v|y) \| \mathcal{N}(0, I))$
असतत संस्करण: कोडबुक वेक्टर को $e_k = [e^p_k, e^v_k]$ में विभाजित करें, जहां $e^p_k$ निश्चित भौतिक ग्रिड बिंदु हैं $\mathcal{L}_{\text{intrinsic-disc}} = \mathcal{L}_{VQ}(y,\hat{y}) + \lambda_{\text{interp}}\mathcal{L}_{\text{interp}}(z^*_p, \Xi)$

2. सीखने योग्य गतिविज्ञान मॉडल

संरचित द्वितीय-क्रम गतिविज्ञान मॉडल का उपयोग करें: $z^*_{t+2} = \phi_\theta(z^*_t, z^*_{t+1}, a_{t+1})$

जहां $\phi$ का कार्य रूप (जैसे गतिकी समीकरण) ज्ञात है, केवल पैरामीटर $\theta$ (जैसे द्रव्यमान, घर्षण गुणांक) सीखने योग्य हैं।

गतिविज्ञान हानि: $\mathcal{L}_{\text{dyn}}(\theta) = \|z^*_{t+H} - \mu_{\xi_{t+H}}\|^2_2$

जहां $\mu_{\xi_{t+H}} = \frac{1}{L}\sum_{l=1}^L \xi^{(l)}_{t+H}$ कमजोर पर्यवेक्षण नमूनों का अनुभवजन्य माध्य है।

3. कमजोर पर्यवेक्षण तंत्र

व्याख्यायोग्यता हानि: $\mathcal{L}_{\text{interp}}(z^*_p, \Xi) = \|z^*_p - \mu_\xi\|^2_2$

जहां $\Xi = \{\xi^{(l)}\}_{l=1}^L$ अज्ञात वितरण $p(x)$ से निकाले गए $L$ प्रॉक्सी नमूने हैं।

शोर मॉडल: मान लें कि वास्तविक मान $x_i$ वितरण माध्य के केंद्र में सापेक्ष चौड़ाई $\delta$ के अंतराल में स्थित है: $x_i \in [\mathbb{E}[p(x)] - \frac{1}{2}\delta|\mathcal{X}_i|, \mathbb{E}[p(x)] + \frac{1}{2}\delta|\mathcal{X}_i|]$

तकनीकी नवाचार बिंदु

विघटित डिजाइन: बाहरी आर्किटेक्चर दृश्य धारणा को भौतिक अवस्था अनुमान से अलग करता है, स्वतंत्र अनुकूलन की अनुमति देता है
परिमाणीकरण नियमितीकरण: VQ-VAE का असतत करण मजबूत नियमितीकरण के रूप में कार्य करता है, दृश्य शोर को दबाता है, भौतिक अवस्था मानचित्रण को स्थिर करता है
संरचित गतिविज्ञान: ब्लैक-बॉक्स अनुक्रमिक मॉडल के बजाय आंशिक रूप से ज्ञात भौतिक समीकरणों का उपयोग करता है, सामान्यीकरण और व्याख्यायोग्यता में सुधार करता है
कमजोर पर्यवेक्षण उपयोग: सटीक भौतिक लेबल की आवश्यकता नहीं, केवल वितरण नमूने, वास्तविक संवेदक विशेषताओं के साथ अधिक संरेखित
द्वितीय-क्रम आरंभीकरण: दो लगातार अवस्थाओं $(z^*_t, z^*_{t+1})$ का उपयोग करके आरंभ करें, मॉडल को आंतरिक रूप से वेग जैसे व्युत्पन्न मात्राओं की गणना करने में सक्षम बनाता है

प्रयोग सेटअप

डेटासेट

तीन वातावरण:

Cart Pole: शास्त्रीय नियंत्रण समस्या, संतुलन दंड प्रणाली
Lunar Lander: OpenAI Gym वातावरण, चंद्र लैंडर नियंत्रण
Donkey Car: स्वायत्त रेसिंग प्लेटफॉर्म, वास्तविक दृश्य जटिल दृश्य

प्रत्येक वातावरण से 60,000 प्रक्षेपवक्र एकत्र किए गए, प्रत्येक कम से कम 50 समय चरण। प्रक्षेपवक्र यादृच्छिक क्रियाओं और प्रशिक्षित तंत्रिका नियंत्रक के माध्यम से उत्पन्न किए गए, अवस्था स्थान कवरेज की विविधता सुनिश्चित करते हुए।

कमजोर पर्यवेक्षण पीढ़ी

पर्यवेक्षण शोर $\delta \in \{0\%, 5\%, 10\%\}$ :

प्रत्येक अवस्था घटक $x_i$ के लिए, ऑफसेट केंद्र $\tilde{x}_i = x_i + \Delta_i$ उत्पन्न करें, जहां $\Delta_i \sim \text{Unif}[-\frac{1}{2}\delta|\mathcal{X}_i|, \frac{1}{2}\delta|\mathcal{X}_i|]$
पर्यवेक्षण वितरण: $p_i(x) = \text{Unif}[\tilde{x}_i - \frac{1}{2}\delta|\mathcal{X}_i|, \tilde{x}_i + \frac{1}{2}\delta|\mathcal{X}_i|]$
प्रत्येक समय चरण से प्रॉक्सी पर्यवेक्षण समुच्चय $\Xi$ बनाने के लिए $L=50$ नमूने निकालें

मूल्यांकन मेट्रिक्स

पूर्वानुमान सटीकता: 30-चरण पूर्वानुमान की रूट माध्य वर्ग त्रुटि (RMSE)
स्थिर एन्कोडिंग गुणवत्ता: अव्यक्त अवस्था $z^*_p$ और कमजोर पर्यवेक्षण नमूनों के माध्य के बीच MSE और KL विचलन
पैरामीटर पुनर्प्राप्ति: सीखे गए भौतिक पैरामीटर $\theta$ और वास्तविक मान $\theta^*$ के बीच सापेक्ष त्रुटि
गुणात्मक मूल्यांकन: दीर्घकालीन प्रक्षेपवक्र रोलआउट की दृश्य गुणवत्ता
नियंत्रक प्रदर्शन: पुनर्निर्मित अवलोकन पर क्रिया RMSE/सटीकता

तुलनात्मक विधियां

आंतरिक विधि आधारभूत:

Vid2Para: वीडियो से भौतिक पैरामीटर सीखना
GokuNet: ODE बाधा के साथ जनरेटिव मॉडल

बाहरी विधि आधारभूत:

DVBF (Deep Variational Bayes Filters): गहन परिवर्तनशील बेयस फिल्टर
SindyC: विरल गतिविज्ञान पहचान (इस पेपर के एनकोडर के अव्यक्त चर पर संचालित)

डेटा-संचालित आधारभूत:

LSTM: लंबी अल्पकालीन स्मृति नेटवर्क
Transformer: मानक Transformer अनुक्रम मॉडल

कार्यान्वयन विवरण

दृश्य एनकोडर: 2-परत CNN, 64-आयामी अव्यक्त चर
असतत संस्करण: 512-प्रविष्टि कोडबुक, प्रतिबद्धता हानि वजन $\beta=0.25$
भौतिकी एनकोडर: 2-परत Transformer (4-सिर, 512 फीडफॉरवर्ड आयाम), माध्य पूलिंग + रैखिक प्रक्षेपण
अनुकूलक: Adam, बैच आकार 32
सीखने की दर: निरंतर संस्करण $10^{-4}$ , असतत संस्करण $10^{-3}$
सीखने की दर अनुसूची: कोसाइन क्षय, 5 वार्मअप epoch
प्रशिक्षण: अधिकतम 200 epoch, 20 epoch धैर्य के साथ प्रारंभिक रोक
ग्रेडिएंट क्लिपिंग: 1.0
मूल्यांकन: 5-फोल्ड क्रॉस-सत्यापन

प्रयोग परिणाम

मुख्य परिणाम

दीर्घकालीन पूर्वानुमान प्रदर्शन (चित्र 3, चित्र 4):

Donkey Car वातावरण में:

बाहरी असतत PIWM (बैंगनी रेखा): सभी शोर स्तरों पर सबसे कम और सबसे स्थिर पूर्वानुमान त्रुटि प्राप्त करता है
बाहरी निरंतर PIWM (लाल रेखा): दूसरा सर्वश्रेष्ठ प्रदर्शन
सभी आधारभूत (DVBF, SindyC, LSTM, Transformer) से महत्वपूर्ण रूप से बेहतर

Cart Pole और Lunar Lander में:

PIWM संस्करण $\delta=0\%$ पर RMSE लगभग 1.5-2.0
$\delta=10\%$ पर RMSE 2.5-3.5 तक बढ़ता है
आधारभूत विधियां त्रुटि तेजी से जमा करती हैं, 30 चरणों पर 3.5-4.0 तक पहुंचती हैं

आंतरिक बनाम बाहरी तुलना:

आंतरिक निरंतर मॉडल कुछ परिदृश्यों में बाहरी मॉडल के साथ प्रतिस्पर्धी है
आंतरिक असतत मॉडल स्थिरता में कमजोर है, एकल एनकोडर में असतत कोडबुक को संरेखित करने के अनुकूलन चुनौतियों को दर्शाता है
बाहरी आर्किटेक्चर दृश्य धारणा और भौतिक व्याख्या को अलग करना मजबूत दीर्घकालीन पूर्वानुमान प्राप्त करने के लिए महत्वपूर्ण डिजाइन है

निरंतर बनाम असतत तुलना:

आंतरिक आर्किटेक्चर: निरंतर अव्यक्त चर बेहतर प्रदर्शन करते हैं (संयुक्त दृश्य-भौतिक उद्देश्य के अनुकूल लचीली ग्रेडिएंट)
बाहरी आर्किटेक्चर: असतत अव्यक्त चर बेहतर प्रदर्शन करते हैं (परिमाणीकरण दृश्य शोर को दबाता है, भौतिक अवस्था मानचित्रण को स्थिर करता है)

स्थिर एन्कोडिंग गुणवत्ता (तालिका 1)

सभी वातावरणों और शोर स्तरों पर:

बाहरी असतत: सबसे कम MSE (Donkey Car $\delta=0\%$ : 0.03±0.02)
आंतरिक निरंतर: दूसरा सर्वश्रेष्ठ (Donkey Car $\delta=0\%$ : 0.13±0.05)
KL विचलन प्रवृत्ति सुसंगत, बाहरी असतत मॉडल सबसे कम (0.19±0.03)

शोर प्रभाव:

$\delta$ 0% से 10% तक बढ़ने पर MSE लगभग 50-100% बढ़ता है
बाहरी असतत मॉडल शोर के लिए सबसे मजबूत है

भौतिकी पैरामीटर पुनर्प्राप्ति (चित्र 5)

Cart Pole:

दंड द्रव्यमान: सीखा गया मान वास्तविक मान (पीली रेखा) के साथ अत्यधिक मेल खाता है
दंड लंबाई: सभी शोर स्तरों पर सटीक पुनर्प्राप्ति
कार्ट लंबाई और लागू बल: सापेक्ष त्रुटि <10%

Lunar Lander:

मुख्य इंजन शक्ति: सटीक पुनर्प्राप्ति (सापेक्ष त्रुटि <5%)
साइड इंजन शक्ति: मामूली विचलन लेकिन उचित सीमा में

Donkey Car:

अनुमानित बाइसिकल मॉडल का उपयोग, वास्तविक पैरामीटर अज्ञात
सीखी गई एक्सल दूरी विभिन्न शोर स्तरों पर सुसंगत रहती है

गुणात्मक विश्लेषण (चित्र 6, चित्र 8)

30-चरण प्रक्षेपवक्र रोलआउट तुलना:

PIWM: उत्पन्न छवियां पूरे पूर्वानुमान समय डोमेन में दृश्य स्पष्टता और भौतिकी सुसंगतता बनाए रखती हैं
आधारभूत: H=15 के बाद स्पष्ट धुंधलापन और भौतिकी-अनुचित कॉन्फ़िगरेशन दिखाई देते हैं
Cart Pole: PIWM दंड के दोलन और संतुलन अवस्था को सटीक रूप से पूर्वानुमान लगाता है
Lunar Lander: PIWM लैंडर के मुद्रा और स्थिति परिवर्तन को सही तरीके से कैप्चर करता है

नियंत्रक प्रदर्शन (तालिका 2)

पुनर्निर्मित अवलोकन पर मूल नियंत्रक का मूल्यांकन:

Donkey Car (क्रिया RMSE, जितना कम उतना अच्छा):

बाहरी असतत: $\delta=0\%$ पर 0.15±0.04, $\delta=10\%$ पर 0.19±0.05
आंतरिक निरंतर: $\delta=0\%$ पर 0.12±0.04, $\delta=10\%$ पर 0.15±0.05

Lunar Lander (क्रिया सटीकता, जितना अधिक उतना अच्छा):

बाहरी असतत: $\delta=0\%$ पर 91.5%±2.1%, $\delta=10\%$ पर 84.5%±2.5%
आंतरिक निरंतर: $\delta=0\%$ पर 93.0%±1.8%, $\delta=10\%$ पर 87.1%±2.2%

Cart Pole (क्रिया सटीकता):

बाहरी असतत: $\delta=0\%$ पर 97.2%±1.1%, $\delta=10\%$ पर 92.5%±1.8%
आंतरिक निरंतर: $\delta=0\%$ पर 98.0%±1.0%, $\delta=10\%$ पर 94.0%±1.5%

मुख्य खोज: भौतिकी व्याख्यायोग्यता में महत्वपूर्ण सुधार न्यूनतम डाउनस्ट्रीम नियंत्रक प्रदर्शन हानि के साथ आता है।

प्रयोग निष्कर्ष

आर्किटेक्चर चयन महत्वपूर्ण है: बाहरी आर्किटेक्चर + असतत अव्यक्त चर सर्वश्रेष्ठ संयोजन है
कमजोर पर्यवेक्षण प्रभावशीलता: $\delta=10\%$ शोर में भी, PIWM भौतिकी पैरामीटर पुनर्प्राप्त कर सकता है
दीर्घकालीन स्थिरता: संरचित गतिविज्ञान 30 चरणों से अधिक पूर्वानुमान स्थिरता में महत्वपूर्ण सुधार करता है
भौतिकी आधार: सीखे गए प्रतिनिधित्व न केवल प्रासंगिक हैं, बल्कि भौतिकी पर आधारित हैं
सामान्यीकरण क्षमता: परिमाणीकरण नियमितीकरण अदेखी अवस्थाओं के लिए सामान्यीकरण में सुधार करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

बाहरी + असतत सर्वश्रेष्ठ कॉन्फ़िगरेशन है: पूर्वानुमान सटीकता, भौतिकी आधार और मजबूतता पर सर्वश्रेष्ठ प्रदर्शन
कमजोर पर्यवेक्षण पर्याप्त है: वितरण-आधारित कमजोर पर्यवेक्षण भौतिकी-अर्थपूर्ण प्रतिनिधित्व सीखने के लिए पर्याप्त है
भौतिकी व्याख्यायोग्यता सत्यापन योग्य है: पैरामीटर पुनर्प्राप्ति के माध्यम से प्रत्यक्ष साक्ष्य प्रदान करता है
व्यावहारिकता: न्यूनतम नियंत्रक प्रदर्शन हानि के साथ महत्वपूर्ण व्याख्यायोग्यता सुधार

सीमाएं

मार्कोव धारणा: वर्तमान प्रयोग मार्कोव गतिविज्ञान प्रणालियों पर केंद्रित, गैर-मार्कोव या विलंबित प्रभाव प्रणालियों में विस्तार के लिए अतिरिक्त स्मृति तंत्र की आवश्यकता है
सरल गतिविज्ञान: प्रयोग अपेक्षाकृत सरल भौतिकी मॉडल (4-10 पैरामीटर) का उपयोग करते हैं, जटिल प्रणालियों की स्केलेबिलिटी सत्यापित होनी बाकी है
कमजोर पर्यवेक्षण गुणवत्ता: प्रदर्शन पर्यवेक्षण वितरण की गुणवत्ता पर निर्भर करता है, चरम शोर विफलता का कारण बन सकता है
कम्प्यूटेशनल ओवरहेड: दो-चरण प्रशिक्षण (बाहरी आर्किटेक्चर) प्रशिक्षण समय बढ़ाता है
वातावरण सीमाएं: मुख्य रूप से अनुकरण वातावरण में सत्यापित, वास्तविक दुनिया तैनाती के लिए आगे का अनुसंधान आवश्यक है

भविष्य की दिशाएं

जटिल विश्व प्रतिनिधित्व: सरल अवस्था वेक्टर से संरचित विश्व प्रतिनिधित्व (जैसे गतिशील 3D व्यावसायिक ग्रिड) में विस्तार
समय-श्रृंखला पर्यवेक्षण उपयोग: फिल्टरिंग या अनुक्रम मॉडलिंग तकनीकों का उपयोग करके कमजोर पर्यवेक्षण संकेत अनुक्रमों को संभालना, अधिक सूक्ष्म समय-श्रृंखला सुसंगत शिक्षा लक्ष्य उत्पन्न करना
गैर-मार्कोव प्रणालियां: बहु-चरण समय-श्रृंखला निर्भरता वाली प्रणालियों में विस्तार
खुली दुनिया परिदृश्य: स्वायत्त ड्राइविंग जैसे जटिल खुली दुनिया परिदृश्यों में अनुप्रयोग, बहु-एजेंट को संभालना
ऑनलाइन अनुकूलन: भौतिकी पैरामीटर को ऑनलाइन अपडेट करने के लिए तंत्र विकसित करना, वातावरण परिवर्तन के अनुकूल

गहन मूल्यांकन

शक्तियां

समस्या परिभाषा स्पष्ट है: भौतिकी व्याख्यायोग्यता के दो पूरक आयामों को औपचारिक रूप से परिभाषित करता है, सैद्धांतिक अंतराल को भरता है
विधि नवाचार मजबूत है:
- कमजोर पर्यवेक्षण तंत्र नवीन, वास्तविक संवेदक विशेषताओं के करीब
- आंतरिक/बाहरी × निरंतर/असतत डिजाइन स्थान की व्यवस्थित खोज
- संरचित गतिविज्ञान और सीखे गए प्रतिनिधित्व का संयोजन सुरुचिपूर्ण
प्रयोग डिजाइन कठोर है:
- विभिन्न जटिलता के तीन वातावरण सामान्यीकरण सत्यापित करते हैं
- 5-फोल्ड क्रॉस-सत्यापन सांख्यिकीय विश्वसनीयता सुनिश्चित करता है
- बहु-आयामी मूल्यांकन (पूर्वानुमान, एन्कोडिंग, पैरामीटर पुनर्प्राप्ति, नियंत्रक प्रदर्शन)
परिणाम प्रेरक हैं:
- मात्रात्मक और गुणात्मक परिणाम मुख्य तर्कों को सुसंगत रूप से समर्थन करते हैं
- पैरामीटर पुनर्प्राप्ति भौतिकी व्याख्यायोग्यता का प्रत्यक्ष साक्ष्य प्रदान करता है
- विलोपन अध्ययन (निरंतर बनाम असतत, आंतरिक बनाम बाहरी) गहन अंतर्दृष्टि प्रकट करते हैं
लेखन स्पष्ट है: पेपर संरचना तार्किक, गणितीय अभिव्यक्ति कठोर, चित्र सूचनाप्रद

कमियां

सैद्धांतिक विश्लेषण अपर्याप्त है:
- कमजोर पर्यवेक्षण के तहत अभिसरण के लिए सैद्धांतिक गारंटी की कमी
- शोर स्तर $\delta$ की सैद्धांतिक ऊपरी सीमा का विश्लेषण नहीं
- परिमाणीकरण नियमितीकरण प्रभाव के लिए सैद्धांतिक व्याख्या की कमी
प्रयोग सीमाएं:
- केवल अनुकरण वातावरण में सत्यापित, वास्तविक दुनिया संवेदक शोर अधिक जटिल
- भौतिकी मॉडल अपेक्षाकृत सरल (द्वितीय-क्रम गतिविज्ञान), जटिल प्रणालियां (जैसे नरम रोबोटिक्स) अछूते
- नवीनतम Transformer-आधारित विश्व मॉडल (जैसे IRIS, Genie) के साथ तुलना नहीं
स्केलेबिलिटी समस्याएं:
- दो-चरण प्रशिक्षण कम्प्यूटेशनल लागत बढ़ाता है
- उच्च-आयामी भौतिकी अवस्था स्थान के संभालने के लिए अस्पष्ट
- कोडबुक आकार (512) अधिक जटिल वातावरणों के लिए अपर्याप्त हो सकता है
विधि सीमाएं:
- आंशिक रूप से ज्ञात गतिविज्ञान समीकरण की आवश्यकता, अनुप्रयोग सीमा को सीमित करता है
- कमजोर पर्यवेक्षण नमूना संख्या (L=50) की संवेदनशीलता पूरी तरह से अनुसंधान नहीं की गई
- नियंत्रक निश्चित, नीति शिक्षा के साथ संयुक्त अनुकूलन की खोज नहीं की गई
विश्लेषण गहराई:
- बाहरी असतत आंतरिक निरंतर से बेहतर क्यों है इसका तंत्र व्याख्या अपर्याप्त
- विभिन्न भौतिकी पैरामीटर की पुनर्प्राप्ति क्षमता में अंतर विस्तार से चर्चा नहीं
- विफलता केस विश्लेषण अनुपस्थित

प्रभाव

शैक्षणिक योगदान:
- भौतिकी-व्याख्यायोग्य विश्व मॉडल के लिए एकीकृत ढांचा और मूल्यांकन बेंचमार्क प्रदान करता है
- कमजोर पर्यवेक्षण प्रतिमान अन्य भौतिकी-संरेखण शिक्षण कार्यों को प्रेरित कर सकता है
- डिजाइन स्थान की व्यवस्थित खोज बाद के अनुसंधान के लिए मार्गदर्शन प्रदान करती है
व्यावहारिक मूल्य:
- सुरक्षा-महत्वपूर्ण CPS के पूर्वानुमान और निगरानी में सीधे अनुप्रयोग
- सटीक भौतिकी लेबलिंग पर निर्भरता को कम करता है, डेटा संग्रह लागत को कम करता है
- व्याख्यायोग्यता औपचारिक सत्यापन और रनटाइम आश्वासन का समर्थन करता है
पुनरुत्पादनीयता:
- विस्तृत आर्किटेक्चर और हाइपरपैरामीटर विवरण (परिशिष्ट)
- मानक वातावरण का उपयोग (OpenAI Gym)
- लेकिन कोड सार्वजनिक नहीं, पुनरुत्पादन को प्रभावित कर सकता है
संभावित प्रभाव:
- विश्व मॉडल को शुद्ध पूर्वानुमान प्रदर्शन से व्याख्यायोग्यता और विश्वसनीयता की ओर स्थानांतरित कर सकता है
- रोबोटिक्स, स्वायत्त ड्राइविंग आदि क्षेत्रों के लिए नए उपकरण प्रदान करता है
- कमजोर पर्यवेक्षण विचार अन्य भौतिकी-एम्बेडेड शिक्षण कार्यों में स्थानांतरणीय है

लागू परिदृश्य

उपयुक्त परिदृश्य:

सुरक्षा-महत्वपूर्ण प्रणालियां: व्याख्यायोग्य पूर्वानुमान की आवश्यकता वाली स्वायत्त ड्राइविंग, एयरोस्पेस
आंशिक रूप से अवलोकन योग्य वातावरण: अनिश्चितता अनुमान प्रदान करने वाले सेंसर वाली रोबोट प्रणालियां
ज्ञात गतिविज्ञान संरचना: भौतिकी समीकरण रूप ज्ञात लेकिन पैरामीटर अज्ञात प्रणालियां
दीर्घकालीन पूर्वानुमान: भौतिकी सुसंगतता की आवश्यकता वाले बहु-चरण पूर्वानुमान कार्य
संसाधन-सीमित लेबलिंग: सटीक भौतिकी लेबल प्राप्त करना मुश्किल अनुप्रयोग

अनुपयुक्त परिदृश्य:

पूरी तरह से अज्ञात गतिविज्ञान: कोई भौतिकी पूर्वधारणा प्रदान नहीं कर सकने वाली ब्लैक-बॉक्स प्रणालियां
अत्यधिक गैर-मार्कोव प्रणालियां: अवस्था संक्रमण लंबे इतिहास पर निर्भर कार्य
चरम शोर वातावरण: कमजोर पर्यवेक्षण गुणवत्ता बहुत खराब ( $\delta > 20\%$ ) स्थितियां
कठोर वास्तविक समय आवश्यकताएं: दो-चरण प्रशिक्षण और Transformer अनुमान बहुत धीमे हो सकते हैं
शुद्ध दृश्य कार्य: भौतिकी व्याख्या की आवश्यकता नहीं वाले छवि पीढ़ी कार्य

संदर्भ (मुख्य उद्धरण)

Ha & Schmidhuber (2018): World Models - शास्त्रीय विश्व मॉडल ढांचा
Hafner et al. (2020, 2023): Dreamer श्रृंखला - SOTA विश्व मॉडल आधारभूत
Karl et al. (2016): DVBF - गहन परिवर्तनशील बेयस फिल्टर
Asenov et al. (2019): Vid2Param - वीडियो से भौतिकी पैरामीटर सीखना
Linial et al. (2021): GokuNet - ODE का उपयोग करके जनरेटिव मॉडल
Van Den Oord et al. (2017): VQ-VAE - वेक्टर परिमाणीकरण परिवर्तनशील ऑटोएनकोडर
Brunton et al. (2016): SINDYc - विरल गैर-रैखिक गतिविज्ञान पहचान

समग्र मूल्यांकन: यह भौतिकी-व्याख्यायोग्य विश्व मॉडल क्षेत्र में एक उच्च-गुणवत्ता अनुसंधान पत्र है जो महत्वपूर्ण योगदान करता है। इसका मूल नवाचार कमजोर पर्यवेक्षण और संरचित डिजाइन का चतुराई से उपयोग करके भौतिकी व्याख्यायोग्यता प्राप्त करना है, बिना सटीक लेबलिंग के। व्यवस्थित प्रयोग डिजाइन और प्रेरक परिणाम इसके मुख्य तर्कों का समर्थन करते हैं। हालांकि सैद्धांतिक विश्लेषण की कमी और वास्तविक दुनिया सत्यापन की कमी जैसी सीमाएं हैं, लेकिन इसकी पद्धति और निष्कर्ष भविष्य के अनुसंधान के लिए एक ठोस आधार प्रदान करते हैं, जिसमें महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य है।