Learning predictive models from high-dimensional sensory observations is fundamental for cyber-physical systems, yet the latent representations learned by standard world models lack physical interpretability. This limits their reliability, generalizability, and applicability to safety-critical tasks. We introduce Physically Interpretable World Models (PIWM), a framework that aligns latent representations with real-world physical quantities and constrains their evolution through partially known physical dynamics. Physical interpretability in PIWM is defined by two complementary properties: (i) the learned latent state corresponds to meaningful physical variables, and (ii) its temporal evolution follows physically consistent dynamics. To achieve this without requiring ground-truth physical annotations, PIWM employs weak distribution-based supervision that captures state uncertainty naturally arising from real-world sensing pipelines. The architecture integrates a VQ-based visual encoder, a transformer-based physical encoder, and a learnable dynamics model grounded in known physical equations. Across three case studies (Cart Pole, Lunar Lander, and Donkey Car), PIWM achieves accurate long-horizon prediction, recovers true system parameters, and significantly improves physical grounding over purely data-driven models. These results demonstrate the feasibility and advantages of learning physically interpretable world models directly from images under weak supervision.
- ID de l'article: 2412.12870
- Titre: Physically Interpretable World Models via Weakly Supervised Representation Learning
- Auteurs: Zhenjiang Mao, Mrinall Eashaan Umasudhan, Ivan Ruchkin (Université de Floride)
- Classification: cs.LG (Apprentissage Automatique)
- Date de publication: Novembre 2025 (arXiv v4)
- Lien de l'article: https://arxiv.org/abs/2412.12870v4
Cet article aborde le problème du manque d'interprétabilité physique des modèles du monde dans les systèmes cyber-physiques (CPS). Il propose le cadre PIWM (Physically Interpretable World Models) qui aligne les représentations latentes avec les quantités physiques réelles par supervision faible distribuée, et contraint leur évolution temporelle par des contraintes de dynamique physique partiellement connues. PIWM définit l'interprétabilité physique par deux propriétés complémentaires: (i) les états latents appris correspondent à des variables physiques significatives; (ii) leur évolution temporelle suit une dynamique physiquement cohérente. À travers trois études de cas (Cart Pole, Lunar Lander et Donkey Car), PIWM réalise une prédiction précise à long terme, une récupération des paramètres système réels, et améliore significativement la fondation physique par rapport aux modèles purement pilotés par les données.
Bien que les modèles du monde standard excellent dans les tâches de prédiction à long terme, les représentations latentes qu'ils apprennent sont généralement des « boîtes noires » dépourvues de lien explicite avec l'état physique sous-jacent du système. Cette opacité physique limite sévèrement l'application des modèles dans les CPS critiques pour la sécurité, tels que la conduite autonome et la robotique domestique.
- Exigences de sécurité: Dans les applications critiques pour la sécurité, il est nécessaire de vérifier formellement les états prédits et de mettre en place une surveillance à l'exécution
- Explication causale: Les états latents physiquement significatifs peuvent fournir des explications causales (par exemple, ralentissement dû à une occlusion)
- Capacité de généralisation: L'intégration de la structure physique améliore la généralisation en contraignant les prédictions à des trajectoires physiquement plausibles
Les méthodes existantes se divisent principalement en deux paradigmes:
- Approches extrinsèques: Apprennent d'abord des variables latentes visuelles abstraites, puis les mappent à des quantités physiques via un modèle supplémentaire
- Approches intrinsèques: Codent directement la structure physique dans l'encodeur d'images
Les deux présentent des limitations critiques:
- Nécessitent généralement des étiquettes physiques précises pour l'entraînement
- Dépendent de la décomposition centrée sur les objets, difficile à obtenir de manière fiable à partir de CPS du monde réel
- Manquent d'exploitation des estimations d'incertitude naturellement produites par les capteurs
Les capteurs dans les CPS réels (comme le GPS, le radar) produisent généralement des estimations d'incertitude sous forme de distributions ou d'intervalles de confiance, plutôt que des mesures exactes. Cet article exploite cette supervision faible distribuée pour guider le codage d'images haute dimension vers des états latents physiquement significatifs, combiné avec une dynamique système partiellement connue, réalisant une prédiction multi-étapes physiquement cohérente sans annotation d'état réel.
- Définition unifiée de l'interprétabilité physique: Formalise l'interprétabilité physique des modèles du monde génératifs comme deux propriétés complémentaires: (i) les représentations latentes correspondent à des quantités physiques significatives; (ii) l'évolution temporelle suit une dynamique physiquement valide
- Cadre d'apprentissage faiblement supervisé: Propose une architecture et un processus d'entraînement novateurs utilisant la supervision faible basée sur la distribution (plutôt que des annotations physiques exactes) pour aligner les états latents basés sur les images avec les variables physiques, en exploitant les priors physiques tels que la dynamique structurée et la quantification des variables latentes
- Étude empirique systématique: À travers des expériences approfondies sur Cart Pole, Lunar Lander et Donkey Car, analyse systématiquement les choix de conception (architecture intrinsèque vs extrinsèque, variables latentes continues vs discrètes), révélant que l'architecture extrinsèque + variables latentes quantifiées réalise les représentations les plus robustes et interprétables
Définition d'un CPS autonome (Définition 1):
Un CPS autonome s=(X,I,Y,A,ϕθ,g,h) comprend:
- Ensemble d'états X: espace d'état physique de dimension finie
- Ensemble initial I⊂X: états de démarrage possibles
- Ensemble d'observations Y: toutes les observations possibles (par exemple, images)
- Ensemble d'actions A: actions de contrôle disponibles
- Dynamique système ϕθ:X×A×Θ→X: gouverne les transitions d'état sous les paramètres physiques θ
- Fonction d'observation g:X→Y: mappe les états aux observations
- Contrôleur fixe h:Y→A: sélectionne les actions basées sur les observations
Évolution d'état: xt+1=ϕ(xt,at,θ∗), où θ∗ sont les paramètres physiques réels (inconnus).
Définition du modèle du monde (Définition 2):
Un modèle du monde W=(E,f,D) comprend:
- Encodeur E:Y→Z: compresse les observations haute dimension en représentation latente
- Prédicteur f:Z×A→Z: prédit les variables latentes futures basées sur les actions
- Décodeur D:Z→Y: reconstruit les observations prédites
L'architecture PIWM contient trois composants principaux:
Architecture extrinsèque (deux étapes):
- Étape 1: Autoencodeur visuel (Ev,Dv) mappe l'observation y à une variable latente intermédiaire z=Ev(y)
- Version continue: β-VAE, fonction de perte:
Lvision-cont=Lrecon(y,y^)+βDKL(q(z∣y)∥N(0,I))
- Version discrète: VQ-VAE, fonction de perte:
Lvision-disc=LVQ(y,y^)
- Étape 2: Encodeur physique Ep mappe z à l'état physique z∗=Ep(z)
- Objectif d'entraînement:
Lphysical=λinterpLinterp(z∗,Ξ)+λlatentLrecon(z,Dp(z∗))
Architecture intrinsèque (étape unique):
Encode directement z∗=E(y), partitionne la variable latente en z∗=[zp∗,zv∗] (partie physique et partie visuelle)
- Perte version continue:
Lintrinsic-cont=Lrecon(y,y^)+λinterpLinterp(zp∗,Ξ)+βDKL(q(zv∗∣y)∥N(0,I))
- Version discrète: partitionne les vecteurs du codebook en ek=[ekp,ekv], où ekp est une grille physique fixe
Lintrinsic-disc=LVQ(y,y^)+λinterpLinterp(zp∗,Ξ)
Utilise un modèle de dynamique structuré du second ordre:
zt+2∗=ϕθ(zt∗,zt+1∗,at+1)
où la forme fonctionnelle de ϕ (par exemple, équations cinématiques) est connue, seuls les paramètres θ (comme la masse, le coefficient de friction) sont apprenables.
Perte de dynamique:
Ldyn(θ)=∥zt+H∗−μξt+H∥22
où μξt+H=L1∑l=1Lξt+H(l) est la moyenne empirique des échantillons de supervision faible.
Perte d'interprétabilité:
Linterp(zp∗,Ξ)=∥zp∗−μξ∥22
où Ξ={ξ(l)}l=1L sont L échantillons proxy extraits d'une distribution inconnue p(x).
Modèle de bruit: Suppose que la valeur réelle xi se situe dans un intervalle de largeur relative δ centré sur la moyenne de la distribution:
xi∈[E[p(x)]−21δ∣Xi∣,E[p(x)]+21δ∣Xi∣]
- Conception découplée: L'architecture extrinsèque découple la perception visuelle de l'inférence d'état physique, permettant une optimisation indépendante
- Régularisation par quantification: La discrétisation VQ-VAE agit comme un régularisateur fort, supprimant le bruit visuel et stabilisant le mappage d'état physique
- Dynamique structurée: Utilise des équations physiques partiellement connues plutôt qu'un modèle de séquence boîte noire, améliorant la généralisation et l'interprétabilité
- Exploitation de la supervision faible: Ne nécessite pas d'étiquettes physiques exactes, seulement des échantillons de distribution, plus conforme aux caractéristiques des capteurs réels
- Initialisation du second ordre: Utilise deux états consécutifs (zt∗,zt+1∗) pour l'initialisation, permettant au modèle de calculer en interne les quantités dérivées comme la vitesse
Trois environnements:
- Cart Pole: Problème de contrôle classique, système de pendule équilibré
- Lunar Lander: Environnement OpenAI Gym, contrôle d'atterrisseur lunaire
- Donkey Car: Plateforme de voiture autonome, scènes visuelles complexes du monde réel
Chaque environnement collecte 60 000 trajectoires, chacune d'au moins 50 pas de temps. Les trajectoires sont générées par des actions aléatoires et des contrôleurs neuronaux entraînés, assurant une couverture diverse de l'espace d'état.
Bruit de supervision δ∈{0%,5%,10%}:
- Pour chaque composante d'état xi, génère un décalage du centre x~i=xi+Δi, où Δi∼Unif[−21δ∣Xi∣,21δ∣Xi∣]
- Distribution de supervision: pi(x)=Unif[x~i−21δ∣Xi∣,x~i+21δ∣Xi∣]
- Extrait L=50 échantillons par pas de temps formant l'ensemble de supervision proxy Ξ
- Précision de prédiction: Erreur quadratique moyenne (RMSE) pour 30 pas de prédiction
- Qualité d'encodage statique: MSE et divergence KL entre l'état latent zp∗ et la moyenne des échantillons de supervision faible
- Récupération de paramètres: Erreur relative entre les paramètres physiques appris θ et les valeurs réelles θ∗
- Évaluation qualitative: Qualité visuelle des rollouts de trajectoire à long terme
- Performance du contrôleur: RMSE d'action / précision d'action sur les observations reconstruites
Baselines de méthodes intrinsèques:
- Vid2Para: Apprentissage des paramètres physiques à partir de vidéos
- GokuNet: Modèle génératif avec contraintes ODE
Baselines de méthodes extrinsèques:
- DVBF (Deep Variational Bayes Filters): Filtres de Bayes variationnels profonds
- SindyC: Identification de dynamique parcimonieuse (opérant sur les variables latentes de l'encodeur de cet article)
Baselines pilotées par les données:
- LSTM: Réseau de mémoire à court et long terme
- Transformer: Modèle Transformer de séquence standard
- Encodeur visuel: CNN 2 couches, variable latente 64-dimensionnelle
- Variante discrète: Codebook 512 entrées, poids commitment loss β=0.25
- Encodeur physique: Transformer 2 couches (4 têtes, dimension feedforward 512), pooling moyen + projection linéaire
- Optimiseur: Adam, taille de batch 32
- Taux d'apprentissage: 10−4 variante continue, 10−3 variante discrète
- Planification du taux d'apprentissage: Décroissance cosinus, 5 epochs de préchauffage
- Entraînement: Maximum 200 epochs, arrêt précoce patience 20 epochs
- Écrêtage de gradient: 1.0
- Évaluation: Validation croisée 5-fold
Performance de prédiction à long terme (Figures 3, 4):
Dans l'environnement Donkey Car:
- PIWM discret extrinsèque (ligne violette): Réalise l'erreur de prédiction la plus basse et la plus stable à tous les niveaux de bruit
- PIWM continu extrinsèque (ligne rouge): Deuxième meilleure performance
- Supérieur significativement à tous les baselines (DVBF, SindyC, LSTM, Transformer)
Dans Cart Pole et Lunar Lander:
- Les variantes PIWM atteignent RMSE d'environ 1.5-2.0 à δ=0%
- RMSE augmente à 2.5-3.5 à δ=10%
- Les méthodes baseline accumulent rapidement les erreurs, atteignant 3.5-4.0 à 30 pas
Comparaison intrinsèque vs extrinsèque:
- Le modèle intrinsèque continu rivalise avec le modèle extrinsèque dans certains scénarios
- Le modèle intrinsèque discret montre une stabilité inférieure, indiquant les défis d'optimisation pour aligner le codebook discret dans un encodeur unique
- L'architecture extrinsèque découplant la perception visuelle et l'interprétation physique est la conception clé pour réaliser une prédiction robuste à long terme
Comparaison continu vs discret:
- Architecture intrinsèque: Les variables latentes continues surpassent (gradients flexibles s'adaptant à l'objectif conjoint vision-physique)
- Architecture extrinsèque: Les variables latentes discrètes surpassent (la quantification supprime le bruit visuel, stabilisant le mappage d'état physique)
À tous les environnements et niveaux de bruit:
- Discret extrinsèque: MSE le plus bas (Donkey Car δ=0%: 0.03±0.02)
- Continu intrinsèque: Deuxième optimal (Donkey Car δ=0%: 0.13±0.05)
- La tendance de divergence KL est cohérente, le modèle discret extrinsèque le plus bas (0.19±0.03)
Impact du bruit:
- δ augmente de 0% à 10%, MSE augmente d'environ 50-100%
- Le modèle discret extrinsèque est le plus robuste au bruit
Cart Pole:
- Masse du pendule: La valeur apprise s'aligne hautement avec la valeur réelle (ligne jaune)
- Longueur du pendule: Récupération précise à tous les niveaux de bruit
- Longueur du chariot et force appliquée: Erreur relative < 10%
Lunar Lander:
- Puissance du moteur principal: Récupération précise (erreur relative < 5%)
- Puissance du moteur latéral: Léger écart mais dans une plage raisonnable
Donkey Car:
- Utilise un modèle de bicyclette approximatif, paramètres réels inconnus
- L'empattement appris reste cohérent à différents niveaux de bruit
Comparaison de rollout de trajectoire 30 pas:
- PIWM: Les images générées maintiennent la clarté visuelle et la cohérence physique sur tout l'horizon de prédiction
- Baselines: Montrent un flou évident et des configurations physiquement déraisonnables après H=15
- Cart Pole: PIWM prédit précisément l'oscillation du pendule et l'état d'équilibre
- Lunar Lander: PIWM capture correctement les changements d'attitude et de position de l'atterrisseur
Évaluation du contrôleur original sur les observations reconstruites:
Donkey Car (RMSE d'action, plus bas est mieux):
- Discret extrinsèque: δ=0% 0.15±0.04, δ=10% 0.19±0.05
- Continu intrinsèque: δ=0% 0.12±0.04, δ=10% 0.15±0.05
Lunar Lander (Précision d'action, plus haut est mieux):
- Discret extrinsèque: δ=0% 91.5%±2.1%, δ=10% 84.5%±2.5%
- Continu intrinsèque: δ=0% 93.0%±1.8%, δ=10% 87.1%±2.2%
Cart Pole (Précision d'action):
- Discret extrinsèque: δ=0% 97.2%±1.1%, δ=10% 92.5%±1.8%
- Continu intrinsèque: δ=0% 98.0%±1.0%, δ=10% 94.0%±1.5%
Découverte clé: L'amélioration significative de l'interprétabilité physique ne se fait qu'au prix d'une perte minimale de performance du contrôleur en aval.
- Le choix d'architecture est critique: L'architecture extrinsèque + variables latentes discrètes est la combinaison optimale
- Efficacité de la supervision faible: PIWM peut récupérer les paramètres physiques même avec un bruit δ=10%
- Stabilité à long terme: La dynamique structurée améliore significativement la stabilité de prédiction au-delà de 30 pas
- Fondation physique: Les représentations apprises ne sont pas seulement pertinentes mais aussi fondées physiquement
- Capacité de généralisation: La régularisation par quantification améliore la généralisation aux états non vus
- Méthodes formelles: La réachabilité Hamilton-Jacobi fournit des garanties formelles mais est coûteuse en calcul
- Apprentissage profond: Puissant mais dépend de représentations de scène faites à la main ou de cartes haute précision, manquant d'interprétabilité physique
- Avantage de cet article: Apprend directement à partir d'images brutes, utilise la supervision faible, ne nécessite pas d'entrées faites à la main
- Variantes VAE: β-VAE, FactorVAE, TCVAE encouragent le découplage mais ne garantissent pas la correspondance physique
- VQ-VAE: La discrétisation introduit la structure mais le codebook reste abstrait, manquant d'interprétation
- Modèles centrés sur les objets: FOCUS, SPARTAN fournissent la structure mais ne combinent pas la dynamique physique
- DVBF: Étend VAE mais manque de supervision physique explicite, difficile de récupérer les variables interprétables
- Avantage de cet article: Exploite la supervision faible pour réaliser l'alignement physique, combine la dynamique structurée
- Modèles classiques: Dreamer, DayDreamer excellent dans l'apprentissage de politique mais les variables latentes ne sont pas interprétables
- Priors physiques: Limites état/action, pertes conscientes de la physique, couches cinématiques, mais ne s'appliquent pas aux images haute dimension
- Physique différentiable: L'identification parcimonieuse, la physique différentiable nécessitent l'accès aux variables d'état
- Modèles d'occupation 3D: Améliorent la prédiction mais n'alignent pas explicitement les variables physiques
- Modèles neuro-symboliques: Améliorent la généralisation mais nécessitent des entrées symboliques prédéfinies
- Vid2Param: Travail le plus connexe, mais nécessite une supervision complète et difficile pour la prédiction de dynamique
- Avantage de cet article: Utilise seulement la supervision faible pour apprendre directement les représentations physiquement interprétables à partir d'images
- Extrinsèque + discret est la configuration optimale: Montre les meilleures performances en précision de prédiction, fondation physique et robustesse
- Suffisance de la supervision faible: La supervision faible distribuée suffit à apprendre des représentations physiquement significatives
- Interprétabilité physique vérifiable: La récupération de paramètres fournit une preuve directe
- Praticité: Réalise une amélioration significative de l'interprétabilité avec une perte minimale de performance du contrôleur
- Hypothèse markovienne: Les expériences actuelles se concentrent sur les systèmes de dynamique markovienne, l'extension aux systèmes non-markoviens ou aux effets retardés nécessite des mécanismes de mémoire supplémentaires
- Dynamique simple: Les expériences utilisent des modèles physiques relativement simples (4-10 paramètres), la scalabilité aux systèmes complexes reste à vérifier
- Qualité de supervision faible: La performance dépend de la qualité de la distribution de supervision, un bruit extrême peut causer l'échec
- Surcharge de calcul: L'entraînement en deux étapes (architecture extrinsèque) augmente le temps d'entraînement
- Limitations d'environnement: Principalement validé en environnements simulés, le déploiement dans le monde réel nécessite des recherches supplémentaires
- Représentations du monde complexes: Extension de la prédiction de vecteurs d'état simples vers des représentations du monde structurées (par exemple, grilles d'occupation 3D dynamiques)
- Exploitation de supervision temporelle: Utilisation de techniques de filtrage ou de modélisation de séquence pour traiter les séquences de signaux de supervision faible, produisant des objectifs d'apprentissage temporellement plus cohérents
- Systèmes non-markoviens: Extension aux systèmes où les transitions d'état dépendent de multiples pas temporels
- Scénarios du monde ouvert: Application à des scènes complexes du monde ouvert comme la conduite autonome, gestion multi-agents
- Adaptation en ligne: Développement de mécanismes pour mettre à jour en ligne les paramètres physiques, s'adapter aux changements d'environnement
- Définition claire du problème: Formalise les deux dimensions complémentaires de l'interprétabilité physique, comblant un vide théorique
- Forte innovativité de la méthode:
- Le mécanisme de supervision faible est novateur, plus proche des caractéristiques des capteurs réels
- L'exploration systématique de l'espace de conception intrinsèque/extrinsèque × continu/discret
- La combinaison élégante de dynamique structurée et d'apprentissage de représentation
- Conception expérimentale rigoureuse:
- Trois environnements de complexité différente vérifient la généralisation
- Validation croisée 5-fold assure la fiabilité statistique
- Évaluation multidimensionnelle (prédiction, encodage, récupération de paramètres, performance du contrôleur)
- Résultats convaincants:
- Les résultats quantitatifs et qualitatifs soutiennent cohéremment les arguments principaux
- La récupération de paramètres fournit une preuve directe de l'interprétabilité physique
- Les études d'ablation (continu vs discret, intrinsèque vs extrinsèque) révèlent des intuitions profondes
- Écriture claire: Structure d'article rationnelle, expression mathématique rigoureuse, figures et tableaux informatifs
- Analyse théorique insuffisante:
- Manque de garanties théoriques de convergence sous supervision faible
- N'analyse pas la limite théorique du niveau de bruit δ
- L'effet de la régularisation par quantification manque d'explication théorique
- Limitations expérimentales:
- Validation seulement en environnements simulés, le bruit des capteurs du monde réel est plus complexe
- Les modèles physiques sont relativement simples (dynamique du second ordre), les systèmes complexes (par exemple, robots souples) ne sont pas couverts
- Pas de comparaison avec les modèles du monde basés sur Transformer les plus récents (par exemple, IRIS, Genie)
- Problèmes de scalabilité:
- L'entraînement en deux étapes augmente le coût de calcul
- Le traitement de l'espace d'état physique haute dimension n'est pas clair
- La taille du codebook (512) peut être insuffisante pour des environnements plus complexes
- Limitations de la méthode:
- Nécessite des équations de dynamique partiellement connues, limitant la portée d'application
- La sensibilité au nombre d'échantillons de supervision faible (L=50) n'est pas suffisamment étudiée
- Le contrôleur est fixe, l'optimisation conjointe avec l'apprentissage de politique n'est pas explorée
- Profondeur d'analyse:
- Le mécanisme expliquant pourquoi le discret extrinsèque surpasse le continu intrinsèque n'est pas suffisamment approfondi
- Les différences de récupérabilité entre différents paramètres physiques ne sont pas discutées en détail
- L'analyse des cas d'échec est manquante
- Contribution académique:
- Fournit un cadre unifié et une base d'évaluation pour les modèles du monde physiquement interprétables
- Le paradigme de supervision faible peut inspirer d'autres tâches d'apprentissage nécessitant l'alignement physique
- L'exploration systématique de l'espace de conception guide les recherches ultérieures
- Valeur pratique:
- Application directe à la prédiction et la surveillance dans les CPS critiques pour la sécurité
- Réduit la dépendance aux annotations physiques exactes, réduisant les coûts de collecte de données
- L'interprétabilité soutient la vérification formelle et les garanties d'exécution
- Reproductibilité:
- Description détaillée de l'architecture et des hyperparamètres (annexe)
- Utilisation d'environnements standard (OpenAI Gym)
- Mais le code n'est pas publié, ce qui peut affecter la reproduction
- Impact potentiel:
- Peut promouvoir la transition des modèles du monde de la performance de prédiction pure vers l'interprétabilité et la fiabilité
- Fournit de nouveaux outils pour l'apprentissage robotique, la conduite autonome et autres domaines
- L'idée de supervision faible peut être transférée à d'autres tâches d'apprentissage d'intégration physique
Scénarios appropriés:
- Systèmes critiques pour la sécurité: Conduite autonome, aérospatiale nécessitant des prédictions interprétables
- Environnements partiellement observables: Systèmes robotiques où les capteurs fournissent des estimations d'incertitude
- Dynamique connue: Systèmes où la forme des équations physiques est connue mais les paramètres sont inconnus
- Prédiction à long terme: Tâches de prédiction multi-étapes nécessitant la cohérence physique
- Annotation limitée: Applications où les étiquettes physiques exactes sont difficiles à obtenir
Scénarios non appropriés:
- Dynamique complètement inconnue: Systèmes boîte noire où aucun prior physique ne peut être fourni
- Systèmes hautement non-markoviens: Tâches où les transitions d'état dépendent d'un long historique
- Environnement de bruit extrême: Cas où la qualité de supervision faible est extrêmement mauvaise (δ>20%)
- Exigences temps réel strictes: L'entraînement en deux étapes et l'inférence Transformer peuvent être trop lents
- Tâches purement visuelles: Tâches de génération d'images ne nécessitant pas d'interprétation physique
- Ha & Schmidhuber (2018): World Models - Cadre classique des modèles du monde
- Hafner et al. (2020, 2023): Série Dreamer - Baselines SOTA des modèles du monde
- Karl et al. (2016): DVBF - Filtres de Bayes variationnels profonds
- Asenov et al. (2019): Vid2Param - Apprentissage des paramètres physiques à partir de vidéos
- Linial et al. (2021): GokuNet - Modèle génératif utilisant ODE
- Van Den Oord et al. (2017): VQ-VAE - Autoencodeur variationnel à quantification vectorielle
- Brunton et al. (2016): SINDYc - Identification de dynamique non-linéaire parcimonieuse
Évaluation Globale: Cet article est une recherche de haute qualité apportant des contributions importantes au domaine des modèles du monde physiquement interprétables. Son innovation centrale réside dans l'exploitation astucieuse de la supervision faible et de la conception structurée pour réaliser l'interprétabilité physique sans annotation exacte. La conception expérimentale systématique et les résultats convaincants soutiennent ses arguments principaux. Bien qu'il existe des insuffisances en analyse théorique et en validation du monde réel, sa méthodologie et ses découvertes jettent les bases solides pour les recherches futures, possédant une valeur académique et pratique importante.