Learning predictive models from high-dimensional sensory observations is fundamental for cyber-physical systems, yet the latent representations learned by standard world models lack physical interpretability. This limits their reliability, generalizability, and applicability to safety-critical tasks. We introduce Physically Interpretable World Models (PIWM), a framework that aligns latent representations with real-world physical quantities and constrains their evolution through partially known physical dynamics. Physical interpretability in PIWM is defined by two complementary properties: (i) the learned latent state corresponds to meaningful physical variables, and (ii) its temporal evolution follows physically consistent dynamics. To achieve this without requiring ground-truth physical annotations, PIWM employs weak distribution-based supervision that captures state uncertainty naturally arising from real-world sensing pipelines. The architecture integrates a VQ-based visual encoder, a transformer-based physical encoder, and a learnable dynamics model grounded in known physical equations. Across three case studies (Cart Pole, Lunar Lander, and Donkey Car), PIWM achieves accurate long-horizon prediction, recovers true system parameters, and significantly improves physical grounding over purely data-driven models. These results demonstrate the feasibility and advantages of learning physically interpretable world models directly from images under weak supervision.
- ID статьи: 2412.12870
- Название: Physically Interpretable World Models via Weakly Supervised Representation Learning
- Авторы: Zhenjiang Mao, Mrinall Eashaan Umasudhan, Ivan Ruchkin (Университет Флориды)
- Категория: cs.LG (Машинное обучение)
- Дата публикации: ноябрь 2025 г. (arXiv v4)
- Ссылка на статью: https://arxiv.org/abs/2412.12870v4
В данной работе предлагается структура физически интерпретируемых мировых моделей (PIWM) для решения проблемы отсутствия физической интерпретируемости мировых моделей в киберфизических системах (CPS). Структура выравнивает скрытые представления с реальными физическими величинами посредством слабо распределённого контроля и ограничивает их временную эволюцию частично известными физическими динамическими ограничениями. PIWM определяет два дополнительных атрибута физической интерпретируемости: (i) изученные скрытые состояния соответствуют значимым физическим переменным; (ii) их временная эволюция следует физически согласованной динамике. На трёх тематических исследованиях (Cart Pole, Lunar Lander и Donkey Car) PIWM достигает точного долгосрочного предсказания, восстановления реальных системных параметров и значительного улучшения физической обоснованности по сравнению с чисто управляемыми данными моделями.
Хотя стандартные мировые модели демонстрируют отличные результаты в задачах долгосрочного предсказания, изученные ими скрытые представления обычно являются "чёрным ящиком", лишённым явной связи с базовыми физическими состояниями системы. Эта физическая неинтерпретируемость серьёзно ограничивает применение моделей в критичных по безопасности CPS, таких как автономное вождение и домашние роботы.
- Требования безопасности: В критичных по безопасности приложениях необходимо формальное верифицирование предсказанных состояний и мониторинг во время выполнения
- Причинное объяснение: Физически значимые скрытые состояния могут обеспечить причинные объяснения (например, замедление из-за окклюзии)
- Способность к обобщению: Встраивание физической структуры может улучшить обобщение путём ограничения предсказаний физически правдоподобными траекториями
Существующие методы в основном делятся на две парадигмы:
- Внешние методы (Extrinsic): сначала изучают абстрактные визуальные скрытые переменные, затем отображают их в физические величины через дополнительную модель
- Внутренние методы (Intrinsic): непосредственно кодируют физическую структуру в кодировщик изображений
Оба подхода имеют критические ограничения:
- Обычно требуют точные физические метки для обучения
- Зависят от разложения по объектам, которое сложно надёжно получить из реальных CPS
- Не используют оценки неопределённости, естественно производимые датчиками
Датчики в реальных CPS (такие как GPS, радар) обычно производят оценки неопределённости в виде распределений или доверительных интервалов, а не точные измерения. В данной работе используется эта распределённая слабая контроль для направления высокомерного кодирования изображений в физически значимые скрытые состояния, в сочетании с частично известной системной динамикой, достигая многошаговых предсказаний, согласованных с физикой, без необходимости в аннотациях реальных состояний.
- Унифицированное определение физической интерпретируемости: Формально определена физическая интерпретируемость генеративных мировых моделей как два дополнительных атрибута: (i) скрытые представления соответствуют значимым физическим величинам; (ii) временная эволюция подчиняется физически допустимой динамике
- Структура слабо контролируемого обучения: Предложена новая архитектура и процедура обучения, использующие слабую контроль на основе распределений (вместо точных физических аннотаций) для выравнивания скрытых состояний на основе изображений с физическими переменными, с использованием структурированной динамики и квантизации скрытых переменных в качестве физических априорных знаний
- Систематическое эмпирическое исследование: Посредством обширных экспериментов на Cart Pole, Lunar Lander и Donkey Car систематически анализируются выборы дизайна внутренней и внешней архитектур, непрерывных и дискретных скрытых переменных, выявляя, что внешняя архитектура + квантизированные скрытые переменные достигают наиболее надёжного и интерпретируемого представления
Определение автономной CPS (Определение 1):
Автономная CPS s=(X,I,Y,A,ϕθ,g,h) включает:
- Множество состояний X: конечномерное пространство физических состояний
- Начальное множество I⊂X: возможные начальные состояния
- Множество наблюдений Y: все возможные наблюдения (например, изображения)
- Множество действий A: доступные управляющие действия
- Системная динамика ϕθ:X×A×Θ→X: управляет переходами состояний при физических параметрах θ
- Функция наблюдения g:X→Y: отображает состояния в наблюдения
- Фиксированный контроллер h:Y→A: выбирает действия на основе наблюдений
Эволюция состояния: xt+1=ϕ(xt,at,θ∗), где θ∗ — реальные (неизвестные) физические параметры.
Определение мировой модели (Определение 2):
Мировая модель W=(E,f,D) включает:
- Кодировщик E:Y→Z: сжимает высокомерные наблюдения в скрытые представления
- Предсказатель f:Z×A→Z: предсказывает будущие скрытые переменные на основе действий
- Декодировщик D:Z→Y: восстанавливает предсказанные наблюдения
Архитектура PIWM содержит три основных компонента:
Внешняя архитектура (двухэтапная):
- Этап 1: Визуальный автокодировщик (Ev,Dv) отображает наблюдение y в промежуточную скрытую переменную z=Ev(y)
- Непрерывная версия: β-VAE, функция потерь:
Lvision-cont=Lrecon(y,y^)+βDKL(q(z∣y)∥N(0,I))
- Дискретная версия: VQ-VAE, функция потерь:
Lvision-disc=LVQ(y,y^)
- Этап 2: Физический кодировщик Ep отображает z в физическое состояние z∗=Ep(z)
- Цель обучения:
Lphysical=λinterpLinterp(z∗,Ξ)+λlatentLrecon(z,Dp(z∗))
Внутренняя архитектура (одноэтапная):
Прямое кодирование z∗=E(y), скрытые переменные разбиваются на z∗=[zp∗,zv∗] (физическая и визуальная части)
- Функция потерь непрерывной версии:
Lintrinsic-cont=Lrecon(y,y^)+λinterpLinterp(zp∗,Ξ)+βDKL(q(zv∗∣y)∥N(0,I))
- Дискретная версия: векторы кодовой книги разбиваются на ek=[ekp,ekv], где ekp — фиксированные точки физической сетки
Lintrinsic-disc=LVQ(y,y^)+λinterpLinterp(zp∗,Ξ)
Используется структурированная модель динамики второго порядка:
zt+2∗=ϕθ(zt∗,zt+1∗,at+1)
где функциональная форма ϕ (например, кинематические уравнения) известна, обучаемы только параметры θ (такие как масса, коэффициент трения).
Функция потерь динамики:
Ldyn(θ)=∥zt+H∗−μξt+H∥22
где μξt+H=L1∑l=1Lξt+H(l) — эмпирическое среднее образцов слабого контроля.
Функция потерь интерпретируемости:
Linterp(zp∗,Ξ)=∥zp∗−μξ∥22
где Ξ={ξ(l)}l=1L — L образцов-прокси, извлечённых из неизвестного распределения p(x).
Модель шума: Предполагается, что истинное значение xi находится в интервале относительной ширины δ, центрированном на среднее распределение:
xi∈[E[p(x)]−21δ∣Xi∣,E[p(x)]+21δ∣Xi∣]
- Развязанный дизайн: Внешняя архитектура разделяет визуальное восприятие и физический вывод, позволяя независимую оптимизацию
- Квантизационная регуляризация: Дискретизация VQ-VAE действует как сильный регуляризатор, подавляя визуальный шум и стабилизируя отображение физических состояний
- Структурированная динамика: Использование частично известных физических уравнений вместо чёрного ящика последовательных моделей улучшает обобщение и интерпретируемость
- Использование слабого контроля: Не требует точных физических меток, только распределённые образцы, что лучше соответствует характеристикам реальных датчиков
- Инициализация второго порядка: Использование двух последовательных состояний (zt∗,zt+1∗) для инициализации позволяет модели внутренне вычислять производные величины, такие как скорость
Три окружения:
- Cart Pole: классическая задача управления, система балансировки маятника
- Lunar Lander: окружение OpenAI Gym, управление лунным модулем
- Donkey Car: автономная гоночная платформа, реальные сложные визуальные сцены
Для каждого окружения собрано 60 000 траекторий, каждая содержит минимум 50 временных шагов. Траектории генерируются случайными действиями и обученными нейросетевыми контроллерами, обеспечивая разнообразное покрытие пространства состояний.
Шум контроля δ∈{0%,5%,10%}:
- Для каждого компонента состояния xi генерируется смещённый центр x~i=xi+Δi, где Δi∼Unif[−21δ∣Xi∣,21δ∣Xi∣]
- Распределение контроля: pi(x)=Unif[x~i−21δ∣Xi∣,x~i+21δ∣Xi∣]
- Для каждого временного шага извлекаются L=50 образцов, формирующих набор прокси-контроля Ξ
- Точность предсказания: среднеквадратичная ошибка (RMSE) 30-шагового предсказания
- Качество статического кодирования: MSE и расхождение Кульбака-Лейблера между скрытым состоянием zp∗ и средним значением образцов слабого контроля
- Восстановление параметров: относительная ошибка изученных физических параметров θ относительно истинных значений θ∗
- Качественная оценка: визуальное качество долгосрочных развёрток траекторий
- Производительность контроллера: RMSE действий / точность на восстановленных наблюдениях
Базовые методы внутренней архитектуры:
- Vid2Para: изучение физических параметров из видео
- GokuNet: генеративная модель с ограничениями ODE
Базовые методы внешней архитектуры:
- DVBF (Deep Variational Bayes Filters): глубокие вариационные фильтры Байеса
- SindyC: разреженная идентификация динамики (работает на скрытых переменных кодировщика)
Базовые методы, управляемые данными:
- LSTM: сети долгой краткосрочной памяти
- Transformer: стандартная модель Transformer для последовательностей
- Визуальный кодировщик: 2-слойная CNN, 64-мерная скрытая переменная
- Дискретный вариант: кодовая книга из 512 записей, вес commitment loss β=0.25
- Физический кодировщик: 2-слойный Transformer (4 головы, 512 размер прямого распространения), усреднённое объединение + линейная проекция
- Оптимизатор: Adam, размер пакета 32
- Скорость обучения: непрерывный вариант 10−4, дискретный вариант 10−3
- График скорости обучения: косинусное затухание, 5 эпох прогрева
- Обучение: максимум 200 эпох, ранняя остановка с терпением 20 эпох
- Обрезка градиентов: 1.0
- Оценка: 5-кратная перекрёстная валидация
Производительность долгосрочного предсказания (Рис. 3, 4):
В окружении Donkey Car:
- Внешний дискретный PIWM (фиолетовая линия): достигает наименьшей и наиболее стабильной ошибки предсказания на всех уровнях шума
- Внешний непрерывный PIWM (красная линия): вторая по качеству производительность
- Значительно превосходит все базовые методы (DVBF, SindyC, LSTM, Transformer)
В Cart Pole и Lunar Lander:
- Варианты PIWM достигают RMSE около 1.5-2.0 при δ=0%
- RMSE увеличивается до 2.5-3.5 при δ=10%
- Ошибки базовых методов быстро накапливаются, достигая 3.5-4.0 на 30-м шаге
Сравнение внутренней и внешней архитектур:
- Модель внутренней непрерывной архитектуры в некоторых сценариях конкурирует с внешней
- Модель внутренней дискретной архитектуры показывает нестабильность, указывая на сложность оптимизации выравнивания дискретной кодовой книги в едином кодировщике
- Развязанная внешняя архитектура — ключевой выбор дизайна для достижения надёжного долгосрочного предсказания
Сравнение непрерывных и дискретных вариантов:
- Внутренняя архитектура: непрерывные скрытые переменные показывают лучшую производительность (гибкие градиенты адаптируются к совместной цели визуально-физического выравнивания)
- Внешняя архитектура: дискретные скрытые переменные показывают лучшую производительность (квантизация подавляет визуальный шум, стабилизирует отображение физических состояний)
На всех окружениях и уровнях шума:
- Внешний дискретный: наименьший MSE (Donkey Car δ=0%: 0.03±0.02)
- Внутренний непрерывный: вторая по качеству производительность (Donkey Car δ=0%: 0.13±0.05)
- Тенденция расхождения KL согласуется, внешний дискретный модель имеет наименьшее значение (0.19±0.03)
Влияние шума:
- При увеличении δ с 0% до 10% MSE увеличивается примерно на 50-100%
- Внешний дискретный модель наиболее устойчив к шуму
Cart Pole:
- Масса маятника: изученное значение высоко согласуется с истинным значением (жёлтая линия)
- Длина маятника: точное восстановление на всех уровнях шума
- Длина тележки и приложенная сила: относительная ошибка <10%
Lunar Lander:
- Мощность основного двигателя: точное восстановление (относительная ошибка <5%)
- Мощность бокового двигателя: небольшое отклонение, но в разумных пределах
Donkey Car:
- Использует приблизительную модель велосипеда, истинные параметры неизвестны
- Изученная база колёс остаётся согласованной на разных уровнях шума
Сравнение 30-шаговых развёрток траекторий:
- PIWM: генерируемые изображения сохраняют визуальную чёткость и физическую согласованность на всём временном диапазоне предсказания
- Базовые методы: проявляют явное размытие и физически неправдоподобные конфигурации после H=15
- Cart Pole: PIWM точно предсказывает колебания маятника и состояния равновесия
- Lunar Lander: PIWM правильно захватывает ориентацию и изменения положения лунного модуля
Оценка исходного контроллера на восстановленных наблюдениях:
Donkey Car (RMSE действий, чем ниже, тем лучше):
- Внешний дискретный: δ=0% составляет 0.15±0.04, δ=10% составляет 0.19±0.05
- Внутренний непрерывный: δ=0% составляет 0.12±0.04, δ=10% составляет 0.15±0.05
Lunar Lander (точность действий, чем выше, тем лучше):
- Внешний дискретный: δ=0% составляет 91.5%±2.1%, δ=10% составляет 84.5%±2.5%
- Внутренний непрерывный: δ=0% составляет 93.0%±1.8%, δ=10% составляет 87.1%±2.2%
Cart Pole (точность действий):
- Внешний дискретный: δ=0% составляет 97.2%±1.1%, δ=10% составляет 92.5%±1.8%
- Внутренний непрерывный: δ=0% составляет 98.0%±1.0%, δ=10% составляет 94.0%±1.5%
Ключевое открытие: значительное улучшение физической интерпретируемости достигается с минимальными потерями в производительности нижестоящего контроллера.
- Выбор архитектуры критичен: внешняя архитектура + дискретные скрытые переменные — оптимальная комбинация
- Эффективность слабого контроля: PIWM может восстанавливать физические параметры даже при шуме δ=10%
- Стабильность долгосрочного предсказания: структурированная динамика значительно улучшает стабильность предсказания на 30+ шагов
- Физическая обоснованность: изученные представления не только релевантны, но и физически обоснованы
- Способность к обобщению: квантизационная регуляризация улучшает обобщение на невидимые состояния
- Формальные методы: достижимость Hamilton-Jacobi обеспечивает формальные гарантии, но вычислительно дорога
- Глубокое обучение: мощно, но зависит от ручного представления сцены или высокоточных карт, лишено физической интерпретируемости
- Преимущество данной работы: прямое изучение из необработанных изображений, использование слабого контроля, без ручных входов
- Варианты VAE: β-VAE, FactorVAE, TCVAE поощряют развязку, но не гарантируют физическое соответствие
- VQ-VAE: дискретизация вводит структуру, но кодовая книга абстрактна, лишена интерпретации
- Модели, центрированные на объектах: FOCUS, SPARTAN обеспечивают структуру, но не объединяют физическую динамику
- DVBF: расширяет VAE, но без явного физического контроля, сложно восстанавливает интерпретируемые переменные
- Преимущество данной работы: использование слабого контроля для достижения физического выравнивания, объединение со структурированной динамикой
- Классические модели: Dreamer, DayDreamer отличаются в обучении политики, но скрытые переменные неинтерпретируемы
- Физические априорные знания: границы состояния/действия, потери, чувствительные к физике, кинематические слои, но неприменимы к высокомерным изображениям
- Дифференцируемая физика: разреженная идентификация, дифференцируемая физика требуют доступа к переменным состояния
- 3D модели занятости: улучшают предсказание, но не выравнивают явно физические переменные
- Нейросимволические модели: улучшают обобщение, но требуют предопределённых символических входов
- Vid2Param: наиболее релевантная работа, но требует полного контроля и сложна для предсказания динамики
- Преимущество данной работы: использование только слабого контроля для прямого изучения физически интерпретируемых представлений из изображений
- Внешняя + дискретная — оптимальная конфигурация: показывает лучшую производительность в точности предсказания, физической обоснованности и надёжности
- Достаточность слабого контроля: распределённый слабый контроль достаточен для изучения физически значимых представлений
- Проверяемость физической интерпретируемости: восстановление параметров обеспечивает прямое свидетельство
- Практичность: достигает значительного улучшения интерпретируемости с минимальными потерями производительности контроллера
- Предположение марковости: текущие эксперименты сосредоточены на марковских динамических системах, расширение на немарковские или системы с задержанными эффектами требует дополнительных механизмов памяти
- Простая динамика: эксперименты используют относительно простые физические модели (4-10 параметров), масштабируемость на сложные системы требует проверки
- Качество слабого контроля: производительность зависит от качества распределения контроля, экстремальный шум может привести к отказу
- Вычислительные затраты: двухэтапное обучение (внешняя архитектура) увеличивает время обучения
- Ограничения окружения: в основном проверено в смоделированных окружениях, развёртывание в реальном мире требует дальнейших исследований
- Сложные представления мира: расширение от предсказания простых векторов состояния к структурированным представлениям мира (например, динамические 3D сетки занятости)
- Использование временного контроля: использование техник фильтрации или последовательного моделирования для обработки последовательностей сигналов слабого контроля, создание более точных целей обучения с временной согласованностью
- Немарковские системы: расширение на системы, где переходы состояний зависят от нескольких предыдущих шагов
- Открытые сценарии мира: применение к сложным открытым сценариям, таким как автономное вождение, обработка многоагентных систем
- Онлайн адаптация: разработка механизмов для онлайн-обновления физических параметров, адаптация к изменениям окружения
- Чёткое определение проблемы: формально определены два дополнительных измерения физической интерпретируемости, заполняя теоретический пробел
- Сильная инновационность метода:
- Новый механизм слабого контроля, более соответствующий характеристикам реальных датчиков
- Систематическое исследование пространства дизайна внутренняя/внешняя × непрерывная/дискретная
- Элегантное объединение структурированной динамики с изученными представлениями
- Строгий дизайн экспериментов:
- Три окружения разной сложности проверяют обобщение
- 5-кратная перекрёстная валидация обеспечивает статистическую надёжность
- Многомерная оценка (предсказание, кодирование, восстановление параметров, производительность контроллера)
- Убедительные результаты:
- Количественные и качественные результаты согласованно поддерживают основные утверждения
- Восстановление параметров обеспечивает прямое свидетельство физической интерпретируемости
- Исследование абляции (непрерывное vs дискретное, внутреннее vs внешнее) выявляет глубокие инсайты
- Ясное изложение: логичная структура статьи, строгое математическое выражение, информативные рисунки и таблицы
- Недостаточный теоретический анализ:
- Отсутствуют теоретические гарантии сходимости при слабом контроле
- Не проанализирована теоретическая верхняя граница уровня шума δ
- Эффект квантизационной регуляризации лишён теоретического объяснения
- Ограничения экспериментов:
- Проверено только в смоделированных окружениях, реальный шум датчиков более сложен
- Физические модели относительно просты (динамика второго порядка), сложные системы (например, мягкие роботы) не рассмотрены
- Отсутствует сравнение с последними моделями мира на основе Transformer (например, IRIS, Genie)
- Проблемы масштабируемости:
- Двухэтапное обучение увеличивает вычислительные затраты
- Обработка высокомерного пространства физических состояний неясна
- Размер кодовой книги (512) может быть недостаточен для более сложных окружений
- Ограничения метода:
- Требует частично известных уравнений динамики, ограничивая область применения
- Чувствительность к количеству образцов слабого контроля (L=50) недостаточно исследована
- Контроллер фиксирован, совместная оптимизация с обучением политики не исследована
- Недостаточная глубина анализа:
- Механизм, почему внешний дискретный превосходит внутренний непрерывный, недостаточно объяснён
- Различия в восстанавливаемости разных физических параметров не подробно обсуждены
- Отсутствует анализ случаев отказа
- Академический вклад:
- Обеспечивает унифицированную структуру и эталон оценки для физически интерпретируемых мировых моделей
- Парадигма слабого контроля может вдохновить другие задачи обучения, требующие физического выравнивания
- Систематическое исследование пространства дизайна обеспечивает руководство для последующих исследований
- Практическая ценность:
- Прямое применение к предсказанию и мониторингу в критичных по безопасности CPS
- Снижает зависимость от точных физических аннотаций, снижая стоимость сбора данных
- Интерпретируемость поддерживает формальную верификацию и гарантии во время выполнения
- Воспроизводимость:
- Подробное описание архитектуры и гиперпараметров (приложение)
- Использование стандартных окружений (OpenAI Gym)
- Но код не опубликован, что может повлиять на воспроизводимость
- Потенциальное влияние:
- Может стимулировать переход мировых моделей от чистой производительности предсказания к интерпретируемости и надёжности
- Предоставляет новые инструменты для робототехники, автономного вождения и других областей
- Идея слабого контроля может быть перенесена на другие задачи физически встроенного обучения
Подходящие сценарии:
- Критичные по безопасности системы: автономное вождение, аэрокосмическая промышленность, требующие интерпретируемых предсказаний
- Частично наблюдаемые окружения: робототехнические системы, где датчики обеспечивают оценки неопределённости
- Известная структура динамики: системы, где форма физических уравнений известна, но параметры неизвестны
- Долгосрочное предсказание: задачи, требующие физически согласованных многошаговых предсказаний
- Ограниченная аннотация: приложения, где сложно получить точные физические метки
Неподходящие сценарии:
- Полностью неизвестная динамика: чёрные ящики без физических априорных знаний
- Высоко немарковские системы: задачи, где переходы состояний зависят от длинной истории
- Экстремальный шум: ситуации, где качество слабого контроля крайне плохо (δ>20%)
- Строгие требования реального времени: двухэтапное обучение и вывод Transformer могут быть слишком медленны
- Чисто визуальные задачи: генерация изображений, не требующая физической интерпретации
- Ha & Schmidhuber (2018): World Models — классическая структура мировых моделей
- Hafner et al. (2020, 2023): серия Dreamer — SOTA базовые методы мировых моделей
- Karl et al. (2016): DVBF — глубокие вариационные фильтры Байеса
- Asenov et al. (2019): Vid2Param — изучение физических параметров из видео
- Linது et al. (2021): GokuNet — генеративная модель с ограничениями ODE
- Van Den Oord et al. (2017): VQ-VAE — векторно-квантизированный вариационный автокодировщик
- Brunton et al. (2016): SINDYc — разреженная идентификация нелинейной динамики
Общая оценка: Это высококачественная исследовательская статья, вносящая важный вклад в область физически интерпретируемых мировых моделей. Её основная инновация заключается в умелом использовании слабого контроля и структурированного дизайна для достижения физической интерпретируемости без необходимости в точных аннотациях. Строгий дизайн экспериментов и убедительные результаты поддерживают основные утверждения. Хотя существуют ограничения в теоретическом анализе и проверке в реальном мире, методология и выводы создают прочную основу для будущих исследований, обладая значительной академической и практической ценностью.