2025-11-25T14:13:18.562314

Physical Reinforcement Learning

Dillavou, Mishra

Digital computers are power-hungry and largely intolerant of damaged components, making them potentially difficult tools for energy-limited autonomous agents in uncertain environments. Recently developed Contrastive Local Learning Networks (CLLNs) - analog networks of self-adjusting nonlinear resistors - are inherently low-power and robust to physical damage, but were constructed to perform supervised learning. In this work we demonstrate success on two simple RL problems using Q-learning adapted for simulated CLLNs. Doing so makes explicit the components (beyond the network being trained) required to enact various tools in the RL toolbox, some of which (policy function and value function) are more natural in this system than others (replay buffer). We discuss assumptions such as the physical safety that digital hardware requires, CLLNs can forgo, and biological systems cannot rely on, and highlight secondary goals that are important in biology and trainable in CLLNs, but make little sense in digital computers.

academic

Физическое обучение с подкреплением

Основная информация

ID статьи: 2511.17789
Название: Physical Reinforcement Learning
Авторы: Sam Dillavou (Университет Пенсильвании), Shruti Mishra (Университет Кембриджа)
Классификация: cs.LG (Машинное обучение), cond-mat.dis-nn (Физика конденсированного состояния - неупорядоченные системы и нейронные сети)
Дата публикации: 21 ноября 2025 г. (arXiv v1)
Ссылка на статью: https://arxiv.org/abs/2511.17789

Аннотация

Цифровые компьютеры, несмотря на свою мощность, имеют серьёзные недостатки: высокое энергопотребление и нетерпимость к повреждениям компонентов, что затрудняет их использование в качестве инструмента для автономных интеллектуальных агентов в условиях ограниченной энергии и неопределённости. В данной работе исследуется применение контрастных локально обучаемых сетей (CLLNs) — аналоговых сетей, состоящих из саморегулируемых нелинейных резисторов — в задачах обучения с подкреплением. CLLNs естественным образом обладают низким энергопотреблением и устойчивостью к физическим повреждениям, но ранее использовались только для обучения с учителем. Авторы успешно адаптировали Q-learning к аналоговым CLLNs, решив две простые задачи обучения с подкреплением, и выявили компоненты, необходимые для реализации различных инструментов из набора RL. При этом функции политики и стоимости более естественны в данной системе, тогда как буфер воспроизведения опыта менее естественен.

Исследовательский контекст и мотивация

1. Основная проблема

Цифровые компьютеры при применении обучения с подкреплением сталкиваются с двумя фундаментальными слабостями:

Плохая отказоустойчивость: повреждение одного транзистора может привести к отказу всей системы, поскольку функциональность каждого компонента внутренне связана с его положением в системе
Высокое энергопотребление: процессор ноутбука потребляет примерно 50 Вт, что обусловлено высокими энергетическими затратами на поддержание «идеального» функционирования и передачей данных между обработкой и хранением

2. Значимость проблемы

Для автономных агентов в условиях ограниченной энергии низкое энергопотребление и отказоустойчивость являются критическими. Биологические системы демонстрируют превосходство в этих аспектах:

Человеческий мозг потребляет всего 20 Вт, одновременно выполняя множество задач: восприятие, когнитивные функции, управление движением
Мозг может выдерживать значительные повреждения и продолжать функционировать, включая разрушение отдельных нейронов, черепно-мозговые травмы и даже удаление областей мозга
Эта устойчивость обусловлена распределённой обработкой и возникающими вычислениями, а не линейными вычислениями

3. Ограничения существующих подходов

Примеры применения искусственного нецифрового оборудования в задачах RL крайне редки
Многие цифровые расширения или смоделированные аналоговые системы использовались для RL, но немногие аппаратные демонстрации объединяют распределённое хранение, вычисления и аналоговые сигналы
Недавно разработанные CLLNs, хотя и обладают низким энергопотреблением и отказоустойчивостью, ещё не были проверены в сценариях RL

4. Исследовательская мотивация

Исследовать потенциал CLLNs в RL, открывая путь к энергоэффективным и отказоустойчивым автономным агентам
Выявить, какие инструменты RL естественны для самообучающихся сетей, а какие требуют дополнительного предварительно запрограммированного оборудования
Понять дополнительные вызовы, возникающие при размещении «мозга» агента вне цифровой области

Основные вклады

Первое применение CLLNs к обучению с подкреплением: успешная адаптация Q-learning к аналоговым CLLNs, реализующая возможности RL физических обучающих сетей
Проверка эффективности на двух задачах RL:
- Марковский процесс принятия решений (MDP) с четырьмя состояниями и четырьмя действиями
- Навигационная задача с девятью состояниями (сетка 3×3) и четырьмя действиями
- В 10 испытаниях 8-10 раз достигнута близкая к оптимальной политика
Выявление соображений проектирования для физических обучающих систем:
- Определены компоненты RL, естественно реализуемые в CLLNs (функция политики, функция стоимости)
- Указаны компоненты, требующие дополнительной аппаратной поддержки (буфер воспроизведения опыта)
- Раскрыты ограничения, специфичные для физических систем (ограниченные параметры, не-прямые структуры)
Предложены уникальные преимущества физических обучающих систем:
- Низкое энергопотребление может быть дополнительно оптимизировано путём модификации алгоритма обучения
- Способность к восстановлению в режиме реального времени после повреждений
- Возможность обучения вторичным целям (энергопотребление, устойчивость), что бессмысленно в цифровых системах

Подробное описание методологии

Определение задач

Задача 1: MDP с четырьмя состояниями и четырьмя действиями

Пространство состояний: 4 дискретных состояния S₁, S₂, S₃, S₄
Пространство действий: 4 дискретных действия A₀, A₁, A₂, A₃
Переходы состояний: простые детерминированные переходы, действие i приводит в состояние Si
Награды: зависящие от состояния награды R(St, At) ~ N(0.1, 0.1), плюс шум N(0, 0.01)
Цель: изучить оптимальную политику для максимизации накопленной награды

Задача 2: Навигационная задача с девятью состояниями

Пространство состояний: 9 позиций на сетке 3×3
Пространство действий: 4 направления движения (вверх, вниз, влево, вправо)
Структура наград: большая награда в целевой позиции (верхний левый угол), микроскопический градиент наград в других позициях (в 5000 раз меньше)
Цель: изучить навигацию к позиции с высокой наградой

Архитектура модели

Основные принципы CLLN

CLLNs — это сети, состоящие из элементов саморегулируемых резисторов, динамика которых аппроксимирует градиентный спуск глобальной функции потерь.

Структура сети:

Узлы разделены на входные узлы (жёлтые) и выходные узлы (синие)
Входные данные: кодируются путём установки напряжений узлов V₁, ..., V₄
Выходные данные: уравновешенные значения напряжений O₁, ..., O₄ как результат вычислений сети
Сеть как физическая функция: F(V₁, V₂, V₃, V₄) ≡ (O₁, O₂, O₃, O₄)

Модель проводимости: Каждый проводящий элемент фактически представляет собой MOSFET-транзистор, работающий в триодной (пассивной) области:

Gi = S(VG,i - VT - V̄)

где:

S = 1 (константа)
VT = 0.7 (пороговое напряжение)
VG,i: регулируемое напряжение затвора (действует как вес)
V̄: среднее напряжение на концах резистора (реализует нелинейное преобразование)
Диапазон параметров: 1.0 < VG,i < 5.5

Механизм контрастного обучения

Процесс обучения требует сравнения двух различных состояний:

Свободное состояние (Free State):
- Применяются только входные напряжения V₁, ..., V₄
- Каждый резистор испытывает падение напряжения ΔVᶠᵢ
- Выход: Oᶠₙ
Зажатое состояние (Clamped State):
- Применяются входные напряжения и желаемые выходные значения (метки)
- Падение напряжения: ΔVᶜᵢ
- Выход подталкивается к метке: Oᶜₙ = Oᶠₙ(1-η) + ηLₙ (в данной работе η=0.1)

Локальное правило обучения:

Система выполняет градиентный спуск по контрастной функции (разница в рассеиваемой мощности между зажатым и свободным состояниями):

δGi = -α d/dGi[Pᶜ - Pᶠ]

Применяя цепное правило, получаем полностью локальное правило обучения:

δGi = α[(ΔVᶠᵢ)² - (ΔVᶜᵢ)²]

Ключевая особенность: каждый элемент должен измерять только собственное падение напряжения в двух состояниях для обновления, реализуя децентрализованное обучение.

Схема адаптации Q-Learning

Кодирование состояний

Состояния S₁...S₄ кодируются как векторы входных напряжений:
- S₁: 1, 0, 1, 0 В
- S₂: 0, 1, 0, 1 В
- S₃: 1, 1, 0, 0 В
- S₄: 0, 0, 1, 1 В

Выбор действия

ε-жадная политика: ε линейно убывает от 0.05 до 0
Выбирается максимум из четырёх выходов как действие (с вероятностью 1-ε)

Обновление Q-значений

Вычисление взвешенной будущей оценки:

Lt = R(St, At) + γ[max(F(St+1)) - mean(F(St+1))]

где:

γ = 0.5 (коэффициент дисконтирования)
Вычитание среднего значения улучшает производительность, обеспечивая дополнительную гибкость для небольших сетей

Процесс обучения

Система находится в состоянии St, выбирается действие At
Окружение возвращает награду Rt, переходит в St+1
Вычисляется Lt
Обучение сети:
- Свободное состояние: применяется St как входные данные
- Зажатое состояние: применяется St как входные данные, выходы невыбранных действий остаются Oᵢ, выход выбранного действия устанавливается в Lt
Пакетное обновление каждые 50 шагов

Технические инновации

Q-learning, адаптированный к физическим ограничениям:
- Обработка проблемы ограниченности параметров и выходов
- Проектирование наград и коэффициента дисконтирования для получения требуемых выходов системой
Стратегия обучения для не-прямых сетей:
- В CLLNs изменение напряжения или сопротивления в любом месте может влиять на все выходы
- Обучение невыбранных выходов оставаться неподвижными, избегая помех
Механизм временной обратной трассировки:
- После перехода окружения в St+1 необходимо сохранить и повторно применить St для обновления
- Это «неестественный» шаг для физических систем
Адаптация архитектуры:
- Задача 1: использует циклически соединённую сеть, показанную на рис. 2
- Задача 2: использует плотно соединённую сеть с 44 рёбрами (структура 6-4-4-1 слоёв, но не прямая)

Экспериментальная установка

Наборы данных

Задача 1: MDP с четырьмя состояниями

Матрица наград: выборка из N(0.1, 0.1), фиксирована для всех испытаний
Шум наград: N(0, 0.01)
Оптимальная политика: циклический обход всех четырёх состояний
Общее количество возможных политик: 4⁴ = 256

Задача 2: Навигация с девятью состояниями

Мир сетки 3×3
Целевая позиция (верхний левый угол) имеет большую награду
Другие позиции имеют градиент наград (в 5000 раз меньше, невидим на тепловой карте)
Случайный сброс позиции каждые 5 шагов
Без шума наград

Метрики оценки

Средняя награда: средняя награда, вычисленная в логарифмически распределённых интервалах (минимум 10 шагов)
Качество политики: сравнение с оптимальной/наихудшей политикой
Коэффициент успеха: доля испытаний, достигших оптимальной или близкой к оптимальной политики
Распределение посещений состояний: доля времени, проведённого агентом в каждом состоянии после обучения

Детали реализации

Общие параметры:

Инициализация: VG,i ~ N(1.5, 0.1)
Скорость обучения α: не указана явно, определяется неявно физическим процессом
Пакетное обновление: каждые 50 шагов
Диапазон параметров: 1.0 < VG,i < 5.5

Задача 1:

Шаги обучения: 100,000
Количество испытаний: 10
Убывание ε: 0.05 → 0 (линейное)
Коэффициент дисконтирования: γ = 0.5
Параметр зажима: η = 0.1

Задача 2:

Шаги обучения: 300,000
Количество испытаний: 10
Убывание ε: 0.1 → 0 (линейное)
Частота сброса состояния: каждые 5 шагов
Кодирование входных данных: координаты строк и столбцов переносятся в 0, 0.5, 1, плюс инвертированные значения и два постоянных узла

Результаты экспериментов

Основные результаты

Задача 1: MDP с четырьмя состояниями

Коэффициент успеха: в 8 из 10 испытаний достигнута оптимальная политика, остальные 2 достигли близкой к оптимальной
Кривая обучения (рис. 3B):
- Все испытания (фиолетовые линии) показывают стабильный рост награды
- Средняя награда (чёрная линия) быстро сходится к уровню оптимальной политики
- Финальная производительность близка к теоретическому оптимуму (чёрная пунктирная линия)
- Значительно превосходит наихудшую политику (нижняя пунктирная линия)

Задача 2: Навигация с девятью состояниями

Коэффициент успеха: в 8 из 10 испытаний найдена одна из оптимальных политик (существует несколько эквивалентных оптимальных политик)
Кривая обучения (рис. 4B):
- Награда растёт постепенно
- Полное достижение линии оптимальной политики только в конце обучения (ε→0)
- Средняя производительность (чёрная линия) показывает последовательный процесс обучения

Анализ посещений состояний (рис. 4C):

10 агентов после обучения в течение 10,000 шагов тестирования (ε=0)
Большую часть времени проводят в клетке с высокой наградой (верхний левый угол)
Тепловая карта показывает, что агент успешно научился навигации к целевой позиции

Экспериментальные находки

Стабильность обучения:
- Обе задачи показывают стабильный процесс обучения
- Результаты согласованы при случайной инициализации в нескольких испытаниях
- Не наблюдалось катастрофического забывания или коллапса обучения
Влияние физических ограничений:
- Ограниченность параметров требует тщательного проектирования наград и коэффициента дисконтирования
- Вычитание среднего значения (в расчёте Lt) значительно улучшает производительность небольших сетей
Адаптация к не-прямой структуре:
- Стратегия сохранения невыбранных выходов неподвижными эффективна
- Это ограничение имеет ограниченное влияние на простые задачи, но влияние на сложные политики требует дальнейшего исследования
Необходимость временной обратной трассировки:
- Требуется сохранение и повторное применение предыдущего состояния St
- Это «неестественно» для физических систем, в будущем может быть избежано путём конструирования смешанных состояний

Связанные работы

Аналоговые и нейроморфные системы RL

Mak et al. (2007, 2010): CMOS-схемы динамического программирования в режиме тока, ранние попытки аппаратного RL
Mikaitis et al. (2018): пластичность синапсов с нейромодуляцией на нейроморфной системе SpiNNaker
Ограничения: в основном цифровые расширения или смоделированные аналоговые системы, отсутствует истинное распределённое хранение и аналоговые вычисления сигналов

Физические обучающие системы

Coupled Learning framework (Stern et al., 2021): теоретическая основа CLLNs
Equilibrium Propagation (Scellier & Bengio, 2017): мост между моделями на основе энергии и обратным распространением
Contrastive Hebbian Learning (Movellan, 1991): ранняя теория контрастного обучения

Работы, связанные с CLLNs

Dillavou et al. (2024): первая экспериментальная демонстрация CLLNs для обучения с учителем
Stern et al. (2024): обучение CLLNs для реализации решений с низким энергопотреблением
Dillavou et al. (2022): демонстрация децентрализованного физически управляемого обучения и отказоустойчивости
Dillavou et al. (2025): понимание и принятие несовершенств в физических обучающих сетях

Биологические обучающие системы

Отказоустойчивость человеческого мозга (Wang et al., 2014; Chua et al., 2007; Granovetter et al., 2022)
Низкое энергопотребление (Balasubramanian, 2021)
Естественные примитивы (Mead, 1990)

Преимущества данной работы

Первое применение RL: первая работа, реализующая RL на CLLNs
Полностью аналоговая: не зависит от цифровой обработки, обучение происходит распределённым аналоговым способом
Систематический анализ: чётко определены соображения проектирования и ограничения физических обучающих систем

Выводы и обсуждение

Основные выводы

Проверка осуществимости: CLLNs способны успешно выполнять задачи обучения с подкреплением, достигая близкой к оптимальной производительности на простых MDP и задачах навигации
Выявление естественных компонентов:
- Функции политики и стоимости могут быть естественно реализованы в одной сети
- Методы хранения истории, такие как буфер воспроизведения опыта, требуют значительного контрольного оборудования, отклоняясь от видения «дикой сети»
Уточнение физических ограничений:
- Ограниченность параметров и выходов
- Не-прямая структура
- Требуется механизм временной обратной трассировки
Уникальные преимущества:
- Низкое энергопотребление может быть дополнительно оптимизировано путём модификации метода обучения
- Возможность переобучения после повреждений
- Возможность обучения вторичным целям (энергопотребление, устойчивость, скорость передачи)

Ограничения

Ограниченная сложность задач:
- Проверка только на очень простых задачах (4 состояния и 9 состояний)
- Влияние не-прямой структуры на сложные политики остаётся неясным
Требуется внешнее управление:
- Рандомизация в ε-жадном алгоритме и функция максимума требуют внешнего оборудования
- Механизм временной обратной трассировки требует хранения состояния
- Пакетное обновление требует координации
Ограничения моделирования:
- В моделировании избегались проблемы несовершенства компонентов и смещений
- Физическая реализация столкнётся с шумом измерений и вариативностью компонентов
- Энергопотребление не связано с фактическими резисторами и токами (в моделировании)
Отсутствие памяти истории:
- Сложно естественно реализовать трассы приемлемости или воспроизведение опыта
- Ограничивает диапазон применимых алгоритмов RL
Неизвестная масштабируемость:
- Производительность на больших сетях и более сложных задачах не тестировалась
- Способность расширения пространства состояний и действий неясна

Направления будущих исследований

Избежание временной обратной трассировки:
- Исследование конструирования смешанных состояний (включающих St+1 и L)
- Разработка более естественных физических процессов обучения
Архитектура восстановления в режиме реального времени:
- Проектирование архитектур и алгоритмов, позволяющих немедленное восстановление после повреждений
- Использование способности CLLNs к переобучению
Оптимизация вторичных целей:
- Модификация алгоритмов обучения для предпочтения решений с низким энергопотреблением
- Обучение сетей повышению устойчивости к физическим повреждениям
- Оптимизация скорости передачи входных-выходных данных
Физическая реализация:
- Аппаратная демонстрация для проверки результатов моделирования
- Обработка несовершенства компонентов и смещений
- Измерение фактического энергопотребления и отказоустойчивости
Расширение на сложные задачи:
- Большие пространства состояний и действий
- Задачи непрерывного управления
- Многоагентные сценарии
Обучение алгоритмам обучения:
- Обучение CLLNs выполнению необходимых функций управления (рандомизация, функция максимума)
- Исследование методов метаобучения

Глубокая оценка

Преимущества

Пионерская работа:
- Первое применение CLLNs к обучению с подкреплением, открывающее новое направление физического RL
- Предоставляет альтернативную парадигму за пределами цифрового RL
Теоретическая ясность:
- Подробный вывод локальных правил обучения (уравнения 1-4)
- Ясное объяснение механизма контрастного обучения
- Строгая математическая формулировка
Систематический анализ:
- Чёткое различие между естественными компонентами и требующими внешней поддержки
- Обсуждение ограничений, специфичных для физических систем, и уникальных преимуществ
- Проницательное сравнение с цифровыми и биологическими системами
Разумный дизайн экспериментов:
- Прогрессирование от простых к более сложным задачам
- Множественные испытания (10) для проверки стабильности
- Сравнение с теоретически оптимальной/наихудшей политикой
Честное обсуждение ограничений:
- Признание различий между моделированием и физической реализацией
- Чёткое указание на части, требующие внешнего управления
- Обсуждение неизвестности масштабируемости
Междисциплинарная перспектива:
- Объединение физики, машинного обучения и нейронауки
- Предложение вторичных целей, которые имеют смысл в физических/биологических системах, но не в цифровых

Недостатки

Чрезмерно простые задачи:
- MDP с 4 состояниями и сетка 3×3 — это игрушечные проблемы
- Отсутствие проверки на более сложные, реалистичные задачи
- Масштабируемость — ключевой открытый вопрос
Всё ещё требуется внешнее управление:
- ε-жадный алгоритм, функция максимума, пакетное обновление — все требуют внешнего оборудования
- Расстояние до «полностью автономной физической обучающей системы» значительно
- Механизм временной обратной трассировки неестественен
Только результаты моделирования:
- Отсутствие физической аппаратной реализации
- Невозможность проверить энергопотребление, отказоустойчивость и другие ключевые преимущества
- Влияние несовершенства компонентов неизвестно
Методологические ограничения:
- Попытка только Q-learning
- Отсутствие исследования градиентных политик, Actor-Critic и других методов RL
- Отсутствие прямого сравнения производительности с цифровым Q-learning
Недостаточно глубокий анализ:
- Отсутствие абляционных исследований для анализа влияния различных проектных решений
- Чувствительность гиперпараметров не исследована
- Анализ динамики обучения недостаточен
Единственная метрика оценки:
- Основной фокус на средней награде
- Отсутствие анализа эффективности выборки, скорости сходимости
- Отсутствие сравнения вычислительных затрат (время моделирования)

Влияние

Вклад в область:

Открытие нового направления: введение возможностей RL в область физических вычислений и нейроморфных вычислений
Теоретическая ценность: уточнение пространства проектирования и ограничений физических обучающих систем
Вдохновляющее значение: предложение сравнительной структуры между цифровыми, физическими и биологическими обучающими системами

Практическая ценность:

Долгосрочный потенциал: направление для автономных агентов с высокими требованиями к отказоустойчивости в условиях ограниченной энергии
Краткосрочные ограничения: в настоящее время проверено только на игрушечных задачах, далеко от практического применения
Специфичные сценарии: может быть применимо к пограничным устройствам, экстремальным средам, встроенным системам

Воспроизводимость:

Преимущества: подробное описание методов, полные математические выводы
Вызовы: требуется специфичная способность моделирования схем, высокие барьеры для физической реализации
Код: статья не упоминает об открытом исходном коде

Применимые сценарии

Идеальные сценарии применения:

Экстремально ограниченные по энергии окружения:
- Микроскопические автономные роботы
- Долгосрочные датчики без присмотра
- Носимые устройства
Высокие требования к отказоустойчивости:
- Экстремальные окружения (радиация, высокая температура)
- Военные приложения
- Космические исследования
Встроенный интеллект:
- Пограничные устройства Интернета вещей
- Простые задачи управления
- Требования к реальному времени

Неприменимые сценарии:

Сложные задачи, требующие значительной памяти истории
Высокомерные пространства состояний/действий
Задачи, требующие точных вычислений
Быстрое прототипирование (длительный цикл производства оборудования)

Дополнительность к цифровому RL:

Не замена, а дополнение
Цифровой RL подходит для сложных задач и быстрой итерации
Физический RL подходит для развёртывания при специфичных ограничениях

Библиография

Ключевые связанные работы

Dillavou et al. (2024): Machine learning without a processor: Emergent learning in a nonlinear analog network. PNAS. (Оригинальная статья CLLNs)
Stern et al. (2021): Supervised Learning in Physical Networks: From Machine Learning to Learning Machines. Physical Review X. (Теоретическая структура Coupled Learning)
Scellier & Bengio (2017): Equilibrium Propagation: Bridging the Gap between Energy-Based Models and Backpropagation. Frontiers in Computational Neuroscience. (Теоретическая основа)
Mak et al. (2007, 2010): Ранние работы по RL в аналоговых схемах
Stern et al. (2024): Training self-learning circuits for power-efficient solutions. APL Machine Learning. (Оптимизация низкого энергопотребления)

Общая оценка: Это пионерская работа, впервые применяющая физические обучающие сети к обучению с подкреплением, имеющая важное теоретическое и потенциальное практическое значение. Хотя в настоящее время проверено только на простых задачах и расстояние до полностью автономной физической обучающей системы значительно, она открывает новое направление исследований для энергоэффективных и отказоустойчивых автономных агентов. Основная ценность работы заключается в уточнении пространства проектирования физических обучающих систем, ограничений и уникальных преимуществ, обеспечивая основу для последующих исследований. В будущем необходимо продолжить работу над физической реализацией, сложностью задач и совершенствованием методов.