Digital computers are power-hungry and largely intolerant of damaged components, making them potentially difficult tools for energy-limited autonomous agents in uncertain environments. Recently developed Contrastive Local Learning Networks (CLLNs) - analog networks of self-adjusting nonlinear resistors - are inherently low-power and robust to physical damage, but were constructed to perform supervised learning. In this work we demonstrate success on two simple RL problems using Q-learning adapted for simulated CLLNs. Doing so makes explicit the components (beyond the network being trained) required to enact various tools in the RL toolbox, some of which (policy function and value function) are more natural in this system than others (replay buffer). We discuss assumptions such as the physical safety that digital hardware requires, CLLNs can forgo, and biological systems cannot rely on, and highlight secondary goals that are important in biology and trainable in CLLNs, but make little sense in digital computers.
Цифровые компьютеры, несмотря на свою мощность, имеют серьёзные недостатки: высокое энергопотребление и нетерпимость к повреждениям компонентов, что затрудняет их использование в качестве инструмента для автономных интеллектуальных агентов в условиях ограниченной энергии и неопределённости. В данной работе исследуется применение контрастных локально обучаемых сетей (CLLNs) — аналоговых сетей, состоящих из саморегулируемых нелинейных резисторов — в задачах обучения с подкреплением. CLLNs естественным образом обладают низким энергопотреблением и устойчивостью к физическим повреждениям, но ранее использовались только для обучения с учителем. Авторы успешно адаптировали Q-learning к аналоговым CLLNs, решив две простые задачи обучения с подкреплением, и выявили компоненты, необходимые для реализации различных инструментов из набора RL. При этом функции политики и стоимости более естественны в данной системе, тогда как буфер воспроизведения опыта менее естественен.
Цифровые компьютеры при применении обучения с подкреплением сталкиваются с двумя фундаментальными слабостями:
Плохая отказоустойчивость: повреждение одного транзистора может привести к отказу всей системы, поскольку функциональность каждого компонента внутренне связана с его положением в системе
Высокое энергопотребление: процессор ноутбука потребляет примерно 50 Вт, что обусловлено высокими энергетическими затратами на поддержание «идеального» функционирования и передачей данных между обработкой и хранением
Для автономных агентов в условиях ограниченной энергии низкое энергопотребление и отказоустойчивость являются критическими. Биологические системы демонстрируют превосходство в этих аспектах:
Человеческий мозг потребляет всего 20 Вт, одновременно выполняя множество задач: восприятие, когнитивные функции, управление движением
Мозг может выдерживать значительные повреждения и продолжать функционировать, включая разрушение отдельных нейронов, черепно-мозговые травмы и даже удаление областей мозга
Эта устойчивость обусловлена распределённой обработкой и возникающими вычислениями, а не линейными вычислениями
Примеры применения искусственного нецифрового оборудования в задачах RL крайне редки
Многие цифровые расширения или смоделированные аналоговые системы использовались для RL, но немногие аппаратные демонстрации объединяют распределённое хранение, вычисления и аналоговые сигналы
Недавно разработанные CLLNs, хотя и обладают низким энергопотреблением и отказоустойчивостью, ещё не были проверены в сценариях RL
Первое применение CLLNs к обучению с подкреплением: успешная адаптация Q-learning к аналоговым CLLNs, реализующая возможности RL физических обучающих сетей
Проверка эффективности на двух задачах RL:
Марковский процесс принятия решений (MDP) с четырьмя состояниями и четырьмя действиями
Навигационная задача с девятью состояниями (сетка 3×3) и четырьмя действиями
В 10 испытаниях 8-10 раз достигнута близкая к оптимальной политика
Выявление соображений проектирования для физических обучающих систем:
Определены компоненты RL, естественно реализуемые в CLLNs (функция политики, функция стоимости)
Указаны компоненты, требующие дополнительной аппаратной поддержки (буфер воспроизведения опыта)
Раскрыты ограничения, специфичные для физических систем (ограниченные параметры, не-прямые структуры)
Предложены уникальные преимущества физических обучающих систем:
Низкое энергопотребление может быть дополнительно оптимизировано путём модификации алгоритма обучения
Способность к восстановлению в режиме реального времени после повреждений
Возможность обучения вторичным целям (энергопотребление, устойчивость), что бессмысленно в цифровых системах
Процесс обучения требует сравнения двух различных состояний:
Свободное состояние (Free State):
Применяются только входные напряжения V₁, ..., V₄
Каждый резистор испытывает падение напряжения ΔVᶠᵢ
Выход: Oᶠₙ
Зажатое состояние (Clamped State):
Применяются входные напряжения и желаемые выходные значения (метки)
Падение напряжения: ΔVᶜᵢ
Выход подталкивается к метке: Oᶜₙ = Oᶠₙ(1-η) + ηLₙ (в данной работе η=0.1)
Локальное правило обучения:
Система выполняет градиентный спуск по контрастной функции (разница в рассеиваемой мощности между зажатым и свободным состояниями):
δGi = -α d/dGi[Pᶜ - Pᶠ]
Применяя цепное правило, получаем полностью локальное правило обучения:
δGi = α[(ΔVᶠᵢ)² - (ΔVᶜᵢ)²]
Ключевая особенность: каждый элемент должен измерять только собственное падение напряжения в двух состояниях для обновления, реализуя децентрализованное обучение.
Mak et al. (2007, 2010): CMOS-схемы динамического программирования в режиме тока, ранние попытки аппаратного RL
Mikaitis et al. (2018): пластичность синапсов с нейромодуляцией на нейроморфной системе SpiNNaker
Ограничения: в основном цифровые расширения или смоделированные аналоговые системы, отсутствует истинное распределённое хранение и аналоговые вычисления сигналов
Проверка осуществимости: CLLNs способны успешно выполнять задачи обучения с подкреплением, достигая близкой к оптимальной производительности на простых MDP и задачах навигации
Выявление естественных компонентов:
Функции политики и стоимости могут быть естественно реализованы в одной сети
Методы хранения истории, такие как буфер воспроизведения опыта, требуют значительного контрольного оборудования, отклоняясь от видения «дикой сети»
Уточнение физических ограничений:
Ограниченность параметров и выходов
Не-прямая структура
Требуется механизм временной обратной трассировки
Уникальные преимущества:
Низкое энергопотребление может быть дополнительно оптимизировано путём модификации метода обучения
Возможность переобучения после повреждений
Возможность обучения вторичным целям (энергопотребление, устойчивость, скорость передачи)
Dillavou et al. (2024): Machine learning without a processor: Emergent learning in a nonlinear analog network. PNAS. (Оригинальная статья CLLNs)
Stern et al. (2021): Supervised Learning in Physical Networks: From Machine Learning to Learning Machines. Physical Review X. (Теоретическая структура Coupled Learning)
Scellier & Bengio (2017): Equilibrium Propagation: Bridging the Gap between Energy-Based Models and Backpropagation. Frontiers in Computational Neuroscience. (Теоретическая основа)
Mak et al. (2007, 2010): Ранние работы по RL в аналоговых схемах
Stern et al. (2024): Training self-learning circuits for power-efficient solutions. APL Machine Learning. (Оптимизация низкого энергопотребления)
Общая оценка: Это пионерская работа, впервые применяющая физические обучающие сети к обучению с подкреплением, имеющая важное теоретическое и потенциальное практическое значение. Хотя в настоящее время проверено только на простых задачах и расстояние до полностью автономной физической обучающей системы значительно, она открывает новое направление исследований для энергоэффективных и отказоустойчивых автономных агентов. Основная ценность работы заключается в уточнении пространства проектирования физических обучающих систем, ограничений и уникальных преимуществ, обеспечивая основу для последующих исследований. В будущем необходимо продолжить работу над физической реализацией, сложностью задач и совершенствованием методов.