2025-11-25T14:13:18.562314

Physical Reinforcement Learning

Dillavou, Mishra

Digital computers are power-hungry and largely intolerant of damaged components, making them potentially difficult tools for energy-limited autonomous agents in uncertain environments. Recently developed Contrastive Local Learning Networks (CLLNs) - analog networks of self-adjusting nonlinear resistors - are inherently low-power and robust to physical damage, but were constructed to perform supervised learning. In this work we demonstrate success on two simple RL problems using Q-learning adapted for simulated CLLNs. Doing so makes explicit the components (beyond the network being trained) required to enact various tools in the RL toolbox, some of which (policy function and value function) are more natural in this system than others (replay buffer). We discuss assumptions such as the physical safety that digital hardware requires, CLLNs can forgo, and biological systems cannot rely on, and highlight secondary goals that are important in biology and trainable in CLLNs, but make little sense in digital computers.

academic

Physical Reinforcement Learning

基本信息

论文ID: 2511.17789
标题: Physical Reinforcement Learning
作者: Sam Dillavou (University of Pennsylvania), Shruti Mishra (University of Cambridge)
分类: cs.LG (Machine Learning), cond-mat.dis-nn (Condensed Matter - Disordered Systems and Neural Networks)
发表时间: 2025年11月21日 (arXiv v1)
论文链接: https://arxiv.org/abs/2511.17789

摘要

数字计算机虽然功能强大，但存在高能耗和对组件损坏不容忍的缺陷，这使其在能量受限和不确定环境中作为自主智能体的工具面临挑战。本文研究了对比局部学习网络(CLLNs)——一种由自调节非线性电阻组成的模拟网络——在强化学习任务中的应用。CLLNs天然具有低功耗和物理损伤鲁棒性，但此前仅用于监督学习。作者通过将Q-learning适配到模拟的CLLNs上，成功解决了两个简单的强化学习问题，并明确了实现RL工具箱中各种工具所需的组件，其中策略函数和价值函数在该系统中更为自然，而经验回放缓冲区则较不自然。

研究背景与动机

1. 核心问题

数字计算机在强化学习应用中面临两大根本性弱点：

容错性差：单个晶体管的损坏可能导致整个系统崩溃，因为每个组件的功能与其在系统中的位置内在绑定
高能耗：笔记本CPU功耗约50W，这源于维持"完美"运行的高能量成本以及处理和存储之间的数据传输

2. 问题重要性

对于能量受限环境中的自主智能体，低功耗和容错性至关重要。生物系统在这些方面表现出色：

人脑总功耗仅20W，同时执行感知、认知、运动控制等多项任务
大脑能承受显著损伤并继续运作，包括单神经元破坏、创伤性脑损伤，甚至大脑区域切除
这种鲁棒性源于分布式处理和涌现式计算，而非线性计算

3. 现有方法局限

人工非数字硬件在RL任务中的应用实例极少
许多数字增强或模拟的模拟系统已用于RL，但很少有硬件演示结合了分布式存储、计算和模拟信号
最近开发的CLLNs虽然具备低功耗和容错特性，但尚未在RL场景中得到验证

4. 研究动机

探索CLLNs在RL中的应用潜力，为能量高效且容错的自主智能体开辟道路
明确哪些RL工具对自学习网络是自然的，哪些需要额外的预编程硬件
理解将智能体"大脑"置于数字领域之外时面临的额外挑战

核心贡献

首次将CLLNs应用于强化学习：成功将Q-learning适配到模拟的CLLNs上，实现了物理学习网络的RL能力
验证了两个RL任务的有效性：
- 四状态四动作的马尔可夫决策过程(MDP)
- 九状态(3×3网格)四动作的导航任务
- 在10次试验中，8-10次达到近最优策略
明确了物理学习系统的设计考量：
- 识别出在CLLNs中自然实现的RL组件（策略函数、价值函数）
- 指出需要额外硬件支持的组件（经验回放缓冲区）
- 揭示了物理系统特有的约束（参数有界、非前馈结构）
提出了物理学习系统的独特优势：
- 低功耗操作可通过修改学习算法进一步优化
- 损伤后的在线恢复能力
- 可训练次要目标（如能耗、鲁棒性），这在数字系统中无意义

方法详解

任务定义

任务1：四状态四动作MDP

状态空间：4个离散状态 S₁, S₂, S₃, S₄
动作空间：4个离散动作 A₀, A₁, A₂, A₃
状态转移：简单确定性转移，动作i导致状态Si
奖励：状态依赖的奖励 R(St, At) ~ N(0.1, 0.1)，加上噪声 N(0, 0.01)
目标：学习最优策略以最大化累积奖励

任务2：九状态导航任务

状态空间：3×3网格上的9个位置
动作空间：4个方向移动（上、下、左、右）
奖励结构：目标位置（左上角）给予大奖励，其他位置有微小的奖励梯度（5000倍小）
目标：学习导航到高奖励位置

模型架构

CLLN基础原理

CLLNs是由自调节电阻元件组成的网络，其个体动力学近似全局损失函数的梯度下降。

网络结构：

节点分为输入节点（黄色）和输出节点（蓝色）
输入：通过强制节点电压值V₁, ..., V₄编码数据
输出：平衡电压值O₁, ..., O₄作为网络计算结果
网络作为物理函数：F(V₁, V₂, V₃, V₄) ≡ (O₁, O₂, O₃, O₄)

电导模型：每个导电元件实际是工作在三极管（被动）区域的MOSFET晶体管：

Gi = S(VG,i - VT - V̄)

其中：

S = 1（常数）
VT = 0.7（阈值电压）
VG,i：可调节的栅极电压（作为权重）
V̄：边两端节点电压的平均值（实现非线性变换）
参数范围限制：1.0 < VG,i < 5.5

对比学习机制

学习过程需要比较两个不同状态：

自由状态（Free State）：
- 仅施加输入V₁, ..., V₄
- 每个电阻经历电压降ΔVᶠᵢ
- 输出为Oᶠₙ
钳位状态（Clamped State）：
- 施加输入和期望输出（标签）
- 电压降为ΔVᶜᵢ
- 输出被推向标签：Oᶜₙ = Oᶠₙ(1-η) + ηLₙ（本文η=0.1）

局部学习规则：

系统对对比函数（钳位和自由状态的耗散功率差）进行梯度下降：

δGi = -α d/dGi[Pᶜ - Pᶠ]

通过链式法则推导，得到完全局部的学习规则：

δGi = α[(ΔVᶠᵢ)² - (ΔVᶜᵢ)²]

关键特性：每个元件只需测量自身在两个状态下的电压降即可更新，实现了去中心化训练。

Q-Learning适配方案

状态编码

状态S₁...S₄编码为输入电压向量：
- S₁: 1, 0, 1, 0 V
- S₂: 0, 1, 0, 1 V
- S₃: 1, 1, 0, 0 V
- S₄: 0, 0, 1, 1 V

动作选择

ε-贪婪策略：ε从0.05线性衰减到0
选择四个输出中的最大值作为动作（概率1-ε）

Q值更新

未来加权分数计算：

Lt = R(St, At) + γ[max(F(St+1)) - mean(F(St+1))]

其中：

γ = 0.5（折扣因子）
减去均值项提高性能，为小型网络提供额外灵活性

训练流程

系统处于状态St，选择动作At
环境返回奖励Rt，转移到St+1
计算Lt
训练网络：
- 自由状态：施加St作为输入
- 钳位状态：施加St作为输入，未选择动作的输出保持Oᵢ，选择动作的输出设为Lt
每50步批量更新一次

技术创新点

适应物理约束的Q-learning：
- 处理参数和输出有界的问题
- 设计奖励和折扣因子使系统能产生所需输出
非前馈网络的训练策略：
- CLLNs中任何位置的电压或电阻变化都可能影响所有输出
- 训练未选择的输出保持静止，避免干扰
时间回溯机制：
- 在环境转移到St+1后，需要存储并重新应用St进行更新
- 这是物理系统的"非自然"步骤
架构适配：
- 任务1：使用图2所示的周期连接网络
- 任务2：使用44边的密集连接网络（6-4-4-1层结构，但非前馈）

实验设置

数据集

任务1：四状态MDP

奖励矩阵：从N(0.1, 0.1)采样，固定用于所有试验
奖励噪声：N(0, 0.01)
最优策略：循环遍历所有四个状态
可能策略总数：4⁴ = 256种

任务2：九状态导航

3×3网格世界
目标位置（左上角）有大奖励
其他位置有奖励梯度（5000倍小，在热图上不可见）
每5步随机重置位置
无奖励噪声

评价指标

平均奖励：在对数间隔区间（最小10步）内计算的平均奖励
策略质量：与最优/最差策略的比较
成功率：达到最优或近最优策略的试验比例
状态访问分布：训练后智能体在各状态停留的时间比例

实现细节

通用设置：

初始化：VG,i ~ N(1.5, 0.1)
学习率α：未明确指定，通过物理过程隐式确定
批量更新：每50步
参数范围：1.0 < VG,i < 5.5

任务1：

训练步数：100,000
试验次数：10
ε衰减：0.05 → 0（线性）
折扣因子：γ = 0.5
钳位参数：η = 0.1

任务2：

训练步数：300,000
试验次数：10
ε衰减：0.1 → 0（线性）
状态重置频率：每5步
输入编码：行列坐标重缩放为0, 0.5, 1，加上反转值和两个常数节点

实验结果

主要结果

任务1：四状态MDP

成功率：10次试验中8次达到最优策略，其余2次达到近最优
学习曲线（图3B）：
- 所有试验（紫色线）显示稳定的奖励增长
- 平均奖励（黑线）快速收敛到最优策略水平
- 最终性能接近理论最优（黑色虚线）
- 显著优于最差策略（下方虚线）

任务2：九状态导航

成功率：10次试验中8次找到最优策略之一（多个等效最优策略存在）
学习曲线（图4B）：
- 奖励稳步增长
- 训练末期（ε→0）才能完全达到最优策略线
- 平均性能（黑线）显示一致的学习进程

状态访问分析（图4C）：

训练后的10个智能体在10,000步测试中（ε=0）
大部分时间停留在高奖励方格（左上角）
热图显示智能体成功学会导航到目标位置

实验发现

学习稳定性：
- 两个任务都显示出稳定的学习过程
- 随机初始化下的多次试验结果一致
- 没有观察到灾难性遗忘或训练崩溃
物理约束的影响：
- 参数有界性要求仔细设计奖励和折扣因子
- 减去均值项（在Lt计算中）显著提高了小型网络的性能
非前馈结构的适应：
- 训练未选择动作的输出保持不变的策略有效
- 这种约束对简单任务影响有限，但对复杂策略的影响需进一步研究
时间回溯的必要性：
- 需要存储并重新应用前一状态St
- 这对物理系统是"非自然"的，未来可能通过构造混合状态避免

结论与讨论

主要结论

可行性验证：CLLNs能够成功执行强化学习任务，在简单MDP和导航问题上达到近最优性能
自然组件识别：
- 策略函数和价值函数可在单个网络中自然实现
- 经验回放缓冲区等历史存储方法需要大量控制硬件，偏离"野外网络"愿景
物理约束明确：
- 参数和输出有界
- 非前馈结构
- 需要时间回溯机制
独特优势：
- 低功耗可通过修改学习方法进一步优化
- 损伤后可重新训练
- 可训练次要目标（功耗、鲁棒性、传输速度）

局限性

任务复杂度有限：
- 仅在非常简单的任务上验证（4状态和9状态）
- 非前馈结构对复杂策略的限制尚不清楚
仍需外部控制：
- ε-贪婪算法中的随机化和最大值函数需要外部硬件
- 时间回溯机制需要状态存储
- 批量更新需要协调
仿真局限：
- 在仿真中避免了组件不完美和偏差问题
- 物理实现将面临测量噪声和组件变异
- 能量消耗与实际电阻和电流无关（仿真中）
历史记忆缺失：
- 难以自然实现资格迹或经验回放
- 限制了可应用的RL算法范围
可扩展性未知：
- 更大网络和更复杂任务的性能未测试
- 状态和动作空间的扩展能力不明确

未来方向

避免时间回溯：
- 探索混合状态构造（涉及St+1和L）
- 开发更自然的物理学习流程
在线恢复架构：
- 设计允许损伤后即时恢复的架构和算法
- 利用CLLNs的重训练能力
次要目标优化：
- 修改学习算法以偏向低功耗解决方案
- 训练网络提高物理损伤鲁棒性
- 优化输入-输出传输速度
物理实现：
- 硬件演示以验证仿真结果
- 处理组件不完美和偏差
- 测量实际能耗和容错性
复杂任务扩展：
- 更大状态和动作空间
- 连续控制任务
- 多智能体场景
学习学习算法：
- 训练CLLNs执行必要的控制功能（随机化、最大值函数）
- 探索元学习方法

深度评价

优点

开创性工作：
- 首次将CLLNs应用于RL，开辟了物理强化学习的新方向
- 提供了数字RL之外的替代范式
理论清晰：
- 详细推导了局部学习规则（方程1-4）
- 清晰解释了对比学习机制
- 数学表述严谨
系统性分析：
- 明确区分了自然组件和需要外部支持的组件
- 讨论了物理系统特有的约束和优势
- 与数字和生物系统的对比有洞察力
实验设计合理：
- 从简单到稍复杂的任务递进
- 多次试验（10次）验证稳定性
- 与理论最优/最差策略对比
诚实的局限性讨论：
- 坦承仿真与物理实现的差异
- 明确指出需要外部控制的部分
- 讨论了可扩展性的未知性
跨学科视角：
- 结合物理学、机器学习和神经科学
- 提出在数字系统中无意义但在物理/生物系统中重要的次要目标

不足

任务过于简单：
- 4状态MDP和3×3网格都是玩具问题
- 缺乏对更复杂、现实任务的验证
- 可扩展性是关键疑问
仍依赖外部控制：
- ε-贪婪、最大值函数、批量更新都需要外部硬件
- 距离"完全自主的物理学习系统"还有距离
- 时间回溯机制不自然
仅有仿真结果：
- 没有物理硬件实现
- 无法验证能耗、容错性等关键优势
- 组件不完美的影响未知
方法论限制：
- 仅尝试了Q-learning
- 未探索策略梯度、Actor-Critic等其他RL方法
- 没有与数字Q-learning的直接性能对比
缺乏深入分析：
- 没有消融实验分析各设计选择的影响
- 超参数敏感性未研究
- 学习动力学分析不足
评价指标单一：
- 主要关注平均奖励
- 缺乏样本效率、收敛速度等分析
- 没有计算成本（仿真时间）比较

影响力

对领域的贡献：

开创新方向：为物理计算和神经形态计算领域引入RL能力
理论价值：明确了物理学习系统的设计空间和约束
启发性：提出了数字、物理、生物学习系统的比较框架

实用价值：

长期潜力：为能量受限、容错需求高的自主智能体提供方向
短期局限：当前仅验证玩具问题，距离实际应用较远
特定场景：可能适用于边缘设备、极端环境、嵌入式系统

可复现性：

优势：方法描述详细，数学推导完整
挑战：需要特定的电路仿真能力，物理实现门槛高
代码：论文未提及代码开源

适用场景

理想应用场景：

能量极度受限环境：
- 微型自主机器人
- 长期无人值守传感器
- 可穿戴设备
高容错需求：
- 极端环境（辐射、高温）
- 军事应用
- 空间探索
嵌入式智能：
- 物联网边缘设备
- 简单控制任务
- 实时响应需求

不适用场景：

需要大量历史记忆的复杂任务
高维状态/动作空间
需要精确计算的任务
快速原型开发（硬件制造周期长）

与数字RL的互补性：

不是替代而是补充
数字RL适合复杂任务和快速迭代
物理RL适合特定约束下的部署

参考文献

核心相关工作

Dillavou et al. (2024): Machine learning without a processor: Emergent learning in a nonlinear analog network. PNAS. (CLLNs原始论文)
Stern et al. (2021): Supervised Learning in Physical Networks: From Machine Learning to Learning Machines. Physical Review X. (Coupled Learning理论框架)
Scellier & Bengio (2017): Equilibrium Propagation: Bridging the Gap between Energy-Based Models and Backpropagation. Frontiers in Computational Neuroscience. (理论基础)
Mak et al. (2007, 2010): 模拟电路RL的早期工作
Stern et al. (2024): Training self-learning circuits for power-efficient solutions. APL Machine Learning. (低功耗优化)

总体评价：这是一篇开创性的工作，首次将物理学习网络应用于强化学习，具有重要的理论和潜在实用价值。虽然当前仅在简单任务上验证，且距离完全自主的物理学习系统还有距离，但它为能量高效、容错的自主智能体开辟了新的研究方向。论文的主要价值在于明确了物理学习系统的设计空间、约束和独特优势，为后续研究奠定了基础。未来需要在硬件实现、任务复杂度和方法完善方面继续深入。