2025-11-25T14:13:18.562314

Physical Reinforcement Learning

Dillavou, Mishra

Digital computers are power-hungry and largely intolerant of damaged components, making them potentially difficult tools for energy-limited autonomous agents in uncertain environments. Recently developed Contrastive Local Learning Networks (CLLNs) - analog networks of self-adjusting nonlinear resistors - are inherently low-power and robust to physical damage, but were constructed to perform supervised learning. In this work we demonstrate success on two simple RL problems using Q-learning adapted for simulated CLLNs. Doing so makes explicit the components (beyond the network being trained) required to enact various tools in the RL toolbox, some of which (policy function and value function) are more natural in this system than others (replay buffer). We discuss assumptions such as the physical safety that digital hardware requires, CLLNs can forgo, and biological systems cannot rely on, and highlight secondary goals that are important in biology and trainable in CLLNs, but make little sense in digital computers.

academic

물리적 강화학습

기본 정보

논문 ID: 2511.17789
제목: Physical Reinforcement Learning
저자: Sam Dillavou (펜실베이니아 대학교), Shruti Mishra (케임브리지 대학교)
분류: cs.LG (기계학습), cond-mat.dis-nn (응축물질 - 무질서 시스템 및 신경망)
발표 시간: 2025년 11월 21일 (arXiv v1)
논문 링크: https://arxiv.org/abs/2511.17789

초록

디지털 컴퓨터는 기능이 강력하지만 높은 에너지 소비와 부품 손상에 대한 낮은 내성이라는 결함을 가지고 있어, 에너지 제한 및 불확실한 환경에서 자율 지능 에이전트의 도구로서의 역할에 어려움을 겪고 있습니다. 본 논문은 대비 국소 학습 네트워크(CLLNs)—자체 조절 비선형 저항으로 구성된 아날로그 네트워크—를 강화학습 작업에 적용하는 것을 연구합니다. CLLNs는 본래 저전력 소비와 물리적 손상에 대한 견고성을 갖추고 있지만, 이전에는 지도학습에만 사용되었습니다. 저자들은 Q-학습을 아날로그 CLLNs에 적응시켜 두 가지 간단한 강화학습 문제를 성공적으로 해결했으며, RL 도구 상자의 다양한 도구를 구현하는 데 필요한 구성 요소를 명확히 했습니다. 이 시스템에서는 정책 함수와 가치 함수가 더욱 자연스럽지만, 경험 재생 버퍼는 덜 자연스럽습니다.

연구 배경 및 동기

1. 핵심 문제

디지털 컴퓨터는 강화학습 응용에서 두 가지 근본적인 약점에 직면해 있습니다:

낮은 내결함성: 단일 트랜지스터의 손상이 전체 시스템 붕괴를 초래할 수 있습니다. 각 구성 요소의 기능이 시스템 내 위치와 본질적으로 결합되어 있기 때문입니다.
높은 에너지 소비: 노트북 CPU의 전력 소비는 약 50W이며, 이는 "완벽한" 작동을 유지하는 높은 에너지 비용과 처리 및 저장소 간의 데이터 전송에서 비롯됩니다.

2. 문제의 중요성

에너지 제한 환경의 자율 에이전트에게는 저전력 소비와 내결함성이 중요합니다. 생물학적 시스템은 이러한 측면에서 우수한 성능을 보입니다:

인간의 뇌는 총 20W의 전력만 소비하면서 감각, 인지, 운동 제어 등 여러 작업을 동시에 수행합니다.
뇌는 상당한 손상을 견디고 계속 작동할 수 있습니다. 여기에는 단일 신경원 파괴, 외상성 뇌손상, 심지어 뇌 영역 절제가 포함됩니다.
이러한 견고성은 분산 처리 및 창발적 계산에서 비롯되며, 선형 계산이 아닙니다.

3. 기존 방법의 한계

인공 비디지털 하드웨어를 RL 작업에 적용한 사례는 극히 드뭅니다.
많은 디지털 증강 또는 시뮬레이션된 아날로그 시스템이 RL에 사용되었지만, 분산 저장소, 계산 및 아날로그 신호를 결합한 하드웨어 시연은 거의 없습니다.
최근 개발된 CLLNs는 저전력 소비 및 내결함성을 갖추고 있지만 아직 RL 시나리오에서 검증되지 않았습니다.

4. 연구 동기

에너지 효율적이고 내결함성 있는 자율 에이전트를 위한 길을 열기 위해 RL에서 CLLNs의 응용 잠재력을 탐색합니다.
어떤 RL 도구가 자체 학습 네트워크에 자연스러운지, 어떤 도구가 추가 사전 프로그래밍된 하드웨어를 필요로 하는지 명확히 합니다.
에이전트의 "뇌"를 디지털 영역 밖에 배치할 때 직면하는 추가 과제를 이해합니다.

핵심 기여

강화학습에 CLLNs를 처음 적용: Q-학습을 시뮬레이션된 CLLNs에 성공적으로 적응시켜 물리적 학습 네트워크의 RL 능력을 구현했습니다.
두 가지 RL 작업의 유효성 검증:
- 4상태 4동작 마르코프 결정 프로세스(MDP)
- 9상태(3×3 그리드) 4동작 네비게이션 작업
- 10회 시험 중 8-10회에서 거의 최적의 정책에 도달
물리적 학습 시스템의 설계 고려사항 명확화:
- CLLNs에서 자연스럽게 구현되는 RL 구성 요소 식별(정책 함수, 가치 함수)
- 추가 하드웨어 지원이 필요한 구성 요소 지적(경험 재생 버퍼)
- 물리적 시스템 특유의 제약 조건 공개(매개변수 한정, 비피드포워드 구조)
물리적 학습 시스템의 독특한 장점 제시:
- 학습 알고리즘 수정을 통해 저전력 작동을 추가로 최적화할 수 있습니다.
- 손상 후 온라인 복구 능력
- 보조 목표(에너지 소비, 견고성) 훈련 가능. 이는 디지털 시스템에서는 의미가 없습니다.

방법 상세 설명

작업 정의

작업 1: 4상태 4동작 MDP

상태 공간: 4개의 이산 상태 S₁, S₂, S₃, S₄
동작 공간: 4개의 이산 동작 A₀, A₁, A₂, A₃
상태 전이: 간단한 결정론적 전이, 동작 i는 상태 Si로 이동
보상: 상태 종속 보상 R(St, At) ~ N(0.1, 0.1), 잡음 N(0, 0.01) 추가
목표: 누적 보상을 최대화하기 위한 최적 정책 학습

작업 2: 9상태 네비게이션 작업

상태 공간: 3×3 그리드의 9개 위치
동작 공간: 4개 방향 이동(위, 아래, 좌, 우)
보상 구조: 목표 위치(왼쪽 상단)에 큰 보상, 다른 위치에 미소 보상 기울기(5000배 작음)
목표: 높은 보상 위치로의 네비게이션 학습

모델 아키텍처

CLLN 기본 원리

CLLNs는 자체 조절 저항 요소로 구성된 네트워크이며, 개별 동역학은 전역 손실 함수의 경사 하강을 근사합니다.

네트워크 구조:

노드는 입력 노드(노란색)와 출력 노드(파란색)로 분류됩니다.
입력: 강제 노드 전압값 V₁, ..., V₄를 통해 데이터 인코딩
출력: 평형 전압값 O₁, ..., O₄를 네트워크 계산 결과로 사용
네트워크는 물리적 함수로 작동: F(V₁, V₂, V₃, V₄) ≡ (O₁, O₂, O₃, O₄)

전도도 모델: 각 전도 요소는 실제로 삼극관(수동) 영역에서 작동하는 MOSFET 트랜지스터입니다:

Gi = S(VG,i - VT - V̄)

여기서:

S = 1(상수)
VT = 0.7(임계 전압)
VG,i: 조절 가능한 게이트 전압(가중치로 작동)
V̄: 양쪽 끝 노드 전압의 평균(비선형 변환 구현)
매개변수 범위 제한: 1.0 < VG,i < 5.5

대비 학습 메커니즘

학습 프로세스는 두 가지 다른 상태를 비교해야 합니다:

자유 상태(Free State):
- 입력 V₁, ..., V₄만 적용
- 각 저항은 전압 강하 ΔVᶠᵢ를 경험
- 출력은 Oᶠₙ
클램프 상태(Clamped State):
- 입력 및 예상 출력(레이블) 적용
- 전압 강하는 ΔVᶜᵢ
- 출력이 레이블로 푸시됨: Oᶜₙ = Oᶠₙ(1-η) + ηLₙ(본 논문에서 η=0.1)

국소 학습 규칙:

시스템은 대비 함수(클램프 및 자유 상태의 소산 전력 차이)에 대해 경사 하강을 수행합니다:

δGi = -α d/dGi[Pᶜ - Pᶠ]

연쇄 법칙을 통해 유도하면 완전히 국소적인 학습 규칙을 얻습니다:

δGi = α[(ΔVᶠᵢ)² - (ΔVᶜᵢ)²]

핵심 특성: 각 요소는 두 상태에서 자신의 전압 강하만 측정하면 업데이트할 수 있으므로 분산 훈련을 구현합니다.

Q-학습 적응 방안

상태 인코딩

상태 S₁...S₄는 입력 전압 벡터로 인코딩됩니다:
- S₁: 1, 0, 1, 0 V
- S₂: 0, 1, 0, 1 V
- S₃: 1, 1, 0, 0 V
- S₄: 0, 0, 1, 1 V

동작 선택

ε-탐욕 정책: ε는 0.05에서 0으로 선형 감소
4개 출력 중 최댓값을 동작으로 선택(확률 1-ε)

Q값 업데이트

미래 가중 점수 계산:

Lt = R(St, At) + γ[max(F(St+1)) - mean(F(St+1))]

여기서:

γ = 0.5(할인 인자)
평균값 빼기 항은 성능을 향상시키며, 소형 네트워크에 추가 유연성을 제공합니다.

훈련 흐름

시스템이 상태 St에 있고 동작 At를 선택합니다.
환경이 보상 Rt를 반환하고 St+1로 전이합니다.
Lt를 계산합니다.
네트워크를 훈련합니다:
- 자유 상태: St를 입력으로 적용
- 클램프 상태: St를 입력으로 적용, 선택되지 않은 동작의 출력은 Oᵢ 유지, 선택된 동작의 출력은 Lt로 설정
50단계마다 배치 업데이트

기술 혁신 포인트

물리적 제약을 고려한 Q-학습:
- 매개변수 및 출력 한정 문제 처리
- 시스템이 필요한 출력을 생성할 수 있도록 보상 및 할인 인자 설계
비피드포워드 네트워크의 훈련 전략:
- CLLNs에서 어느 위치의 전압 또는 저항 변화도 모든 출력에 영향을 미칠 수 있습니다.
- 선택되지 않은 출력을 정적으로 유지하도록 훈련하여 간섭 방지
시간 역추적 메커니즘:
- 환경이 St+1로 전이한 후 St를 저장하고 업데이트를 위해 재적용해야 합니다.
- 이는 물리적 시스템의 "비자연적" 단계입니다.
아키텍처 적응:
- 작업 1: 그림 2에 표시된 주기 연결 네트워크 사용
- 작업 2: 44개 간선의 밀집 연결 네트워크 사용(6-4-4-1 계층 구조, 하지만 비피드포워드)

실험 설정

데이터 세트

작업 1: 4상태 MDP

보상 행렬: N(0.1, 0.1)에서 샘플링, 모든 시험에서 고정
보상 잡음: N(0, 0.01)
최적 정책: 4개 상태 모두를 순환
가능한 정책 총 개수: 4⁴ = 256개

작업 2: 9상태 네비게이션

3×3 그리드 월드
목표 위치(왼쪽 상단)에 큰 보상 제공
다른 위치에 보상 기울기(5000배 작음, 열지도에서 보이지 않음)
5단계마다 무작위 위치 재설정
보상 잡음 없음

평가 지표

평균 보상: 로그 간격 구간(최소 10단계)에서 계산된 평균 보상
정책 품질: 최적/최악 정책과의 비교
성공률: 최적 또는 거의 최적 정책에 도달한 시험의 비율
상태 방문 분포: 훈련 후 에이전트가 각 상태에 머문 시간 비율

구현 세부사항

일반 설정:

초기화: VG,i ~ N(1.5, 0.1)
학습률 α: 명시적으로 지정되지 않음, 물리적 프로세스를 통해 암묵적으로 결정됨
배치 업데이트: 50단계마다
매개변수 범위: 1.0 < VG,i < 5.5

작업 1:

훈련 단계: 100,000
시험 횟수: 10
ε 감소: 0.05 → 0(선형)
할인 인자: γ = 0.5
클램프 매개변수: η = 0.1

작업 2:

훈련 단계: 300,000
시험 횟수: 10
ε 감소: 0.1 → 0(선형)
상태 재설정 빈도: 5단계마다
입력 인코딩: 행 열 좌표를 0, 0.5, 1로 재스케일, 반전 값 및 두 개의 상수 노드 추가

실험 결과

주요 결과

작업 1: 4상태 MDP

성공률: 10회 시험 중 8회에서 최적 정책 달성, 나머지 2회는 거의 최적 달성
학습 곡선(그림 3B):
- 모든 시험(자주색 선)은 안정적인 보상 증가를 보여줍니다.
- 평균 보상(검은색 선)은 최적 정책 수준으로 빠르게 수렴합니다.
- 최종 성능은 이론적 최적에 가깝습니다(검은색 점선).
- 최악의 정책(아래 점선)보다 현저히 우수합니다.

작업 2: 9상태 네비게이션

성공률: 10회 시험 중 8회에서 최적 정책 중 하나 발견(여러 동등한 최적 정책 존재)
학습 곡선(그림 4B):
- 보상이 꾸준히 증가합니다.
- 훈련 말기(ε→0)에만 완전히 최적 정책 선에 도달합니다.
- 평균 성능(검은색 선)은 일관된 학습 진행을 보여줍니다.

상태 방문 분석(그림 4C):

훈련 후 10개 에이전트의 10,000단계 테스트(ε=0)
대부분의 시간을 높은 보상 칸(왼쪽 상단)에 머뭅니다.
열지도는 에이전트가 목표 위치로의 네비게이션을 성공적으로 학습했음을 보여줍니다.

실험 발견

학습 안정성:
- 두 작업 모두 안정적인 학습 프로세스를 보여줍니다.
- 무작위 초기화 하에서 여러 시험의 결과가 일관됩니다.
- 재앙적 망각이나 훈련 붕괴가 관찰되지 않았습니다.
물리적 제약의 영향:
- 매개변수 한정성은 보상 및 할인 인자의 신중한 설계를 요구합니다.
- 평균값 빼기 항(Lt 계산에서)은 소형 네트워크의 성능을 크게 향상시킵니다.
비피드포워드 구조의 적응:
- 선택되지 않은 동작의 출력을 정적으로 유지하는 전략이 효과적입니다.
- 이러한 제약은 간단한 작업에 제한적인 영향을 미치지만, 복잡한 정책에 대한 영향은 추가 연구가 필요합니다.
시간 역추적의 필요성:
- 이전 상태 St를 저장하고 재적용해야 합니다.
- 이는 물리적 시스템에 "비자연적"이며, 향후 혼합 상태 구성을 통해 피할 수 있습니다.

결론 및 논의

주요 결론

가능성 검증: CLLNs는 강화학습 작업을 성공적으로 수행할 수 있으며, 간단한 MDP 및 네비게이션 문제에서 거의 최적의 성능을 달성합니다.
자연 구성 요소 식별:
- 정책 함수 및 가치 함수는 단일 네트워크에서 자연스럽게 구현될 수 있습니다.
- 경험 재생 버퍼 등의 이력 저장 방법은 많은 제어 하드웨어를 필요로 하며, "야생 네트워크" 비전에서 벗어납니다.
물리적 제약 명확화:
- 매개변수 및 출력 한정
- 비피드포워드 구조
- 시간 역추적 메커니즘 필요
독특한 장점:
- 저전력은 학습 방법 수정을 통해 추가로 최적화될 수 있습니다.
- 손상 후 재훈련 가능
- 보조 목표(전력, 견고성, 전송 속도) 훈련 가능

한계

작업 복잡도 제한:
- 매우 간단한 작업(4상태 및 9상태)에서만 검증됨
- 비피드포워드 구조가 복잡한 정책에 미치는 제한은 아직 불명확합니다.
여전히 외부 제어 필요:
- ε-탐욕 알고리즘의 무작위화 및 최댓값 함수는 외부 하드웨어 필요
- 시간 역추적 메커니즘은 상태 저장 필요
- 배치 업데이트는 조정 필요
시뮬레이션 한계:
- 시뮬레이션에서 구성 요소 불완전성 및 편차 문제 회피
- 물리적 구현은 측정 잡음 및 구성 요소 변동에 직면할 것입니다.
- 에너지 소비는 실제 저항 및 전류와 무관(시뮬레이션에서)
이력 메모리 부족:
- 자격 추적 또는 경험 재생을 자연스럽게 구현하기 어려움
- 적용 가능한 RL 알고리즘 범위 제한
확장성 미지수:
- 더 큰 네트워크 및 더 복잡한 작업의 성능 미테스트
- 상태 및 동작 공간의 확장 능력 불명확

향후 방향

시간 역추적 회피:
- 혼합 상태 구성 탐색(St+1 및 L 포함)
- 더 자연스러운 물리적 학습 흐름 개발
온라인 복구 아키텍처:
- 손상 후 즉각적인 복구를 허용하는 아키텍처 및 알고리즘 설계
- CLLNs의 재훈련 능력 활용
보조 목표 최적화:
- 저전력 솔루션을 선호하도록 학습 알고리즘 수정
- 물리적 손상 견고성 향상을 위한 네트워크 훈련
- 입력-출력 전송 속도 최적화
물리적 구현:
- 시뮬레이션 결과 검증을 위한 하드웨어 시연
- 구성 요소 불완전성 및 편차 처리
- 실제 에너지 소비 및 내결함성 측정
복잡한 작업 확장:
- 더 큰 상태 및 동작 공간
- 연속 제어 작업
- 다중 에이전트 시나리오
학습 알고리즘 학습:
- 필요한 제어 기능(무작위화, 최댓값 함수) 수행을 위한 CLLNs 훈련
- 메타 학습 방법 탐색

심층 평가

장점

개척적 작업:
- CLLNs를 RL에 처음 적용하여 물리적 강화학습의 새로운 방향을 개척합니다.
- 디지털 RL 외에 대체 패러다임을 제공합니다.
이론적 명확성:
- 국소 학습 규칙의 상세 유도(방정식 1-4)
- 대비 학습 메커니즘의 명확한 설명
- 엄밀한 수학 표현
체계적 분석:
- 자연 구성 요소와 외부 지원이 필요한 구성 요소를 명확히 구분합니다.
- 물리적 시스템 특유의 제약 및 장점을 논의합니다.
- 디지털 및 생물학적 시스템과의 비교는 통찰력이 있습니다.
합리적인 실험 설계:
- 간단한 작업에서 약간 더 복잡한 작업으로의 진행
- 안정성 검증을 위한 여러 시험(10회)
- 이론적 최적/최악 정책과의 비교
정직한 한계 논의:
- 시뮬레이션과 물리적 구현의 차이를 인정합니다.
- 외부 제어가 필요한 부분을 명확히 합니다.
- 확장성의 미지수를 논의합니다.
학제간 관점:
- 물리학, 기계학습 및 신경과학 결합
- 디지털 시스템에서는 의미가 없지만 물리/생물학적 시스템에서 중요한 보조 목표 제시

부족한 점

과도하게 간단한 작업:
- 4상태 MDP 및 3×3 그리드는 장난감 문제입니다.
- 더 복잡하고 현실적인 작업 검증 부족
- 확장성은 핵심 의문입니다.
여전히 외부 제어에 의존:
- ε-탐욕, 최댓값 함수, 배치 업데이트 모두 외부 하드웨어 필요
- "완전히 자율적인 물리적 학습 시스템"까지 거리가 있습니다.
- 시간 역추적 메커니즘은 비자연적입니다.
시뮬레이션 결과만 있음:
- 물리적 하드웨어 구현 없음
- 에너지 소비, 내결함성 등 핵심 장점 검증 불가
- 구성 요소 불완전성의 영향 미지수
방법론 제한:
- Q-학습만 시도됨
- 정책 기울기, Actor-Critic 등 다른 RL 방법 미탐색
- 디지털 Q-학습과의 직접 성능 비교 없음
심층 분석 부족:
- 각 설계 선택의 영향을 분석하는 소거 실험 없음
- 초매개변수 민감도 미연구
- 학습 동역학 분석 부족
단일 평가 지표:
- 주로 평균 보상에 초점
- 샘플 효율성, 수렴 속도 등의 분석 부족
- 계산 비용(시뮬레이션 시간) 비교 없음

영향력

분야에 대한 기여:

새로운 방향 개척: 물리적 계산 및 신경형태 계산 분야에 RL 능력 도입
이론적 가치: 물리적 학습 시스템의 설계 공간 및 제약 명확화
영감 제공: 디지털, 물리, 생물학적 학습 시스템의 비교 프레임워크 제시

실용적 가치:

장기 잠재력: 에너지 제한, 높은 내결함성 요구 자율 에이전트를 위한 방향 제시
단기 한계: 현재 장난감 문제만 검증되어 실제 응용까지 거리 있음
특정 시나리오: 엣지 디바이스, 극한 환경, 임베디드 시스템에 적용 가능

재현성:

장점: 방법 설명 상세, 수학 유도 완전
도전: 특정 회로 시뮬레이션 능력 필요, 물리적 구현 진입 장벽 높음
코드: 논문에서 코드 오픈소스 언급 없음

적용 시나리오

이상적인 응용 시나리오:

극도로 에너지 제한 환경:
- 미소 자율 로봇
- 장기 무인 센서
- 웨어러블 디바이스
높은 내결함성 요구:
- 극한 환경(방사선, 고온)
- 군사 응용
- 우주 탐사
임베디드 지능:
- IoT 엣지 디바이스
- 간단한 제어 작업
- 실시간 응답 요구

부적합한 시나리오:

많은 이력 메모리가 필요한 복잡한 작업
고차원 상태/동작 공간
정확한 계산이 필요한 작업
빠른 프로토타입 개발(하드웨어 제조 주기 길음)

디지털 RL과의 상호 보완성:

대체가 아닌 보완
디지털 RL은 복잡한 작업 및 빠른 반복에 적합
물리적 RL은 특정 제약 하에서의 배포에 적합

참고문헌

핵심 관련 연구

Dillavou et al. (2024): Machine learning without a processor: Emergent learning in a nonlinear analog network. PNAS. (CLLNs 원본 논문)
Stern et al. (2021): Supervised Learning in Physical Networks: From Machine Learning to Learning Machines. Physical Review X. (Coupled Learning 이론 프레임워크)
Scellier & Bengio (2017): Equilibrium Propagation: Bridging the Gap between Energy-Based Models and Backpropagation. Frontiers in Computational Neuroscience. (이론적 기초)
Mak et al. (2007, 2010): 아날로그 회로 RL의 초기 연구
Stern et al. (2024): Training self-learning circuits for power-efficient solutions. APL Machine Learning. (저전력 최적화)

전체 평가: 이것은 물리적 학습 네트워크를 강화학습에 처음 적용한 개척적 작업으로, 중요한 이론적 및 잠재적 실용적 가치를 가집니다. 현재 간단한 작업에서만 검증되었고 완전히 자율적인 물리적 학습 시스템까지 거리가 있지만, 에너지 효율적이고 내결함성 있는 자율 에이전트를 위한 새로운 연구 방향을 개척했습니다. 본 논문의 주요 가치는 물리적 학습 시스템의 설계 공간, 제약 및 독특한 장점을 명확히 하여 후속 연구의 기초를 마련한 것입니다. 향후 하드웨어 구현, 작업 복잡도 및 방법 개선 측면에서 계속 심화 연구가 필요합니다.