Digital computers are power-hungry and largely intolerant of damaged components, making them potentially difficult tools for energy-limited autonomous agents in uncertain environments. Recently developed Contrastive Local Learning Networks (CLLNs) - analog networks of self-adjusting nonlinear resistors - are inherently low-power and robust to physical damage, but were constructed to perform supervised learning. In this work we demonstrate success on two simple RL problems using Q-learning adapted for simulated CLLNs. Doing so makes explicit the components (beyond the network being trained) required to enact various tools in the RL toolbox, some of which (policy function and value function) are more natural in this system than others (replay buffer). We discuss assumptions such as the physical safety that digital hardware requires, CLLNs can forgo, and biological systems cannot rely on, and highlight secondary goals that are important in biology and trainable in CLLNs, but make little sense in digital computers.
I computer digitali, sebbene potenti, presentano difetti significativi in termini di elevato consumo energetico e scarsa tolleranza ai danni dei componenti, il che rappresenta una sfida per il loro utilizzo come strumenti per agenti intelligenti autonomi in ambienti con risorse energetiche limitate e incertezza. Questo articolo esamina le reti di apprendimento locale contrastivo (CLLNs) — una rete analogica composta da resistori non lineari autoregolanti — nell'applicazione a compiti di apprendimento per rinforzo. Le CLLNs possiedono naturalmente basso consumo energetico e robustezza ai danni fisici, ma erano precedentemente utilizzate solo per l'apprendimento supervisionato. Gli autori adattano con successo il Q-learning alle CLLNs simulate, risolvendo due semplici problemi di apprendimento per rinforzo e chiarendo i componenti necessari per implementare vari strumenti del toolkit RL in tali sistemi, dove le funzioni di politica e valore risultano più naturali, mentre i buffer di esperienza risultano meno naturali.
I computer digitali affrontano due debolezze fondamentali nelle applicazioni di apprendimento per rinforzo:
Scarsa tolleranza ai guasti: Il danneggiamento di un singolo transistor può causare il collasso dell'intero sistema, poiché la funzionalità di ogni componente è intrinsecamente legata alla sua posizione nel sistema
Elevato consumo energetico: Una CPU portatile consuma circa 50W, derivante dall'elevato costo energetico per mantenere un'operazione "perfetta" e dal trasferimento dati tra elaborazione e memoria
Per agenti autonomi in ambienti con risorse energetiche limitate, il basso consumo energetico e la tolleranza ai guasti sono cruciali. I sistemi biologici eccellono in questi aspetti:
Il cervello umano consuma solo 20W di potenza totale, mentre esegue simultaneamente percezione, cognizione, controllo motorio e altri compiti
Il cervello può tollerare danni significativi e continuare a funzionare, inclusa la distruzione di singoli neuroni, lesioni cerebrali traumatiche e persino l'asportazione di regioni cerebrali
Questa robustezza deriva dall'elaborazione distribuita e dal calcolo emergente, non dal calcolo lineare
Sono estremamente rari gli esempi di applicazione di hardware analogico non digitale a compiti RL
Molti sistemi analogici potenziati digitalmente o simulati sono stati utilizzati per RL, ma pochi hanno dimostrato hardware che combina memoria distribuita, calcolo e segnali analogici
Le CLLNs sviluppate di recente, sebbene possiedano caratteristiche di basso consumo e tolleranza ai guasti, non sono ancora state verificate in scenari RL
Prima applicazione delle CLLNs all'apprendimento per rinforzo: Adattamento con successo del Q-learning alle CLLNs simulate, implementando capacità RL per reti di apprendimento fisico
Validazione di due compiti RL:
Processo decisionale di Markov (MDP) con quattro stati e quattro azioni
Compito di navigazione con nove stati (griglia 3×3) e quattro azioni
In 10 prove, 8-10 raggiungono politiche quasi ottimali
Chiarimento delle considerazioni di progettazione per sistemi di apprendimento fisico:
Identificazione dei componenti RL implementati naturalmente nelle CLLNs (funzione di politica, funzione di valore)
Indicazione dei componenti che richiedono supporto hardware aggiuntivo (buffer di esperienza)
Rivelazione dei vincoli specifici dei sistemi fisici (parametri limitati, struttura non feedforward)
Proposizione dei vantaggi unici dei sistemi di apprendimento fisico:
L'operazione a basso consumo energetico può essere ulteriormente ottimizzata modificando l'algoritmo di apprendimento
Capacità di recupero online dopo danni
Possibilità di addestrare obiettivi secondari (come consumo energetico, robustezza), che sono privi di significato nei sistemi digitali
Spazio degli stati: 4 stati discreti S₁, S₂, S₃, S₄
Spazio delle azioni: 4 azioni discrete A₀, A₁, A₂, A₃
Transizioni di stato: Transizioni deterministiche semplici, l'azione i porta allo stato Si
Ricompense: Ricompense dipendenti dallo stato R(St, At) ~ N(0.1, 0.1), più rumore N(0, 0.01)
Obiettivo: Apprendere la politica ottimale per massimizzare la ricompensa cumulativa
Compito 2: Compito di Navigazione a Nove Stati
Spazio degli stati: 9 posizioni su una griglia 3×3
Spazio delle azioni: 4 movimenti direzionali (su, giù, sinistra, destra)
Struttura delle ricompense: Grande ricompensa nella posizione obiettivo (angolo superiore sinistro), piccolo gradiente di ricompensa in altre posizioni (5000 volte più piccolo)
Obiettivo: Apprendere a navigare verso la posizione ad alta ricompensa
Le CLLNs sono reti composte da elementi resistivi autoregolanti, la cui dinamica individuale approssima la discesa del gradiente di una funzione di perdita globale.
Struttura della rete:
I nodi sono divisi in nodi di input (gialli) e nodi di output (blu)
Input: Codifica dei dati attraverso l'imposizione dei valori di tensione V₁, ..., V₄
Output: Valori di tensione di equilibrio O₁, ..., O₄ come risultato del calcolo della rete
La rete funziona come funzione fisica: F(V₁, V₂, V₃, V₄) ≡ (O₁, O₂, O₃, O₄)
Modello di Conduttanza:
Ogni elemento conduttivo è effettivamente un transistor MOSFET che opera nella regione triodo (passiva):
Gi = S(VG,i - VT - V̄)
dove:
S = 1 (costante)
VT = 0.7 (tensione di soglia)
VG,i: Tensione di gate regolabile (funziona come peso)
V̄: Media delle tensioni ai due nodi del ramo (implementa trasformazione non lineare)
Intervallo di parametri limitato: 1.0 < VG,i < 5.5
Il processo di apprendimento richiede il confronto di due stati diversi:
Stato Libero (Free State):
Solo input V₁, ..., V₄ applicati
Ogni resistore sperimenta caduta di tensione ΔVᶠᵢ
Output è Oᶠₙ
Stato Bloccato (Clamped State):
Input e output desiderati (etichette) applicati
Caduta di tensione è ΔVᶜᵢ
Output spinto verso l'etichetta: Oᶜₙ = Oᶠₙ(1-η) + ηLₙ (in questo articolo η=0.1)
Regola di Apprendimento Locale:
Il sistema esegue discesa del gradiente sulla funzione contrastiva (differenza di potenza dissipata tra stati bloccato e libero):
δGi = -α d/dGi[Pᶜ - Pᶠ]
Attraverso la regola della catena, si deriva la regola di apprendimento completamente locale:
δGi = α[(ΔVᶠᵢ)² - (ΔVᶜᵢ)²]
Caratteristica chiave: Ogni elemento deve solo misurare la caduta di tensione su se stesso nei due stati per aggiornarsi, implementando addestramento decentralizzato.
Il sistema è nello stato St, seleziona l'azione At
L'ambiente restituisce la ricompensa Rt e transisce a St+1
Calcolo di Lt
Addestramento della rete:
Stato libero: Applicazione di St come input
Stato bloccato: Applicazione di St come input, gli output delle azioni non selezionate mantengono Oᵢ, l'output dell'azione selezionata è impostato a Lt
Verifica della Fattibilità: Le CLLNs possono eseguire con successo compiti di apprendimento per rinforzo, raggiungendo prestazioni quasi ottimali su MDP semplici e problemi di navigazione
Identificazione dei Componenti Naturali:
Le funzioni di politica e valore possono essere implementate naturalmente in una singola rete
I metodi di memorizzazione della storia come i buffer di esperienza richiedono hardware di controllo sostanziale, allontanandosi dalla visione di "reti selvatiche"
Chiarimento dei Vincoli Fisici:
Parametri e output limitati
Struttura non feedforward
Necessità di meccanismo di retrodatazione temporale
Vantaggi Unici:
Il basso consumo energetico può essere ulteriormente ottimizzato modificando il metodo di apprendimento
Possibilità di riaddestrare dopo danni
Possibilità di addestrare obiettivi secondari (consumo energetico, robustezza, velocità di trasmissione)
Apertura di Nuove Direzioni: Introduzione di capacità RL nel campo del calcolo fisico e del calcolo neuromorfo
Valore Teorico: Chiarimento dello spazio di progettazione e dei vincoli dei sistemi di apprendimento fisico
Natura Ispirativa: Proposizione di un framework comparativo tra sistemi di apprendimento digitali, fisici e biologici
Valore Pratico:
Potenziale a Lungo Termine: Fornitura di direzione per agenti autonomi intelligenti in ambienti con risorse energetiche limitate e elevate esigenze di tolleranza ai guasti
Limitazioni a Breve Termine: Attualmente solo verifica su problemi giocattolo, distanza significativa dalle applicazioni pratiche
Scenari Specifici: Potenziale applicabilità a dispositivi edge, ambienti estremi, sistemi embedded
Riproducibilità:
Vantaggi: Descrizione dettagliata del metodo, derivazioni matematiche complete
Sfide: Richiesta di capacità specifiche di simulazione circuitale, elevate barriere all'ingresso per implementazione fisica
Codice: L'articolo non menziona l'open-sourcing del codice
Dillavou et al. (2024): Machine learning without a processor: Emergent learning in a nonlinear analog network. PNAS. (Articolo originale sulle CLLNs)
Stern et al. (2021): Supervised Learning in Physical Networks: From Machine Learning to Learning Machines. Physical Review X. (Framework teorico Coupled Learning)
Scellier & Bengio (2017): Equilibrium Propagation: Bridging the Gap between Energy-Based Models and Backpropagation. Frontiers in Computational Neuroscience. (Base teorica)
Mak et al. (2007, 2010): Lavori iniziali su RL in circuiti analogici
Stern et al. (2024): Training self-learning circuits for power-efficient solutions. APL Machine Learning. (Ottimizzazione a basso consumo energetico)
Valutazione Complessiva: Questo è un lavoro pioneristico che applica per la prima volta reti di apprendimento fisico all'apprendimento per rinforzo, possedendo significativo valore teorico e potenziale pratico. Sebbene attualmente verificato solo su compiti semplici e distante dalla visione di un sistema di apprendimento fisico completamente autonomo, apre una nuova direzione di ricerca per agenti intelligenti autonomi efficienti energeticamente e tolleranti ai guasti. Il valore principale dell'articolo risiede nel chiarimento dello spazio di progettazione, dei vincoli e dei vantaggi unici dei sistemi di apprendimento fisico, fornendo una base per ricerche successive. Il lavoro futuro dovrà approfondire l'implementazione hardware, la complessità dei compiti e il perfezionamento dei metodi.