2025-11-13T11:46:11.189224

Representation Theorem for Matrix Product States

Guo, Draper

In this work, we investigate the universal representation capacity of the Matrix Product States (MPS) from the perspective of boolean functions and continuous functions. We show that MPS can accurately realize arbitrary boolean functions by providing a construction method of the corresponding MPS structure for an arbitrarily given boolean gate. Moreover, we prove that the function space of MPS with the scale-invariant sigmoidal activation is dense in the space of continuous functions defined on a compact subspace of the $n$-dimensional real coordinate space $\mathbb{R^{n}}$. We study the relation between MPS and neural networks and show that the MPS with a scale-invariant sigmoidal function is equivalent to a one-hidden-layer neural network equipped with a kernel function. We construct the equivalent neural networks for several specific MPS models and show that non-linear kernels such as the polynomial kernel which introduces the couplings between different components of the input into the model appear naturally in the equivalent neural networks. At last, we discuss the realization of the Gaussian Process (GP) with infinitely wide MPS by studying their equivalent neural networks.

academic

Teorema di Rappresentazione per Matrix Product States

Informazioni Fondamentali

ID Articolo: 2103.08277
Titolo: Representation Theorem for Matrix Product States
Autori: Erdong Guo, David Draper (University of California, Santa Cruz)
Classificazione: stat.ML cs.LG cs.NE quant-ph
Data di Pubblicazione: 15 marzo 2021 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2103.08277

Riassunto

Questo articolo esamina la capacità di rappresentazione universale degli Matrix Product States (MPS) dal punto di vista delle funzioni booleane e delle funzioni continue. Gli autori dimostrano che gli MPS possono implementare esattamente qualsiasi funzione booleana e forniscono metodi costruttivi per la struttura MPS corrispondente a qualsiasi porta booleana data. Inoltre, provano che lo spazio funzionale degli MPS con funzioni di attivazione sigmoid invarianti in scala è denso nello spazio delle funzioni continue definite su sottoinsiemi compatti dello spazio euclideo n-dimensionale. Lo studio esamina la relazione tra MPS e reti neurali, dimostrando che gli MPS con funzioni sigmoid invarianti in scala sono equivalenti a reti neurali a singolo strato nascosto equipaggiate con funzioni kernel. Infine, attraverso lo studio di reti neurali equivalenti, gli autori discutono il problema della realizzazione di processi gaussiani (GP) mediante MPS di larghezza infinita.

Contesto di Ricerca e Motivazione

Contesto del Problema

Ascesa delle Reti Tensoriali: Le reti tensoriali, come linguaggio grafico potente per rappresentare sistemi quantistici a molti corpi, hanno trovato ampia applicazione in informazione quantistica, fisica della materia condensata, matematica applicata e informatica.
Problema della Capacità Rappresentativa degli MPS: Sebbene gli MPS abbiano importanza fisica significativa nella fisica quantistica, quando utilizzati come strumenti algebrici nell'apprendimento automatico, sorge naturalmente la domanda: quanto è forte la capacità rappresentativa degli MPS come macchina algebrica?
Necessità della Teoria dell'Approssimazione Universale: Analogamente al teorema di approssimazione universale delle reti neurali, è necessario provare teoricamente i limiti della capacità rappresentativa degli MPS.

Motivazione della Ricerca

Colmare i Vuoti Teorici: La ricerca esistente si concentra principalmente sulle proprietà fisiche degli MPS, mancando di analisi teorica della loro capacità come approssimatori di funzioni.
Stabilire Connessioni tra MPS e Reti Neurali: Esplorare le relazioni di equivalenza tra MPS e modelli classici di apprendimento automatico, in particolare le reti neurali.
Considerazioni Pratiche: Nelle applicazioni reali, le basi complete sono generalmente infinite; è necessario studiare quanto grande sia lo spazio funzionale che gli MPS possono "generare" sotto ipotesi ragionevoli.

Contributi Principali

Rappresentazione Esatta di Funzioni Booleane: Dimostra che gli MPS possono implementare esattamente qualsiasi funzione booleana, fornendo metodi di prova costruttivi.
Approssimazione Universale di Funzioni Continue: Prova che lo spazio funzionale degli MPS con attivazione sigmoid invariante in scala è denso nello spazio delle funzioni continue (rispetto alla norma del supremo).
Equivalenza tra MPS e Reti Neurali: Stabilisce la relazione di equivalenza tra MPS e reti neurali a singolo strato nascosto, rivelando l'emergenza naturale delle funzioni kernel negli MPS.
Realizzazione di Processi Gaussiani: Discute il problema della realizzazione di processi gaussiani attraverso MPS di larghezza infinita.

Dettagli Metodologici

Definizione del Modello MPS

Struttura MPS Standard

Il modello MPS originale è definito come: $\Psi_l(x|w,B) = \sum_{\{\alpha,s\}} A^{s_1}_{\alpha_1\alpha_2} \cdots A^{s_i}_{l\alpha_i\alpha_{i+1}} \cdots A^{s_n}_{\alpha_n\alpha_1} \Phi^{s_1\cdots s_n}(x)$

dove la funzione kernel è definita come: $\Phi^{s_1\cdots s_n}(x) = \phi^{s_1}(x_1) \otimes \cdots \otimes \phi^{s_i}(x_i) \cdots \otimes \phi^{s_n}(x_n)$

Struttura MPS Modificata

Per realizzare l'approssimazione universale, gli autori propongono una struttura MPS modificata: $\Psi(x|w,B) = \sum_l \sigma\left(\sum_{\{\alpha,s\}} A^{s_1}_{\alpha_1\alpha_2} \cdots A^{s_i}_{l\alpha_i\alpha_{i+1}} \cdots A^{s_n}_{\alpha_n\alpha_1} \Phi^{s_1\cdots s_n}(x)\right)$

dove $\sigma(\cdot)$ è una funzione sigmoid invariante in scala: $\sigma(x) \to \begin{cases} 0 & x \to -\infty \\ C & x \to +\infty \end{cases}$

Metodo di Rappresentazione di Funzioni Booleane

Implementazione di Porte Booleane Elementari

Implementazione della Porta AND (Teorema 2.1):

Funzione kernel: $\phi_i(X_i) = [X_i, 1-X_i]$
Nodo tensoriale: $A^{s_i} = [1, 0]$ , dimensione del legame $|\alpha| = 1$

Implementazione della Porta OR (Teorema 2.2):

Funzione kernel: $\phi_i(X_i) = [X_i, 1-X_i]$
Dimensione del legame del nodo tensoriale: $|\alpha| = 3$
Struttura tensoriale specifica: $A^{s_1}_{\alpha_1\alpha_2} = [[1, 0, 1], [0, 1, 0]]$ $A^{s_2}_{\alpha_2\alpha_1} = [[0, 1, 1], [1, 0, 0]]$

Implementazione della Porta NOT (Teorema 2.3):

Funzione kernel: $\phi_1(X_1) = 1-X_1$
Nodo tensoriale: $A^{s_1} = 1$

Porta AND Universale e Funzioni Booleane Arbitrarie

Porta AND Universale (Teorema 2.4): Per $n$ variabili di input, è possibile implementare: $\Psi(X_1, \cdots, X_n) = (\bigwedge_{i=1}^l X_i) \bigwedge (\bigwedge_{j=l+1}^n \overline{X_j})$

Funzione Booleana Arbitraria (Teorema 2.5): Rappresentando qualsiasi funzione booleana come forma disgiuntiva normale corrispondente alla tavola di verità, è possibile costruire l'MPS corrispondente. Regole di costruzione:

Scrivere la funzione booleana in forma disgiuntiva normale corrispondente alla tavola di verità
Impostare la dimensione del legame al numero di termini disgiuntivi $m$
Riempire gli elementi tensoriali secondo regole specifiche

Teoria dell'Approssimazione di Funzioni Continue

Teorema Principale (Teorema 3.1)

Lo spazio funzionale MPS è denso in $C_0(I^n)$ (spazio delle funzioni continue sul cubo unitario), cioè per qualsiasi $f(x) \in C_0(I^n)$ e qualsiasi $\varepsilon > 0$ , esiste una funzione MPS $\Psi(x)$ tale che: $\sup_x |\Psi(x) - f(x)| < \varepsilon$

Tecniche di Prova

Prova della Linearità (Lemma 3.2): Prova che la famiglia di funzioni MPS $\mathcal{M}$ è un sottospazio lineare di $C_0(I^n)$ :

Chiusura rispetto alla moltiplicazione scalare: utilizzando l'invarianza in scala
Chiusura rispetto all'addizione: costruendo una nuova rappresentazione MPS della somma di due MPS

Proprietà Discriminante (Lemma 3.4): Prova che la funzione sigmoid invariante in scala possiede la proprietà discriminante: se una misura con segno finito $\mu$ rende l'integrale di tutte le funzioni MPS uguale a zero, allora $\mu = 0$ .

Prova del Teorema Principale: Utilizza un argomento di contraddizione con il teorema di Hahn-Banach e il teorema di rappresentazione di Riesz:

Assumere che $\overline{\mathcal{M}}$ sia un sottoinsieme proprio di $C_0(I^n)$
Per il teorema di Hahn-Banach, esiste un funzionale non banale che annulla $\overline{\mathcal{M}}$
Per il teorema di rappresentazione di Riesz, corrisponde a una misura non banale
Per la proprietà discriminante, questa misura deve essere zero, producendo una contraddizione

Equivalenza tra MPS e Reti Neurali

Teorema di Equivalenza (Teorema 3.5)

Gli MPS con attivazione sigmoid invariante in scala sono equivalenti a reti neurali a singolo strato nascosto equipaggiate con funzioni kernel.

Metodo di Conversione

Contraendo gli indici interni $\{\alpha_i\}$ , l'MPS può essere scritto come: $\Psi(x) = \sum_l \sigma\left(\sum_s W^l_s \Phi^s(x)\right)$

Questa è esattamente la forma di una rete neurale a singolo strato nascosto, dove:

$W^l_s$ sono i parametri di peso
$\Phi^s(x)$ è la funzione kernel, che introduce naturalmente l'accoppiamento tra le componenti di input

Emergenza Naturale della Funzione Kernel

Attraverso esempi concreti, dimostra come kernel non lineari come i kernel polinomiali emergono naturalmente nella rete neurale equivalente, ad esempio: $(\Phi^s)^T = [x_1x_2x_3, x_2x_3, x_1x_3, x_1x_2, x_1, x_2, x_3, 1]$

Risultati Sperimentali e Analisi di Casi

Casi di Implementazione di Funzioni Booleane

Porta OR a 3 Input: Espressione booleana: $f(X_1,X_2,X_3) = X_1 \vee X_2 \vee X_3$ La struttura tensoriale MPS corrispondente è stata fornita in dettaglio nella sezione metodologica.

Porta di Parità a 3 Input: Espressione booleana: $f(X_1,X_2,X_3) = X_1 \oplus X_2 \oplus X_3$ Peso della rete neurale equivalente: $W^s = [1, 0, 0, 1, 0, 1, 1, 0]$

Porta di Soglia Th₃²: Funzione di soglia che produce 1 quando almeno 2 input sono 1.

Analisi della Complessità

Per una porta booleana con $n$ input, nel caso estremo la dimensione del legame richiede $O(2^n)$ , ma attraverso la semplificazione della mappa di Karnaugh può essere ridotta a $O(2^{n-1})$ , con il numero totale di parametri pari a $O(n2^{n-1})$ , comparabile in efficienza con le reti neurali a singolo strato nascosto.

Lavori Correlati

Fondamenti della Teoria delle Reti Tensoriali

Sistema di notazione grafica del calcolo tensoriale di Penrose (1971)
Decomposizione di Schmidt e metodo DMRG di Vidal (2003, 2007)
Ricerca sistematica delle proprietà degli MPS di Perez-Garcia et al. (2006)

Reti Tensoriali nell'Apprendimento Automatico

Applicazioni di apprendimento supervisionato di Stoudenmire & Schwab (2016)
Varie applicazioni di reti tensoriali in regressione, classificazione e stima della densità

Teoria dell'Approssimazione Universale

Lavori classici sulla proprietà di approssimazione universale delle reti neurali di Cybenko (1989), Hornik (1991)
Questo articolo utilizza tecniche di analisi funzionale simili

Conclusioni e Discussione

Conclusioni Principali

Completezza Teorica: Gli MPS possiedono la capacità di rappresentare qualsiasi funzione booleana e approssimare qualsiasi funzione continua
Rivelazione dell'Equivalenza: Gli MPS sono essenzialmente equivalenti a reti neurali a singolo strato nascosto con funzioni kernel
Importanza della Funzione Kernel: La funzione kernel $\Phi^{s_1\cdots s_n}$ è la chiave della capacità rappresentativa degli MPS, non gli indici del legame $\{\alpha_i\}$

Limitazioni

Problemi di Praticità: L'implementazione MPS di funzioni booleane richiede dimensioni di legame esponenziali
Perdita di Significato Fisico: Come strumento puramente algebrico, gli MPS perdono proprietà importanti come l'entanglement nella fisica quantistica
Progettazione della Funzione Kernel: È necessario progettare attentamente le funzioni kernel per ottenere capacità rappresentativa sufficiente

Direzioni Future

Metodi di Costruzione Efficienti: Cercare metodi di costruzione MPS più efficienti per ridurre la complessità
Strutture Profonde: Esplorare strutture MPS multistrato, in analogia con le reti neurali profonde
Vantaggi Quantistici: Esplorare i vantaggi unici degli MPS nell'ambiente del calcolo quantistico

Valutazione Approfondita

Punti di Forza

Contributo Teorico Significativo: Prima analisi sistematica della capacità rappresentativa degli MPS dal punto di vista dell'approssimazione di funzioni
Prove Rigorose: Utilizza strumenti classici dell'analisi funzionale con processi di prova rigorosi
Intuizioni di Connessione: Rivela i legami profondi tra MPS e reti neurali, fornendo un ponte per la comprensione interdisciplinare
Prove Costruttive: Non solo prova l'esistenza, ma fornisce anche metodi di costruzione concreti

Carenze

Praticità Limitata: I risultati teorici potrebbero affrontare la maledizione della dimensionalità nelle applicazioni pratiche
Verifica Sperimentale Insufficiente: Mancano esperimenti numerici su larga scala per verificare i risultati teorici
Assenza di Algoritmi di Ottimizzazione: Non discute come addestrare efficientemente tali modelli MPS
Analisi Comparativa Insufficiente: Manca un'analisi comparativa dettagliata con altri approssimatori universali

Impatto

Alto Valore Teorico: Fornisce una base teorica solida per l'applicazione delle reti tensoriali nell'apprendimento automatico
Significato Interdisciplinare: Connette i campi della fisica quantistica e dell'apprendimento automatico
Forte Capacità Ispirativa: Fornisce importanti riferimenti per la ricerca successiva sulla capacità rappresentativa e sui metodi di ottimizzazione delle reti tensoriali

Scenari Applicabili

Ricerca Teorica: Appropriato come letteratura di base per la teoria della rappresentazione delle reti tensoriali
Scopi Didattici: Può essere utilizzato per spiegare la relazione tra MPS e reti neurali
Progettazione di Algoritmi: Fornisce guida teorica per la progettazione di algoritmi di apprendimento automatico basati su MPS
Apprendimento Automatico Quantistico: Fornisce supporto teorico per la progettazione di algoritmi di apprendimento automatico quantistico

Bibliografia

Questo articolo cita importanti letterature da più campi inclusi reti tensoriali, informazione quantistica, apprendimento automatico e analisi funzionale, tra cui:

Teoria di base delle reti tensoriali (Penrose, 1971; Vidal, 2007; Perez-Garcia et al., 2006)
Teoria dell'approssimazione universale delle reti neurali (Cybenko, 1989; Hornik, 1991)
Applicazioni di reti tensoriali nell'apprendimento automatico (Stoudenmire & Schwab, 2016; et al.)
Fondamenti della teoria dell'analisi funzionale (Folland, 2013)