2025-11-13T11:46:11.189224

Representation Theorem for Matrix Product States

Guo, Draper

In this work, we investigate the universal representation capacity of the Matrix Product States (MPS) from the perspective of boolean functions and continuous functions. We show that MPS can accurately realize arbitrary boolean functions by providing a construction method of the corresponding MPS structure for an arbitrarily given boolean gate. Moreover, we prove that the function space of MPS with the scale-invariant sigmoidal activation is dense in the space of continuous functions defined on a compact subspace of the $n$-dimensional real coordinate space $\mathbb{R^{n}}$. We study the relation between MPS and neural networks and show that the MPS with a scale-invariant sigmoidal function is equivalent to a one-hidden-layer neural network equipped with a kernel function. We construct the equivalent neural networks for several specific MPS models and show that non-linear kernels such as the polynomial kernel which introduces the couplings between different components of the input into the model appear naturally in the equivalent neural networks. At last, we discuss the realization of the Gaussian Process (GP) with infinitely wide MPS by studying their equivalent neural networks.

academic

Darstellungssatz für Matrixproduktzustände

Grundlegende Informationen

Paper-ID: 2103.08277
Titel: Representation Theorem for Matrix Product States
Autoren: Erdong Guo, David Draper (University of California, Santa Cruz)
Klassifizierung: stat.ML cs.LG cs.NE quant-ph
Veröffentlichungsdatum: 15. März 2021 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2103.08277

Zusammenfassung

Dieses Paper untersucht die universelle Darstellungsfähigkeit von Matrixproduktzuständen (Matrix Product States, MPS) aus der Perspektive von Booleschen Funktionen und kontinuierlichen Funktionen. Die Autoren beweisen, dass MPS beliebige Boolesche Funktionen exakt realisieren können, und stellen Konstruktionsmethoden für entsprechende MPS-Strukturen zu gegebenen Booleschen Gattern bereit. Darüber hinaus wird bewiesen, dass der Funktionsraum von MPS mit skalenunabhängigen Sigmoid-Aktivierungsfunktionen im Raum der kontinuierlichen Funktionen, die auf kompakten Teilmengen des n-dimensionalen reellen Koordinatenraums definiert sind, dicht liegt. Die Beziehung zwischen MPS und neuronalen Netzen wird untersucht, wobei gezeigt wird, dass MPS mit skalenunabhängigen Sigmoid-Funktionen äquivalent zu einschichtigen neuronalen Netzen mit Kernfunktionen sind. Abschließend wird die Realisierung von Gaußschen Prozessen (GP) durch unendlich breite MPS durch die Untersuchung äquivalenter neuronaler Netze diskutiert.

Forschungshintergrund und Motivation

Problemhintergrund

Aufstieg von Tensornetzen: Tensornetze als mächtige grafische Sprache zur Darstellung von Vielteilchen-Quantensystemen finden breite Anwendung in Quanteninformation, Festkörperphysik, angewandter Mathematik und Informatik.
Darstellungsfähigkeit von MPS: Obwohl MPS in der Quantenphysik von großer physikalischer Bedeutung ist, stellt sich bei der Verwendung als algebraisches Werkzeug im maschinellen Lernen die natürliche Frage: Wie stark ist die Darstellungsfähigkeit von MPS als algebraische Maschine?
Bedarf an universeller Approximationstheorie: Ähnlich wie der universelle Approximationssatz für neuronale Netze ist es notwendig, die Darstellungsgrenzen von MPS theoretisch zu beweisen.

Forschungsmotivation

Schließung von Theorielücken: Bestehende Forschung konzentriert sich hauptsächlich auf die physikalischen Eigenschaften von MPS, es fehlt jedoch eine theoretische Analyse ihrer Funktion als Funktionsapproximator.
Herstellung von Verbindungen zwischen MPS und neuronalen Netzen: Erkundung der Äquivalenzbeziehungen zwischen MPS und klassischen Modellen des maschinellen Lernens, insbesondere neuronalen Netzen.
Praktische Überlegungen: In praktischen Anwendungen sind vollständige Basen normalerweise unendlichdimensional; es ist notwendig zu untersuchen, wie großer Funktionsraum MPS unter milden Annahmen "aufspannen" kann.

Kernbeiträge

Exakte Darstellung Boolescher Funktionen: Beweis, dass MPS beliebige Boolesche Funktionen exakt realisieren können, mit konstruktivem Beweis.
Universelle Approximation kontinuierlicher Funktionen: Beweis, dass der Funktionsraum von MPS mit skalenunabhängigen Sigmoid-Aktivierungen im Raum kontinuierlicher Funktionen dicht liegt (bezüglich der Supremumsnorm).
Äquivalenz zwischen MPS und neuronalen Netzen: Herstellung der Äquivalenzbeziehung zwischen MPS und einschichtigen neuronalen Netzen, Offenlegung des natürlichen Auftretens von Kernfunktionen in MPS.
Realisierung von Gaußschen Prozessen: Diskussion der Realisierung von Gaußschen Prozessen durch unendlich breite MPS.

Methodische Details

MPS-Modelldefinition

Standardstruktur von MPS

Das ursprüngliche MPS-Modell ist definiert als: $\Psi_l(x|w,B) = \sum_{\{\alpha,s\}} A^{s_1}_{\alpha_1\alpha_2} \cdots A^{s_i}_{l\alpha_i\alpha_{i+1}} \cdots A^{s_n}_{\alpha_n\alpha_1} \Phi^{s_1\cdots s_n}(x)$

wobei die Kernfunktion definiert ist als: $\Phi^{s_1\cdots s_n}(x) = \phi^{s_1}(x_1) \otimes \cdots \otimes \phi^{s_i}(x_i) \cdots \otimes \phi^{s_n}(x_n)$

Modifizierte MPS-Struktur

Um universelle Approximation zu erreichen, schlagen die Autoren eine modifizierte MPS-Struktur vor: $\Psi(x|w,B) = \sum_l \sigma\left(\sum_{\{\alpha,s\}} A^{s_1}_{\alpha_1\alpha_2} \cdots A^{s_i}_{l\alpha_i\alpha_{i+1}} \cdots A^{s_n}_{\alpha_n\alpha_1} \Phi^{s_1\cdots s_n}(x)\right)$

wobei $\sigma(\cdot)$ eine skalenunabhängige Sigmoid-Funktion ist: $\sigma(x) \to \begin{cases} 0 & x \to -\infty \\ C & x \to +\infty \end{cases}$

Darstellungsmethode für Boolesche Funktionen

Realisierung grundlegender Boolescher Gatter

AND-Gatter-Realisierung (Theorem 2.1):

Kernfunktion: $\phi_i(X_i) = [X_i, 1-X_i]$
Tensorknoten: $A^{s_i} = [1, 0]$ , Bindungsdimension $|\alpha| = 1$

OR-Gatter-Realisierung (Theorem 2.2):

Kernfunktion: $\phi_i(X_i) = [X_i, 1-X_i]$
Tensorknoten-Bindungsdimension: $|\alpha| = 3$
Konkrete Tensorstruktur: $A^{s_1}_{\alpha_1\alpha_2} = [[1, 0, 1], [0, 1, 0]]$ $A^{s_2}_{\alpha_2\alpha_1} = [[0, 1, 1], [1, 0, 0]]$

NOT-Gatter-Realisierung (Theorem 2.3):

Kernfunktion: $\phi_1(X_1) = 1-X_1$
Tensorknoten: $A^{s_1} = 1$

Universelles AND-Gatter und beliebige Boolesche Funktionen

Universelles AND-Gatter (Theorem 2.4): Für $n$ Eingabevariablen kann folgendes realisiert werden: $\Psi(X_1, \cdots, X_n) = (\bigwedge_{i=1}^l X_i) \bigwedge (\bigwedge_{j=l+1}^n \overline{X_j})$

Beliebige Boolesche Funktionen (Theorem 2.5): Durch Darstellung beliebiger Boolescher Funktionen als Disjunktive Normalform universeller AND-Gatter kann die entsprechende MPS konstruiert werden. Konstruktionsregeln:

Schreiben Sie die Boolesche Funktion als disjunktive Normalform entsprechend der Wahrheitstabelle
Setzen Sie die Bindungsdimension auf die Anzahl der Disjunktionsterme $m$
Füllen Sie Tensorelemente nach spezifischen Regeln

Approximationstheorie für kontinuierliche Funktionen

Haupttheorem (Theorem 3.1)

Der MPS-Funktionsraum liegt dicht in $C_0(I^n)$ (Raum kontinuierlicher Funktionen auf dem Einheitswürfel), d.h. für beliebige $f(x) \in C_0(I^n)$ und beliebige $\varepsilon > 0$ existiert eine MPS-Funktion $\Psi(x)$ so dass: $\sup_x |\Psi(x) - f(x)| < \varepsilon$

Beweistechniken

Linearitätsbeweis (Lemma 3.2): Beweis, dass die MPS-Funktionsfamilie $\mathcal{M}$ ein linearer Unterraum von $C_0(I^n)$ ist:

Abgeschlossenheit unter Skalarmultiplikation: Verwendung der Skalenunabhängigkeit
Abgeschlossenheit unter Addition: Konstruktion einer neuen MPS-Darstellung der Summe zweier MPS

Diskriminierungseigenschaft (Lemma 3.4): Beweis, dass die skalenunabhängige Sigmoid-Funktion die Diskriminierungseigenschaft besitzt: Wenn ein endliches signiertes Maß $\mu$ existiert, so dass das Integral aller MPS-Funktionen gleich Null ist, dann ist $\mu = 0$ .

Beweis des Haupttheorems: Verwendung des Hahn-Banach-Theorems und des Riesz-Darstellungssatzes durch Widerspruchsbeweis:

Annahme, dass $\overline{\mathcal{M}}$ eine echte Teilmenge von $C_0(I^n)$ ist
Nach dem Hahn-Banach-Theorem existiert ein nichttriviales Funktional, das $\overline{\mathcal{M}}$ annihiliert
Nach dem Riesz-Darstellungssatz entspricht dies einem nichttrivialen Maß
Nach der Diskriminierungseigenschaft muss dieses Maß Null sein, was einen Widerspruch ergibt

Äquivalenz zwischen MPS und neuronalen Netzen

Äquivalenztheorem (Theorem 3.5)

MPS mit skalenunabhängigen Sigmoid-Aktivierungen sind äquivalent zu einschichtigen neuronalen Netzen mit Kernfunktionen.

Konversionsmethode

Durch Kontraktion der inneren Indizes $\{\alpha_i\}$ kann MPS geschrieben werden als: $\Psi(x) = \sum_l \sigma\left(\sum_s W^l_s \Phi^s(x)\right)$

Dies ist genau die Form eines einschichtigen neuronalen Netzes, wobei:

$W^l_s$ die Gewichtsparameter sind
$\Phi^s(x)$ die Kernfunktion ist, die natürlicherweise Kopplungen zwischen Eingabekomponenten einführt

Natürliches Auftreten von Kernfunktionen

Durch konkrete Beispiele wird gezeigt, wie nichtlineare Kerne wie Polynomkerne natürlicherweise im äquivalenten neuronalen Netz auftreten, zum Beispiel: $(\Phi^s)^T = [x_1x_2x_3, x_2x_3, x_1x_3, x_1x_2, x_1, x_2, x_3, 1]$

Experimentelle Ergebnisse und Fallstudien

Fallstudien zur Realisierung Boolescher Funktionen

3-Eingabe-OR-Gatter: Boolesche Ausdrucksform: $f(X_1,X_2,X_3) = X_1 \vee X_2 \vee X_3$ Die entsprechende MPS-Tensorstruktur ist im Methodenabschnitt detailliert angegeben.

3-Eingabe-Paritätsgatter: Boolesche Ausdrucksform: $f(X_1,X_2,X_3) = X_1 \oplus X_2 \oplus X_3$ Gewichte des äquivalenten neuronalen Netzes: $W^s = [1, 0, 0, 1, 0, 1, 1, 0]$

Schwellenwertgatter Th₃²: Schwellenwertfunktion, die 1 ausgibt, wenn mindestens 2 Eingaben 1 sind.

Komplexitätsanalyse

Für n-Eingabe-Boolesche Gatter beträgt die Bindungsdimension im extremsten Fall $O(2^n)$ , kann aber durch Karnaugh-Diagramm-Vereinfachung auf $O(2^{n-1})$ reduziert werden, mit einer Gesamtparameterzahl von $O(n2^{n-1})$ , was mit der Effizienz einschichtiger neuronaler Netze vergleichbar ist.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretische Vollständigkeit: MPS besitzt die Fähigkeit, beliebige Boolesche Funktionen darzustellen und beliebige kontinuierliche Funktionen zu approximieren
Offenlegung der Äquivalenz: MPS ist im Wesentlichen äquivalent zu einschichtigen neuronalen Netzen mit Kernfunktionen
Bedeutung von Kernfunktionen: Die Kernfunktion $\Phi^{s_1\cdots s_n}$ ist der Schlüssel zur Darstellungsfähigkeit von MPS, nicht die Bindungsindizes $\{\alpha_i\}$

Einschränkungen

Praktische Probleme: Die MPS-Realisierung Boolescher Funktionen erfordert exponentiell große Bindungsdimensionen
Verlust physikalischer Bedeutung: Als reines algebraisches Werkzeug verliert MPS wichtige Eigenschaften wie Verschränkung aus der Quantenphysik
Kernfunktionsdesign: Erfordert sorgfältiges Design von Kernfunktionen, um ausreichende Darstellungsfähigkeit zu erreichen

Zukünftige Richtungen

Effiziente Konstruktionsmethoden: Suche nach effizienteren MPS-Konstruktionsmethoden zur Reduzierung der Komplexität
Tiefe Strukturen: Erkundung mehrschichtiger MPS-Strukturen in Analogie zu tiefen neuronalen Netzen
Quantenvorteil: Erkundung der einzigartigen Vorteile von MPS in Quantencomputerumgebungen

Tiefgreifende Bewertung

Stärken

Bedeutender theoretischer Beitrag: Erste systematische Analyse der Darstellungsfähigkeit von MPS aus der Perspektive der Funktionsapproximation
Strenge Beweise: Verwendung klassischer Werkzeuge der Funktionalanalysis mit rigorosen Beweisen
Verbindungserkenntnisse: Offenlegung der tieferen Verbindungen zwischen MPS und neuronalen Netzen, Bereitstellung einer Brücke für interdisziplinäres Verständnis
Konstruktive Beweise: Nicht nur Existenzbeweis, sondern auch konkrete Konstruktionsmethoden

Schwächen

Begrenzte praktische Anwendbarkeit: Theoretische Ergebnisse können in praktischen Anwendungen auf Fluch der Dimensionalität stoßen
Unzureichende experimentelle Validierung: Mangel an großflächigen numerischen Experimenten zur Validierung theoretischer Ergebnisse
Fehlende Optimierungsalgorithmen: Keine Diskussion zur effizienten Schulung solcher MPS-Modelle
Unzureichende Vergleichsanalyse: Detaillierte Vergleichsanalyse mit anderen universellen Approximatoren fehlt

Einfluss

Hoher theoretischer Wert: Bietet solide theoretische Grundlagen für die Anwendung von Tensornetzen im maschinellen Lernen
Interdisziplinäre Bedeutung: Verbindung zwischen Quantenphysik und maschinellem Lernen
Starke Inspirationskraft: Bietet wichtige Referenzen für nachfolgende Forschung zur Darstellungsfähigkeit und Optimierungsmethoden von Tensornetzen

Anwendungsszenarien

Theoretische Forschung: Geeignet als Grundlagenliteratur für die Darstellungstheorie von Tensornetzen
Lehrzwecke: Kann zur Erklärung der Beziehung zwischen MPS und neuronalen Netzen verwendet werden
Algorithmusdesign: Bietet theoretische Anleitung für die Gestaltung von MPS-basierten Algorithmen für maschinelles Lernen
Quantenmaschinelles Lernen: Bietet theoretische Unterstützung für die Gestaltung von Quantenmaschinenlern-Algorithmen

Literaturverzeichnis

Dieses Paper zitiert wichtige Literatur aus mehreren Bereichen wie Tensornetze, Quanteninformation, maschinelles Lernen und Funktionalanalysis, einschließlich:

Grundlagentheorie von Tensornetzen (Penrose, 1971; Vidal, 2007; Perez-Garcia et al., 2006)
Universelle Approximationstheorie neuronaler Netze (Cybenko, 1989; Hornik, 1991)
Anwendungen von Tensornetzen im maschinellen Lernen (Stoudenmire & Schwab, 2016; etc.)
Theoretische Grundlagen der Funktionalanalysis (Folland, 2013)