In this work, we investigate the universal representation capacity of the Matrix Product States (MPS) from the perspective of boolean functions and continuous functions. We show that MPS can accurately realize arbitrary boolean functions by providing a construction method of the corresponding MPS structure for an arbitrarily given boolean gate. Moreover, we prove that the function space of MPS with the scale-invariant sigmoidal activation is dense in the space of continuous functions defined on a compact subspace of the $n$-dimensional real coordinate space $\mathbb{R^{n}}$. We study the relation between MPS and neural networks and show that the MPS with a scale-invariant sigmoidal function is equivalent to a one-hidden-layer neural network equipped with a kernel function. We construct the equivalent neural networks for several specific MPS models and show that non-linear kernels such as the polynomial kernel which introduces the couplings between different components of the input into the model appear naturally in the equivalent neural networks. At last, we discuss the realization of the Gaussian Process (GP) with infinitely wide MPS by studying their equivalent neural networks.
- Paper-ID: 2103.08277
- Titel: Representation Theorem for Matrix Product States
- Autoren: Erdong Guo, David Draper (University of California, Santa Cruz)
- Klassifizierung: stat.ML cs.LG cs.NE quant-ph
- Veröffentlichungsdatum: 15. März 2021 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2103.08277
Dieses Paper untersucht die universelle Darstellungsfähigkeit von Matrixproduktzuständen (Matrix Product States, MPS) aus der Perspektive von Booleschen Funktionen und kontinuierlichen Funktionen. Die Autoren beweisen, dass MPS beliebige Boolesche Funktionen exakt realisieren können, und stellen Konstruktionsmethoden für entsprechende MPS-Strukturen zu gegebenen Booleschen Gattern bereit. Darüber hinaus wird bewiesen, dass der Funktionsraum von MPS mit skalenunabhängigen Sigmoid-Aktivierungsfunktionen im Raum der kontinuierlichen Funktionen, die auf kompakten Teilmengen des n-dimensionalen reellen Koordinatenraums definiert sind, dicht liegt. Die Beziehung zwischen MPS und neuronalen Netzen wird untersucht, wobei gezeigt wird, dass MPS mit skalenunabhängigen Sigmoid-Funktionen äquivalent zu einschichtigen neuronalen Netzen mit Kernfunktionen sind. Abschließend wird die Realisierung von Gaußschen Prozessen (GP) durch unendlich breite MPS durch die Untersuchung äquivalenter neuronaler Netze diskutiert.
- Aufstieg von Tensornetzen: Tensornetze als mächtige grafische Sprache zur Darstellung von Vielteilchen-Quantensystemen finden breite Anwendung in Quanteninformation, Festkörperphysik, angewandter Mathematik und Informatik.
- Darstellungsfähigkeit von MPS: Obwohl MPS in der Quantenphysik von großer physikalischer Bedeutung ist, stellt sich bei der Verwendung als algebraisches Werkzeug im maschinellen Lernen die natürliche Frage: Wie stark ist die Darstellungsfähigkeit von MPS als algebraische Maschine?
- Bedarf an universeller Approximationstheorie: Ähnlich wie der universelle Approximationssatz für neuronale Netze ist es notwendig, die Darstellungsgrenzen von MPS theoretisch zu beweisen.
- Schließung von Theorielücken: Bestehende Forschung konzentriert sich hauptsächlich auf die physikalischen Eigenschaften von MPS, es fehlt jedoch eine theoretische Analyse ihrer Funktion als Funktionsapproximator.
- Herstellung von Verbindungen zwischen MPS und neuronalen Netzen: Erkundung der Äquivalenzbeziehungen zwischen MPS und klassischen Modellen des maschinellen Lernens, insbesondere neuronalen Netzen.
- Praktische Überlegungen: In praktischen Anwendungen sind vollständige Basen normalerweise unendlichdimensional; es ist notwendig zu untersuchen, wie großer Funktionsraum MPS unter milden Annahmen "aufspannen" kann.
- Exakte Darstellung Boolescher Funktionen: Beweis, dass MPS beliebige Boolesche Funktionen exakt realisieren können, mit konstruktivem Beweis.
- Universelle Approximation kontinuierlicher Funktionen: Beweis, dass der Funktionsraum von MPS mit skalenunabhängigen Sigmoid-Aktivierungen im Raum kontinuierlicher Funktionen dicht liegt (bezüglich der Supremumsnorm).
- Äquivalenz zwischen MPS und neuronalen Netzen: Herstellung der Äquivalenzbeziehung zwischen MPS und einschichtigen neuronalen Netzen, Offenlegung des natürlichen Auftretens von Kernfunktionen in MPS.
- Realisierung von Gaußschen Prozessen: Diskussion der Realisierung von Gaußschen Prozessen durch unendlich breite MPS.
Das ursprüngliche MPS-Modell ist definiert als:
Ψl(x∣w,B)=∑{α,s}Aα1α2s1⋯Alαiαi+1si⋯Aαnα1snΦs1⋯sn(x)
wobei die Kernfunktion definiert ist als:
Φs1⋯sn(x)=ϕs1(x1)⊗⋯⊗ϕsi(xi)⋯⊗ϕsn(xn)
Um universelle Approximation zu erreichen, schlagen die Autoren eine modifizierte MPS-Struktur vor:
Ψ(x∣w,B)=∑lσ(∑{α,s}Aα1α2s1⋯Alαiαi+1si⋯Aαnα1snΦs1⋯sn(x))
wobei σ(⋅) eine skalenunabhängige Sigmoid-Funktion ist:
σ(x)→{0Cx→−∞x→+∞
AND-Gatter-Realisierung (Theorem 2.1):
- Kernfunktion: ϕi(Xi)=[Xi,1−Xi]
- Tensorknoten: Asi=[1,0], Bindungsdimension ∣α∣=1
OR-Gatter-Realisierung (Theorem 2.2):
- Kernfunktion: ϕi(Xi)=[Xi,1−Xi]
- Tensorknoten-Bindungsdimension: ∣α∣=3
- Konkrete Tensorstruktur:
Aα1α2s1=[[1,0,1],[0,1,0]]Aα2α1s2=[[0,1,1],[1,0,0]]
NOT-Gatter-Realisierung (Theorem 2.3):
- Kernfunktion: ϕ1(X1)=1−X1
- Tensorknoten: As1=1
Universelles AND-Gatter (Theorem 2.4):
Für n Eingabevariablen kann folgendes realisiert werden:
Ψ(X1,⋯,Xn)=(⋀i=1lXi)⋀(⋀j=l+1nXj)
Beliebige Boolesche Funktionen (Theorem 2.5):
Durch Darstellung beliebiger Boolescher Funktionen als Disjunktive Normalform universeller AND-Gatter kann die entsprechende MPS konstruiert werden. Konstruktionsregeln:
- Schreiben Sie die Boolesche Funktion als disjunktive Normalform entsprechend der Wahrheitstabelle
- Setzen Sie die Bindungsdimension auf die Anzahl der Disjunktionsterme m
- Füllen Sie Tensorelemente nach spezifischen Regeln
Der MPS-Funktionsraum liegt dicht in C0(In) (Raum kontinuierlicher Funktionen auf dem Einheitswürfel), d.h. für beliebige f(x)∈C0(In) und beliebige ε>0 existiert eine MPS-Funktion Ψ(x) so dass:
supx∣Ψ(x)−f(x)∣<ε
Linearitätsbeweis (Lemma 3.2):
Beweis, dass die MPS-Funktionsfamilie M ein linearer Unterraum von C0(In) ist:
- Abgeschlossenheit unter Skalarmultiplikation: Verwendung der Skalenunabhängigkeit
- Abgeschlossenheit unter Addition: Konstruktion einer neuen MPS-Darstellung der Summe zweier MPS
Diskriminierungseigenschaft (Lemma 3.4):
Beweis, dass die skalenunabhängige Sigmoid-Funktion die Diskriminierungseigenschaft besitzt: Wenn ein endliches signiertes Maß μ existiert, so dass das Integral aller MPS-Funktionen gleich Null ist, dann ist μ=0.
Beweis des Haupttheorems:
Verwendung des Hahn-Banach-Theorems und des Riesz-Darstellungssatzes durch Widerspruchsbeweis:
- Annahme, dass M eine echte Teilmenge von C0(In) ist
- Nach dem Hahn-Banach-Theorem existiert ein nichttriviales Funktional, das M annihiliert
- Nach dem Riesz-Darstellungssatz entspricht dies einem nichttrivialen Maß
- Nach der Diskriminierungseigenschaft muss dieses Maß Null sein, was einen Widerspruch ergibt
MPS mit skalenunabhängigen Sigmoid-Aktivierungen sind äquivalent zu einschichtigen neuronalen Netzen mit Kernfunktionen.
Durch Kontraktion der inneren Indizes {αi} kann MPS geschrieben werden als:
Ψ(x)=∑lσ(∑sWslΦs(x))
Dies ist genau die Form eines einschichtigen neuronalen Netzes, wobei:
- Wsl die Gewichtsparameter sind
- Φs(x) die Kernfunktion ist, die natürlicherweise Kopplungen zwischen Eingabekomponenten einführt
Durch konkrete Beispiele wird gezeigt, wie nichtlineare Kerne wie Polynomkerne natürlicherweise im äquivalenten neuronalen Netz auftreten, zum Beispiel:
(Φs)T=[x1x2x3,x2x3,x1x3,x1x2,x1,x2,x3,1]
3-Eingabe-OR-Gatter:
Boolesche Ausdrucksform: f(X1,X2,X3)=X1∨X2∨X3
Die entsprechende MPS-Tensorstruktur ist im Methodenabschnitt detailliert angegeben.
3-Eingabe-Paritätsgatter:
Boolesche Ausdrucksform: f(X1,X2,X3)=X1⊕X2⊕X3
Gewichte des äquivalenten neuronalen Netzes: Ws=[1,0,0,1,0,1,1,0]
Schwellenwertgatter Th₃²:
Schwellenwertfunktion, die 1 ausgibt, wenn mindestens 2 Eingaben 1 sind.
Für n-Eingabe-Boolesche Gatter beträgt die Bindungsdimension im extremsten Fall O(2n), kann aber durch Karnaugh-Diagramm-Vereinfachung auf O(2n−1) reduziert werden, mit einer Gesamtparameterzahl von O(n2n−1), was mit der Effizienz einschichtiger neuronaler Netze vergleichbar ist.
- Penrose (1971) Tensorberechnungs-Graphiksymbolsystem
- Vidal (2003, 2007) Schmidt-Zerlegung und DMRG-Methode
- Perez-Garcia et al. (2006) systematische Untersuchung von MPS-Eigenschaften
- Stoudenmire & Schwab (2016) Anwendung des überwachten Lernens
- Verschiedene Anwendungen von Tensornetzen in Regression, Klassifizierung und Dichteestimation
- Klassische Arbeiten von Cybenko (1989) und Hornik (1991) zur universellen Approximationsfähigkeit neuronaler Netze
- Dieses Paper verwendet ähnliche funktionalanalytische Techniken
- Theoretische Vollständigkeit: MPS besitzt die Fähigkeit, beliebige Boolesche Funktionen darzustellen und beliebige kontinuierliche Funktionen zu approximieren
- Offenlegung der Äquivalenz: MPS ist im Wesentlichen äquivalent zu einschichtigen neuronalen Netzen mit Kernfunktionen
- Bedeutung von Kernfunktionen: Die Kernfunktion Φs1⋯sn ist der Schlüssel zur Darstellungsfähigkeit von MPS, nicht die Bindungsindizes {αi}
- Praktische Probleme: Die MPS-Realisierung Boolescher Funktionen erfordert exponentiell große Bindungsdimensionen
- Verlust physikalischer Bedeutung: Als reines algebraisches Werkzeug verliert MPS wichtige Eigenschaften wie Verschränkung aus der Quantenphysik
- Kernfunktionsdesign: Erfordert sorgfältiges Design von Kernfunktionen, um ausreichende Darstellungsfähigkeit zu erreichen
- Effiziente Konstruktionsmethoden: Suche nach effizienteren MPS-Konstruktionsmethoden zur Reduzierung der Komplexität
- Tiefe Strukturen: Erkundung mehrschichtiger MPS-Strukturen in Analogie zu tiefen neuronalen Netzen
- Quantenvorteil: Erkundung der einzigartigen Vorteile von MPS in Quantencomputerumgebungen
- Bedeutender theoretischer Beitrag: Erste systematische Analyse der Darstellungsfähigkeit von MPS aus der Perspektive der Funktionsapproximation
- Strenge Beweise: Verwendung klassischer Werkzeuge der Funktionalanalysis mit rigorosen Beweisen
- Verbindungserkenntnisse: Offenlegung der tieferen Verbindungen zwischen MPS und neuronalen Netzen, Bereitstellung einer Brücke für interdisziplinäres Verständnis
- Konstruktive Beweise: Nicht nur Existenzbeweis, sondern auch konkrete Konstruktionsmethoden
- Begrenzte praktische Anwendbarkeit: Theoretische Ergebnisse können in praktischen Anwendungen auf Fluch der Dimensionalität stoßen
- Unzureichende experimentelle Validierung: Mangel an großflächigen numerischen Experimenten zur Validierung theoretischer Ergebnisse
- Fehlende Optimierungsalgorithmen: Keine Diskussion zur effizienten Schulung solcher MPS-Modelle
- Unzureichende Vergleichsanalyse: Detaillierte Vergleichsanalyse mit anderen universellen Approximatoren fehlt
- Hoher theoretischer Wert: Bietet solide theoretische Grundlagen für die Anwendung von Tensornetzen im maschinellen Lernen
- Interdisziplinäre Bedeutung: Verbindung zwischen Quantenphysik und maschinellem Lernen
- Starke Inspirationskraft: Bietet wichtige Referenzen für nachfolgende Forschung zur Darstellungsfähigkeit und Optimierungsmethoden von Tensornetzen
- Theoretische Forschung: Geeignet als Grundlagenliteratur für die Darstellungstheorie von Tensornetzen
- Lehrzwecke: Kann zur Erklärung der Beziehung zwischen MPS und neuronalen Netzen verwendet werden
- Algorithmusdesign: Bietet theoretische Anleitung für die Gestaltung von MPS-basierten Algorithmen für maschinelles Lernen
- Quantenmaschinelles Lernen: Bietet theoretische Unterstützung für die Gestaltung von Quantenmaschinenlern-Algorithmen
Dieses Paper zitiert wichtige Literatur aus mehreren Bereichen wie Tensornetze, Quanteninformation, maschinelles Lernen und Funktionalanalysis, einschließlich:
- Grundlagentheorie von Tensornetzen (Penrose, 1971; Vidal, 2007; Perez-Garcia et al., 2006)
- Universelle Approximationstheorie neuronaler Netze (Cybenko, 1989; Hornik, 1991)
- Anwendungen von Tensornetzen im maschinellen Lernen (Stoudenmire & Schwab, 2016; etc.)
- Theoretische Grundlagen der Funktionalanalysis (Folland, 2013)