In this work, we investigate the universal representation capacity of the Matrix Product States (MPS) from the perspective of boolean functions and continuous functions. We show that MPS can accurately realize arbitrary boolean functions by providing a construction method of the corresponding MPS structure for an arbitrarily given boolean gate. Moreover, we prove that the function space of MPS with the scale-invariant sigmoidal activation is dense in the space of continuous functions defined on a compact subspace of the $n$-dimensional real coordinate space $\mathbb{R^{n}}$. We study the relation between MPS and neural networks and show that the MPS with a scale-invariant sigmoidal function is equivalent to a one-hidden-layer neural network equipped with a kernel function. We construct the equivalent neural networks for several specific MPS models and show that non-linear kernels such as the polynomial kernel which introduces the couplings between different components of the input into the model appear naturally in the equivalent neural networks. At last, we discuss the realization of the Gaussian Process (GP) with infinitely wide MPS by studying their equivalent neural networks.
- ID de l'article: 2103.08277
- Titre: Representation Theorem for Matrix Product States
- Auteurs: Erdong Guo, David Draper (University of California, Santa Cruz)
- Classification: stat.ML cs.LG cs.NE quant-ph
- Date de publication: 15 mars 2021 (prépublication arXiv)
- Lien de l'article: https://arxiv.org/abs/2103.08277
Cet article étudie la capacité de représentation universelle des états de produit matriciel (Matrix Product States, MPS) du point de vue des fonctions booléennes et des fonctions continues. Les auteurs démontrent que les MPS peuvent réaliser exactement toute fonction booléenne arbitraire et fournissent des méthodes de construction pour les structures MPS correspondant à des portes booléennes données. De plus, ils prouvent que l'espace des fonctions MPS avec des fonctions d'activation sigmoïde invariantes par échelle est dense dans l'espace des fonctions continues défini sur des sous-ensembles compacts de l'espace euclidien réel n-dimensionnel. La relation entre les MPS et les réseaux de neurones est étudiée, montrant que les MPS avec des fonctions sigmoïde invariantes par échelle sont équivalents à des réseaux de neurones monocouches équipés de fonctions noyau. Enfin, en étudiant les réseaux de neurones équivalents, les auteurs discutent de la réalisation de processus gaussiens (GP) par des MPS de largeur infinie.
- Émergence des réseaux tensoriels: Les réseaux tensoriels, en tant que langage graphique puissant pour représenter les systèmes quantiques multi-corps, ont trouvé des applications étendues dans l'information quantique, la physique de la matière condensée, les mathématiques appliquées et l'informatique.
- Problème de la capacité de représentation des MPS: Bien que les MPS possèdent une importance physique significative en physique quantique, lorsqu'ils sont utilisés comme outils algébriques en apprentissage automatique, une question naturelle se pose: quelle est la force de la capacité de représentation des MPS en tant que machines algébriques?
- Besoin de théorie d'approximation universelle: De manière similaire au théorème d'approximation universelle des réseaux de neurones, il est nécessaire de prouver théoriquement les limites de la capacité de représentation des MPS.
- Combler les lacunes théoriques: Les recherches existantes se concentrent principalement sur les propriétés physiques des MPS, manquant d'analyse théorique de leur rôle en tant qu'approximateurs de fonctions.
- Établir des liens entre les MPS et les réseaux de neurones: Explorer les relations d'équivalence entre les MPS et les modèles d'apprentissage automatique classiques, en particulier les réseaux de neurones.
- Considérations pratiques: Dans les applications réelles, les bases complètes sont généralement de dimension infinie, nécessitant l'étude de l'espace des fonctions que les MPS peuvent « engendrer » sous des hypothèses modérées.
- Représentation exacte des fonctions booléennes: Démonstration que les MPS peuvent réaliser exactement toute fonction booléenne arbitraire, avec une preuve constructive.
- Approximation universelle des fonctions continues: Preuve que l'espace des fonctions MPS avec activation sigmoïde invariante par échelle est dense dans l'espace des fonctions continues (par rapport à la norme du supremum).
- Équivalence entre les MPS et les réseaux de neurones: Établissement de la relation d'équivalence entre les MPS et les réseaux de neurones monocouches, révélant l'apparition naturelle des fonctions noyau dans les MPS.
- Réalisation de processus gaussiens: Discussion de la réalisation de processus gaussiens par des MPS de largeur infinie.
Le modèle MPS original est défini comme:
Ψl(x∣w,B)=∑{α,s}Aα1α2s1⋯Alαiαi+1si⋯Aαnα1snΦs1⋯sn(x)
où la fonction noyau est définie comme:
Φs1⋯sn(x)=ϕs1(x1)⊗⋯⊗ϕsi(xi)⋯⊗ϕsn(xn)
Pour réaliser l'approximation universelle, les auteurs proposent une structure MPS modifiée:
Ψ(x∣w,B)=∑lσ(∑{α,s}Aα1α2s1⋯Alαiαi+1si⋯Aαnα1snΦs1⋯sn(x))
où σ(⋅) est une fonction sigmoïde invariante par échelle:
σ(x)→{0Cx→−∞x→+∞
Implémentation de la porte ET (Théorème 2.1):
- Fonction noyau: ϕi(Xi)=[Xi,1−Xi]
- Nœud tensoriel: Asi=[1,0], dimension de liaison ∣α∣=1
Implémentation de la porte OU (Théorème 2.2):
- Fonction noyau: ϕi(Xi)=[Xi,1−Xi]
- Dimension de liaison du nœud tensoriel: ∣α∣=3
- Structure tensorielle spécifique:
Aα1α2s1=[[1,0,1],[0,1,0]]Aα2α1s2=[[0,1,1],[1,0,0]]
Implémentation de la porte NON (Théorème 2.3):
- Fonction noyau: ϕ1(X1)=1−X1
- Nœud tensoriel: As1=1
Porte ET Universelle (Théorème 2.4):
Pour n variables d'entrée, on peut réaliser:
Ψ(X1,⋯,Xn)=(⋀i=1lXi)⋀(⋀j=l+1nXj)
Fonction Booléenne Arbitraire (Théorème 2.5):
En exprimant toute fonction booléenne sous forme de forme normale disjonctive correspondant à la table de vérité, on peut construire le MPS correspondant. Les règles de construction sont:
- Écrire la fonction booléenne sous forme normale disjonctive
- Fixer la dimension de liaison égale au nombre de termes disjonctifs m
- Remplir les éléments tensoriels selon des règles spécifiques
L'espace des fonctions MPS est dense dans C0(In) (espace des fonctions continues sur le cube unité), c'est-à-dire que pour tout f(x)∈C0(In) et tout ε>0, il existe une fonction MPS Ψ(x) telle que:
supx∣Ψ(x)−f(x)∣<ε
Preuve de Linéarité (Lemme 3.2):
Preuve que la famille des fonctions MPS M est un sous-espace linéaire de C0(In):
- Fermeture sous multiplication scalaire: utilisation de l'invariance par échelle
- Fermeture sous addition: construction d'une nouvelle représentation MPS pour la somme de deux MPS
Propriété de Discrimination (Lemme 3.4):
Preuve que la fonction sigmoïde invariante par échelle possède la propriété de discrimination: si une mesure signée finie μ rend l'intégrale de toutes les fonctions MPS nulle, alors μ=0.
Preuve du Théorème Principal:
Utilisation d'un argument de contradiction basé sur les théorèmes de Hahn-Banach et de représentation de Riesz:
- Supposer que M est un vrai sous-ensemble de C0(In)
- Par le théorème de Hahn-Banach, il existe une fonctionnelle non triviale annulant M
- Par le théorème de Riesz, elle correspond à une mesure non triviale
- Par la propriété de discrimination, cette mesure doit être nulle, produisant une contradiction
Les MPS avec activation sigmoïde invariante par échelle sont équivalents aux réseaux de neurones monocouches équipés de fonctions noyau.
Par contraction des indices internes {αi}, le MPS peut s'écrire:
Ψ(x)=∑lσ(∑sWslΦs(x))
Ceci est exactement la forme d'un réseau de neurones monocouche, où:
- Wsl sont les paramètres de poids
- Φs(x) est la fonction noyau, introduisant naturellement le couplage entre les composantes d'entrée
À travers des exemples concrets, on montre comment les noyaux non linéaires, tels que les noyaux polynomiaux, apparaissent naturellement dans le réseau de neurones équivalent, par exemple:
(Φs)T=[x1x2x3,x2x3,x1x3,x1x2,x1,x2,x3,1]
Porte OU à 3 entrées:
Expression booléenne: f(X1,X2,X3)=X1∨X2∨X3
La structure tensorielle MPS correspondante est détaillée dans la section des méthodes.
Porte de Parité à 3 entrées:
Expression booléenne: f(X1,X2,X3)=X1⊕X2⊕X3
Poids du réseau de neurones équivalent: Ws=[1,0,0,1,0,1,1,0]
Porte de Seuil Th₃²:
Fonction de seuil qui produit 1 lorsqu'au moins 2 entrées sont 1.
Pour une porte booléenne à n entrées, dans les cas extrêmes, la dimension de liaison nécessite O(2n), mais peut être réduite à O(2n−1) par simplification du diagramme de Karnaugh, avec un nombre total de paramètres de O(n2n−1), comparable à l'efficacité des réseaux de neurones monocouches.
- Système de notation graphique de calcul tensoriel de Penrose (1971)
- Décomposition de Schmidt et méthode DMRG de Vidal (2003, 2007)
- Étude systématique des propriétés des MPS par Perez-Garcia et al. (2006)
- Application à l'apprentissage supervisé de Stoudenmire & Schwab (2016)
- Diverses applications des réseaux tensoriels en régression, classification et estimation de densité
- Travaux classiques de Cybenko (1989) et Hornik (1991) sur l'approximation universelle des réseaux de neurones
- Cet article utilise des techniques d'analyse fonctionnelle similaires
- Complétude théorique: Les MPS possèdent la capacité de représenter toute fonction booléenne et d'approximer toute fonction continue
- Révélation d'équivalence: Les MPS sont essentiellement équivalents aux réseaux de neurones monocouches avec fonctions noyau
- Importance de la fonction noyau: La fonction noyau Φs1⋯sn est la clé de la capacité de représentation des MPS, plutôt que les indices de liaison {αi}
- Problèmes de praticité: La réalisation MPS des fonctions booléennes nécessite une dimension de liaison exponentielle
- Perte de signification physique: En tant qu'outil purement algébrique, les MPS perdent les propriétés importantes de la physique quantique, telles que l'intrication
- Conception de fonction noyau: Nécessite une conception minutieuse de la fonction noyau pour obtenir une capacité de représentation suffisante
- Méthodes de construction efficaces: Recherche de méthodes de construction MPS plus efficaces pour réduire la complexité
- Structures multicouches: Exploration de structures MPS multicouches, par analogie avec les réseaux de neurones profonds
- Avantage quantique: Exploration des avantages uniques des MPS dans l'environnement informatique quantique
- Contribution théorique majeure: Première analyse systématique de la capacité de représentation des MPS du point de vue de l'approximation de fonctions
- Preuves rigoureuses: Utilisation d'outils classiques d'analyse fonctionnelle, processus de preuve rigoureux
- Perspectives de connectivité: Révélation des liens profonds entre les MPS et les réseaux de neurones, fournissant un pont pour la compréhension interdisciplinaire
- Preuves constructives: Non seulement preuve d'existence, mais aussi fourniture de méthodes de construction concrètes
- Praticité limitée: Les résultats théoriques peuvent faire face à la malédiction de la dimensionnalité dans les applications pratiques
- Vérification expérimentale insuffisante: Manque d'expériences numériques à grande échelle pour valider les résultats théoriques
- Absence d'algorithmes d'optimisation: Pas de discussion sur comment entraîner efficacement de tels modèles MPS
- Analyse comparative insuffisante: Analyse comparative détaillée insuffisante avec d'autres approximateurs universels
- Valeur théorique élevée: Fournit une base théorique solide pour l'application des réseaux tensoriels en apprentissage automatique
- Signification interdisciplinaire: Connecte les domaines de la physique quantique et de l'apprentissage automatique
- Force inspiratrice: Fournit une référence importante pour les recherches ultérieures sur la capacité de représentation et les méthodes d'optimisation des réseaux tensoriels
- Recherche théorique: Approprié comme littérature fondamentale pour la théorie de représentation des réseaux tensoriels
- Fins pédagogiques: Peut être utilisé pour expliquer la relation entre les MPS et les réseaux de neurones
- Conception d'algorithmes: Fournit des conseils théoriques pour la conception d'algorithmes d'apprentissage automatique basés sur les MPS
- Apprentissage automatique quantique: Fournit un soutien théorique pour la conception d'algorithmes d'apprentissage automatique quantique
Cet article cite des travaux importants de plusieurs domaines, notamment les réseaux tensoriels, l'information quantique, l'apprentissage automatique et l'analyse fonctionnelle, incluant:
- Théorie fondamentale des réseaux tensoriels (Penrose, 1971; Vidal, 2007; Perez-Garcia et al., 2006)
- Théorie d'approximation universelle des réseaux de neurones (Cybenko, 1989; Hornik, 1991)
- Applications des réseaux tensoriels en apprentissage automatique (Stoudenmire & Schwab, 2016; et autres)
- Fondements théoriques d'analyse fonctionnelle (Folland, 2013)