In this work, we investigate the universal representation capacity of the Matrix Product States (MPS) from the perspective of boolean functions and continuous functions. We show that MPS can accurately realize arbitrary boolean functions by providing a construction method of the corresponding MPS structure for an arbitrarily given boolean gate. Moreover, we prove that the function space of MPS with the scale-invariant sigmoidal activation is dense in the space of continuous functions defined on a compact subspace of the $n$-dimensional real coordinate space $\mathbb{R^{n}}$. We study the relation between MPS and neural networks and show that the MPS with a scale-invariant sigmoidal function is equivalent to a one-hidden-layer neural network equipped with a kernel function. We construct the equivalent neural networks for several specific MPS models and show that non-linear kernels such as the polynomial kernel which introduces the couplings between different components of the input into the model appear naturally in the equivalent neural networks. At last, we discuss the realization of the Gaussian Process (GP) with infinitely wide MPS by studying their equivalent neural networks.
- ID del Artículo: 2103.08277
- Título: Representation Theorem for Matrix Product States
- Autores: Erdong Guo, David Draper (University of California, Santa Cruz)
- Clasificación: stat.ML cs.LG cs.NE quant-ph
- Fecha de Publicación: 15 de marzo de 2021 (preimpresión arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2103.08277
Este artículo investiga la capacidad de representación universal de los Estados de Producto Matricial (Matrix Product States, MPS) desde la perspectiva de funciones booleanas y funciones continuas. Los autores demuestran que MPS puede implementar exactamente cualquier función booleana y proporcionan métodos de construcción de estructuras MPS correspondientes para puertas booleanas arbitrarias. Además, prueban que el espacio de funciones MPS con funciones de activación sigmoid invariantes en escala es denso en el espacio de funciones continuas definidas en subconjuntos compactos del espacio euclidiano n-dimensional real. Se estudia la relación entre MPS y redes neuronales, demostrando que MPS con funciones sigmoid invariantes en escala es equivalente a redes neuronales de una capa oculta equipadas con funciones kernel. Finalmente, se discute la realización de procesos gaussianos (GP) mediante MPS de ancho infinito mediante el estudio de redes neuronales equivalentes.
- Auge de las Redes Tensoriales: Las redes tensoriales como lenguaje gráfico poderoso para representar sistemas cuánticos de muchos cuerpos han encontrado aplicaciones generalizadas en información cuántica, física de materia condensada, matemática aplicada e informática.
- Problema de Capacidad de Representación de MPS: Aunque MPS tiene importancia física significativa en física cuántica, cuando se utiliza como herramienta algebraica en aprendizaje automático, surge la pregunta natural: ¿Qué tan fuerte es la capacidad de representación de MPS como máquina algebraica?
- Necesidad de Teoría de Aproximación Universal: Similar al teorema de aproximación universal de redes neuronales, se necesita demostrar teóricamente los límites de la capacidad de representación de MPS.
- Llenar Vacíos Teóricos: La investigación existente se enfoca principalmente en propiedades físicas de MPS, careciendo de análisis teórico de su capacidad como aproximador de funciones.
- Establecer Conexiones entre MPS y Redes Neuronales: Explorar relaciones de equivalencia entre MPS y modelos clásicos de aprendizaje automático, particularmente redes neuronales.
- Consideraciones Prácticas: En aplicaciones reales, las bases completas suelen ser de dimensión infinita, requiriendo investigación sobre cuán grande es el espacio de funciones que MPS puede "abarcar" bajo supuestos moderados.
- Representación Exacta de Funciones Booleanas: Se demuestra que MPS puede implementar exactamente cualquier función booleana, proporcionando métodos de prueba constructivos.
- Aproximación Universal de Funciones Continuas: Se demuestra que el espacio de funciones MPS con activación sigmoid invariante en escala es denso en el espacio de funciones continuas (respecto a la norma del supremo).
- Equivalencia entre MPS y Redes Neuronales: Se establece la relación de equivalencia entre MPS y redes neuronales de una capa oculta, revelando la aparición natural de funciones kernel en MPS.
- Realización de Procesos Gaussianos: Se discute la realización de procesos gaussianos mediante MPS de ancho infinito.
El modelo MPS original se define como:
Ψl(x∣w,B)=∑{α,s}Aα1α2s1⋯Alαiαi+1si⋯Aαnα1snΦs1⋯sn(x)
donde la función kernel se define como:
Φs1⋯sn(x)=ϕs1(x1)⊗⋯⊗ϕsi(xi)⋯⊗ϕsn(xn)
Para lograr aproximación universal, los autores proponen una estructura MPS modificada:
Ψ(x∣w,B)=∑lσ(∑{α,s}Aα1α2s1⋯Alαiαi+1si⋯Aαnα1snΦs1⋯sn(x))
donde σ(⋅) es una función sigmoid invariante en escala:
σ(x)→{0Cx→−∞x→+∞
Implementación de Puerta AND (Teorema 2.1):
- Función kernel: ϕi(Xi)=[Xi,1−Xi]
- Nodo tensorial: Asi=[1,0], dimensión de enlace ∣α∣=1
Implementación de Puerta OR (Teorema 2.2):
- Función kernel: ϕi(Xi)=[Xi,1−Xi]
- Dimensión de enlace del nodo tensorial: ∣α∣=3
- Estructura tensorial específica:
Aα1α2s1=[[1,0,1],[0,1,0]]Aα2α1s2=[[0,1,1],[1,0,0]]
Implementación de Puerta NOT (Teorema 2.3):
- Función kernel: ϕ1(X1)=1−X1
- Nodo tensorial: As1=1
Puerta AND Universal (Teorema 2.4):
Para n variables de entrada, se puede implementar:
Ψ(X1,⋯,Xn)=(⋀i=1lXi)⋀(⋀j=l+1nXj)
Función Booleana Arbitraria (Teorema 2.5):
Mediante la representación de cualquier función booleana como forma normal disyuntiva de puertas AND universales, se puede construir el MPS correspondiente. Reglas de construcción:
- Escribir la función booleana como forma normal disyuntiva correspondiente a la tabla de verdad
- Establecer la dimensión de enlace como el número de términos disyuntivos m
- Rellenar elementos tensoriales según reglas específicas
El espacio de funciones MPS es denso en C0(In) (espacio de funciones continuas en el cubo unitario), es decir, para cualquier f(x)∈C0(In) y cualquier ε>0, existe una función MPS Ψ(x) tal que:
supx∣Ψ(x)−f(x)∣<ε
Demostración de Linealidad (Lema 3.2):
Se demuestra que la familia de funciones MPS M es un subespacio lineal de C0(In):
- Cerrado bajo multiplicación escalar: utilizando invariancia en escala
- Cerrado bajo adición: construyendo nueva representación MPS para la suma de dos MPS
Propiedad Discriminante (Lema 3.4):
Se demuestra que la función sigmoid invariante en escala posee la propiedad discriminante: si una medida con signo finito μ hace que la integral de todas las funciones MPS sea cero, entonces μ=0.
Demostración del Teorema Principal:
Utilizando argumentación por contradicción con el teorema de Hahn-Banach y el teorema de representación de Riesz:
- Suponer que M es un subconjunto propio de C0(In)
- Por el teorema de Hahn-Banach, existe un funcional no trivial que anula M
- Por el teorema de representación de Riesz, corresponde a una medida no trivial
- Por la propiedad discriminante, esa medida debe ser cero, produciendo una contradicción
MPS con activación sigmoid invariante en escala es equivalente a redes neuronales de una capa oculta equipadas con funciones kernel.
Mediante la contracción de índices internos {αi}, MPS puede escribirse como:
Ψ(x)=∑lσ(∑sWslΦs(x))
Esta es precisamente la forma de una red neuronal de una capa oculta, donde:
- Wsl son parámetros de peso
- Φs(x) es la función kernel, introduciendo naturalmente acoplamiento entre componentes de entrada
Mediante ejemplos concretos se demuestra cómo kernels no lineales como kernels polinomiales aparecen naturalmente en redes neuronales equivalentes, por ejemplo:
(Φs)T=[x1x2x3,x2x3,x1x3,x1x2,x1,x2,x3,1]
Puerta OR de 3 Entradas:
Expresión booleana: f(X1,X2,X3)=X1∨X2∨X3
La estructura tensorial MPS correspondiente se ha dado en detalle en la sección de métodos.
Puerta de Paridad de 3 Entradas:
Expresión booleana: f(X1,X2,X3)=X1⊕X2⊕X3
Pesos de red neuronal equivalente: Ws=[1,0,0,1,0,1,1,0]
Puerta de Umbral Th₃²:
Función de umbral que produce 1 cuando al menos 2 entradas son 1.
Para una puerta booleana de n entradas, en casos extremos la dimensión de enlace requiere O(2n), pero mediante simplificación con mapas de Karnaugh puede reducirse a O(2n−1), con número total de parámetros O(n2n−1), comparable en eficiencia a redes neuronales de una capa oculta.
- Sistema de notación gráfica de cálculo tensorial de Penrose (1971)
- Métodos de descomposición de Schmidt y DMRG de Vidal (2003, 2007)
- Investigación sistemática de propiedades de MPS por Perez-Garcia et al. (2006)
- Aplicaciones de aprendizaje supervisado de Stoudenmire & Schwab (2016)
- Diversas aplicaciones de redes tensoriales en regresión, clasificación y estimación de densidad
- Trabajos clásicos sobre aproximación universal de redes neuronales de Cybenko (1989), Hornik (1991)
- Este artículo utiliza técnicas similares de análisis funcional
- Completitud Teórica: MPS posee la capacidad de representar cualquier función booleana y aproximar cualquier función continua
- Revelación de Equivalencia: MPS es esencialmente equivalente a redes neuronales de una capa oculta con funciones kernel
- Importancia de la Función Kernel: La función kernel Φs1⋯sn es la clave de la capacidad de representación de MPS, no los índices de enlace {αi}
- Problemas de Practicidad: La implementación MPS de funciones booleanas requiere dimensiones de enlace exponenciales
- Pérdida de Significado Físico: Como herramienta puramente algebraica, MPS pierde propiedades importantes como el entrelazamiento en física cuántica
- Diseño de Función Kernel: Se requiere diseño cuidadoso de funciones kernel para obtener capacidad de representación suficiente
- Métodos de Construcción Eficientes: Buscar métodos de construcción MPS más eficientes, reduciendo complejidad
- Estructuras Profundas: Explorar estructuras MPS multicapa, por analogía con redes neuronales profundas
- Ventaja Cuántica: Explorar ventajas únicas de MPS en entornos de computación cuántica
- Contribución Teórica Significativa: Primer análisis sistemático de la capacidad de representación de MPS desde la perspectiva de aproximación de funciones
- Pruebas Rigurosas: Utilizando herramientas clásicas de análisis funcional, los procesos de demostración son rigurosos
- Perspectivas de Conectividad: Revela conexiones profundas entre MPS y redes neuronales, proporcionando puentes para comprensión interdisciplinaria
- Pruebas Constructivas: No solo demuestra existencia, sino que proporciona métodos de construcción concretos
- Practicidad Limitada: Los resultados teóricos pueden enfrentar maldición de dimensionalidad en aplicaciones prácticas
- Verificación Experimental Insuficiente: Carece de experimentos numéricos a gran escala para verificar resultados teóricos
- Ausencia de Algoritmos de Optimización: No discute cómo entrenar eficientemente tales modelos MPS
- Análisis Comparativo Incompleto: Análisis comparativo detallado con otros aproximadores universales insuficiente
- Valor Teórico Alto: Proporciona base teórica sólida para aplicaciones de redes tensoriales en aprendizaje automático
- Significado Interdisciplinario: Conecta dos campos: física cuántica y aprendizaje automático
- Fuerte Capacidad Inspiradora: Proporciona referencia importante para investigación posterior sobre capacidad de representación y métodos de optimización de redes tensoriales
- Investigación Teórica: Apropiado como literatura fundamental para teoría de representación de redes tensoriales
- Propósitos Educativos: Puede utilizarse para explicar la relación entre MPS y redes neuronales
- Diseño de Algoritmos: Proporciona orientación teórica para diseño de algoritmos de aprendizaje automático basados en MPS
- Aprendizaje Automático Cuántico: Proporciona apoyo teórico para diseño de algoritmos de aprendizaje automático cuántico
Este artículo cita literatura importante de múltiples disciplinas incluyendo redes tensoriales, información cuántica, aprendizaje automático y análisis funcional, incluyendo:
- Teoría fundamental de redes tensoriales (Penrose, 1971; Vidal, 2007; Perez-Garcia et al., 2006)
- Teoría de aproximación universal de redes neuronales (Cybenko, 1989; Hornik, 1991)
- Aplicaciones de redes tensoriales en aprendizaje automático (Stoudenmire & Schwab, 2016; et al.)
- Fundamentos de teoría de análisis funcional (Folland, 2013)