2025-11-13T11:46:11.189224

Representation Theorem for Matrix Product States

Guo, Draper

In this work, we investigate the universal representation capacity of the Matrix Product States (MPS) from the perspective of boolean functions and continuous functions. We show that MPS can accurately realize arbitrary boolean functions by providing a construction method of the corresponding MPS structure for an arbitrarily given boolean gate. Moreover, we prove that the function space of MPS with the scale-invariant sigmoidal activation is dense in the space of continuous functions defined on a compact subspace of the $n$-dimensional real coordinate space $\mathbb{R^{n}}$. We study the relation between MPS and neural networks and show that the MPS with a scale-invariant sigmoidal function is equivalent to a one-hidden-layer neural network equipped with a kernel function. We construct the equivalent neural networks for several specific MPS models and show that non-linear kernels such as the polynomial kernel which introduces the couplings between different components of the input into the model appear naturally in the equivalent neural networks. At last, we discuss the realization of the Gaussian Process (GP) with infinitely wide MPS by studying their equivalent neural networks.

academic

Teorema de Representación para Estados de Producto Matricial

Información Básica

ID del Artículo: 2103.08277
Título: Representation Theorem for Matrix Product States
Autores: Erdong Guo, David Draper (University of California, Santa Cruz)
Clasificación: stat.ML cs.LG cs.NE quant-ph
Fecha de Publicación: 15 de marzo de 2021 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2103.08277

Resumen

Este artículo investiga la capacidad de representación universal de los Estados de Producto Matricial (Matrix Product States, MPS) desde la perspectiva de funciones booleanas y funciones continuas. Los autores demuestran que MPS puede implementar exactamente cualquier función booleana y proporcionan métodos de construcción de estructuras MPS correspondientes para puertas booleanas arbitrarias. Además, prueban que el espacio de funciones MPS con funciones de activación sigmoid invariantes en escala es denso en el espacio de funciones continuas definidas en subconjuntos compactos del espacio euclidiano n-dimensional real. Se estudia la relación entre MPS y redes neuronales, demostrando que MPS con funciones sigmoid invariantes en escala es equivalente a redes neuronales de una capa oculta equipadas con funciones kernel. Finalmente, se discute la realización de procesos gaussianos (GP) mediante MPS de ancho infinito mediante el estudio de redes neuronales equivalentes.

Antecedentes y Motivación de la Investigación

Contexto del Problema

Auge de las Redes Tensoriales: Las redes tensoriales como lenguaje gráfico poderoso para representar sistemas cuánticos de muchos cuerpos han encontrado aplicaciones generalizadas en información cuántica, física de materia condensada, matemática aplicada e informática.
Problema de Capacidad de Representación de MPS: Aunque MPS tiene importancia física significativa en física cuántica, cuando se utiliza como herramienta algebraica en aprendizaje automático, surge la pregunta natural: ¿Qué tan fuerte es la capacidad de representación de MPS como máquina algebraica?
Necesidad de Teoría de Aproximación Universal: Similar al teorema de aproximación universal de redes neuronales, se necesita demostrar teóricamente los límites de la capacidad de representación de MPS.

Motivación de la Investigación

Llenar Vacíos Teóricos: La investigación existente se enfoca principalmente en propiedades físicas de MPS, careciendo de análisis teórico de su capacidad como aproximador de funciones.
Establecer Conexiones entre MPS y Redes Neuronales: Explorar relaciones de equivalencia entre MPS y modelos clásicos de aprendizaje automático, particularmente redes neuronales.
Consideraciones Prácticas: En aplicaciones reales, las bases completas suelen ser de dimensión infinita, requiriendo investigación sobre cuán grande es el espacio de funciones que MPS puede "abarcar" bajo supuestos moderados.

Contribuciones Principales

Representación Exacta de Funciones Booleanas: Se demuestra que MPS puede implementar exactamente cualquier función booleana, proporcionando métodos de prueba constructivos.
Aproximación Universal de Funciones Continuas: Se demuestra que el espacio de funciones MPS con activación sigmoid invariante en escala es denso en el espacio de funciones continuas (respecto a la norma del supremo).
Equivalencia entre MPS y Redes Neuronales: Se establece la relación de equivalencia entre MPS y redes neuronales de una capa oculta, revelando la aparición natural de funciones kernel en MPS.
Realización de Procesos Gaussianos: Se discute la realización de procesos gaussianos mediante MPS de ancho infinito.

Explicación Detallada de Métodos

Definición del Modelo MPS

Estructura MPS Estándar

El modelo MPS original se define como: $\Psi_l(x|w,B) = \sum_{\{\alpha,s\}} A^{s_1}_{\alpha_1\alpha_2} \cdots A^{s_i}_{l\alpha_i\alpha_{i+1}} \cdots A^{s_n}_{\alpha_n\alpha_1} \Phi^{s_1\cdots s_n}(x)$

donde la función kernel se define como: $\Phi^{s_1\cdots s_n}(x) = \phi^{s_1}(x_1) \otimes \cdots \otimes \phi^{s_i}(x_i) \cdots \otimes \phi^{s_n}(x_n)$

Estructura MPS Modificada

Para lograr aproximación universal, los autores proponen una estructura MPS modificada: $\Psi(x|w,B) = \sum_l \sigma\left(\sum_{\{\alpha,s\}} A^{s_1}_{\alpha_1\alpha_2} \cdots A^{s_i}_{l\alpha_i\alpha_{i+1}} \cdots A^{s_n}_{\alpha_n\alpha_1} \Phi^{s_1\cdots s_n}(x)\right)$

donde $\sigma(\cdot)$ es una función sigmoid invariante en escala: $\sigma(x) \to \begin{cases} 0 & x \to -\infty \\ C & x \to +\infty \end{cases}$

Método de Representación de Funciones Booleanas

Implementación de Puertas Booleanas Básicas

Implementación de Puerta AND (Teorema 2.1):

Función kernel: $\phi_i(X_i) = [X_i, 1-X_i]$
Nodo tensorial: $A^{s_i} = [1, 0]$ , dimensión de enlace $|\alpha| = 1$

Implementación de Puerta OR (Teorema 2.2):

Función kernel: $\phi_i(X_i) = [X_i, 1-X_i]$
Dimensión de enlace del nodo tensorial: $|\alpha| = 3$
Estructura tensorial específica: $A^{s_1}_{\alpha_1\alpha_2} = [[1, 0, 1], [0, 1, 0]]$ $A^{s_2}_{\alpha_2\alpha_1} = [[0, 1, 1], [1, 0, 0]]$

Implementación de Puerta NOT (Teorema 2.3):

Función kernel: $\phi_1(X_1) = 1-X_1$
Nodo tensorial: $A^{s_1} = 1$

Puerta AND Universal y Funciones Booleanas Arbitrarias

Puerta AND Universal (Teorema 2.4): Para $n$ variables de entrada, se puede implementar: $\Psi(X_1, \cdots, X_n) = (\bigwedge_{i=1}^l X_i) \bigwedge (\bigwedge_{j=l+1}^n \overline{X_j})$

Función Booleana Arbitraria (Teorema 2.5): Mediante la representación de cualquier función booleana como forma normal disyuntiva de puertas AND universales, se puede construir el MPS correspondiente. Reglas de construcción:

Escribir la función booleana como forma normal disyuntiva correspondiente a la tabla de verdad
Establecer la dimensión de enlace como el número de términos disyuntivos $m$
Rellenar elementos tensoriales según reglas específicas

Teoría de Aproximación de Funciones Continuas

Teorema Principal (Teorema 3.1)

El espacio de funciones MPS es denso en $C_0(I^n)$ (espacio de funciones continuas en el cubo unitario), es decir, para cualquier $f(x) \in C_0(I^n)$ y cualquier $\varepsilon > 0$ , existe una función MPS $\Psi(x)$ tal que: $\sup_x |\Psi(x) - f(x)| < \varepsilon$

Técnicas de Demostración

Demostración de Linealidad (Lema 3.2): Se demuestra que la familia de funciones MPS $\mathcal{M}$ es un subespacio lineal de $C_0(I^n)$ :

Cerrado bajo multiplicación escalar: utilizando invariancia en escala
Cerrado bajo adición: construyendo nueva representación MPS para la suma de dos MPS

Propiedad Discriminante (Lema 3.4): Se demuestra que la función sigmoid invariante en escala posee la propiedad discriminante: si una medida con signo finito $\mu$ hace que la integral de todas las funciones MPS sea cero, entonces $\mu = 0$ .

Demostración del Teorema Principal: Utilizando argumentación por contradicción con el teorema de Hahn-Banach y el teorema de representación de Riesz:

Suponer que $\overline{\mathcal{M}}$ es un subconjunto propio de $C_0(I^n)$
Por el teorema de Hahn-Banach, existe un funcional no trivial que anula $\overline{\mathcal{M}}$
Por el teorema de representación de Riesz, corresponde a una medida no trivial
Por la propiedad discriminante, esa medida debe ser cero, produciendo una contradicción

Equivalencia entre MPS y Redes Neuronales

Teorema de Equivalencia (Teorema 3.5)

MPS con activación sigmoid invariante en escala es equivalente a redes neuronales de una capa oculta equipadas con funciones kernel.

Método de Conversión

Mediante la contracción de índices internos $\{\alpha_i\}$ , MPS puede escribirse como: $\Psi(x) = \sum_l \sigma\left(\sum_s W^l_s \Phi^s(x)\right)$

Esta es precisamente la forma de una red neuronal de una capa oculta, donde:

$W^l_s$ son parámetros de peso
$\Phi^s(x)$ es la función kernel, introduciendo naturalmente acoplamiento entre componentes de entrada

Aparición Natural de Funciones Kernel

Mediante ejemplos concretos se demuestra cómo kernels no lineales como kernels polinomiales aparecen naturalmente en redes neuronales equivalentes, por ejemplo: $(\Phi^s)^T = [x_1x_2x_3, x_2x_3, x_1x_3, x_1x_2, x_1, x_2, x_3, 1]$

Resultados Experimentales y Análisis de Casos

Casos de Implementación de Funciones Booleanas

Puerta OR de 3 Entradas: Expresión booleana: $f(X_1,X_2,X_3) = X_1 \vee X_2 \vee X_3$ La estructura tensorial MPS correspondiente se ha dado en detalle en la sección de métodos.

Puerta de Paridad de 3 Entradas: Expresión booleana: $f(X_1,X_2,X_3) = X_1 \oplus X_2 \oplus X_3$ Pesos de red neuronal equivalente: $W^s = [1, 0, 0, 1, 0, 1, 1, 0]$

Puerta de Umbral Th₃²: Función de umbral que produce 1 cuando al menos 2 entradas son 1.

Análisis de Complejidad

Para una puerta booleana de $n$ entradas, en casos extremos la dimensión de enlace requiere $O(2^n)$ , pero mediante simplificación con mapas de Karnaugh puede reducirse a $O(2^{n-1})$ , con número total de parámetros $O(n2^{n-1})$ , comparable en eficiencia a redes neuronales de una capa oculta.

Trabajo Relacionado

Fundamentos de Teoría de Redes Tensoriales

Sistema de notación gráfica de cálculo tensorial de Penrose (1971)
Métodos de descomposición de Schmidt y DMRG de Vidal (2003, 2007)
Investigación sistemática de propiedades de MPS por Perez-Garcia et al. (2006)

Redes Tensoriales en Aprendizaje Automático

Aplicaciones de aprendizaje supervisado de Stoudenmire & Schwab (2016)
Diversas aplicaciones de redes tensoriales en regresión, clasificación y estimación de densidad

Teoría de Aproximación Universal

Trabajos clásicos sobre aproximación universal de redes neuronales de Cybenko (1989), Hornik (1991)
Este artículo utiliza técnicas similares de análisis funcional

Conclusiones y Discusión

Conclusiones Principales

Completitud Teórica: MPS posee la capacidad de representar cualquier función booleana y aproximar cualquier función continua
Revelación de Equivalencia: MPS es esencialmente equivalente a redes neuronales de una capa oculta con funciones kernel
Importancia de la Función Kernel: La función kernel $\Phi^{s_1\cdots s_n}$ es la clave de la capacidad de representación de MPS, no los índices de enlace $\{\alpha_i\}$

Limitaciones

Problemas de Practicidad: La implementación MPS de funciones booleanas requiere dimensiones de enlace exponenciales
Pérdida de Significado Físico: Como herramienta puramente algebraica, MPS pierde propiedades importantes como el entrelazamiento en física cuántica
Diseño de Función Kernel: Se requiere diseño cuidadoso de funciones kernel para obtener capacidad de representación suficiente

Direcciones Futuras

Métodos de Construcción Eficientes: Buscar métodos de construcción MPS más eficientes, reduciendo complejidad
Estructuras Profundas: Explorar estructuras MPS multicapa, por analogía con redes neuronales profundas
Ventaja Cuántica: Explorar ventajas únicas de MPS en entornos de computación cuántica

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: Primer análisis sistemático de la capacidad de representación de MPS desde la perspectiva de aproximación de funciones
Pruebas Rigurosas: Utilizando herramientas clásicas de análisis funcional, los procesos de demostración son rigurosos
Perspectivas de Conectividad: Revela conexiones profundas entre MPS y redes neuronales, proporcionando puentes para comprensión interdisciplinaria
Pruebas Constructivas: No solo demuestra existencia, sino que proporciona métodos de construcción concretos

Insuficiencias

Practicidad Limitada: Los resultados teóricos pueden enfrentar maldición de dimensionalidad en aplicaciones prácticas
Verificación Experimental Insuficiente: Carece de experimentos numéricos a gran escala para verificar resultados teóricos
Ausencia de Algoritmos de Optimización: No discute cómo entrenar eficientemente tales modelos MPS
Análisis Comparativo Incompleto: Análisis comparativo detallado con otros aproximadores universales insuficiente

Impacto

Valor Teórico Alto: Proporciona base teórica sólida para aplicaciones de redes tensoriales en aprendizaje automático
Significado Interdisciplinario: Conecta dos campos: física cuántica y aprendizaje automático
Fuerte Capacidad Inspiradora: Proporciona referencia importante para investigación posterior sobre capacidad de representación y métodos de optimización de redes tensoriales

Escenarios Aplicables

Investigación Teórica: Apropiado como literatura fundamental para teoría de representación de redes tensoriales
Propósitos Educativos: Puede utilizarse para explicar la relación entre MPS y redes neuronales
Diseño de Algoritmos: Proporciona orientación teórica para diseño de algoritmos de aprendizaje automático basados en MPS
Aprendizaje Automático Cuántico: Proporciona apoyo teórico para diseño de algoritmos de aprendizaje automático cuántico

Referencias Bibliográficas

Este artículo cita literatura importante de múltiples disciplinas incluyendo redes tensoriales, información cuántica, aprendizaje automático y análisis funcional, incluyendo:

Teoría fundamental de redes tensoriales (Penrose, 1971; Vidal, 2007; Perez-Garcia et al., 2006)
Teoría de aproximación universal de redes neuronales (Cybenko, 1989; Hornik, 1991)
Aplicaciones de redes tensoriales en aprendizaje automático (Stoudenmire & Schwab, 2016; et al.)
Fundamentos de teoría de análisis funcional (Folland, 2013)