2025-11-13T11:46:11.189224

Representation Theorem for Matrix Product States

Guo, Draper
In this work, we investigate the universal representation capacity of the Matrix Product States (MPS) from the perspective of boolean functions and continuous functions. We show that MPS can accurately realize arbitrary boolean functions by providing a construction method of the corresponding MPS structure for an arbitrarily given boolean gate. Moreover, we prove that the function space of MPS with the scale-invariant sigmoidal activation is dense in the space of continuous functions defined on a compact subspace of the $n$-dimensional real coordinate space $\mathbb{R^{n}}$. We study the relation between MPS and neural networks and show that the MPS with a scale-invariant sigmoidal function is equivalent to a one-hidden-layer neural network equipped with a kernel function. We construct the equivalent neural networks for several specific MPS models and show that non-linear kernels such as the polynomial kernel which introduces the couplings between different components of the input into the model appear naturally in the equivalent neural networks. At last, we discuss the realization of the Gaussian Process (GP) with infinitely wide MPS by studying their equivalent neural networks.
academic

Teorema de Representación para Estados de Producto Matricial

Información Básica

  • ID del Artículo: 2103.08277
  • Título: Representation Theorem for Matrix Product States
  • Autores: Erdong Guo, David Draper (University of California, Santa Cruz)
  • Clasificación: stat.ML cs.LG cs.NE quant-ph
  • Fecha de Publicación: 15 de marzo de 2021 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2103.08277

Resumen

Este artículo investiga la capacidad de representación universal de los Estados de Producto Matricial (Matrix Product States, MPS) desde la perspectiva de funciones booleanas y funciones continuas. Los autores demuestran que MPS puede implementar exactamente cualquier función booleana y proporcionan métodos de construcción de estructuras MPS correspondientes para puertas booleanas arbitrarias. Además, prueban que el espacio de funciones MPS con funciones de activación sigmoid invariantes en escala es denso en el espacio de funciones continuas definidas en subconjuntos compactos del espacio euclidiano n-dimensional real. Se estudia la relación entre MPS y redes neuronales, demostrando que MPS con funciones sigmoid invariantes en escala es equivalente a redes neuronales de una capa oculta equipadas con funciones kernel. Finalmente, se discute la realización de procesos gaussianos (GP) mediante MPS de ancho infinito mediante el estudio de redes neuronales equivalentes.

Antecedentes y Motivación de la Investigación

Contexto del Problema

  1. Auge de las Redes Tensoriales: Las redes tensoriales como lenguaje gráfico poderoso para representar sistemas cuánticos de muchos cuerpos han encontrado aplicaciones generalizadas en información cuántica, física de materia condensada, matemática aplicada e informática.
  2. Problema de Capacidad de Representación de MPS: Aunque MPS tiene importancia física significativa en física cuántica, cuando se utiliza como herramienta algebraica en aprendizaje automático, surge la pregunta natural: ¿Qué tan fuerte es la capacidad de representación de MPS como máquina algebraica?
  3. Necesidad de Teoría de Aproximación Universal: Similar al teorema de aproximación universal de redes neuronales, se necesita demostrar teóricamente los límites de la capacidad de representación de MPS.

Motivación de la Investigación

  1. Llenar Vacíos Teóricos: La investigación existente se enfoca principalmente en propiedades físicas de MPS, careciendo de análisis teórico de su capacidad como aproximador de funciones.
  2. Establecer Conexiones entre MPS y Redes Neuronales: Explorar relaciones de equivalencia entre MPS y modelos clásicos de aprendizaje automático, particularmente redes neuronales.
  3. Consideraciones Prácticas: En aplicaciones reales, las bases completas suelen ser de dimensión infinita, requiriendo investigación sobre cuán grande es el espacio de funciones que MPS puede "abarcar" bajo supuestos moderados.

Contribuciones Principales

  1. Representación Exacta de Funciones Booleanas: Se demuestra que MPS puede implementar exactamente cualquier función booleana, proporcionando métodos de prueba constructivos.
  2. Aproximación Universal de Funciones Continuas: Se demuestra que el espacio de funciones MPS con activación sigmoid invariante en escala es denso en el espacio de funciones continuas (respecto a la norma del supremo).
  3. Equivalencia entre MPS y Redes Neuronales: Se establece la relación de equivalencia entre MPS y redes neuronales de una capa oculta, revelando la aparición natural de funciones kernel en MPS.
  4. Realización de Procesos Gaussianos: Se discute la realización de procesos gaussianos mediante MPS de ancho infinito.

Explicación Detallada de Métodos

Definición del Modelo MPS

Estructura MPS Estándar

El modelo MPS original se define como: Ψl(xw,B)={α,s}Aα1α2s1Alαiαi+1siAαnα1snΦs1sn(x)\Psi_l(x|w,B) = \sum_{\{\alpha,s\}} A^{s_1}_{\alpha_1\alpha_2} \cdots A^{s_i}_{l\alpha_i\alpha_{i+1}} \cdots A^{s_n}_{\alpha_n\alpha_1} \Phi^{s_1\cdots s_n}(x)

donde la función kernel se define como: Φs1sn(x)=ϕs1(x1)ϕsi(xi)ϕsn(xn)\Phi^{s_1\cdots s_n}(x) = \phi^{s_1}(x_1) \otimes \cdots \otimes \phi^{s_i}(x_i) \cdots \otimes \phi^{s_n}(x_n)

Estructura MPS Modificada

Para lograr aproximación universal, los autores proponen una estructura MPS modificada: Ψ(xw,B)=lσ({α,s}Aα1α2s1Alαiαi+1siAαnα1snΦs1sn(x))\Psi(x|w,B) = \sum_l \sigma\left(\sum_{\{\alpha,s\}} A^{s_1}_{\alpha_1\alpha_2} \cdots A^{s_i}_{l\alpha_i\alpha_{i+1}} \cdots A^{s_n}_{\alpha_n\alpha_1} \Phi^{s_1\cdots s_n}(x)\right)

donde σ()\sigma(\cdot) es una función sigmoid invariante en escala: σ(x){0xCx+\sigma(x) \to \begin{cases} 0 & x \to -\infty \\ C & x \to +\infty \end{cases}

Método de Representación de Funciones Booleanas

Implementación de Puertas Booleanas Básicas

Implementación de Puerta AND (Teorema 2.1):

  • Función kernel: ϕi(Xi)=[Xi,1Xi]\phi_i(X_i) = [X_i, 1-X_i]
  • Nodo tensorial: Asi=[1,0]A^{s_i} = [1, 0], dimensión de enlace α=1|\alpha| = 1

Implementación de Puerta OR (Teorema 2.2):

  • Función kernel: ϕi(Xi)=[Xi,1Xi]\phi_i(X_i) = [X_i, 1-X_i]
  • Dimensión de enlace del nodo tensorial: α=3|\alpha| = 3
  • Estructura tensorial específica: Aα1α2s1=[[1,0,1],[0,1,0]]A^{s_1}_{\alpha_1\alpha_2} = [[1, 0, 1], [0, 1, 0]]Aα2α1s2=[[0,1,1],[1,0,0]]A^{s_2}_{\alpha_2\alpha_1} = [[0, 1, 1], [1, 0, 0]]

Implementación de Puerta NOT (Teorema 2.3):

  • Función kernel: ϕ1(X1)=1X1\phi_1(X_1) = 1-X_1
  • Nodo tensorial: As1=1A^{s_1} = 1

Puerta AND Universal y Funciones Booleanas Arbitrarias

Puerta AND Universal (Teorema 2.4): Para nn variables de entrada, se puede implementar: Ψ(X1,,Xn)=(i=1lXi)(j=l+1nXj)\Psi(X_1, \cdots, X_n) = (\bigwedge_{i=1}^l X_i) \bigwedge (\bigwedge_{j=l+1}^n \overline{X_j})

Función Booleana Arbitraria (Teorema 2.5): Mediante la representación de cualquier función booleana como forma normal disyuntiva de puertas AND universales, se puede construir el MPS correspondiente. Reglas de construcción:

  1. Escribir la función booleana como forma normal disyuntiva correspondiente a la tabla de verdad
  2. Establecer la dimensión de enlace como el número de términos disyuntivos mm
  3. Rellenar elementos tensoriales según reglas específicas

Teoría de Aproximación de Funciones Continuas

Teorema Principal (Teorema 3.1)

El espacio de funciones MPS es denso en C0(In)C_0(I^n) (espacio de funciones continuas en el cubo unitario), es decir, para cualquier f(x)C0(In)f(x) \in C_0(I^n) y cualquier ε>0\varepsilon > 0, existe una función MPS Ψ(x)\Psi(x) tal que: supxΨ(x)f(x)<ε\sup_x |\Psi(x) - f(x)| < \varepsilon

Técnicas de Demostración

Demostración de Linealidad (Lema 3.2): Se demuestra que la familia de funciones MPS M\mathcal{M} es un subespacio lineal de C0(In)C_0(I^n):

  1. Cerrado bajo multiplicación escalar: utilizando invariancia en escala
  2. Cerrado bajo adición: construyendo nueva representación MPS para la suma de dos MPS

Propiedad Discriminante (Lema 3.4): Se demuestra que la función sigmoid invariante en escala posee la propiedad discriminante: si una medida con signo finito μ\mu hace que la integral de todas las funciones MPS sea cero, entonces μ=0\mu = 0.

Demostración del Teorema Principal: Utilizando argumentación por contradicción con el teorema de Hahn-Banach y el teorema de representación de Riesz:

  1. Suponer que M\overline{\mathcal{M}} es un subconjunto propio de C0(In)C_0(I^n)
  2. Por el teorema de Hahn-Banach, existe un funcional no trivial que anula M\overline{\mathcal{M}}
  3. Por el teorema de representación de Riesz, corresponde a una medida no trivial
  4. Por la propiedad discriminante, esa medida debe ser cero, produciendo una contradicción

Equivalencia entre MPS y Redes Neuronales

Teorema de Equivalencia (Teorema 3.5)

MPS con activación sigmoid invariante en escala es equivalente a redes neuronales de una capa oculta equipadas con funciones kernel.

Método de Conversión

Mediante la contracción de índices internos {αi}\{\alpha_i\}, MPS puede escribirse como: Ψ(x)=lσ(sWslΦs(x))\Psi(x) = \sum_l \sigma\left(\sum_s W^l_s \Phi^s(x)\right)

Esta es precisamente la forma de una red neuronal de una capa oculta, donde:

  • WslW^l_s son parámetros de peso
  • Φs(x)\Phi^s(x) es la función kernel, introduciendo naturalmente acoplamiento entre componentes de entrada

Aparición Natural de Funciones Kernel

Mediante ejemplos concretos se demuestra cómo kernels no lineales como kernels polinomiales aparecen naturalmente en redes neuronales equivalentes, por ejemplo: (Φs)T=[x1x2x3,x2x3,x1x3,x1x2,x1,x2,x3,1](\Phi^s)^T = [x_1x_2x_3, x_2x_3, x_1x_3, x_1x_2, x_1, x_2, x_3, 1]

Resultados Experimentales y Análisis de Casos

Casos de Implementación de Funciones Booleanas

Puerta OR de 3 Entradas: Expresión booleana: f(X1,X2,X3)=X1X2X3f(X_1,X_2,X_3) = X_1 \vee X_2 \vee X_3 La estructura tensorial MPS correspondiente se ha dado en detalle en la sección de métodos.

Puerta de Paridad de 3 Entradas: Expresión booleana: f(X1,X2,X3)=X1X2X3f(X_1,X_2,X_3) = X_1 \oplus X_2 \oplus X_3 Pesos de red neuronal equivalente: Ws=[1,0,0,1,0,1,1,0]W^s = [1, 0, 0, 1, 0, 1, 1, 0]

Puerta de Umbral Th₃²: Función de umbral que produce 1 cuando al menos 2 entradas son 1.

Análisis de Complejidad

Para una puerta booleana de nn entradas, en casos extremos la dimensión de enlace requiere O(2n)O(2^n), pero mediante simplificación con mapas de Karnaugh puede reducirse a O(2n1)O(2^{n-1}), con número total de parámetros O(n2n1)O(n2^{n-1}), comparable en eficiencia a redes neuronales de una capa oculta.

Trabajo Relacionado

Fundamentos de Teoría de Redes Tensoriales

  • Sistema de notación gráfica de cálculo tensorial de Penrose (1971)
  • Métodos de descomposición de Schmidt y DMRG de Vidal (2003, 2007)
  • Investigación sistemática de propiedades de MPS por Perez-Garcia et al. (2006)

Redes Tensoriales en Aprendizaje Automático

  • Aplicaciones de aprendizaje supervisado de Stoudenmire & Schwab (2016)
  • Diversas aplicaciones de redes tensoriales en regresión, clasificación y estimación de densidad

Teoría de Aproximación Universal

  • Trabajos clásicos sobre aproximación universal de redes neuronales de Cybenko (1989), Hornik (1991)
  • Este artículo utiliza técnicas similares de análisis funcional

Conclusiones y Discusión

Conclusiones Principales

  1. Completitud Teórica: MPS posee la capacidad de representar cualquier función booleana y aproximar cualquier función continua
  2. Revelación de Equivalencia: MPS es esencialmente equivalente a redes neuronales de una capa oculta con funciones kernel
  3. Importancia de la Función Kernel: La función kernel Φs1sn\Phi^{s_1\cdots s_n} es la clave de la capacidad de representación de MPS, no los índices de enlace {αi}\{\alpha_i\}

Limitaciones

  1. Problemas de Practicidad: La implementación MPS de funciones booleanas requiere dimensiones de enlace exponenciales
  2. Pérdida de Significado Físico: Como herramienta puramente algebraica, MPS pierde propiedades importantes como el entrelazamiento en física cuántica
  3. Diseño de Función Kernel: Se requiere diseño cuidadoso de funciones kernel para obtener capacidad de representación suficiente

Direcciones Futuras

  1. Métodos de Construcción Eficientes: Buscar métodos de construcción MPS más eficientes, reduciendo complejidad
  2. Estructuras Profundas: Explorar estructuras MPS multicapa, por analogía con redes neuronales profundas
  3. Ventaja Cuántica: Explorar ventajas únicas de MPS en entornos de computación cuántica

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Significativa: Primer análisis sistemático de la capacidad de representación de MPS desde la perspectiva de aproximación de funciones
  2. Pruebas Rigurosas: Utilizando herramientas clásicas de análisis funcional, los procesos de demostración son rigurosos
  3. Perspectivas de Conectividad: Revela conexiones profundas entre MPS y redes neuronales, proporcionando puentes para comprensión interdisciplinaria
  4. Pruebas Constructivas: No solo demuestra existencia, sino que proporciona métodos de construcción concretos

Insuficiencias

  1. Practicidad Limitada: Los resultados teóricos pueden enfrentar maldición de dimensionalidad en aplicaciones prácticas
  2. Verificación Experimental Insuficiente: Carece de experimentos numéricos a gran escala para verificar resultados teóricos
  3. Ausencia de Algoritmos de Optimización: No discute cómo entrenar eficientemente tales modelos MPS
  4. Análisis Comparativo Incompleto: Análisis comparativo detallado con otros aproximadores universales insuficiente

Impacto

  1. Valor Teórico Alto: Proporciona base teórica sólida para aplicaciones de redes tensoriales en aprendizaje automático
  2. Significado Interdisciplinario: Conecta dos campos: física cuántica y aprendizaje automático
  3. Fuerte Capacidad Inspiradora: Proporciona referencia importante para investigación posterior sobre capacidad de representación y métodos de optimización de redes tensoriales

Escenarios Aplicables

  1. Investigación Teórica: Apropiado como literatura fundamental para teoría de representación de redes tensoriales
  2. Propósitos Educativos: Puede utilizarse para explicar la relación entre MPS y redes neuronales
  3. Diseño de Algoritmos: Proporciona orientación teórica para diseño de algoritmos de aprendizaje automático basados en MPS
  4. Aprendizaje Automático Cuántico: Proporciona apoyo teórico para diseño de algoritmos de aprendizaje automático cuántico

Referencias Bibliográficas

Este artículo cita literatura importante de múltiples disciplinas incluyendo redes tensoriales, información cuántica, aprendizaje automático y análisis funcional, incluyendo:

  • Teoría fundamental de redes tensoriales (Penrose, 1971; Vidal, 2007; Perez-Garcia et al., 2006)
  • Teoría de aproximación universal de redes neuronales (Cybenko, 1989; Hornik, 1991)
  • Aplicaciones de redes tensoriales en aprendizaje automático (Stoudenmire & Schwab, 2016; et al.)
  • Fundamentos de teoría de análisis funcional (Folland, 2013)