In this work, we investigate the universal representation capacity of the Matrix Product States (MPS) from the perspective of boolean functions and continuous functions. We show that MPS can accurately realize arbitrary boolean functions by providing a construction method of the corresponding MPS structure for an arbitrarily given boolean gate. Moreover, we prove that the function space of MPS with the scale-invariant sigmoidal activation is dense in the space of continuous functions defined on a compact subspace of the $n$-dimensional real coordinate space $\mathbb{R^{n}}$. We study the relation between MPS and neural networks and show that the MPS with a scale-invariant sigmoidal function is equivalent to a one-hidden-layer neural network equipped with a kernel function. We construct the equivalent neural networks for several specific MPS models and show that non-linear kernels such as the polynomial kernel which introduces the couplings between different components of the input into the model appear naturally in the equivalent neural networks. At last, we discuss the realization of the Gaussian Process (GP) with infinitely wide MPS by studying their equivalent neural networks.
- ID статьи: 2103.08277
- Название: Representation Theorem for Matrix Product States
- Авторы: Erdong Guo, David Draper (Университет Калифорнии, Санта-Крус)
- Классификация: stat.ML cs.LG cs.NE quant-ph
- Дата публикации: 15 марта 2021 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2103.08277
В данной работе исследуется универсальная представимость матричных произведений состояний (Matrix Product States, MPS) с точки зрения булевых и непрерывных функций. Авторы доказывают, что MPS может точно реализовать произвольную булеву функцию и предоставляют конструктивный метод построения соответствующей структуры MPS для любого булева вентиля. Кроме того, доказывается, что пространство функций MPS с масштабно-инвариантной сигмоидальной функцией активации плотно в пространстве непрерывных функций, определённых на компактных подмножествах n-мерного вещественного координатного пространства. Исследуется связь между MPS и нейронными сетями, показывающая эквивалентность MPS с масштабно-инвариантной сигмоидальной функцией однослойной нейронной сети с ядровой функцией. Наконец, обсуждается реализация гауссовского процесса (GP) бесконечно широким MPS через исследование эквивалентной нейронной сети.
- Возникновение тензорных сетей: Тензорные сети как мощный графический язык для представления многотельных квантовых систем получили широкое применение в квантовой информации, физике конденсированного состояния, прикладной математике и информатике.
- Проблема представимости MPS: Хотя MPS имеет важное физическое значение в квантовой физике, при использовании его в качестве алгебраического инструмента в машинном обучении возникает естественный вопрос: насколько сильна представимость MPS как алгебраической машины?
- Необходимость теории универсальной аппроксимации: Подобно теореме универсальной аппроксимации для нейронных сетей, требуется теоретическое доказательство границ представимости MPS.
- Заполнение теоретического пробела: Существующие исследования сосредоточены в основном на физических свойствах MPS, но не хватает теоретического анализа его как аппроксиматора функций.
- Установление связи между MPS и нейронными сетями: Исследование эквивалентности между MPS и классическими моделями машинного обучения, особенно нейронными сетями.
- Практические соображения: В практических приложениях полный базис обычно является бесконечномерным, поэтому необходимо исследовать, какое пространство функций может "натянуть" MPS при мягких предположениях.
- Точное представление булевых функций: Доказано, что MPS может точно реализовать произвольную булеву функцию с предоставлением конструктивного метода доказательства.
- Универсальная аппроксимация непрерывных функций: Доказано, что пространство функций MPS с масштабно-инвариантной сигмоидальной активацией плотно в пространстве непрерывных функций (относительно нормы супремума).
- Эквивалентность MPS и нейронных сетей: Установлена связь между MPS и однослойной нейронной сетью, раскрывающая естественное появление ядровых функций в MPS.
- Реализация гауссовского процесса: Обсуждение реализации гауссовского процесса через бесконечно широкий MPS.
Исходная модель MPS определяется как:
Ψl(x∣w,B)=∑{α,s}Aα1α2s1⋯Alαiαi+1si⋯Aαnα1snΦs1⋯sn(x)
где ядровая функция определяется как:
Φs1⋯sn(x)=ϕs1(x1)⊗⋯⊗ϕsi(xi)⋯⊗ϕsn(xn)
Для достижения универсальной аппроксимации авторы предлагают модифицированную структуру MPS:
Ψ(x∣w,B)=∑lσ(∑{α,s}Aα1α2s1⋯Alαiαi+1si⋯Aαnα1snΦs1⋯sn(x))
где σ(⋅) — масштабно-инвариантная сигмоидальная функция:
σ(x)→{0Cx→−∞x→+∞
Реализация вентиля AND (теорема 2.1):
- Ядровая функция: ϕi(Xi)=[Xi,1−Xi]
- Узел тензора: Asi=[1,0], размерность связи ∣α∣=1
Реализация вентиля OR (теорема 2.2):
- Ядровая функция: ϕi(Xi)=[Xi,1−Xi]
- Размерность связи узла тензора: ∣α∣=3
- Конкретная структура тензора:
Aα1α2s1=[[1,0,1],[0,1,0]]Aα2α1s2=[[0,1,1],[1,0,0]]
Реализация вентиля NOT (теорема 2.3):
- Ядровая функция: ϕ1(X1)=1−X1
- Узел тензора: As1=1
Универсальный вентиль AND (теорема 2.4):
Для n входных переменных можно реализовать:
Ψ(X1,⋯,Xn)=(⋀i=1lXi)⋀(⋀j=l+1nXj)
Произвольная булева функция (теорема 2.5):
Путём представления произвольной булевой функции в виде дизъюнктивной нормальной формы соответствующих универсальных вентилей AND можно построить соответствующий MPS. Правила построения:
- Запись булевой функции в дизъюнктивной нормальной форме, соответствующей таблице истинности
- Установка размерности связи равной количеству дизъюнктивных членов m
- Заполнение элементов тензора согласно определённым правилам
Пространство функций MPS плотно в C0(In) (пространство непрерывных функций на единичном кубе), то есть для любой f(x)∈C0(In) и любого ε>0 существует функция MPS Ψ(x) такая, что:
supx∣Ψ(x)−f(x)∣<ε
Доказательство линейности (лемма 3.2):
Доказательство того, что семейство функций MPS M является линейным подпространством C0(In):
- Замкнутость относительно скалярного умножения: использование масштабной инвариантности
- Замкнутость относительно сложения: построение нового MPS, представляющего сумму двух MPS
Свойство дискриминативности (лемма 3.4):
Доказательство того, что масштабно-инвариантная сигмоидальная функция обладает свойством дискриминативности: если конечная знаковая мера μ такова, что интеграл всех функций MPS равен нулю, то μ=0.
Доказательство основной теоремы:
Использование доказательства от противного с применением теоремы Хана-Банаха и теоремы представления Рисца:
- Предположение, что M является собственным подмножеством C0(In)
- По теореме Хана-Банаха существует нетривиальный функционал, аннулирующий M
- По теореме представления Рисца ему соответствует нетривиальная мера
- По свойству дискриминативности эта мера должна быть нулевой, что приводит к противоречию
MPS с масштабно-инвариантной сигмоидальной активацией эквивалентен однослойной нейронной сети с ядровой функцией.
Путём свёртывания внутренних индексов {αi} MPS можно записать как:
Ψ(x)=∑lσ(∑sWslΦs(x))
Это именно форма однослойной нейронной сети, где:
- Wsl — параметры весов
- Φs(x) — ядровая функция, естественно вводящая связь между входными компонентами
На конкретных примерах показано, как нелинейные ядра, такие как полиномиальные ядра, естественно появляются в эквивалентной нейронной сети, например:
(Φs)T=[x1x2x3,x2x3,x1x3,x1x2,x1,x2,x3,1]
Вентиль OR с 3 входами:
Булево выражение: f(X1,X2,X3)=X1∨X2∨X3
Соответствующая структура тензора MPS подробно приведена в разделе методов.
Вентиль проверки чётности с 3 входами:
Булево выражение: f(X1,X2,X3)=X1⊕X2⊕X3
Веса эквивалентной нейронной сети: Ws=[1,0,0,1,0,1,1,0]
Пороговый вентиль Th₃²:
Пороговая функция, выдающая 1, когда по крайней мере 2 входа равны 1.
Для булева вентиля с n входами в крайнем случае размерность связи требует O(2n), но путём упрощения карт Карно может быть снижена до O(2n−1), при этом общее количество параметров составляет O(n2n−1), что сравнимо с эффективностью однослойной нейронной сети.
- Графическая система тензорного исчисления Пенроуза (1971)
- Методы разложения Шмидта и DMRG Видаля (2003, 2007)
- Систематическое исследование свойств MPS Перес-Гарсией и др. (2006)
- Применение в контролируемом обучении Стауденмайра и Шваба (2016)
- Различные применения тензорных сетей в регрессии, классификации и оценке плотности
- Классические работы о универсальной аппроксимации нейронных сетей Кибенко (1989), Хорника (1991)
- Данная работа использует аналогичные методы функционального анализа
- Теоретическая полнота: MPS обладает способностью представлять произвольные булевы функции и аппроксимировать произвольные непрерывные функции
- Раскрытие эквивалентности: MPS по существу эквивалентен однослойной нейронной сети с ядровой функцией
- Важность ядровой функции: Ядровая функция Φs1⋯sn является ключом к представимости MPS, а не индексы связей {αi}
- Проблемы практичности: Реализация булевых функций MPS требует экспоненциальной размерности связи
- Потеря физического смысла: При использовании в качестве чистого алгебраического инструмента MPS теряет важные физические свойства, такие как запутанность в квантовой физике
- Проектирование ядровой функции: Требуется тщательное проектирование ядровой функции для получения достаточной представимости
- Эффективные методы построения: Поиск более эффективных методов построения MPS для снижения сложности
- Глубокие структуры: Исследование многослойных структур MPS по аналогии с глубокими нейронными сетями
- Квантовое преимущество: Исследование уникальных преимуществ MPS в квантовой вычислительной среде
- Значительный теоретический вклад: Первое систематическое исследование представимости MPS с точки зрения аппроксимации функций
- Строгие доказательства: Использование классических инструментов функционального анализа с тщательной разработкой доказательств
- Инсайты о связности: Раскрытие глубокой связи между MPS и нейронными сетями, обеспечивающее мост для кросс-доменного понимания
- Конструктивные доказательства: Не только доказана существование, но и предоставлены конкретные методы построения
- Ограниченная практичность: Теоретические результаты могут столкнуться с проклятием размерности при практическом применении
- Недостаточная экспериментальная проверка: Отсутствие крупномасштабных численных экспериментов для проверки теоретических результатов
- Отсутствие алгоритмов оптимизации: Не обсуждается, как эффективно обучать такие модели MPS
- Недостаточный сравнительный анализ: Недостаточно подробное сравнение с другими универсальными аппроксиматорами
- Высокая теоретическая ценность: Обеспечивает прочную теоретическую основу для применения тензорных сетей в машинном обучении
- Кросс-доменное значение: Связывает две области — квантовую физику и машинное обучение
- Высокая вдохновляющая ценность: Служит важным справочником для последующих исследований представимости тензорных сетей и методов оптимизации
- Теоретические исследования: Подходит в качестве основополагающей литературы для теории представления тензорных сетей
- Образовательные цели: Может использоваться для объяснения связи между MPS и нейронными сетями
- Проектирование алгоритмов: Обеспечивает теоретическое руководство для разработки алгоритмов машинного обучения на основе MPS
- Квантовое машинное обучение: Обеспечивает теоретическую поддержку для разработки алгоритмов квантового машинного обучения
В данной работе цитируются важные работы из нескольких областей — тензорных сетей, квантовой информации, машинного обучения и функционального анализа, включая:
- Теоретические основы тензорных сетей (Пенроуз, 1971; Видаль, 2007; Перес-Гарсия и др., 2006)
- Теория универсальной аппроксимации нейронных сетей (Кибенко, 1989; Хорник, 1991)
- Применение тензорных сетей в машинном обучении (Стауденмайр и Шваб, 2016; и др.)
- Теоретические основы функционального анализа (Фоллэнд, 2013)