Asymmetric Burer-Monteiro Factorization with Theoretically Sound Penalty for Semidefinite Programming
Hu, Kwok
In the solving of large-scale semidefinite programs (SDPs), the symmetric Burer-Monteiro factorization (BMF) offers an economical low-rank solution of the form $XX^\top$. However, BMF turns a convex SDP into a more difficult nonconvex optimization problem in some cases, which limits the use of off-the-shelf convex optimization algorithms. To alleviate this problem, we convert symmetric BMF to its asymmetric counterpart involving $XY^\top$, and use a penalty with parameter $γ$ to encourage $X$ and $Y$ to be close. We show that the resultant asymmetric BMF is multi-convex, and thus convex optimization can again be used to solve the subproblems involving $X$ and $Y$ in an alternating manner. More importantly, to ensure that $X=Y$ on convergence, we derive theoretically sound conditions for exact $γ$ that are independent of both the application problem and underlying algorithm. Experiments demonstrate that the proposed method is more advantageous over existing related approaches.
academic
Асимметричная факторизация Бурера-Монтейро с теоретически обоснованным штрафом для полуопределённого программирования
При решении крупномасштабных задач полуопределённого программирования (ПОП) симметричная факторизация Бурера-Монтейро (ФБМ) обеспечивает экономичное низкоранговое решение вида XX⊤. Однако ФБМ преобразует выпуклую ПОП в более сложную невыпуклую задачу оптимизации, что ограничивает использование готовых алгоритмов выпуклой оптимизации. Для смягчения этой проблемы в данной работе симметричная ФБМ преобразуется в асимметричную форму, включающую XY⊤, с использованием штрафного члена с параметром γ, который побуждает X и Y быть близкими. Исследование показывает, что результирующая асимметричная ФБМ является многовыпуклой, поэтому может быть решена повторно с использованием выпуклой оптимизации альтернирующим способом для подзадач, включающих X и Y. Что ещё более важно, для обеспечения сходимости при X=Y в статье выведены теоретические достаточные условия для точного значения γ, независимые от прикладной задачи и базового алгоритма.
Сложность крупномасштабного полуопределённого программирования: Многие задачи машинного обучения требуют обучения низкоранговых положительно полуопределённых матриц путём решения задач вида minZ∈Sn+f(Z). Для крупномасштабных задач традиционные методы внутренней точки требуют временной сложности O(n3) и не являются масштабируемыми.
Ограничения факторизации Бурера-Монтейро: Хотя симметричная ФБМ через разложение Z=XX⊤ автоматически удовлетворяет ограничению положительной полуопределённости и снижает размерность переменных, она преобразует выпуклую задачу в невыпуклую, что ограничивает прямое применение алгоритмов выпуклой оптимизации.
Недостатки существующих методов:
В симметричной ФБМ X и X⊤ неразделимы, что препятствует использованию эффективных алгоритмов расщепления или альтернирования
Установка штрафного параметра в существующих асимметричных методах лишена теоретических гарантий и зависит от эвристической настройки
Данная работа направлена на восстановление применимости алгоритмов выпуклой оптимизации посредством асимметричного разложения XY⊤, одновременно обеспечивая теоретически строгую установку штрафного параметра для гарантирования универсальности и надёжности метода.
Теоретический вклад: Впервые доказано существование точного штрафного параметра с предоставлением теоретической нижней границы, независимой от прикладной задачи и алгоритма
Методологическое новшество: Преобразование симметричной ФБМ в многовыпуклую асимметричную ФБМ, позволяющее альтернирующему решению подзадач с использованием алгоритмов выпуклой оптимизации
Универсальная схема: Расширение ФБМ на более общую форму, включающую регуляризационный член h(X)
Гарантии сходимости: Предоставление анализа сходимости при динамическом штрафном параметре, ослабляющем ограничение существующих работ на постоянный штрафный параметр
1. Инициализация: X⁰, Y⁰, γ⁰, K
2. для k = 1, ..., K выполнить
3. Обновить Xᵏ ≈ argmin_X F(X, Yᵏ⁻¹; γᵏ⁻¹) посредством выпуклого алгоритма
4. Обновить Yᵏ ≈ argmin_Y F(Xᵏ, Y; γᵏ⁻¹) посредством выпуклого алгоритма
5. Обновить γᵏ
6. если критерий остановки выполнен, то вернуть Xᵏ или Yᵏ
7. конец для
Поддерживает три альтернирующих выпуклых алгоритма:
Альтернирующая минимизация (АМ): Прямое решение подзадач
Иерархическая альтернирующая минимизация (ИАМ): Оптимизация по столбцам
Альтернирующий ускоренный проксимальный градиентный метод (АУПГМ): Комбинирование ускорения и проксимального оператора
Симметричное неотрицательное матричное разложение (СНМР) для кластеризации:
minX∈Rn×r∥A−XX⊤∥F2+δ+(X)
где δ+(X) — индикаторная функция ограничения неотрицательности.
Рассмотрена простая задача minx∈R21(x2+a)2, штрафная форма которой:
minx,y∈RF(x,y,γ)=21(xy+a)2+2γ(x−y)2
Эксперименты показывают, что при слишком малом γ существующие адаптивные стратегии могут не сработать (например, при a=1,y0=−1,γ0=10−5 сходятся к неправильному решению), тогда как предложенный метод справляется корректно.
Лемма 1: При условиях достаточного убывания и суммируемости ∑k=1∞(γk+1−γk)∥Xk−Yk∥F2<∞ последовательность {(Xk,Yk)} сходится к предельной точке (X∞,Y∞) и X∞=Y∞.
Теорема 2: Алгоритм 1 сходится к критической точке F вида (Xˉ,Yˉ) с Xˉ=Yˉ, то есть Xˉ (или Yˉ) является критической точкой исходной задачи.
Традиционные методы: Методы внутренней точки имеют полиномиальную временную сложность, но O(n3) не масштабируется; методы проективного субградиента требуют дорогостоящего спектрального разложения
Методы ФБМ: Блочная координатная максимизация, увеличенный метод Лагранжа, ADMM, предобусловленный градиентный спуск и др.
Методы, специфичные для СНМР: Zhu и др. 45 предоставили ослабленную теоретическую нижнюю границу; Li и др. 22 использовали эвристическую адаптивную стратегию, но без гарантий безопасности
Методы, зависящие от алгоритма: Hu и Kwok 16 применимы только к конкретным алгоритмам ускоренного градиента
Теоретический прорыв: Впервые доказано существование точного штрафного параметра с предоставлением вычислительно эффективной теоретической нижней границы
Универсальность метода: Схема независима от конкретного приложения и алгоритма оптимизации, применима к различным задачам ПОП
Практическая ценность: Демонстрирует превосходную производительность в приложениях, таких как симметричное неотрицательное матричное разложение
Условия предположений: Требуется, чтобы функция f удовлетворяла определённым предположениям о выпуклости и гладкости
Регулировка штрафного параметра: Хотя предоставлена теоретическая нижняя граница, практическое применение может потребовать дополнительной настройки
Диапазон экспериментов: Проверка проводилась в основном на задачах кластеризации; эффективность в других приложениях ПОП требует дополнительной проверки
Статья цитирует 46 связанных работ, охватывающих полуопределённое программирование, матричное разложение, выпуклую оптимизацию и другие области, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это отличная статья, сочетающая теорию и практику, достигшая важного прорыва в теоретическом анализе метода ФБМ и предоставляющая новые идеи и инструменты для решения крупномасштабного полуопределённого программирования. Хотя в широте экспериментальной проверки есть место для улучшения, её теоретический вклад и методологическое новшество делают её важной работой в данной области.