Asymmetric Burer-Monteiro Factorization with Theoretically Sound Penalty for Semidefinite Programming
Hu, Kwok
In the solving of large-scale semidefinite programs (SDPs), the symmetric Burer-Monteiro factorization (BMF) offers an economical low-rank solution of the form $XX^\top$. However, BMF turns a convex SDP into a more difficult nonconvex optimization problem in some cases, which limits the use of off-the-shelf convex optimization algorithms. To alleviate this problem, we convert symmetric BMF to its asymmetric counterpart involving $XY^\top$, and use a penalty with parameter $γ$ to encourage $X$ and $Y$ to be close. We show that the resultant asymmetric BMF is multi-convex, and thus convex optimization can again be used to solve the subproblems involving $X$ and $Y$ in an alternating manner. More importantly, to ensure that $X=Y$ on convergence, we derive theoretically sound conditions for exact $γ$ that are independent of both the application problem and underlying algorithm. Experiments demonstrate that the proposed method is more advantageous over existing related approaches.
academic
Factorisation Asymétrique de Burer-Monteiro avec Pénalité Théoriquement Fondée pour la Programmation Semi-Définie
Dans la résolution de problèmes de programmation semi-définie (PSD) à grande échelle, la factorisation symétrique de Burer-Monteiro (FBM) fournit des solutions économiques de faible rang de la forme XX⊤. Cependant, la FBM transforme le PSD convexe en un problème d'optimisation non-convexe plus difficile, limitant l'utilisation des algorithmes d'optimisation convexe disponibles. Pour atténuer ce problème, cet article convertit la FBM symétrique en une forme asymétrique impliquant XY⊤ et utilise un terme de pénalité avec paramètre γ pour encourager X et Y à converger. L'étude montre que la FBM asymétrique résultante est multi-convexe, permettant ainsi l'utilisation à nouveau de l'optimisation convexe pour résoudre alternativement les sous-problèmes impliquant X et Y. Plus important encore, pour assurer la convergence vers X=Y, l'article dérive les conditions théoriques suffisantes exactes pour γ indépendantes du problème d'application et de l'algorithme sous-jacent.
Défis de la programmation semi-définie à grande échelle: De nombreux problèmes d'apprentissage automatique nécessitent d'apprendre des matrices semi-définies positives de faible rang en résolvant des problèmes de la forme minZ∈Sn+f(Z). Pour les problèmes à grande échelle, les méthodes de points intérieurs traditionnelles nécessitent une complexité temporelle de O(n3), ce qui n'est pas évolutif.
Limitations de la factorisation de Burer-Monteiro: Bien que la FBM symétrique via la décomposition Z=XX⊤ satisfasse automatiquement les contraintes de semi-définition positive et réduise la dimensionnalité des variables, elle transforme un problème convexe en un problème non-convexe, limitant l'application directe des algorithmes d'optimisation convexe.
Insuffisances des méthodes existantes:
Dans la FBM symétrique, X et X⊤ ne sont pas séparables, empêchant l'utilisation d'algorithmes de scission ou d'alternance efficaces
Le réglage des paramètres de pénalité dans les méthodes asymétriques existantes manque de garanties théoriques et dépend d'ajustements heuristiques
Cet article vise à restaurer l'applicabilité des algorithmes d'optimisation convexe par le biais de la décomposition asymétrique XY⊤, tout en fournissant un réglage théoriquement rigoureux des paramètres de pénalité, assurant l'universalité et la fiabilité de la méthode.
Contribution théorique: Première preuve de l'existence du paramètre de pénalité exact, fournissant une borne inférieure théorique indépendante du problème d'application et de l'algorithme
Innovation méthodologique: Conversion de la FBM symétrique en FBM asymétrique multi-convexe, permettant aux algorithmes d'optimisation convexe de résoudre alternativement les sous-problèmes
Cadre générique: Extension de la FBM à une forme plus générale incluant des termes de régularisation h(X)
Garanties de convergence: Analyse de convergence sous paramètre de pénalité dynamique, relâchant les restrictions des travaux existants sur les paramètres de pénalité constants
Algorithme 1: Optimisation Alternée pour la Factorisation Étendue de Burer-Monteiro
1. Initialisation: X⁰, Y⁰, γ⁰, K
2. pour k = 1, ..., K faire
3. Mise à jour Xᵏ ≈ argmin_X F(X, Yᵏ⁻¹; γᵏ⁻¹) via algorithme convexe
4. Mise à jour Yᵏ ≈ argmin_Y F(Xᵏ, Y; γᵏ⁻¹) via algorithme convexe
5. Mise à jour γᵏ
6. si critère d'arrêt satisfait alors retourner Xᵏ ou Yᵏ
7. fin pour
Supporte trois algorithmes d'alternance convexe:
Minimisation Alternée (MA): Résolution directe des sous-problèmes
Minimisation Alternée Hiérarchique (MAH): Optimisation colonne par colonne
Méthode du Gradient Proximal Accéléré Alterné (MGPAA): Combinaison d'accélération et d'opérateurs proximaux
Factorisation Symétrique de Matrice Non-Négative (FSMNN) pour le clustering:
minX∈Rn×r∥A−XX⊤∥F2+δ+(X)
où δ+(X) est la fonction indicatrice de la contrainte de non-négativité.
Considérant le problème simple minx∈R21(x2+a)2, sa forme pénalisée est:
minx,y∈RF(x,y,γ)=21(xy+a)2+2γ(x−y)2
Les expériences montrent que lorsque γ est trop petit, les stratégies adaptatives existantes peuvent échouer (par exemple, pour a=1,y0=−1,γ0=10−5, convergence vers une mauvaise solution), tandis que la méthode proposée traite correctement le problème.
Les résultats sur les trois ensembles de données montrent:
Digit1: Les méthodes proposées (MAnotre, MAHnotre, MGPAAnotre) atteignent une précision de clustering plus élevée à la plupart des points temporels
ORL: Comparée aux méthodes de base correspondantes, la méthode proposée converge plus rapidement avec une précision finale plus élevée
COIL-20: Modèle de gain de performance similaire
Découvertes clés:
La stratégie de mise à jour du paramètre de pénalité proposée est plus raisonnable que les méthodes existantes, conduisant à une convergence plus rapide
L'optimisation convexe alternée est plus efficace que l'optimisation purement non-convexe (nGPA)
Le choix de différents algorithmes (MA/MAH/MGPAA) dépend de l'échelle du problème: complexité MA O(n2r+nr2+r3), complexité MAH O(2n2r+nr)
Lemme 1: Sous les conditions de descente suffisante et de sommabilité ∑k=1∞(γk+1−γk)∥Xk−Yk∥F2<∞, la séquence {(Xk,Yk)} converge vers un point limite (X∞,Y∞) avec X∞=Y∞.
Théorème 2: L'Algorithme 1 converge vers un point critique (Xˉ,Yˉ) de F avec Xˉ=Yˉ, c'est-à-dire que Xˉ (ou Yˉ) est un point critique du problème original.
Méthodes traditionnelles: Les méthodes de points intérieurs ont une complexité temporelle polynomiale mais O(n3) non-évolutive; les méthodes de sous-gradient projeté nécessitent une décomposition en valeurs propres coûteuse
Méthodes FBM: Maximisation par coordonnées par blocs, méthode du Lagrangien augmenté, ADMM, descente de gradient préconditionné, etc.
Méthodes spécifiques à FSMNN: Zhu et al. 45 fournissent une borne inférieure relâchée; Li et al. 22 utilisent une stratégie adaptative heuristique mais non sûre
Méthodes dépendantes de l'algorithme: Hu et Kwok 16 s'appliquent uniquement à des algorithmes de gradient accéléré spécifiques
Percée théorique: Première preuve de l'existence du paramètre de pénalité exact, fournissant une borne inférieure théorique calculable efficacement
Universalité de la méthode: Le cadre est indépendant de l'application spécifique et de l'algorithme d'optimisation, applicable à diverses problèmes PSD
Valeur pratique: Démontre des performances supérieures dans les applications telles que la factorisation symétrique de matrice non-négative
Conditions d'hypothèse: Nécessite que la fonction f satisfasse des hypothèses spécifiques de convexité et de lissage
Ajustement du paramètre de pénalité: Bien que fournissant une borne inférieure théorique, l'application pratique peut nécessiter un affinage supplémentaire
Portée expérimentale: Principalement validée sur des tâches de clustering, l'efficacité sur d'autres applications PSD nécessite plus de vérification
Contribution théorique: Fournit une nouvelle perspective théorique pour la méthode FBM, pouvant inspirer les recherches ultérieures
Valeur pratique: Fournit un nouvel outil pour la résolution de PSD à grande échelle, particulièrement dans les applications d'apprentissage automatique
Reproductibilité: Description d'algorithme claire, résultats théoriques vérifiables, favorisant la promotion et l'application de la méthode
Programmation semi-définie à grande échelle: Particulièrement les problèmes avec structure de faible rang
Applications d'apprentissage automatique: Complétion de matrice, PCA parcimonieuse, apprentissage du noyau, apprentissage multi-tâches, etc.
Nécessitant des garanties d'optimisation convexe: Lorsque la structure du problème permet l'utilisation d'algorithmes d'optimisation convexe disponibles
L'article cite 46 références connexes, couvrant plusieurs domaines importants tels que la programmation semi-définie, la factorisation de matrice et l'optimisation convexe, fournissant une base théorique solide pour la recherche.
Évaluation Globale: Cet article est un excellent travail qui met l'accent sur la théorie et la pratique, réalisant une percée importante dans l'analyse théorique de la méthode FBM et fournissant de nouvelles idées et outils pour la résolution de programmation semi-définie à grande échelle. Bien qu'il y ait de la place pour l'amélioration dans la largeur de la vérification expérimentale, ses contributions théoriques et son innovation méthodologique en font un travail important dans ce domaine.