2025-11-16T18:43:12.898761

Partial Envelope for Optimization Problem with Nonconvex Constraints

Hu, Liu, Toh et al.

In this paper, we consider the nonlinear constrained optimization problem (NCP) with constraint set $\{x \in \mathcal{X}: c(x) = 0\}$, where $\mathcal{X}$ is a closed convex subset of $\mathbb{R}^n$. Building upon the forward-backward envelope framework for optimization over $\mathcal{X}$, we propose a forward-backward semi-envelope (FBSE) approach for solving (NCP). In the proposed semi-envelope approach, we eliminate the constraint $x \in \mathcal{X}$ through a specifically designed envelope scheme while preserving the constraint $x \in \mathcal{M} := \{x \in \mathbb{R}^n: c(x) = 0\}$. We establish that the forward-backward semi-envelope for (NCP) is well-defined and locally Lipschitz smooth over a neighborhood of $\mathcal{M}$. Furthermore, we prove that (NCP) and its corresponding forward-backward semi-envelope have the same first-order stationary points within a neighborhood of $\mathcal{X} \cap \mathcal{M}$. Consequently, our proposed forward-backward semi-envelope approach enables direct application of optimization methods over $\mathcal{M}$ while inheriting their convergence properties for (NCP). Additionally, we develop an inexact projected gradient descent method for minimizing the forward-backward semi-envelope over $\mathcal{M}$ and establish its global convergence. Preliminary numerical experiments demonstrate the practical efficiency and potential of our proposed approach.

academic

Enveloppe Partielle pour Problème d'Optimisation avec Contraintes Non-Convexes

Informations Fondamentales

ID du papier: 2510.22223
Titre: Partial Envelope for Optimization Problem with Nonconvex Constraints
Auteurs: Xiaoyin Hu, Xin Liu, Kim-Chuan Toh, Nachuan Xiao
Classification: math.OC (Optimisation Mathématique et Contrôle)
Date de soumission: 25 octobre 2025
Lien du papier: https://arxiv.org/abs/2510.22223v1

Résumé

Cet article étudie les problèmes d'optimisation non-linéaire avec contraintes (NCP) de la forme $\{x \in \mathcal{X}: c(x) = 0\}$ , où $\mathcal{X}$ est un sous-ensemble convexe fermé de $\mathbb{R}^n$ . En s'appuyant sur le cadre d'enveloppe avant-arrière sur $\mathcal{X}$ , les auteurs proposent la méthode d'enveloppe partielle avant-arrière (FBSE). Cette méthode élimine la contrainte $x \in \mathcal{X}$ par un schéma d'enveloppe spécialement conçu, tout en préservant la contrainte $x \in \mathcal{M} := \{x \in \mathbb{R}^n: c(x) = 0\}$ . L'article démontre que FBSE est bien définie et localement Lipschitz-lisse au voisinage de $\mathcal{M}$ , et que NCP et FBSE possèdent les mêmes points stationnaires du premier ordre au voisinage de $\mathcal{X} \cap \mathcal{M}$ . De plus, les auteurs développent une méthode de descente de gradient projeté inexacte et établissent sa convergence globale et sa complexité itérative $O(\varepsilon^{-2})$ .

Contexte et Motivation de la Recherche

Problème à Résoudre

Cet article étudie les problèmes d'optimisation avec contraintes de la forme: $\min_{x \in \mathbb{R}^n} f(x) + I_{\mathcal{X}}(x) \quad \text{s.c.} \quad x \in \mathcal{M} := \{x \in \mathbb{R}^n: c(x) = 0\}$

où $I_{\mathcal{X}}(x)$ est la fonction indicatrice de l'ensemble $\mathcal{X}$ , et $\mathcal{X}$ est un sous-ensemble convexe compact possédant une projection facile à calculer. Ce problème est équivalent à minimiser $f(x)$ sur $\{x \in \mathcal{X}: c(x) = 0\}$ .

Importance du Problème

Cette classe de problèmes d'optimisation englobe plusieurs modèles d'optimisation importants:

Optimisation avec contraintes d'égalité et d'inégalité
Problèmes de programmation conique (comme la programmation semi-définie)
Problèmes d'optimisation sur variétés

Les domaines d'application sont vastes, notamment:

Les tâches d'apprentissage automatique
Le traitement du signal
La conception mécanique, etc.

Limitations des Méthodes Existantes

Restrictions des méthodes d'enveloppe traditionnelles:

L'enveloppe avant-arrière (Forward-Backward Envelope) et l'enveloppe de Moreau dépendent de la convexité de l'ensemble de contraintes
Lorsque NCP est considéré comme un problème sans contrainte avec fonction indicatrice $I_{\mathcal{X} \cap \mathcal{M}}$ , la non-convexité de $\mathcal{M} \cap \mathcal{X}$ rend la fonction d'enveloppe non-lisse
La projection sur $\mathcal{X} \cap \mathcal{M}$ est coûteuse en calcul, même si $\Pi_{\mathcal{M}}$ et $\Pi_{\mathcal{X}}$ sont faciles à calculer

Limitations des méthodes de dissolution de contraintes: Les méthodes récemment proposées (constraint dissolving approach) découplent les contraintes via une fonction de pénalité exacte: $\min_{x \in \mathcal{X}} h_{cdf}(x) := f(A(x)) + \frac{\beta}{2}\|c(x)\|^2$

mais nécessitent le choix d'un paramètre de pénalité $\beta$ , ce qui est difficile en pratique.

Motivation de la Recherche

Les auteurs posent la question centrale:

Est-il possible de développer une méthode d'enveloppe pour les problèmes d'optimisation avec contraintes de la forme NCP sans introduire aucun paramètre de pénalité?

Contributions Principales

Proposition de la méthode d'enveloppe partielle avant-arrière (FBSE): Un nouveau schéma d'enveloppe qui élimine uniquement la contrainte convexe $x \in \mathcal{X}$ , préserve la contrainte d'égalité non-convexe $c(x) = 0$ , et n'introduit aucun paramètre de pénalité
Établissement de l'équivalence théorique: Preuve que NCP et FBSE possèdent les mêmes points stationnaires du premier ordre au voisinage de $\mathcal{X} \cap \mathcal{M}$ (pour des paramètres d'enveloppe suffisamment petits $\mu$ )
Preuve de bonnes propriétés de lissité: Démonstration que FBSE est bien définie au voisinage de $\mathcal{M}$ , continûment différentiable, et que le gradient est localement Lipschitz-continu
Développement d'un algorithme efficace: Proposition d'une méthode de descente de gradient projeté inexacte qui évite le calcul du terme Hessien $H(x)$ $H (x)$ dans le gradient complet, avec preuve de:
- Convergence globale
- Complexité itérative $O(\varepsilon^{-2})$
Vérification numérique: Les expériences sur les problèmes d'optimisation avec contraintes de cône semi-défini positif montrent que la méthode surpasse les solveurs existants en précision et efficacité

Détails de la Méthode

Définition du Problème

Problème original (NCP): $\min_{x \in \mathbb{R}^n} f(x) + I_{\mathcal{X}}(x) \quad \text{s.c.} \quad c(x) = 0$

Hypothèses clés (Hypothèse 1.1):

$f: \mathbb{R}^n \to \mathbb{R}$ est deux fois différentiable sur $\mathbb{R}^n$
$c: \mathbb{R}^n \to \mathbb{R}^p$ est deux fois différentiable, avec dérivée seconde localement Lipschitz-continue
Condition de non-dégénérescence des contraintes: pour tout $x \in \mathcal{K} := \mathcal{X} \cap \mathcal{M}$ , $\nabla c(x)^\top \text{lin}(T_{\mathcal{X}}(x)) = \mathbb{R}^p$

Architecture de la Méthode Principale

1. Application de Projection (Projective Mapping)

Définition d'une application $Q: \mathbb{R}^n \to \mathbb{S}^{n \times n}_+$ satisfaisant:

$Q(x)$ est localement Lipschitz-lisse
Pour tout $x \in \mathcal{X}$ , $\text{null}(Q(x)) = \text{range}(N_{\mathcal{X}}(x))$

Application de dissolution de contraintes: $A(x) = x - Q(x)\nabla c(x)(\nabla c(x)^\top Q(x)\nabla c(x) + \tau(x)I_p)^{-1}c(x)$

où $\tau(x) := L_\tau(\|c(x)\|^2 + \text{dist}(x, \mathcal{X})^2)$ , avec $L_\tau > 0$ paramètre prédéfini.

2. Enveloppe Partielle Avant-Arrière (FBSE)

Problème FBSE: $\min_{x \in \mathbb{R}^n} \psi_\mu(x) \quad \text{s.c.} \quad x \in \mathcal{M}$

où la fonction d'enveloppe partielle est définie par: $\psi_\mu(x) := \min_{w \in \mathcal{X}} f(x) + \langle J(x)\nabla f(x), w - x \rangle + \frac{1}{2\mu}\|w - x\|^2$

Application clé: $J(x) := I_n - \nabla c(x)(\nabla c(x)^\top Q(x)\nabla c(x) + \tau(x)I_p)^{-1}\nabla c(x)^\top Q(x)$

Solution optimale: $T_\mu(x) := \arg\min_{w \in \mathcal{X}} f(x) + \langle J(x)\nabla f(x), w - x \rangle + \frac{1}{2\mu}\|w - x\|^2 = \Pi_{\mathcal{X}}(x - \mu J(x)\nabla f(x))$

3. Expression du Gradient

Selon le Lemme 3.7, le gradient de $\psi_\mu$ est: $\nabla \psi_\mu(x) = \frac{1}{\mu}(I_n - \mu H(x))(x - T_\mu(x)) + (I_n - J(x))\nabla f(x)$

où $H(x) = J(x)\nabla^2 f(x) + \nabla J(x)[\nabla f(x)]$ .

Points Techniques Innovants

1. Stratégie d'Enveloppe Partielle

Innovation clé: Contrairement aux méthodes d'enveloppe traditionnelles qui traitent l'ensemble de contraintes complet $\mathcal{X} \cap \mathcal{M}$ , FBSE adopte une stratégie d'«enveloppe partielle»:

Élimine la contrainte convexe $x \in \mathcal{X}$ par technique d'enveloppe
Préserve la contrainte d'égalité non-convexe $c(x) = 0$
Évite les difficultés de calcul de projection sur ensemble non-convexe

2. Propriétés Spéciales de l'Application $J(x)$

Lemme 3.2: Pour tout $x \in \mathcal{X} \cap \mathcal{M}$ , on a $J(x)\nabla c(x) = 0$

Lemme 3.3: Pour tout $d \in \text{range}(N_{\mathcal{X}}(x))$ , on a $J(x)d = d$

Ces propriétés garantissent que:

Aux points réalisables, $J(x)$ projette le gradient sur l'espace tangent
L'information des directions du cône normal est préservée

3. Théorie d'Équivalence

Proposition 3.9: Si $x \in \mathcal{X} \cap \mathcal{M}$ est un point stationnaire du premier ordre de NCP, alors $x$ est un point stationnaire du premier ordre de FBSE.

Théorème 3.10 (Résultat théorique principal): Pour $\mu$ suffisamment petit avec $\mu \leq \mu_{\max}$ , si $x \in \mathcal{K}_\rho$ est un point stationnaire du premier ordre de FBSE, alors $x$ est un point stationnaire du premier ordre de NCP.

Clé de la preuve: Démonstration que $\|T_\mu(x) - x\| = 0$ , combinée avec la définie-positivité inférieure de $\nabla c(x)^\top Q(T_\mu(x))\nabla c(x)$ ( $\geq \sigma_Q/4$ ).

4. Méthode de Gradient Inexacte

Conception de l'algorithme (équation 3.20): $g_k = \frac{1}{\mu}(I_n - \nabla c(x_k)\nabla c(x_k)^\dagger)(x_k - T_\mu(x_k))$ $x_{k+1} = \Pi_{\mathcal{M}}(x_k - \eta_k g_k)$

Avantages:

Utilise $\frac{1}{\mu}(x - T_\mu(x))$ comme évaluation inexacte de $\nabla \psi_\mu$
Évite le calcul de $H(x)$ (impliquant le Hessien)
Projection sur $\text{null}(\nabla c(x_k)^\top)$ (espace tangent de $\mathcal{M}$ )

Proposition 3.13: Propriété de descente suffisante $\langle (I_n - \nabla c(x)\nabla c(x)^\dagger)\nabla \psi_\mu(x), T_\mu(x) - x \rangle \leq -\frac{1}{2\mu}\left(\frac{\sigma_Q}{8M_QM_c^2 + 2\sigma_Q}\right)^2\|x - T_\mu(x)\|^2$

Configuration Expérimentale

Ensembles de Données

Expérience 1: Cône Semi-Défini Positif et Contrainte Sphérique

Problème d'optimisation: $\min_{X \in \mathbb{S}^{n \times n}} \langle B, X \rangle + \frac{1}{2}\langle X, H(X) \rangle + \frac{\nu}{6}\|X\|_F^3$ $\text{s.c.} \quad \|X\|_F^2 = 1, \quad X \succeq 0, \quad \|X\|_2 \leq M$

Tailles testées: $n \in \{10, 20, 30, 50\}$
$B \in \mathbb{S}^{n \times n}$ généré aléatoirement (distribution normale standard)
$H: \mathbb{S}^{n \times n} \to \mathbb{S}^{n \times n}$ application linéaire auto-adjointe
Paramètres: $\nu = 1.0$ , $M = 10^6$ , $\mu = 0.01$

Expérience 2: Cône Semi-Défini Positif et Contrainte Linéaire

Problème d'optimisation: $\min_{X \in \mathbb{R}^{n \times n}} \langle B_0, X \rangle + \frac{1}{2}\langle X, H(X) \rangle + \frac{\nu}{6}\|X\|_F^3$ $\text{s.c.} \quad \mathcal{B}(X) = b, \quad X \succeq 0, \quad \|X\|_2 \leq M$

Tailles testées: $n \in \{10, 20, 30, 50\}$
$\mathcal{B}: \mathbb{S}^{n \times n} \to \mathbb{R}^m$ application linéaire
Paramètres: $\nu = 1.0$ , $\mu = 0.001$

Métriques d'Évaluation

Stationnarité: $\text{dist}(0, \nabla f(y) + N_{\mathcal{X}}(y) + \text{range}(\nabla c(y)))$ , où $y = \Pi_{\mathcal{X}}(x)$
Violation de réalisabilité: $\|c(\Pi_{\mathcal{X}}(x))\|$
Valeur de la fonction objectif
Nombre d'itérations et nombre d'évaluations de fonction
Temps CPU (secondes)

Méthodes de Comparaison

PGD: Méthode de descente de gradient projeté proposée (utilisant pas de Barzilai-Borwein adaptatif et recherche linéaire non-monotone)
TRCON: Optimiseur d'optimisation avec région de confiance de SciPy
SLSQP: Programmation linéaire par moindres carrés séquentiels de SciPy
RGD: Descente de gradient riemannienne de PyManopt
RCG: Gradient conjugué riemannien de PyManopt

Détails d'Implémentation

Environnement de programmation: Python 3.12.2
Matériel: CPU AMD Ryzen 7 5700, RAM 16 GB
Tolérance: $10^{-5}$
Temps d'exécution maximal: 300 secondes
Application de projection (Expérience 1): $Q(X): Y \mapsto \Phi(X^2\Theta_M(X)^2 Y)$ où $\Phi(M) = (M + M^\top)/2$ est l'opérateur de symétrisation

Résultats Expérimentaux

Résultats Principaux

Expérience 1: Cône Semi-Défini Positif et Contrainte Sphérique (Tableau 4)

$n$	Solveur	Valeur objectif	Itérations	Stationnarité	Réalisabilité	Temps CPU(s)
10	PGD	-9.446e-01	94	5.435e-06	0.000e+00	0.218
	TRCON	-9.446e-01	86	1.525e-05	9.864e-11	0.483
	RGD	-9.663e-01	65	1.207e-01	8.476e-02	0.308
20	PGD	-1.658e+00	94	8.917e-06	2.220e-16	0.231
	TRCON	-1.658e+00	76	4.922e-05	1.644e-12	0.728
30	PGD	-1.847e+00	84	4.833e-06	4.441e-16	0.351
	TRCON	-1.847e+00	65	8.923e-05	3.127e-11	1.299
50	PGD	-2.323e+00	91	5.830e-06	2.220e-16	1.082
	TRCON	-2.323e+00	67	1.216e-04	9.163e-11	31.039

Découvertes clés:

Haute précision: PGD et TRCON atteignent tous deux la tolérance $10^{-5}$ , avec valeurs objectif identiques
Efficacité: PGD est 28.7 fois plus rapide que TRCON pour $n=50$ (1.082s vs 31.039s)
Échec des méthodes riemanniennes: Les indicateurs de stationnarité de RGD et RCG sont à l'ordre $10^{-1}$ , loin de la convergence
Échec de SLSQP: Dépassement du délai pour $n \geq 30$

Expérience 2: Cône Semi-Défini Positif et Contrainte Linéaire (Tableau 5)

$n$	Solveur	Valeur objectif	Itérations	Stationnarité	Réalisabilité	Temps CPU(s)
10	PGD	1.090e+03	97	3.604e-06	8.555e-13	0.205
	TRCON	1.090e+03	204	1.289e-05	1.158e-12	0.893
20	PGD	3.330e+03	274	7.954e-06	4.433e-13	0.811
	TRCON	3.330e+03	510	3.451e-05	1.592e-12	6.337
30	PGD	2.936e+04	173	7.645e-06	1.775e-12	3.350
	TRCON	2.935e+04	349	8.346e-05	7.227e-11	19.249
50	PGD	8.555e+04	262	6.413e-06	5.687e-12	7.197
	TRCON	-	-	-	-	>300

Découvertes clés:

Scalabilité: PGD résout le problème en 7.2 secondes pour $n=50$ tandis que TRCON dépasse le délai
Avantage de vitesse: PGD est 5.7 fois plus rapide que TRCON pour $n=30$
Échec complet de SLSQP: Tous les cas de test n'ont pas convergé ou sont numériquement instables

Découvertes Expérimentales

Vérification de l'équivalence: Les expériences confirment l'équivalence théorique des points stationnaires du premier ordre entre NCP et FBSE (PGD et TRCON obtiennent des valeurs objectif identiques)
Efficacité du gradient inexacte: L'utilisation de $\frac{1}{\mu}(x - T_\mu(x))$ comme approximation du gradient, évitant le calcul de $H(x)$ , garantit toujours la convergence
Limitations des méthodes riemanniennes:
- RGD/RCG optimisent sur la variété sphérique, mais ne considèrent pas la contrainte PSD
- Les indicateurs de stationnarité sont mauvais, indiquant que les points stationnaires de NCP n'ont pas été trouvés
Défis des solveurs génériques:
- SLSQP est sensible aux contraintes non-convexes, numériquement instable
- TRCON est fiable mais coûteux en calcul
Avantages de FBSE:
- Transforme les problèmes avec contraintes non-convexes en problèmes avec contraintes d'égalité
- Préserve la structure du problème
- Permet la conception d'algorithmes efficaces

Travaux Connexes

Méthodes d'Enveloppe

1. Enveloppe Avant-Arrière (Forward-Backward Envelope)

Patrinos & Bemporad (2013): Première proposition pour optimisation composite convexe
Stella et al. (2017): Méthode quasi-Newton
Themelis et al. (2018): Algorithme avec recherche linéaire non-monotone
Limitation: Nécessite la convexité de $\mathcal{X}$ , inapplicable à $\mathcal{X} \cap \mathcal{M}$

2. Enveloppe de Moreau

Moreau (1965): Technique de lissage classique
Davis & Drusvyatskiy (2019): Méthode de sous-gradient stochastique pour fonctions faiblement convexes
Limitation: Les sous-problèmes n'ont généralement pas de solution en forme fermée, pratiquement incalculables

Méthodes d'Optimisation avec Contraintes

1. Méthode de Dissolution de Contraintes

Xiao et al. (2025): Propose l'application de dissolution de contraintes $A(x)$ et la fonction de pénalité exacte
Différence avec cet article: FBSE évite d'introduire un paramètre de pénalité, traite directement les contraintes d'égalité

2. Méthodes Traditionnelles

Programmation Quadratique Successive (SQP): Nécessite l'information du second ordre
Méthode du Lagrangien Augmenté: Nécessite l'ajustement du paramètre de pénalité et du multiplicateur de Lagrange
Avantage de cet article: Nécessite uniquement l'information du premier ordre, sélection de paramètres simple

Optimisation sur Variétés

Absil et al. (2008): Algorithmes d'optimisation sur variétés
Lien avec cet article: Lorsque $\mathcal{M}$ est une variété, FBSE peut être vu comme cas particulier de l'optimisation sur variétés
Extension de cet article: Traite des contraintes d'égalité non-linéaires plus générales

Conclusions et Discussion

Conclusions Principales

Contributions théoriques:
- Établissement de l'équivalence entre NCP et FBSE aux points stationnaires du premier ordre (Théorème 3.10)
- Preuve de la lissité Lipschitz de $\psi_\mu$ (Lemme 3.7)
- Relation entre les points $\varepsilon$ -stationnaires (Théorème 3.12)
Contributions algorithmiques:
- Proposition d'une méthode de descente de gradient projeté inexacte évitant le calcul du Hessien
- Preuve de la complexité itérative $O(\varepsilon^{-2})$ (Théorème 3.17)
- Vérification expérimentale de l'efficacité de l'algorithme
Contributions méthodologiques:
- Stratégie d'«enveloppe partielle»: traitement sélectif des contraintes
- Sans paramètre de pénalité: évite les difficultés d'ajustement de paramètres
- Conception modulaire: peut être combinée avec les solveurs existants pour contraintes d'égalité

Limitations

1. Hypothèses Théoriques

Condition de non-dégénérescence des contraintes (Hypothèse 1.1(3)): Nécessite $\nabla c(x)^\top \text{lin}(T_{\mathcal{X}}(x)) = \mathbb{R}^p$ , peut ne pas être satisfaite dans certaines applications
Propriétés locales: L'équivalence ne tient que dans le voisinage $\mathcal{K}_\rho$ de $\mathcal{K}$ , où $\rho$ dépend de plusieurs constantes

2. Sélection de Paramètres

Paramètre d'enveloppe $\mu$ : Nécessite $\mu \leq \mu_{\max}$ , où $\mu_{\max}$ implique plusieurs constantes difficiles à estimer (Tableaux 1-2)
En pratique: L'article suggère l'utilisation d'estimations adaptatives ou de techniques de Monte-Carlo, mais ne discute pas en détail

3. Construction de l'Application de Projection

Dépend de la structure du problème: Nécessite la construction de $Q(x)$ satisfaisant l'Hypothèse 1.2 pour chaque $\mathcal{X}$ spécifique
Tableau 3 couvre uniquement les cas courants: Pour les contraintes complexes, la construction de $Q(x)$ peut être non-triviale

4. Expériences Numériques

Tailles de test limitées: Maximum $n=50$ , problèmes à grande échelle non testés
Types de problèmes uniques: Uniquement des problèmes SDP testés, autres scénarios d'application non vérifiés

Directions Futures

Extensions théoriques:
- Relâchement de la condition de non-dégénérescence des contraintes
- Analyse de la convergence globale (plutôt que l'équivalence locale)
- Étude des propriétés de convergence du second ordre
Améliorations algorithmiques:
- Développement de stratégies de sélection adaptative de $\mu$
- Incorporation d'information du second ordre (comme BFGS) pour accélérer la convergence
- Conception d'algorithmes spécialisés pour structures particulières
Extensions d'Application:
- Test sur plus de scénarios d'application (apprentissage automatique, traitement du signal)
- Traitement de problèmes à grande échelle
- Extension aux contraintes d'inégalité
Enveloppe Partielle de Moreau:
- L'article mentionne mais ne discute pas en détail $\psi_{M,\mu}(x) := \arg\min_{y \in \mathcal{X}} f(y) + \frac{1}{2\mu}\|y - x\|^2$
- Peut être applicable aux fonctions objectif non-lisses

Évaluation Approfondie

Avantages

1. Rigueur Théorique

Cadre théorique complet: De la bonne définition (Lemme 3.1) à l'équivalence (Théorème 3.10) à la convergence (Théorème 3.17), logique rigoureuse
Lemmes techniques abondants: Les Lemmes 3.2-3.8 fournissent une base solide pour les théorèmes principaux
Constantes explicites: Les Tableaux 1-2 énumèrent en détail toutes les constantes pertinentes, facilitant l'analyse théorique

2. Innovativité de la Méthode

Idée d'enveloppe partielle: Première proposition d'une stratégie de traitement sélectif des contraintes, dépassant les limitations des méthodes d'enveloppe traditionnelles
Conception sans paramètre de pénalité: Comparée à la méthode de dissolution de contraintes, évite les difficultés d'ajustement du paramètre de pénalité
Technique de gradient inexacte: Utilisation ingénieuse de $\frac{1}{\mu}(x - T_\mu(x))$ , réduisant la complexité de calcul

3. Praticité de l'Algorithme

Facile à implémenter: Les projections sur $\mathcal{M}$ et $\mathcal{X}$ ont des méthodes existantes
Numériquement stable: Les indicateurs de stationnarité dans les expériences atteignent l'ordre $10^{-6}$
Efficace en calcul: Accélération significative par rapport à TRCON (jusqu'à 28.7 fois)

4. Clarté de la Rédaction

Structure raisonnable: De la motivation à la théorie aux expériences, niveaux clairs
Notation standardisée: La Section 2.1 définit spécialement les symboles, évitant la confusion
Preuves détaillées: Les étapes de preuve des théorèmes clés sont claires

Insuffisances

1. Lacunes Théoriques

Praticité de $\mu_{\max}$ : La définition de $\mu_{\max}$ dans le Tableau 2 implique $\sup$ et $\inf$ , difficile à calculer en pratique
Absence de propriétés globales: Pas de discussion sur comment l'algorithme entre dans le voisinage $\mathcal{K}_\rho$
Dépendance des constantes: $\rho$ et $\mu_{\max}$ dépendent de plusieurs constantes difficiles à estimer, pouvant conduire à des estimations conservatrices

2. Limitations Expérimentales

Comparaisons incomplètes:
- Pas de comparaison avec des solveurs SDP spécialisés (comme SDPT3, MOSEK)
- Pas de test de la méthode du Lagrangien augmenté
Diversité insuffisante des problèmes: Uniquement des problèmes SDP testés, autres applications non couvertes (comme optimisation sur variétés, apprentissage automatique)
Scalabilité inconnue: Maximum $n=50$ , performance sur problèmes à grande échelle non vérifiée

3. Applicabilité de la Méthode

Construction de l'application de projection:
- Le Tableau 3 ne fournit que 4 types courants de contraintes pour $Q(x)$
- Pour les contraintes complexes (comme l'intersection de plusieurs contraintes), la construction de $Q(x)$ peut être difficile
Limitations des hypothèses: La condition de non-dégénérescence des contraintes peut ne pas être satisfaite dans certains problèmes

4. Détails Techniques

Sélection du pas: L'équation (3.22) donne $\eta_{\max}$ , mais l'algorithme réel utilise le pas de Barzilai-Borwein, la relation entre les deux n'est pas claire
Exigence du point initial: L'algorithme nécessite $x_0 \in \mathcal{X} \cap \mathcal{M}$ , mais comment obtenir un point initial réalisable n'est pas discuté
Enveloppe Partielle de Moreau: Mentionnée mais non analysée en détail, c'est un regret

Impact

1. Contribution au Domaine

Signification théorique:
- Extension de l'applicabilité des méthodes d'enveloppe (des contraintes convexes aux contraintes mixtes)
- Fourniture de nouveaux outils théoriques (cadre d'enveloppe partielle)
Signification méthodologique:
- Inspiration pour la stratégie de «traitement sélectif des contraintes»
- Nouvelle perspective pour l'optimisation avec contraintes non-convexes

2. Valeur Pratique

Application immédiate: Peut être utilisée pour résoudre des problèmes SDP, optimisation sur variétés, etc.
Application potentielle: Optimisation avec contraintes en apprentissage automatique (comme contraintes d'équité, contraintes de parcimonie)
Implémentation logicielle: L'équipe d'auteurs a l'expérience du développement du package CDOpt, peut publier une boîte à outils

3. Reproductibilité

Avantages:
- Description claire de l'algorithme (équation 3.20)
- Configuration expérimentale détaillée
- Formules concrètes pour les applications de projection (Tableau 3)
Insuffisances:
- Code non publié
- Certains détails d'implémentation (comme paramètres spécifiques de la recherche linéaire non-monotone) non donnés

4. Directions de Recherche Ultérieure

Court terme:
- Relâchement des hypothèses théoriques
- Extension aux contraintes d'inégalité
- Vérification sur plus d'applications
Long terme:
- Développement d'une théorie générale d'«enveloppe partielle»
- Combinaison avec d'autres techniques d'optimisation (comme ADMM, méthodes proximales)
- Versions distribuées/stochastiques

Scénarios d'Application

1. Scénarios Idéaux

Structure des contraintes:
- $\mathcal{X}$ est un ensemble convexe simple (projection facile à calculer)
- $c(x) = 0$ est une contrainte d'égalité lisse
- Satisfait la condition de non-dégénérescence des contraintes
Taille du problème: Moyenne ( $n \sim 10^2$ )
Exigence de précision: Précision moyenne ( $\varepsilon \sim 10^{-5}$ )

2. Applications Concrètes

Programmation Semi-Définie: Vérifiée par les expériences
Optimisation sur Variétés: Comme optimisation sur variété de Stiefel
Apprentissage Automatique:
- Entraînement de réseaux de neurones avec contraintes d'égalité
- Problèmes de classification avec contraintes d'équité
Traitement du Signal: Problèmes de récupération avec contraintes de norme

3. Scénarios Inapplicables

Contraintes d'inégalité dominantes: FBSE traite uniquement les contraintes d'égalité
Projection sur $\mathcal{X}$ difficile: Comme $\mathcal{X}$ est un ensemble non-convexe complexe
Exigence de très haute précision: La complexité $O(\varepsilon^{-2})$ peut être insuffisante
Problèmes à très grande échelle: Le calcul de projection et de gradient peut devenir goulot d'étranglement

Références (Sélection)

Stella et al. (2017): Forward–backward quasi-newton methods for nonsmooth optimization problems. Computational Optimization and Applications
- Extension quasi-Newton de l'enveloppe avant-arrière
Xiao et al. (2023): Dissolving constraints for Riemannian optimization. Mathematics of Operations Research
- Fondation théorique de la méthode de dissolution de contraintes
Xiao et al. (2025): An exact penalty approach for equality constrained optimization over a convex set. arXiv preprint
- Travail précédent de cet article, proposant l'application de dissolution de contraintes
Absil et al. (2008): Optimization algorithms on matrix manifolds. Princeton University Press
- Manuel classique de l'optimisation sur variétés
Rockafellar & Wets (2009): Variational analysis. Springer
- Fondation théorique de l'analyse variationnelle, utilisée pour l'analyse de projection et cône normal

Évaluation Globale: Ceci est un excellent article avec rigueur théorique et innovation méthodologique. L'idée d'«enveloppe partielle» offre une nouvelle perspective pour traiter les problèmes d'optimisation avec contraintes mixtes, l'analyse théorique est complète, et les expériences numériques vérifient initialement l'efficacité de la méthode. Les principales insuffisances résident dans la praticité des constantes théoriques, la complétude des expériences et la vérification de scalabilité sur problèmes à grande échelle. Ce travail apporte une contribution importante au domaine de l'optimisation avec contraintes non-convexes, avec valeur académique et potentiel d'application élevés. Il est recommandé que les travaux ultérieurs se concentrent sur le relâchement des hypothèses théoriques, des tests d'application plus larges et le traitement de problèmes à grande échelle.