2025-11-13T22:16:11.184529

Fast and Interpretable Mixed-Integer Linear Program Solving by Learning Model Reduction

Li, Chen, Li et al.
By exploiting the correlation between the structure and the solution of Mixed-Integer Linear Programming (MILP), Machine Learning (ML) has become a promising method for solving large-scale MILP problems. Existing ML-based MILP solvers mainly focus on end-to-end solution learning, which suffers from the scalability issue due to the high dimensionality of the solution space. Instead of directly learning the optimal solution, this paper aims to learn a reduced and equivalent model of the original MILP as an intermediate step. The reduced model often corresponds to interpretable operations and is much simpler, enabling us to solve large-scale MILP problems much faster than existing commercial solvers. However, current approaches rely only on the optimal reduced model, overlooking the significant preference information of all reduced models. To address this issue, this paper proposes a preference-based model reduction learning method, which considers the relative performance (i.e., objective cost and constraint feasibility) of all reduced models on each MILP instance as preferences. We also introduce an attention mechanism to capture and represent preference information, which helps improve the performance of model reduction learning tasks. Moreover, we propose a SetCover based pruning method to control the number of reduced models (i.e., labels), thereby simplifying the learning process. Evaluation on real-world MILP problems shows that 1) compared to the state-of-the-art model reduction ML methods, our method obtains nearly 20% improvement on solution accuracy, and 2) compared to the commercial solver Gurobi, two to four orders of magnitude speedups are achieved.
academic

Résolution rapide et interprétable de programmes linéaires en nombres entiers par apprentissage de réduction de modèle

Informations fondamentales

  • ID de l'article : 2501.00307
  • Titre : Fast and Interpretable Mixed-Integer Linear Program Solving by Learning Model Reduction
  • Auteurs : Yixuan Li, Can Chen, Jiajun Li, Jiahui Duan, Xiongwei Han, Tao Zhong, Vincent Chau, Weiwei Wu, Wanyuan Wang
  • Classification : cs.LG cs.AI
  • Date de publication : 31 décembre 2024 (prépublication arXiv)
  • Institutions : École d'informatique et d'ingénierie, Université du Sud-Est, Laboratoire Noah's Ark de Huawei
  • Lien de l'article : https://arxiv.org/abs/2501.00307

Résumé

Cet article propose une méthode de résolution de programmes linéaires en nombres entiers (PLNE) à grande échelle basée sur l'apprentissage automatique, en exploitant la corrélation entre la structure et la solution des PLNE. Contrairement aux méthodes d'apprentissage de solutions de bout en bout existantes, cet article apprend un modèle équivalent réduit du PLNE original comme étape intermédiaire. La méthode propose une approche d'apprentissage de réduction de modèle basée sur les préférences, considérant la performance relative de tous les modèles réduits sur chaque instance PLNE comme information de préférence, et introduisant un mécanisme d'attention pour capturer cette information. Les résultats expérimentaux montrent une amélioration de près de 20% en précision de solution par rapport aux méthodes de réduction de modèle ML de pointe, et une accélération de 2 à 4 ordres de grandeur par rapport au solveur commercial Gurobi.

Contexte et motivation de la recherche

Définition du problème

Les programmes linéaires en nombres entiers (PLNE) ont des applications largement répandues dans des domaines critiques tels que la logistique de la chaîne d'approvisionnement, l'ordonnancement des services, la gestion de l'énergie et la planification des transports. Dans les applications industrielles réelles, les instances PLNE impliquent généralement des dizaines de milliers de variables de décision et de contraintes. Les solveurs commerciaux existants, basés sur des méthodes de résolution exactes, entraînent des coûts de calcul élevés et ne peuvent pas satisfaire les exigences en temps réel.

Motivation de la recherche

  1. Problèmes d'extensibilité : Les méthodes ML existantes apprennent directement le mappage de l'espace de solution de haute dimension, présentant des problèmes d'extensibilité
  2. Manque d'interprétabilité : Les approches de bout en bout ne peuvent pas fournir de solutions interprétables ou de compréhension intuitive
  3. Utilisation insuffisante de l'information de préférence : Les méthodes de réduction de modèle existantes se concentrent uniquement sur le modèle réduit optimal, ignorant l'information de préférence importante de tous les modèles réduits

Limitations des méthodes existantes

  • Prédiction de solution de bout en bout : La précision de prédiction est faible en raison de la dimensionnalité élevée de l'espace de solution
  • Optimisation d'apprentissage : Efficacité limitée par l'horizon de décision
  • Méthodes de réduction de modèle existantes : Traitent les modèles réduits réalisables comme des étiquettes idéales équivalentes, n'exploitant pas pleinement l'information comparative

Contributions principales

  1. Proposition d'une méthode d'apprentissage de réduction de modèle basée sur les préférences : Convertit la performance des modèles réduits en information de préférence, exploitant pleinement l'information comparative dans l'espace instance-stratégie
  2. Conception d'une architecture de mécanisme d'attention : Capture la corrélation entre les instances et les modèles réduits préférés, améliorant la précision d'apprentissage
  3. Introduction de la technique d'élagage SETCOVER : Contrôle le nombre de modèles réduits (étiquettes), générant un ensemble d'étiquettes minimal réalisable pour toutes les instances
  4. Réalisation d'améliorations de performance significatives : Vérifiée sur des problèmes PLNE réels, avec une amélioration de 20% en précision par rapport aux méthodes existantes et une accélération de 2 à 4 ordres de grandeur par rapport à Gurobi

Détails de la méthode

Définition de la tâche

Étant donné un problème PLNE paramétrisé :

min f(c, x)
s.t. g(A, x) ≤ b
     xI ∈ Z^d, x_{-I} ∈ R^{n-d}

où θ = ⟨A, c, b⟩ représente les paramètres du PLNE.

Définition de la stratégie optimale : s*(θ) = (T(θ), x*_I(θ)), incluant l'ensemble des contraintes serrées T(θ) et les valeurs des variables entières à la solution optimale.

Objectif : Apprendre le mappage des paramètres θ vers la stratégie optimale s*(θ).

Architecture du modèle

1. Phase de génération et d'élagage de stratégies

  • Génération de stratégies : Utilise l'estimateur Good-Turing pour déterminer le nombre d'instances jusqu'à ce que N₁/N soit inférieur au seuil
  • Élagage de stratégies : Construit un graphe bipartite instance-stratégie G(V_θ, V_s, E), transformant le problème d'élagage en problème SETCOVER
  • Algorithme glouton : Sélectionne itérativement le nœud de stratégie couvrant le plus de nœuds d'instance non couverts

2. Apprentissage de stratégies basé sur les préférences

Calcul des préférences :

r(θᵢ, sⱼ) = -log(p(θᵢ, sⱼ) + d(θᵢ, sⱼ))

où p(θᵢ, sⱼ) est l'infaisabilité et d(θᵢ, sⱼ) est la sous-optimalité.

Définition des préférences :

(θᵢ, sⱼ) ≻ (θᵢ, sₖ) ⇔ r(θᵢ, sⱼ) > r(θᵢ, sₖ)

Codage du mécanisme d'attention :

A([θᵢ, S^P]) = softmax(QK^T/√d)V

Traite chaque paire instance-stratégie ⟨θᵢ, sⱼ⟩ comme un token, extrayant les caractéristiques par un mécanisme d'attention multicouche.

Points d'innovation technique

1. Optimisation d'échantillonnage de préférences

Exploite la transitivité des préférences, ordonnant les stratégies par préférence, nécessitant uniquement M_P échantillons de préférence ordonnés au lieu de (M_P choose 2) comparaisons appariées, réduisant la complexité d'échantillonnage de quadratique à linéaire.

2. Fonction de perte double

  • Perte de préférence :
L_p(φ) = -1/N ∑∑[μᵢ,ⱼ log(pᵢ,ⱼ) + (1-μᵢ,ⱼ) log(1-pᵢ,ⱼ)]
  • Perte de différence de récompense :
L_d(φ) = 1/N ∑∑(r̂ᵢ,σ(j) - r̂ᵢ,σ(j+1) - δᵢ,ⱼ)²
  • Perte totale : L_total(φ) = λ₁L_p(φ) + λ₂L_d(φ)

3. Inférence Top-k de stratégies

La phase en ligne sélectionne les k meilleures stratégies de sortie comme candidats, évaluant les modèles réduits et sélectionnant la stratégie avec l'infaisabilité la plus faible.

Configuration expérimentale

Ensembles de données

  1. MIPLIB : Problèmes PLNE réels de 6 scénarios, avec des échelles et des difficultés de résolution variées
  2. Problème de gestion d'énergie des piles à combustible : Complexité du problème ajustée en augmentant l'étape de temps T
  3. Problème de gestion des stocks : 5 problèmes industriels réels à grande échelle, avec environ 100 000 contraintes en moyenne

Indicateurs d'évaluation

Indicateurs de précision :

accuracy = 1/N |{θᵢ | p(θᵢ, ŝⱼ) ≤ ε₁ ∧ d(θᵢ, ŝⱼ) ≤ ε₂}|

où les tolérances d'infaisabilité et de sous-optimalité sont toutes deux fixées à 1×10⁻⁴.

Méthodes de comparaison

  1. Gurobi : Solveur commercial avancé (avec démarrage à chaud activé)
  2. Gurobi Heuristic : Mode heuristique Gurobi (limite de temps 1 seconde)
  3. MLOPT : Méthode d'apprentissage de réduction de modèle la plus applicable
  4. Predict and Search : Méthode basée sur la prédiction de solution

Détails d'implémentation

  • Optimiseur : AdamW, taux d'apprentissage 0,0001-0,001
  • Décroissance du taux d'apprentissage : Décroissance linéaire de 0,9 fois tous les 10 tours, 100 tours au total
  • Taille de lot : 128
  • Paramètre de coordination λ₁ : 0,8-0,9

Résultats expérimentaux

Résultats principaux

Ensemble de données MIPLIB

  • Dans la plupart des scénarios, cette méthode affiche des performances proches de Gurobi en termes de sous-optimalité et de faisabilité
  • Par rapport à MLOPT, elle présente un léger avantage en faisabilité et une amélioration significative en sous-optimalité
  • La méthode heuristique montre des performances inférieures sur plusieurs indicateurs en raison des limitations de temps

Gestion d'énergie des piles à combustible

  • Amélioration de la précision de près de 39% sur les problèmes les plus complexes
  • Effet d'élagage de stratégie significatif, particulièrement avec l'augmentation de la taille du problème
  • Performance Top-k : amélioration des performances du modèle avec l'augmentation de k, supérieure à MLOPT pour la même valeur de k

Problèmes de gestion des stocks

  • Maintient la faisabilité sur toutes les instances, avec une précision stable à environ 90%
  • Sur le problème de plus grande taille P5 (plus de 270 000 contraintes), amélioration d'environ 30% par rapport à MLOPT

Analyse du temps de calcul

  • Amélioration du temps de 3 ordres de grandeur par rapport à Gurobi
  • Le temps reste relativement stable avec l'augmentation de la taille du problème
  • Différence mineure par rapport à MLOPT (pour la même valeur de k)
  • Le calcul Top-k peut être parallélisé, améliorant davantage la vitesse

Expériences d'ablation

Apprentissage de préférences vs ajustement de récompense

Sur l'ensemble de données des piles à combustible, la méthode de préférence améliore la précision moyenne d'environ 9% par rapport à l'ajustement direct de récompense, avec des performances supérieures sur les indicateurs d'infaisabilité et de sous-optimalité.

Échantillonnage ordonné vs échantillonnage traditionnel

La méthode d'ordre améliore la précision moyenne d'environ 8% par rapport à l'échantillonnage de préférence traditionnel sur diverses tailles de problèmes, tout en réduisant considérablement le coût d'entraînement.

Travaux connexes

Classification des méthodes de résolution PLNE basées sur ML

  1. Prédiction de solution de bout en bout : Apprentissage direct du mappage des instances PLNE vers les solutions
  2. Optimisation d'apprentissage : Apprentissage pour accélérer les méthodes exactes/heuristiques traditionnelles
  3. Apprentissage de simplification PLNE : Apprentissage du prétraitement ou de la réduction de la taille du PLNE

Relation avec les travaux existants

  • Par rapport aux méthodes de bout en bout : Évite les problèmes d'apprentissage de l'espace de solution de haute dimension
  • Par rapport à l'optimisation d'apprentissage : Non limité par l'horizon de décision
  • Par rapport à la réduction de modèle existante : Exploite pleinement l'information de préférence plutôt que de considérer uniquement la stratégie optimale

Conclusion et discussion

Conclusions principales

  1. L'apprentissage de réduction de modèle basé sur les préférences améliore significativement la performance de résolution des PLNE
  2. La technique d'élagage SETCOVER contrôle efficacement le nombre de stratégies
  3. Le mécanisme d'attention capture avec succès la corrélation instance-stratégie
  4. Une accélération significative et une amélioration de la précision sont réalisées sur les problèmes industriels réels

Limitations

  1. La méthode s'applique aux problèmes PLNE homogènes avec structure répétitive
  2. Nécessite des données d'entraînement suffisantes pour apprendre un modèle de préférence efficace
  3. La phase de génération de stratégies nécessite toujours un solveur commercial pour obtenir les solutions optimales
  4. L'espace de stratégies peut rester très grand dans les problèmes à grande échelle

Directions futures

  1. Extension à des types de problèmes d'optimisation plus larges
  2. Réduction de la dépendance aux données d'entraînement
  3. Amélioration supplémentaire de l'efficacité de la génération de stratégies
  4. Exploration de méthodes d'apprentissage non supervisé ou semi-supervisé

Évaluation approfondie

Points forts

  1. Forte innovativité : Introduction systématique de l'apprentissage de préférences dans la réduction de modèle PLNE pour la première fois
  2. Fondations théoriques solides : Basé sur le concept de réduction de modèle de la théorie de la recherche opérationnelle
  3. Expériences complètes : Vérification sur plusieurs ensembles de données réels, incluant des problèmes au niveau industriel
  4. Performance remarquable : Réalisation d'améliorations substantielles par rapport aux méthodes existantes
  5. Bonne interprétabilité : Les modèles réduits correspondent à des modes opérationnels interprétables

Insuffisances

  1. Portée d'application limitée : Principalement applicable aux problèmes PLNE paramétrés
  2. Coût d'entraînement : Nécessite toujours une grande quantité de données annotées (solutions optimales)
  3. Analyse théorique insuffisante : Manque de garanties théoriques sur la convergence et la capacité de généralisation
  4. Bases de comparaison limitées : Comparaison principalement avec une seule méthode d'apprentissage (MLOPT)

Impact

  1. Contribution académique : Fournit une nouvelle direction de recherche au domaine ML4CO
  2. Valeur pratique : Potentiel d'application directe dans la résolution industrielle de PLNE
  3. Reproductibilité : Description détaillée de la méthode et configuration expérimentale claire
  4. Valeur inspirante : L'idée d'apprentissage de préférences peut s'étendre à d'autres problèmes d'optimisation

Scénarios d'application

  1. Planification stochastique en ligne : Résolution rapide d'instances PLNE similaires
  2. Optimisation de la chaîne d'approvisionnement : Problèmes avec paramètres variables mais structure fixe
  3. Ordonnancement en temps réel : Applications avec exigences strictes de temps de résolution
  4. Optimisation industrielle à grande échelle : Problèmes difficiles pour les solveurs commerciaux

Références

L'article cite les travaux importants du domaine, notamment :

  • Bengio, Lodi, and Prouvost (2021) : Enquête sur l'apprentissage automatique pour l'optimisation combinatoire
  • Bertsimas and Stellato (2022) : Optimisation en nombres entiers mixtes en ligne
  • Misra, Roald, and Ng (2022) : Apprentissage pour l'optimisation contrainte
  • Et de nombreuses autres méthodes de littérature sur l'apprentissage de bout en bout et l'optimisation d'apprentissage

Évaluation globale : Il s'agit d'un article de recherche de haute qualité proposant une méthode d'apprentissage de préférences innovante dans le domaine ML4CO. Bien qu'il présente certaines limitations, ses contributions théoriques et sa valeur pratique sont remarquables, offrant une nouvelle voie efficace pour la résolution de PLNE à grande échelle.