Fast and Interpretable Mixed-Integer Linear Program Solving by Learning Model Reduction
Li, Chen, Li et al.
By exploiting the correlation between the structure and the solution of Mixed-Integer Linear Programming (MILP), Machine Learning (ML) has become a promising method for solving large-scale MILP problems. Existing ML-based MILP solvers mainly focus on end-to-end solution learning, which suffers from the scalability issue due to the high dimensionality of the solution space. Instead of directly learning the optimal solution, this paper aims to learn a reduced and equivalent model of the original MILP as an intermediate step. The reduced model often corresponds to interpretable operations and is much simpler, enabling us to solve large-scale MILP problems much faster than existing commercial solvers. However, current approaches rely only on the optimal reduced model, overlooking the significant preference information of all reduced models. To address this issue, this paper proposes a preference-based model reduction learning method, which considers the relative performance (i.e., objective cost and constraint feasibility) of all reduced models on each MILP instance as preferences. We also introduce an attention mechanism to capture and represent preference information, which helps improve the performance of model reduction learning tasks. Moreover, we propose a SetCover based pruning method to control the number of reduced models (i.e., labels), thereby simplifying the learning process. Evaluation on real-world MILP problems shows that 1) compared to the state-of-the-art model reduction ML methods, our method obtains nearly 20% improvement on solution accuracy, and 2) compared to the commercial solver Gurobi, two to four orders of magnitude speedups are achieved.
academic
Résolution rapide et interprétable de programmes linéaires en nombres entiers par apprentissage de réduction de modèle
Cet article propose une méthode de résolution de programmes linéaires en nombres entiers (PLNE) à grande échelle basée sur l'apprentissage automatique, en exploitant la corrélation entre la structure et la solution des PLNE. Contrairement aux méthodes d'apprentissage de solutions de bout en bout existantes, cet article apprend un modèle équivalent réduit du PLNE original comme étape intermédiaire. La méthode propose une approche d'apprentissage de réduction de modèle basée sur les préférences, considérant la performance relative de tous les modèles réduits sur chaque instance PLNE comme information de préférence, et introduisant un mécanisme d'attention pour capturer cette information. Les résultats expérimentaux montrent une amélioration de près de 20% en précision de solution par rapport aux méthodes de réduction de modèle ML de pointe, et une accélération de 2 à 4 ordres de grandeur par rapport au solveur commercial Gurobi.
Les programmes linéaires en nombres entiers (PLNE) ont des applications largement répandues dans des domaines critiques tels que la logistique de la chaîne d'approvisionnement, l'ordonnancement des services, la gestion de l'énergie et la planification des transports. Dans les applications industrielles réelles, les instances PLNE impliquent généralement des dizaines de milliers de variables de décision et de contraintes. Les solveurs commerciaux existants, basés sur des méthodes de résolution exactes, entraînent des coûts de calcul élevés et ne peuvent pas satisfaire les exigences en temps réel.
Problèmes d'extensibilité : Les méthodes ML existantes apprennent directement le mappage de l'espace de solution de haute dimension, présentant des problèmes d'extensibilité
Manque d'interprétabilité : Les approches de bout en bout ne peuvent pas fournir de solutions interprétables ou de compréhension intuitive
Utilisation insuffisante de l'information de préférence : Les méthodes de réduction de modèle existantes se concentrent uniquement sur le modèle réduit optimal, ignorant l'information de préférence importante de tous les modèles réduits
Prédiction de solution de bout en bout : La précision de prédiction est faible en raison de la dimensionnalité élevée de l'espace de solution
Optimisation d'apprentissage : Efficacité limitée par l'horizon de décision
Méthodes de réduction de modèle existantes : Traitent les modèles réduits réalisables comme des étiquettes idéales équivalentes, n'exploitant pas pleinement l'information comparative
Proposition d'une méthode d'apprentissage de réduction de modèle basée sur les préférences : Convertit la performance des modèles réduits en information de préférence, exploitant pleinement l'information comparative dans l'espace instance-stratégie
Conception d'une architecture de mécanisme d'attention : Capture la corrélation entre les instances et les modèles réduits préférés, améliorant la précision d'apprentissage
Introduction de la technique d'élagage SETCOVER : Contrôle le nombre de modèles réduits (étiquettes), générant un ensemble d'étiquettes minimal réalisable pour toutes les instances
Réalisation d'améliorations de performance significatives : Vérifiée sur des problèmes PLNE réels, avec une amélioration de 20% en précision par rapport aux méthodes existantes et une accélération de 2 à 4 ordres de grandeur par rapport à Gurobi
min f(c, x)
s.t. g(A, x) ≤ b
xI ∈ Z^d, x_{-I} ∈ R^{n-d}
où θ = ⟨A, c, b⟩ représente les paramètres du PLNE.
Définition de la stratégie optimale : s*(θ) = (T(θ), x*_I(θ)), incluant l'ensemble des contraintes serrées T(θ) et les valeurs des variables entières à la solution optimale.
Objectif : Apprendre le mappage des paramètres θ vers la stratégie optimale s*(θ).
Exploite la transitivité des préférences, ordonnant les stratégies par préférence, nécessitant uniquement M_P échantillons de préférence ordonnés au lieu de (M_P choose 2) comparaisons appariées, réduisant la complexité d'échantillonnage de quadratique à linéaire.
La phase en ligne sélectionne les k meilleures stratégies de sortie comme candidats, évaluant les modèles réduits et sélectionnant la stratégie avec l'infaisabilité la plus faible.
Sur l'ensemble de données des piles à combustible, la méthode de préférence améliore la précision moyenne d'environ 9% par rapport à l'ajustement direct de récompense, avec des performances supérieures sur les indicateurs d'infaisabilité et de sous-optimalité.
La méthode d'ordre améliore la précision moyenne d'environ 8% par rapport à l'échantillonnage de préférence traditionnel sur diverses tailles de problèmes, tout en réduisant considérablement le coût d'entraînement.
Par rapport aux méthodes de bout en bout : Évite les problèmes d'apprentissage de l'espace de solution de haute dimension
Par rapport à l'optimisation d'apprentissage : Non limité par l'horizon de décision
Par rapport à la réduction de modèle existante : Exploite pleinement l'information de préférence plutôt que de considérer uniquement la stratégie optimale
L'article cite les travaux importants du domaine, notamment :
Bengio, Lodi, and Prouvost (2021) : Enquête sur l'apprentissage automatique pour l'optimisation combinatoire
Bertsimas and Stellato (2022) : Optimisation en nombres entiers mixtes en ligne
Misra, Roald, and Ng (2022) : Apprentissage pour l'optimisation contrainte
Et de nombreuses autres méthodes de littérature sur l'apprentissage de bout en bout et l'optimisation d'apprentissage
Évaluation globale : Il s'agit d'un article de recherche de haute qualité proposant une méthode d'apprentissage de préférences innovante dans le domaine ML4CO. Bien qu'il présente certaines limitations, ses contributions théoriques et sa valeur pratique sont remarquables, offrant une nouvelle voie efficace pour la résolution de PLNE à grande échelle.