2025-11-13T22:16:11.184529

Fast and Interpretable Mixed-Integer Linear Program Solving by Learning Model Reduction

Li, Chen, Li et al.

By exploiting the correlation between the structure and the solution of Mixed-Integer Linear Programming (MILP), Machine Learning (ML) has become a promising method for solving large-scale MILP problems. Existing ML-based MILP solvers mainly focus on end-to-end solution learning, which suffers from the scalability issue due to the high dimensionality of the solution space. Instead of directly learning the optimal solution, this paper aims to learn a reduced and equivalent model of the original MILP as an intermediate step. The reduced model often corresponds to interpretable operations and is much simpler, enabling us to solve large-scale MILP problems much faster than existing commercial solvers. However, current approaches rely only on the optimal reduced model, overlooking the significant preference information of all reduced models. To address this issue, this paper proposes a preference-based model reduction learning method, which considers the relative performance (i.e., objective cost and constraint feasibility) of all reduced models on each MILP instance as preferences. We also introduce an attention mechanism to capture and represent preference information, which helps improve the performance of model reduction learning tasks. Moreover, we propose a SetCover based pruning method to control the number of reduced models (i.e., labels), thereby simplifying the learning process. Evaluation on real-world MILP problems shows that 1) compared to the state-of-the-art model reduction ML methods, our method obtains nearly 20% improvement on solution accuracy, and 2) compared to the commercial solver Gurobi, two to four orders of magnitude speedups are achieved.

academic

Résolution rapide et interprétable de programmes linéaires en nombres entiers par apprentissage de réduction de modèle

Informations fondamentales

ID de l'article : 2501.00307
Titre : Fast and Interpretable Mixed-Integer Linear Program Solving by Learning Model Reduction
Auteurs : Yixuan Li, Can Chen, Jiajun Li, Jiahui Duan, Xiongwei Han, Tao Zhong, Vincent Chau, Weiwei Wu, Wanyuan Wang
Classification : cs.LG cs.AI
Date de publication : 31 décembre 2024 (prépublication arXiv)
Institutions : École d'informatique et d'ingénierie, Université du Sud-Est, Laboratoire Noah's Ark de Huawei
Lien de l'article : https://arxiv.org/abs/2501.00307

Résumé

Cet article propose une méthode de résolution de programmes linéaires en nombres entiers (PLNE) à grande échelle basée sur l'apprentissage automatique, en exploitant la corrélation entre la structure et la solution des PLNE. Contrairement aux méthodes d'apprentissage de solutions de bout en bout existantes, cet article apprend un modèle équivalent réduit du PLNE original comme étape intermédiaire. La méthode propose une approche d'apprentissage de réduction de modèle basée sur les préférences, considérant la performance relative de tous les modèles réduits sur chaque instance PLNE comme information de préférence, et introduisant un mécanisme d'attention pour capturer cette information. Les résultats expérimentaux montrent une amélioration de près de 20% en précision de solution par rapport aux méthodes de réduction de modèle ML de pointe, et une accélération de 2 à 4 ordres de grandeur par rapport au solveur commercial Gurobi.

Contexte et motivation de la recherche

Définition du problème

Les programmes linéaires en nombres entiers (PLNE) ont des applications largement répandues dans des domaines critiques tels que la logistique de la chaîne d'approvisionnement, l'ordonnancement des services, la gestion de l'énergie et la planification des transports. Dans les applications industrielles réelles, les instances PLNE impliquent généralement des dizaines de milliers de variables de décision et de contraintes. Les solveurs commerciaux existants, basés sur des méthodes de résolution exactes, entraînent des coûts de calcul élevés et ne peuvent pas satisfaire les exigences en temps réel.

Motivation de la recherche

Problèmes d'extensibilité : Les méthodes ML existantes apprennent directement le mappage de l'espace de solution de haute dimension, présentant des problèmes d'extensibilité
Manque d'interprétabilité : Les approches de bout en bout ne peuvent pas fournir de solutions interprétables ou de compréhension intuitive
Utilisation insuffisante de l'information de préférence : Les méthodes de réduction de modèle existantes se concentrent uniquement sur le modèle réduit optimal, ignorant l'information de préférence importante de tous les modèles réduits

Limitations des méthodes existantes

Prédiction de solution de bout en bout : La précision de prédiction est faible en raison de la dimensionnalité élevée de l'espace de solution
Optimisation d'apprentissage : Efficacité limitée par l'horizon de décision
Méthodes de réduction de modèle existantes : Traitent les modèles réduits réalisables comme des étiquettes idéales équivalentes, n'exploitant pas pleinement l'information comparative

Contributions principales

Proposition d'une méthode d'apprentissage de réduction de modèle basée sur les préférences : Convertit la performance des modèles réduits en information de préférence, exploitant pleinement l'information comparative dans l'espace instance-stratégie
Conception d'une architecture de mécanisme d'attention : Capture la corrélation entre les instances et les modèles réduits préférés, améliorant la précision d'apprentissage
Introduction de la technique d'élagage SETCOVER : Contrôle le nombre de modèles réduits (étiquettes), générant un ensemble d'étiquettes minimal réalisable pour toutes les instances
Réalisation d'améliorations de performance significatives : Vérifiée sur des problèmes PLNE réels, avec une amélioration de 20% en précision par rapport aux méthodes existantes et une accélération de 2 à 4 ordres de grandeur par rapport à Gurobi

Détails de la méthode

Définition de la tâche

Étant donné un problème PLNE paramétrisé :

min f(c, x)
s.t. g(A, x) ≤ b
     xI ∈ Z^d, x_{-I} ∈ R^{n-d}

où θ = ⟨A, c, b⟩ représente les paramètres du PLNE.

Définition de la stratégie optimale : s*(θ) = (T(θ), x*_I(θ)), incluant l'ensemble des contraintes serrées T(θ) et les valeurs des variables entières à la solution optimale.

Objectif : Apprendre le mappage des paramètres θ vers la stratégie optimale s*(θ).

Architecture du modèle

1. Phase de génération et d'élagage de stratégies

Génération de stratégies : Utilise l'estimateur Good-Turing pour déterminer le nombre d'instances jusqu'à ce que N₁/N soit inférieur au seuil
Élagage de stratégies : Construit un graphe bipartite instance-stratégie G(V_θ, V_s, E), transformant le problème d'élagage en problème SETCOVER
Algorithme glouton : Sélectionne itérativement le nœud de stratégie couvrant le plus de nœuds d'instance non couverts

2. Apprentissage de stratégies basé sur les préférences

Calcul des préférences :

r(θᵢ, sⱼ) = -log(p(θᵢ, sⱼ) + d(θᵢ, sⱼ))

où p(θᵢ, sⱼ) est l'infaisabilité et d(θᵢ, sⱼ) est la sous-optimalité.

Définition des préférences :

(θᵢ, sⱼ) ≻ (θᵢ, sₖ) ⇔ r(θᵢ, sⱼ) > r(θᵢ, sₖ)

Codage du mécanisme d'attention :

A([θᵢ, S^P]) = softmax(QK^T/√d)V

Traite chaque paire instance-stratégie ⟨θᵢ, sⱼ⟩ comme un token, extrayant les caractéristiques par un mécanisme d'attention multicouche.

Points d'innovation technique

1. Optimisation d'échantillonnage de préférences

Exploite la transitivité des préférences, ordonnant les stratégies par préférence, nécessitant uniquement M_P échantillons de préférence ordonnés au lieu de (M_P choose 2) comparaisons appariées, réduisant la complexité d'échantillonnage de quadratique à linéaire.

2. Fonction de perte double

Perte de préférence :

L_p(φ) = -1/N ∑∑[μᵢ,ⱼ log(pᵢ,ⱼ) + (1-μᵢ,ⱼ) log(1-pᵢ,ⱼ)]

Perte de différence de récompense :

L_d(φ) = 1/N ∑∑(r̂ᵢ,σ(j) - r̂ᵢ,σ(j+1) - δᵢ,ⱼ)²

Perte totale : L_total(φ) = λ₁L_p(φ) + λ₂L_d(φ)

3. Inférence Top-k de stratégies

La phase en ligne sélectionne les k meilleures stratégies de sortie comme candidats, évaluant les modèles réduits et sélectionnant la stratégie avec l'infaisabilité la plus faible.

Configuration expérimentale

Ensembles de données

MIPLIB : Problèmes PLNE réels de 6 scénarios, avec des échelles et des difficultés de résolution variées
Problème de gestion d'énergie des piles à combustible : Complexité du problème ajustée en augmentant l'étape de temps T
Problème de gestion des stocks : 5 problèmes industriels réels à grande échelle, avec environ 100 000 contraintes en moyenne

Indicateurs d'évaluation

Indicateurs de précision :

accuracy = 1/N |{θᵢ | p(θᵢ, ŝⱼ) ≤ ε₁ ∧ d(θᵢ, ŝⱼ) ≤ ε₂}|

où les tolérances d'infaisabilité et de sous-optimalité sont toutes deux fixées à 1×10⁻⁴.

Méthodes de comparaison

Gurobi : Solveur commercial avancé (avec démarrage à chaud activé)
Gurobi Heuristic : Mode heuristique Gurobi (limite de temps 1 seconde)
MLOPT : Méthode d'apprentissage de réduction de modèle la plus applicable
Predict and Search : Méthode basée sur la prédiction de solution

Détails d'implémentation

Optimiseur : AdamW, taux d'apprentissage 0,0001-0,001
Décroissance du taux d'apprentissage : Décroissance linéaire de 0,9 fois tous les 10 tours, 100 tours au total
Taille de lot : 128
Paramètre de coordination λ₁ : 0,8-0,9

Résultats expérimentaux

Résultats principaux

Ensemble de données MIPLIB

Dans la plupart des scénarios, cette méthode affiche des performances proches de Gurobi en termes de sous-optimalité et de faisabilité
Par rapport à MLOPT, elle présente un léger avantage en faisabilité et une amélioration significative en sous-optimalité
La méthode heuristique montre des performances inférieures sur plusieurs indicateurs en raison des limitations de temps

Gestion d'énergie des piles à combustible

Amélioration de la précision de près de 39% sur les problèmes les plus complexes
Effet d'élagage de stratégie significatif, particulièrement avec l'augmentation de la taille du problème
Performance Top-k : amélioration des performances du modèle avec l'augmentation de k, supérieure à MLOPT pour la même valeur de k

Problèmes de gestion des stocks

Maintient la faisabilité sur toutes les instances, avec une précision stable à environ 90%
Sur le problème de plus grande taille P5 (plus de 270 000 contraintes), amélioration d'environ 30% par rapport à MLOPT

Analyse du temps de calcul

Amélioration du temps de 3 ordres de grandeur par rapport à Gurobi
Le temps reste relativement stable avec l'augmentation de la taille du problème
Différence mineure par rapport à MLOPT (pour la même valeur de k)
Le calcul Top-k peut être parallélisé, améliorant davantage la vitesse

Expériences d'ablation

Apprentissage de préférences vs ajustement de récompense

Sur l'ensemble de données des piles à combustible, la méthode de préférence améliore la précision moyenne d'environ 9% par rapport à l'ajustement direct de récompense, avec des performances supérieures sur les indicateurs d'infaisabilité et de sous-optimalité.

Échantillonnage ordonné vs échantillonnage traditionnel

La méthode d'ordre améliore la précision moyenne d'environ 8% par rapport à l'échantillonnage de préférence traditionnel sur diverses tailles de problèmes, tout en réduisant considérablement le coût d'entraînement.

Travaux connexes

Classification des méthodes de résolution PLNE basées sur ML

Prédiction de solution de bout en bout : Apprentissage direct du mappage des instances PLNE vers les solutions
Optimisation d'apprentissage : Apprentissage pour accélérer les méthodes exactes/heuristiques traditionnelles
Apprentissage de simplification PLNE : Apprentissage du prétraitement ou de la réduction de la taille du PLNE

Relation avec les travaux existants

Par rapport aux méthodes de bout en bout : Évite les problèmes d'apprentissage de l'espace de solution de haute dimension
Par rapport à l'optimisation d'apprentissage : Non limité par l'horizon de décision
Par rapport à la réduction de modèle existante : Exploite pleinement l'information de préférence plutôt que de considérer uniquement la stratégie optimale

Conclusion et discussion

Conclusions principales

L'apprentissage de réduction de modèle basé sur les préférences améliore significativement la performance de résolution des PLNE
La technique d'élagage SETCOVER contrôle efficacement le nombre de stratégies
Le mécanisme d'attention capture avec succès la corrélation instance-stratégie
Une accélération significative et une amélioration de la précision sont réalisées sur les problèmes industriels réels

Limitations

La méthode s'applique aux problèmes PLNE homogènes avec structure répétitive
Nécessite des données d'entraînement suffisantes pour apprendre un modèle de préférence efficace
La phase de génération de stratégies nécessite toujours un solveur commercial pour obtenir les solutions optimales
L'espace de stratégies peut rester très grand dans les problèmes à grande échelle

Directions futures

Extension à des types de problèmes d'optimisation plus larges
Réduction de la dépendance aux données d'entraînement
Amélioration supplémentaire de l'efficacité de la génération de stratégies
Exploration de méthodes d'apprentissage non supervisé ou semi-supervisé

Évaluation approfondie

Points forts

Forte innovativité : Introduction systématique de l'apprentissage de préférences dans la réduction de modèle PLNE pour la première fois
Fondations théoriques solides : Basé sur le concept de réduction de modèle de la théorie de la recherche opérationnelle
Expériences complètes : Vérification sur plusieurs ensembles de données réels, incluant des problèmes au niveau industriel
Performance remarquable : Réalisation d'améliorations substantielles par rapport aux méthodes existantes
Bonne interprétabilité : Les modèles réduits correspondent à des modes opérationnels interprétables

Insuffisances

Portée d'application limitée : Principalement applicable aux problèmes PLNE paramétrés
Coût d'entraînement : Nécessite toujours une grande quantité de données annotées (solutions optimales)
Analyse théorique insuffisante : Manque de garanties théoriques sur la convergence et la capacité de généralisation
Bases de comparaison limitées : Comparaison principalement avec une seule méthode d'apprentissage (MLOPT)

Impact

Contribution académique : Fournit une nouvelle direction de recherche au domaine ML4CO
Valeur pratique : Potentiel d'application directe dans la résolution industrielle de PLNE
Reproductibilité : Description détaillée de la méthode et configuration expérimentale claire
Valeur inspirante : L'idée d'apprentissage de préférences peut s'étendre à d'autres problèmes d'optimisation

Scénarios d'application

Planification stochastique en ligne : Résolution rapide d'instances PLNE similaires
Optimisation de la chaîne d'approvisionnement : Problèmes avec paramètres variables mais structure fixe
Ordonnancement en temps réel : Applications avec exigences strictes de temps de résolution
Optimisation industrielle à grande échelle : Problèmes difficiles pour les solveurs commerciaux

Références

L'article cite les travaux importants du domaine, notamment :

Bengio, Lodi, and Prouvost (2021) : Enquête sur l'apprentissage automatique pour l'optimisation combinatoire
Bertsimas and Stellato (2022) : Optimisation en nombres entiers mixtes en ligne
Misra, Roald, and Ng (2022) : Apprentissage pour l'optimisation contrainte
Et de nombreuses autres méthodes de littérature sur l'apprentissage de bout en bout et l'optimisation d'apprentissage

Évaluation globale : Il s'agit d'un article de recherche de haute qualité proposant une méthode d'apprentissage de préférences innovante dans le domaine ML4CO. Bien qu'il présente certaines limitations, ses contributions théoriques et sa valeur pratique sont remarquables, offrant une nouvelle voie efficace pour la résolution de PLNE à grande échelle.