Fast and Interpretable Mixed-Integer Linear Program Solving by Learning Model Reduction
Li, Chen, Li et al.
By exploiting the correlation between the structure and the solution of Mixed-Integer Linear Programming (MILP), Machine Learning (ML) has become a promising method for solving large-scale MILP problems. Existing ML-based MILP solvers mainly focus on end-to-end solution learning, which suffers from the scalability issue due to the high dimensionality of the solution space. Instead of directly learning the optimal solution, this paper aims to learn a reduced and equivalent model of the original MILP as an intermediate step. The reduced model often corresponds to interpretable operations and is much simpler, enabling us to solve large-scale MILP problems much faster than existing commercial solvers. However, current approaches rely only on the optimal reduced model, overlooking the significant preference information of all reduced models. To address this issue, this paper proposes a preference-based model reduction learning method, which considers the relative performance (i.e., objective cost and constraint feasibility) of all reduced models on each MILP instance as preferences. We also introduce an attention mechanism to capture and represent preference information, which helps improve the performance of model reduction learning tasks. Moreover, we propose a SetCover based pruning method to control the number of reduced models (i.e., labels), thereby simplifying the learning process. Evaluation on real-world MILP problems shows that 1) compared to the state-of-the-art model reduction ML methods, our method obtains nearly 20% improvement on solution accuracy, and 2) compared to the commercial solver Gurobi, two to four orders of magnitude speedups are achieved.
academic
Resolución Rápida e Interpretable de Programas Lineales Enteros Mixtos mediante Aprendizaje de Reducción de Modelos
Este artículo propone un método de resolución de programas lineales enteros mixtos (MILP) a gran escala basado en aprendizaje automático, aprovechando la correlación entre la estructura de MILP y sus soluciones. A diferencia de los métodos existentes de aprendizaje de soluciones de extremo a extremo, este trabajo aprende un modelo equivalente simplificado del MILP original como paso intermedio. El método propone un enfoque de aprendizaje de reducción de modelos basado en preferencias, considerando el rendimiento relativo de todos los modelos reducidos en cada instancia de MILP como información de preferencia, e introduce un mecanismo de atención para capturar esta información. Los resultados experimentales muestran que, en comparación con los métodos de reducción de modelos más avanzados basados en aprendizaje automático, este método mejora la precisión de la solución en casi un 20%, y logra una aceleración de 2-4 órdenes de magnitud en comparación con el solucionador comercial Gurobi.
Los programas lineales enteros mixtos (MILP) tienen aplicaciones generalizadas en campos críticos como logística de cadena de suministro, programación de servicios, gestión de energía y planificación de transporte. En aplicaciones industriales reales, las instancias de MILP típicamente involucran decenas de miles de variables de decisión y restricciones. Los solucionadores comerciales existentes se basan en métodos de solución exacta con costos computacionales elevados, incapaces de satisfacer requisitos en tiempo real.
Problemas de Escalabilidad: Los métodos de aprendizaje automático existentes aprenden directamente el mapeo del espacio de soluciones de alta dimensión, presentando problemas de escalabilidad
Falta de Interpretabilidad: Los enfoques de extremo a extremo no pueden proporcionar soluciones interpretables o comprensión intuitiva
Utilización Insuficiente de Información de Preferencia: Los métodos de reducción de modelos existentes se enfocan solo en el modelo reducido óptimo, ignorando la información de preferencia importante de todos los modelos reducidos
Predicción de Soluciones de Extremo a Extremo: La alta dimensionalidad del espacio de soluciones resulta en baja precisión de predicción
Aprendizaje para Optimización: Eficiencia limitada por restricciones de horizonte de decisión
Métodos de Reducción de Modelos Existentes: Tratan los modelos reducidos viables como etiquetas ideales equivalentes, sin utilizar plenamente la información comparativa
Propone un Método de Aprendizaje de Reducción de Modelos Basado en Preferencias: Convierte el rendimiento de los modelos reducidos en información de preferencia, utilizando plenamente la información comparativa en el espacio instancia-estrategia
Diseña una Arquitectura de Mecanismo de Atención: Captura la correlación entre instancias y modelos reducidos preferidos, mejorando la precisión del aprendizaje
Introduce Técnica de Poda SETCOVER: Controla la cantidad de modelos reducidos (etiquetas), generando un conjunto mínimo de etiquetas viable para todas las instancias
Logra Mejoras de Rendimiento Significativas: Verifica en problemas MILP reales, mejorando la precisión en un 20% en comparación con métodos existentes y acelerando 2-4 órdenes de magnitud en comparación con Gurobi
min f(c, x)
s.t. g(A, x) ≤ b
xI ∈ Z^d, x_{-I} ∈ R^{n-d}
donde θ = ⟨A, c, b⟩ representa los parámetros de MILP.
Definición de Estrategia Óptima: s*(θ) = (T(θ), x*_I(θ)), que incluye el conjunto de restricciones activas T(θ) y los valores de variables enteras en la solución óptima.
Objetivo: Aprender el mapeo de parámetros θ a la estrategia óptima s*(θ).
Utiliza la transitividad de preferencias, ordenando estrategias por preferencia, requiriendo solo M_P muestras de preferencia ordenadas en lugar de (M_P choose 2) comparaciones pareadas, reduciendo la complejidad de muestreo de cuadrática a lineal.
En la fase en línea, selecciona las k estrategias principales como candidatos, evaluando modelos reducidos y seleccionando la estrategia con la menor inviabilidad.
En el conjunto de datos de celdas de combustible, el método de preferencia mejora la precisión promedio en aproximadamente 9% en comparación con el ajuste directo de recompensa, mostrando mejor rendimiento en indicadores de inviabilidad y suboptimalidad.
El método ordenado mejora la precisión promedio en aproximadamente 8% en comparación con el muestreo de preferencia pareada tradicional en varios tamaños de problema, reduciendo significativamente el costo de entrenamiento.
El artículo cita trabajos importantes en el campo, incluyendo:
Bengio, Lodi, and Prouvost (2021): Encuesta sobre aprendizaje automático para optimización combinatoria
Bertsimas and Stellato (2022): Optimización de enteros mixtos en línea
Misra, Roald, and Ng (2022): Aprendizaje para optimización restringida
Y numerosos trabajos relacionados sobre aprendizaje de extremo a extremo y aprendizaje para optimización
Evaluación General: Este es un artículo de investigación de alta calidad que propone un método de aprendizaje de preferencias innovador en el campo ML4CO. Aunque presenta algunas limitaciones, sus contribuciones teóricas y valor práctico son destacados, proporcionando una nueva vía efectiva para la resolución de MILP a gran escala.