2025-11-13T22:16:11.184529

Fast and Interpretable Mixed-Integer Linear Program Solving by Learning Model Reduction

Li, Chen, Li et al.

By exploiting the correlation between the structure and the solution of Mixed-Integer Linear Programming (MILP), Machine Learning (ML) has become a promising method for solving large-scale MILP problems. Existing ML-based MILP solvers mainly focus on end-to-end solution learning, which suffers from the scalability issue due to the high dimensionality of the solution space. Instead of directly learning the optimal solution, this paper aims to learn a reduced and equivalent model of the original MILP as an intermediate step. The reduced model often corresponds to interpretable operations and is much simpler, enabling us to solve large-scale MILP problems much faster than existing commercial solvers. However, current approaches rely only on the optimal reduced model, overlooking the significant preference information of all reduced models. To address this issue, this paper proposes a preference-based model reduction learning method, which considers the relative performance (i.e., objective cost and constraint feasibility) of all reduced models on each MILP instance as preferences. We also introduce an attention mechanism to capture and represent preference information, which helps improve the performance of model reduction learning tasks. Moreover, we propose a SetCover based pruning method to control the number of reduced models (i.e., labels), thereby simplifying the learning process. Evaluation on real-world MILP problems shows that 1) compared to the state-of-the-art model reduction ML methods, our method obtains nearly 20% improvement on solution accuracy, and 2) compared to the commercial solver Gurobi, two to four orders of magnitude speedups are achieved.

academic

Resolución Rápida e Interpretable de Programas Lineales Enteros Mixtos mediante Aprendizaje de Reducción de Modelos

Información Básica

ID del Artículo: 2501.00307
Título: Fast and Interpretable Mixed-Integer Linear Program Solving by Learning Model Reduction
Autores: Yixuan Li, Can Chen, Jiajun Li, Jiahui Duan, Xiongwei Han, Tao Zhong, Vincent Chau, Weiwei Wu, Wanyuan Wang
Clasificación: cs.LG cs.AI
Fecha de Publicación: 31 de diciembre de 2024 (preimpresión arXiv)
Institución: Escuela de Ciencias e Ingeniería Informática, Universidad del Sureste; Laboratorio Noah's Ark, Huawei
Enlace del Artículo: https://arxiv.org/abs/2501.00307

Resumen

Este artículo propone un método de resolución de programas lineales enteros mixtos (MILP) a gran escala basado en aprendizaje automático, aprovechando la correlación entre la estructura de MILP y sus soluciones. A diferencia de los métodos existentes de aprendizaje de soluciones de extremo a extremo, este trabajo aprende un modelo equivalente simplificado del MILP original como paso intermedio. El método propone un enfoque de aprendizaje de reducción de modelos basado en preferencias, considerando el rendimiento relativo de todos los modelos reducidos en cada instancia de MILP como información de preferencia, e introduce un mecanismo de atención para capturar esta información. Los resultados experimentales muestran que, en comparación con los métodos de reducción de modelos más avanzados basados en aprendizaje automático, este método mejora la precisión de la solución en casi un 20%, y logra una aceleración de 2-4 órdenes de magnitud en comparación con el solucionador comercial Gurobi.

Antecedentes de Investigación y Motivación

Definición del Problema

Los programas lineales enteros mixtos (MILP) tienen aplicaciones generalizadas en campos críticos como logística de cadena de suministro, programación de servicios, gestión de energía y planificación de transporte. En aplicaciones industriales reales, las instancias de MILP típicamente involucran decenas de miles de variables de decisión y restricciones. Los solucionadores comerciales existentes se basan en métodos de solución exacta con costos computacionales elevados, incapaces de satisfacer requisitos en tiempo real.

Motivación de la Investigación

Problemas de Escalabilidad: Los métodos de aprendizaje automático existentes aprenden directamente el mapeo del espacio de soluciones de alta dimensión, presentando problemas de escalabilidad
Falta de Interpretabilidad: Los enfoques de extremo a extremo no pueden proporcionar soluciones interpretables o comprensión intuitiva
Utilización Insuficiente de Información de Preferencia: Los métodos de reducción de modelos existentes se enfocan solo en el modelo reducido óptimo, ignorando la información de preferencia importante de todos los modelos reducidos

Limitaciones de Métodos Existentes

Predicción de Soluciones de Extremo a Extremo: La alta dimensionalidad del espacio de soluciones resulta en baja precisión de predicción
Aprendizaje para Optimización: Eficiencia limitada por restricciones de horizonte de decisión
Métodos de Reducción de Modelos Existentes: Tratan los modelos reducidos viables como etiquetas ideales equivalentes, sin utilizar plenamente la información comparativa

Contribuciones Principales

Propone un Método de Aprendizaje de Reducción de Modelos Basado en Preferencias: Convierte el rendimiento de los modelos reducidos en información de preferencia, utilizando plenamente la información comparativa en el espacio instancia-estrategia
Diseña una Arquitectura de Mecanismo de Atención: Captura la correlación entre instancias y modelos reducidos preferidos, mejorando la precisión del aprendizaje
Introduce Técnica de Poda SETCOVER: Controla la cantidad de modelos reducidos (etiquetas), generando un conjunto mínimo de etiquetas viable para todas las instancias
Logra Mejoras de Rendimiento Significativas: Verifica en problemas MILP reales, mejorando la precisión en un 20% en comparación con métodos existentes y acelerando 2-4 órdenes de magnitud en comparación con Gurobi

Explicación Detallada del Método

Definición de Tarea

Dado un problema MILP parametrizado:

min f(c, x)
s.t. g(A, x) ≤ b
     xI ∈ Z^d, x_{-I} ∈ R^{n-d}

donde θ = ⟨A, c, b⟩ representa los parámetros de MILP.

Definición de Estrategia Óptima: s*(θ) = (T(θ), x*_I(θ)), que incluye el conjunto de restricciones activas T(θ) y los valores de variables enteras en la solución óptima.

Objetivo: Aprender el mapeo de parámetros θ a la estrategia óptima s*(θ).

Arquitectura del Modelo

1. Fase de Generación y Poda de Estrategias

Generación de Estrategias: Utiliza el estimador Good-Turing para determinar la cantidad de instancias hasta que N₁/N esté por debajo del umbral
Poda de Estrategias: Construye un grafo bipartito instancia-estrategia G(V_θ, V_s, E), transformando el problema de poda en un problema SETCOVER
Algoritmo Codicioso: Selecciona iterativamente el nodo de estrategia que cubre la mayoría de nodos de instancia no cubiertos

2. Aprendizaje de Estrategias Basado en Preferencias

Cálculo de Preferencia:

r(θᵢ, sⱼ) = -log(p(θᵢ, sⱼ) + d(θᵢ, sⱼ))

donde p(θᵢ, sⱼ) es la inviabilidad y d(θᵢ, sⱼ) es la suboptimalidad.

Definición de Preferencia:

(θᵢ, sⱼ) ≻ (θᵢ, sₖ) ⇔ r(θᵢ, sⱼ) > r(θᵢ, sₖ)

Codificación de Mecanismo de Atención:

A([θᵢ, S^P]) = softmax(QK^T/√d)V

Trata cada par instancia-estrategia ⟨θᵢ, sⱼ⟩ como un token, extrayendo características a través de un mecanismo de atención multicapa.

Puntos de Innovación Técnica

1. Optimización de Muestreo de Preferencias

Utiliza la transitividad de preferencias, ordenando estrategias por preferencia, requiriendo solo M_P muestras de preferencia ordenadas en lugar de (M_P choose 2) comparaciones pareadas, reduciendo la complejidad de muestreo de cuadrática a lineal.

2. Función de Pérdida Dual

Pérdida de Preferencia:

L_p(φ) = -1/N ∑∑[μᵢ,ⱼ log(pᵢ,ⱼ) + (1-μᵢ,ⱼ) log(1-pᵢ,ⱼ)]

Pérdida de Diferencia de Recompensa:

L_d(φ) = 1/N ∑∑(r̂ᵢ,σ(j) - r̂ᵢ,σ(j+1) - δᵢ,ⱼ)²

Pérdida Total: L_total(φ) = λ₁L_p(φ) + λ₂L_d(φ)

3. Inferencia de Estrategia Top-k

En la fase en línea, selecciona las k estrategias principales como candidatos, evaluando modelos reducidos y seleccionando la estrategia con la menor inviabilidad.

Configuración Experimental

Conjuntos de Datos

MIPLIB: Problemas MILP reales de 6 escenarios, con escala y dificultad de resolución variadas
Problema de Gestión de Energía de Celdas de Combustible: Ajusta la complejidad del problema aumentando el paso de tiempo T
Problema de Gestión de Inventario: 5 problemas industriales reales a gran escala, con aproximadamente 100,000 restricciones en promedio

Métricas de Evaluación

Indicadores de Precisión:

accuracy = 1/N |{θᵢ | p(θᵢ, ŝⱼ) ≤ ε₁ ∧ d(θᵢ, ŝⱼ) ≤ ε₂}|

donde las tolerancias de inviabilidad y suboptimalidad se establecen en 1×10⁻⁴.

Métodos de Comparación

Gurobi: Solucionador comercial avanzado (con inicio en caliente habilitado)
Gurobi Heuristic: Modo heurístico de Gurobi (límite de tiempo de 1 segundo)
MLOPT: Método de aprendizaje basado en reducción de modelos más aplicable
Predict and Search: Método basado en predicción de soluciones

Detalles de Implementación

Optimizador: AdamW, tasa de aprendizaje 0.0001-0.001
Decaimiento de tasa de aprendizaje: Decaimiento lineal de 0.9 cada 10 épocas, total de 100 épocas
Tamaño de lote: 128
Parámetro de coordinación λ₁: 0.8-0.9

Resultados Experimentales

Resultados Principales

Conjunto de Datos MIPLIB

En la mayoría de escenarios, este método tiene rendimiento similar a Gurobi en suboptimalidad e inviabilidad
En comparación con MLOPT, muestra ligera ventaja en viabilidad y mejora significativa en suboptimalidad
El método heurístico muestra rendimiento deficiente en múltiples indicadores debido a limitaciones de tiempo

Gestión de Energía de Celdas de Combustible

Mejora de precisión de casi 39% en el problema más complejo
Efecto significativo de poda de estrategias, especialmente con aumento de escala del problema
Rendimiento Top-k: mejora del rendimiento del modelo con aumento de k, superando a MLOPT con el mismo valor de k

Problemas de Gestión de Inventario

Mantiene viabilidad en todas las instancias, con precisión estable en aproximadamente 90%
En el problema de mayor escala P5 (más de 270,000 restricciones), mejora de aproximadamente 30% en comparación con MLOPT

Análisis de Tiempo Computacional

Logra mejora de tiempo de 3 órdenes de magnitud en comparación con Gurobi
El tiempo se mantiene relativamente estable con el crecimiento de la escala del problema
Diferencia mínima en comparación con MLOPT (con el mismo valor de k)
El cálculo Top-k puede paralelizarse, mejorando aún más la velocidad

Experimentos de Ablación

Aprendizaje de Preferencias vs. Ajuste de Recompensa

En el conjunto de datos de celdas de combustible, el método de preferencia mejora la precisión promedio en aproximadamente 9% en comparación con el ajuste directo de recompensa, mostrando mejor rendimiento en indicadores de inviabilidad y suboptimalidad.

Muestreo Ordenado vs. Muestreo Tradicional

El método ordenado mejora la precisión promedio en aproximadamente 8% en comparación con el muestreo de preferencia pareada tradicional en varios tamaños de problema, reduciendo significativamente el costo de entrenamiento.

Trabajo Relacionado

Clasificación de Métodos de Resolución de MILP Basados en Aprendizaje Automático

Predicción de Soluciones de Extremo a Extremo: Aprende directamente el mapeo de instancias MILP a soluciones
Aprendizaje para Optimización: Aprende a acelerar métodos exactos/heurísticos tradicionales
Aprendizaje para Simplificar MILP: Aprende preprocesamiento o reducción de escala de MILP

Relación de Este Trabajo con Trabajos Existentes

En comparación con métodos de extremo a extremo: Evita problemas de aprendizaje del espacio de soluciones de alta dimensión
En comparación con aprendizaje para optimización: No está limitado por restricciones de horizonte de decisión
En comparación con reducción de modelos existente: Utiliza plenamente información de preferencia en lugar de considerar solo la estrategia óptima

Conclusiones y Discusión

Conclusiones Principales

El aprendizaje de reducción de modelos basado en preferencias mejora significativamente el rendimiento de resolución de MILP
La técnica de poda SETCOVER controla efectivamente la cantidad de estrategias
El mecanismo de atención captura exitosamente la correlación instancia-estrategia
Logra aceleración significativa y mejora de precisión en problemas industriales reales

Limitaciones

El método es aplicable a problemas MILP homogéneos con estructura repetida
Requiere datos de entrenamiento suficientes para aprender un modelo de preferencia efectivo
La fase de generación de estrategias aún requiere un solucionador comercial para obtener soluciones óptimas
El espacio de estrategias puede seguir siendo grande en problemas a gran escala

Direcciones Futuras

Extender a tipos más amplios de problemas de optimización
Reducir la dependencia de datos de entrenamiento
Mejorar aún más la eficiencia de generación de estrategias
Explorar métodos de aprendizaje no supervisado o semi-supervisado

Evaluación Profunda

Fortalezas

Fuerte Innovación: Primera introducción sistemática del aprendizaje de preferencias en reducción de modelos MILP
Base Teórica Sólida: Basada en conceptos de reducción de modelos de la teoría de investigación operativa
Experimentación Exhaustiva: Verificación en múltiples conjuntos de datos reales, incluyendo problemas a nivel industrial
Rendimiento Significativo: Logra mejoras sustanciales en comparación con métodos existentes
Buena Interpretabilidad: Los modelos reducidos corresponden a modos operativos interpretables

Deficiencias

Rango de Aplicabilidad Limitado: Principalmente aplicable a problemas MILP parametrizados
Costo de Entrenamiento: Aún requiere gran cantidad de datos anotados (soluciones óptimas)
Análisis Teórico Insuficiente: Carece de garantías teóricas sobre convergencia y capacidad de generalización
Líneas Base de Comparación Limitadas: Principalmente compara con un método de aprendizaje (MLOPT)

Impacto

Contribución Académica: Proporciona nueva dirección de investigación para el campo ML4CO
Valor Práctico: Tiene potencial de aplicación directa en resolución industrial de MILP
Reproducibilidad: Descripción detallada del método y configuración experimental clara
Significado Inspirador: La idea de aprendizaje de preferencias puede extenderse a otros problemas de optimización

Escenarios de Aplicabilidad

Planificación Estocástica en Línea: Necesidad de resolver rápidamente instancias MILP similares
Optimización de Cadena de Suministro: Problemas con parámetros variables pero estructura fija
Programación en Tiempo Real: Aplicaciones con requisitos estrictos de tiempo de resolución
Optimización Industrial a Gran Escala: Problemas que los solucionadores comerciales tienen dificultad para procesar

Referencias

El artículo cita trabajos importantes en el campo, incluyendo:

Bengio, Lodi, and Prouvost (2021): Encuesta sobre aprendizaje automático para optimización combinatoria
Bertsimas and Stellato (2022): Optimización de enteros mixtos en línea
Misra, Roald, and Ng (2022): Aprendizaje para optimización restringida
Y numerosos trabajos relacionados sobre aprendizaje de extremo a extremo y aprendizaje para optimización

Evaluación General: Este es un artículo de investigación de alta calidad que propone un método de aprendizaje de preferencias innovador en el campo ML4CO. Aunque presenta algunas limitaciones, sus contribuciones teóricas y valor práctico son destacados, proporcionando una nueva vía efectiva para la resolución de MILP a gran escala.