The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.
- ID del Artículo: 2501.00138
- Título: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
- Autores: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (Universidad de Maribor, Eslovenia)
- Clasificación: cs.NE (Computación Neuronal y Evolutiva), cs.AI (Inteligencia Artificial)
- Fecha de Publicación: 30 de diciembre de 2024 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2501.00138
El paradigma de Minería de Reglas de Asociación Numérica (NARM, por sus siglas en inglés) es capaz de procesar simultáneamente atributos numéricos y categóricos, lo que resulta beneficioso para descubrir relaciones de asociación en conjuntos de datos que contienen ambos tipos de características. Sin embargo, este proceso no es simple, ya que comprende múltiples pasos de procesamiento ejecutados secuencialmente para formar una tubería completa, como preprocesamiento, selección de algoritmos, optimización de hiperparámetros y definición de métricas para evaluar la calidad de las reglas de asociación. Este artículo propone un novedoso enfoque de aprendizaje automático automatizado llamado NiaAutoARM, que construye automáticamente tuberías completas de minería de reglas de asociación basándose en algoritmos metaheurísticos de población estocástica. Además de la representación teórica del método, el artículo proporciona una evaluación experimental exhaustiva del método propuesto.
La Minería de Reglas de Asociación (ARM, por sus siglas en inglés) es un método de aprendizaje automático utilizado para descubrir relaciones entre elementos en bases de datos transaccionales. El ARM tradicional se limita al procesamiento de atributos categóricos, mientras que la Minería de Reglas de Asociación Numérica (NARM) como variante del ARM es capaz de procesar simultáneamente atributos numéricos y categóricos, eliminando así los cuellos de botella del ARM tradicional.
- Necesidad de Democratización: El Aprendizaje Automático Automatizado (AutoML) tiene como objetivo permitir que usuarios no especializados utilicen métodos de ML, evitando el principio de "humano en el bucle"
- Desafíos de Complejidad: La tubería ARM contiene múltiples componentes complejos: preprocesamiento de datos, selección de algoritmos, optimización de hiperparámetros, selección de métricas de evaluación y evaluación
- Ausencia de Solución Universal: De acuerdo con el teorema No Free Lunch, no existe un algoritmo metaheurístico ARM universal aplicable a todos los conjuntos de datos
- La construcción manual de tuberías ARM requiere una intervención humana significativa, siendo tediosa y compleja
- La investigación existente presta insuficiente atención a los pasos de preprocesamiento en ARM
- Falta de métodos AutoML especializados para la construcción automática de tuberías ARM
Inspirándose en el método NiaAML, se modela el problema de construcción de tuberías ARM como un problema de optimización continua, utilizando algoritmos metaheurísticos de población para buscar automáticamente la configuración óptima de la tubería.
- Originalidad: Propone la primera solución AutoML especializada para la búsqueda automática de tuberías ARM, representando la búsqueda automática como un problema de optimización
- Enfoque en Preprocesamiento: Presta especial atención a los pasos de preprocesamiento en ARM, abordando las deficiencias en trabajos de investigación recientes
- Marco de Implementación: Implementa un paquete Python llamado NiaAutoARM, proporcionando herramientas prácticas completas
- Evaluación Exhaustiva: Realiza una evaluación experimental rigurosa del método propuesto en múltiples conjuntos de datos
Se define la construcción de tuberías ARM como un problema de optimización continua, donde cada individuo representa una configuración viable de tubería ARM, que incluye:
- Selección de algoritmo
- Configuración de hiperparámetros
- Métodos de preprocesamiento
- Métricas de evaluación y pesos
Cada individuo xi(t) se representa como:
xi(t)=⟨xi,1(t),yi,1(t),yi,2(t),pi,1(t),…,pi,P(t),zi,1(t),…,zi,M(t),wi,1(t),…,wi,M(t)⟩
Donde:
- xi,1(t): Selección de algoritmo
- yi,1(t),yi,2(t): Hiperparámetros (tamaño de población NP, máximo de evaluaciones MAXFES)
- pi,1(t),…,pi,P(t): Métodos de preprocesamiento
- zi,1(t),…,zi,M(t): Métricas de evaluación
- wi,1(t),…,wi,M(t): Pesos de métricas
Conjunto de Algoritmos: Incluye 6 algoritmos metaheurísticos: PSO, DE, GA, LSHADE, ILSHADE, jDE
Métodos de Preprocesamiento:
- Normalización Min-Max (MM)
- Normalización Z-Score (ZS)
- Compresión de Datos (DS)
- Eliminación de Características Altamente Correlacionadas (RHC)
- Discretización K-means (DK)
Métricas de Evaluación: Soporte, confianza, cobertura, amplitud, inclusión, comprensibilidad
NiaAutoARM utiliza una función de aptitud equitativa:
f(xi(t))=α+βα⋅supp(X⇒Y)+β⋅conf(X⇒Y)
Donde α y β representan la influencia de diferentes métricas ARM en la calidad de la solución.
- Estructura de Optimización Bicapa: El algoritmo metaheurístico externo controla el comportamiento del algoritmo interno, buscando la configuración óptima
- Pesos Adaptativos: Soporta ajuste dinámico de pesos de métricas ARM
- Combinaciones Múltiples de Preprocesamiento: Permite seleccionar combinaciones de múltiples métodos de preprocesamiento
- Modelado de Optimización Continua: Transforma el problema discreto de construcción de tuberías en un problema de optimización continua
Se utilizan 10 conjuntos de datos del repositorio UCI de Aprendizaje Automático para la evaluación:
| Conjunto de Datos | Instancias | Atributos | Tipo de Atributo |
|---|
| Abalone | 4,177 | 9 | DN |
| Balance scale | 625 | 5 | DN |
| Basketball | 96 | 5 | N |
| Bolts | 40 | 8 | N |
| Buying | 100 | 40 | N |
| German | 1,000 | 20 | DN |
| House | 22,784 | 17 | N |
| Ionosphere | 351 | 35 | DN |
| Quake | 2,178 | 4 | N |
| Wine | 178 | 14 | N |
- Valor de aptitud (promedio ponderado de soporte y confianza)
- Cantidad de reglas generadas
- Frecuencia de selección de algoritmos
- Frecuencia de uso de métodos de preprocesamiento
Comparación indirecta con VARDE (Variable-length Association Rule mining using Differential Evolution), el algoritmo más reciente.
- Algoritmo externo: DE y PSO
- Tamaño de población: NP = 30
- Máximo de evaluaciones de aptitud: MAXFES = 1000
- Número de ejecuciones independientes: 30
- Rango de hiperparámetros del algoritmo interno: NP ∈ 10, 30, MAXFES ∈ 2000, 10000
- Selección de Preprocesamiento: Normalización Min-Max (MM), Normalización Z-Score (ZS) y sin preprocesamiento se seleccionan con mayor frecuencia
- Preferencia de Métricas: Soporte y confianza están presentes en prácticamente todas las tuberías
- Selección de Algoritmos: PSO y jDE se seleccionan con mayor frecuencia como algoritmos de optimización internos
- Hiperparámetros: Los conjuntos de datos complejos (como Buying, German, House16) tienden a seleccionar valores NP más altos
Con la adaptación de pesos de métricas ARM habilitada:
- Ligera mejora en valores de aptitud (aunque la prueba de Wilcoxon p=0.41, diferencia no significativa)
- Distribución dinámica de valores de peso, manteniendo pesos más altos para soporte y confianza
- Menor frecuencia de uso de métricas de amplitud y comprensibilidad
Al permitir la selección de múltiples métodos de preprocesamiento:
- PSO: Combinaciones más frecuentes {MM,RHC} y MM individual
- DE: Combinaciones más frecuentes {RHC,ZS}, {MM,RHC,ZS} y RHC individual
- Las tuberías generadas por DE tienen valores de aptitud ligeramente más altos, PSO genera más reglas
Los resultados de la prueba de rango con signo de Wilcoxon muestran:
- En múltiples configuraciones, las tuberías generadas por NiaAutoARM superan significativamente a VARDE
- Desempeño particularmente superior cuando se habilita la adaptación de pesos y múltiples métodos de preprocesamiento
Se verifica la contribución de cada componente habilitando progresivamente diferentes funcionalidades:
- Configuración de línea base (preprocesamiento único, sin adaptación de pesos)
- Habilitación de adaptación de pesos
- Habilitación de selección de múltiples métodos de preprocesamiento
El tiempo de ejecución promedio se encuentra en el rango de 15,000-40,000 segundos. Aunque la complejidad computacional es relativamente alta, considerando la conveniencia que proporciona la automatización, es un compromiso aceptable.
- NiaAML: Construcción automática de tuberías de clasificación basada en algoritmos inspirados en la naturaleza
- NiaAML2: Versión mejorada que divide la construcción de tuberías y la optimización de hiperparámetros en dos etapas independientes
- AutoML General: Marcos como TPOT, Auto-sklearn, etc., se enfocaban principalmente en tareas de clasificación y regresión
- NiaARM: Marco Python que implementa el algoritmo ARM-DE
- ARM Tradicional: Se enfoca principalmente en atributos categóricos
- NARM: Versión mejorada capaz de procesar simultáneamente atributos numéricos y categóricos
NiaAutoARM es el primer método AutoML especializado en la construcción automática de tuberías ARM, llenando un vacío en este campo.
- NiaAutoARM puede construir automáticamente tuberías ARM de alta calidad de manera efectiva
- PSO como algoritmo interno muestra el mejor desempeño, siendo la normalización Min-Max el método de preprocesamiento más preferido
- Soporte y confianza son métricas centrales en ARM
- En comparación con métodos de última generación existentes, este marco demuestra un desempeño superior
- Complejidad Computacional: Debido a la optimización iterativa y la exploración de múltiples combinaciones de preprocesamiento, el costo computacional es relativamente alto
- Métricas de Evaluación: Actualmente se basa principalmente en combinaciones de soporte y confianza, que pueden no ser aplicables a todos los escenarios de aplicación
- Escala de Conjuntos de Datos: Los experimentos se realizan principalmente en conjuntos de datos de tamaño pequeño a mediano, el desempeño en conjuntos de datos a gran escala requiere verificación adicional
- Limitación del Conjunto de Algoritmos: El conjunto de algoritmos internos es relativamente limitado, pudiendo perder otros algoritmos efectivos
- Extensión de Algoritmos: Integrar más algoritmos naturales inspirados con ajuste de parámetros adaptativos
- Mejora del Preprocesamiento: Incorporar técnicas de preprocesamiento más avanzadas y métricas específicas del dominio
- Computación Paralela: Explorar estrategias de computación paralela y distribuida para reducir la complejidad computacional
- Optimización Multiobjetivo: Extender el marco para soportar optimización multiobjetivo, explorando compensaciones entre métricas conflictivas
- Innovación Fuerte: Primera aplicación de AutoML al campo de ARM, llenando un vacío importante
- Método Completo: Abarca optimización completa de tuberías desde preprocesamiento hasta evaluación
- Experimentación Exhaustiva: Verificación experimental completa en múltiples conjuntos de datos
- Alto Valor Práctico: Proporciona implementación Python completa, facilitando aplicaciones prácticas
- Base Teórica Sólida: Basado en teoría de optimización metaheurística madura
- Eficiencia Computacional: La estructura de optimización bicapa resulta en costos computacionales relativamente altos
- Escalabilidad: El desempeño en conjuntos de datos a gran escala no ha sido suficientemente verificado
- Comparación Limitada: La comparación con VARDE es indirecta, faltando comparaciones con más métodos de línea base
- Análisis de Sensibilidad: Análisis insuficiente de la sensibilidad a la configuración de parámetros del algoritmo externo
- Contribución Académica: Abre una nueva dirección de investigación en AutoARM
- Valor Práctico: Reduce la barrera técnica para la aplicación de ARM, promoviendo la popularización del método
- Reproducibilidad: Proporciona implementación de código abierto, facilitando investigaciones posteriores
- Potencial de Extensión: Proporciona un marco de referencia para investigaciones de automatización en campos relacionados
- Conjuntos de Datos Pequeños a Medianos: Particularmente adecuado para conjuntos de datos con cantidad moderada de atributos e instancias
- Datos con Atributos Mixtos: Conjuntos de datos que contienen simultáneamente atributos numéricos y categóricos
- Usuarios No Especializados: Usuarios sin conocimiento especializado en ARM pero que necesitan realizar análisis de asociación
- Prototipado Rápido: Escenarios de investigación que requieren construcción y prueba rápida de tuberías ARM
El artículo cita 25 referencias relacionadas, cubriendo principalmente:
- Trabajos relacionados con AutoML (Yao et al., Hutter et al., He et al.)
- Fundamentos de computación evolutiva (Eiben & Smith, Blum & Merkle)
- Implementaciones de algoritmos específicos (Storn & Price para DE, Kennedy & Eberhart para PSO)
- Marcos relacionados (series NiaPy, NiaARM, NiaAML)
Evaluación General: Este es un artículo de investigación de alta calidad que realiza contribuciones importantes en el campo de intersección entre AutoML y ARM. Aunque hay espacio para mejora en eficiencia computacional y procesamiento de datos a gran escala, su innovación, completitud y valor práctico lo convierten en un trabajo hito importante en este campo.