2025-11-12T20:28:10.501994

NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines

Mlakar, Fister, Fister

The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.

academic

NiaAutoARM: Generación automática y evaluación de tuberías de Minería de Reglas de Asociación

Información Básica

ID del Artículo: 2501.00138
Título: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
Autores: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (Universidad de Maribor, Eslovenia)
Clasificación: cs.NE (Computación Neuronal y Evolutiva), cs.AI (Inteligencia Artificial)
Fecha de Publicación: 30 de diciembre de 2024 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.00138

Resumen

El paradigma de Minería de Reglas de Asociación Numérica (NARM, por sus siglas en inglés) es capaz de procesar simultáneamente atributos numéricos y categóricos, lo que resulta beneficioso para descubrir relaciones de asociación en conjuntos de datos que contienen ambos tipos de características. Sin embargo, este proceso no es simple, ya que comprende múltiples pasos de procesamiento ejecutados secuencialmente para formar una tubería completa, como preprocesamiento, selección de algoritmos, optimización de hiperparámetros y definición de métricas para evaluar la calidad de las reglas de asociación. Este artículo propone un novedoso enfoque de aprendizaje automático automatizado llamado NiaAutoARM, que construye automáticamente tuberías completas de minería de reglas de asociación basándose en algoritmos metaheurísticos de población estocástica. Además de la representación teórica del método, el artículo proporciona una evaluación experimental exhaustiva del método propuesto.

Antecedentes de Investigación y Motivación

1. Definición del Problema

La Minería de Reglas de Asociación (ARM, por sus siglas en inglés) es un método de aprendizaje automático utilizado para descubrir relaciones entre elementos en bases de datos transaccionales. El ARM tradicional se limita al procesamiento de atributos categóricos, mientras que la Minería de Reglas de Asociación Numérica (NARM) como variante del ARM es capaz de procesar simultáneamente atributos numéricos y categóricos, eliminando así los cuellos de botella del ARM tradicional.

2. Importancia del Problema

Necesidad de Democratización: El Aprendizaje Automático Automatizado (AutoML) tiene como objetivo permitir que usuarios no especializados utilicen métodos de ML, evitando el principio de "humano en el bucle"
Desafíos de Complejidad: La tubería ARM contiene múltiples componentes complejos: preprocesamiento de datos, selección de algoritmos, optimización de hiperparámetros, selección de métricas de evaluación y evaluación
Ausencia de Solución Universal: De acuerdo con el teorema No Free Lunch, no existe un algoritmo metaheurístico ARM universal aplicable a todos los conjuntos de datos

3. Limitaciones de Métodos Existentes

La construcción manual de tuberías ARM requiere una intervención humana significativa, siendo tediosa y compleja
La investigación existente presta insuficiente atención a los pasos de preprocesamiento en ARM
Falta de métodos AutoML especializados para la construcción automática de tuberías ARM

4. Motivación de la Investigación

Inspirándose en el método NiaAML, se modela el problema de construcción de tuberías ARM como un problema de optimización continua, utilizando algoritmos metaheurísticos de población para buscar automáticamente la configuración óptima de la tubería.

Contribuciones Principales

Originalidad: Propone la primera solución AutoML especializada para la búsqueda automática de tuberías ARM, representando la búsqueda automática como un problema de optimización
Enfoque en Preprocesamiento: Presta especial atención a los pasos de preprocesamiento en ARM, abordando las deficiencias en trabajos de investigación recientes
Marco de Implementación: Implementa un paquete Python llamado NiaAutoARM, proporcionando herramientas prácticas completas
Evaluación Exhaustiva: Realiza una evaluación experimental rigurosa del método propuesto en múltiples conjuntos de datos

Explicación Detallada del Método

Definición de la Tarea

Se define la construcción de tuberías ARM como un problema de optimización continua, donde cada individuo representa una configuración viable de tubería ARM, que incluye:

Selección de algoritmo
Configuración de hiperparámetros
Métodos de preprocesamiento
Métricas de evaluación y pesos

Arquitectura del Modelo

1. Representación de la Solución

Cada individuo $x_i^{(t)}$ se representa como:

$x_i^{(t)} = \langle x_{i,1}^{(t)}, y_{i,1}^{(t)}, y_{i,2}^{(t)}, p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}, z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}, w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)} \rangle$

Donde:

$x_{i,1}^{(t)}$ : Selección de algoritmo
$y_{i,1}^{(t)}, y_{i,2}^{(t)}$ : Hiperparámetros (tamaño de población NP, máximo de evaluaciones MAXFES)
$p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}$ : Métodos de preprocesamiento
$z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}$ : Métricas de evaluación
$w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)}$ : Pesos de métricas

2. Diseño de Componentes

Conjunto de Algoritmos: Incluye 6 algoritmos metaheurísticos: PSO, DE, GA, LSHADE, ILSHADE, jDE

Métodos de Preprocesamiento:

Normalización Min-Max (MM)
Normalización Z-Score (ZS)
Compresión de Datos (DS)
Eliminación de Características Altamente Correlacionadas (RHC)
Discretización K-means (DK)

Métricas de Evaluación: Soporte, confianza, cobertura, amplitud, inclusión, comprensibilidad

3. Función de Aptitud

NiaAutoARM utiliza una función de aptitud equitativa:

$f(x_i^{(t)}) = \frac{\alpha \cdot supp(X \Rightarrow Y) + \beta \cdot conf(X \Rightarrow Y)}{\alpha + \beta}$

Donde α y β representan la influencia de diferentes métricas ARM en la calidad de la solución.

Puntos de Innovación Técnica

Estructura de Optimización Bicapa: El algoritmo metaheurístico externo controla el comportamiento del algoritmo interno, buscando la configuración óptima
Pesos Adaptativos: Soporta ajuste dinámico de pesos de métricas ARM
Combinaciones Múltiples de Preprocesamiento: Permite seleccionar combinaciones de múltiples métodos de preprocesamiento
Modelado de Optimización Continua: Transforma el problema discreto de construcción de tuberías en un problema de optimización continua

Configuración Experimental

Conjuntos de Datos

Se utilizan 10 conjuntos de datos del repositorio UCI de Aprendizaje Automático para la evaluación:

Conjunto de Datos	Instancias	Atributos	Tipo de Atributo
Abalone	4,177	9	DN
Balance scale	625	5	DN
Basketball	96	5	N
Bolts	40	8	N
Buying	100	40	N
German	1,000	20	DN
House	22,784	17	N
Ionosphere	351	35	DN
Quake	2,178	4	N
Wine	178	14	N

Métricas de Evaluación

Valor de aptitud (promedio ponderado de soporte y confianza)
Cantidad de reglas generadas
Frecuencia de selección de algoritmos
Frecuencia de uso de métodos de preprocesamiento

Métodos de Comparación

Comparación indirecta con VARDE (Variable-length Association Rule mining using Differential Evolution), el algoritmo más reciente.

Detalles de Implementación

Algoritmo externo: DE y PSO
Tamaño de población: NP = 30
Máximo de evaluaciones de aptitud: MAXFES = 1000
Número de ejecuciones independientes: 30
Rango de hiperparámetros del algoritmo interno: NP ∈ 10, 30, MAXFES ∈ 2000, 10000

Resultados Experimentales

Resultados Principales

1. Experimentos de Línea Base

Selección de Preprocesamiento: Normalización Min-Max (MM), Normalización Z-Score (ZS) y sin preprocesamiento se seleccionan con mayor frecuencia
Preferencia de Métricas: Soporte y confianza están presentes en prácticamente todas las tuberías
Selección de Algoritmos: PSO y jDE se seleccionan con mayor frecuencia como algoritmos de optimización internos
Hiperparámetros: Los conjuntos de datos complejos (como Buying, German, House16) tienden a seleccionar valores NP más altos

2. Experimentos de Adaptación de Pesos

Con la adaptación de pesos de métricas ARM habilitada:

Ligera mejora en valores de aptitud (aunque la prueba de Wilcoxon p=0.41, diferencia no significativa)
Distribución dinámica de valores de peso, manteniendo pesos más altos para soporte y confianza
Menor frecuencia de uso de métricas de amplitud y comprensibilidad

3. Experimentos con Múltiples Métodos de Preprocesamiento

Al permitir la selección de múltiples métodos de preprocesamiento:

PSO: Combinaciones más frecuentes {MM,RHC} y MM individual
DE: Combinaciones más frecuentes {RHC,ZS}, {MM,RHC,ZS} y RHC individual
Las tuberías generadas por DE tienen valores de aptitud ligeramente más altos, PSO genera más reglas

4. Comparación con VARDE

Los resultados de la prueba de rango con signo de Wilcoxon muestran:

En múltiples configuraciones, las tuberías generadas por NiaAutoARM superan significativamente a VARDE
Desempeño particularmente superior cuando se habilita la adaptación de pesos y múltiples métodos de preprocesamiento

Experimentos de Ablación

Se verifica la contribución de cada componente habilitando progresivamente diferentes funcionalidades:

Configuración de línea base (preprocesamiento único, sin adaptación de pesos)
Habilitación de adaptación de pesos
Habilitación de selección de múltiples métodos de preprocesamiento

Análisis de Complejidad Computacional

El tiempo de ejecución promedio se encuentra en el rango de 15,000-40,000 segundos. Aunque la complejidad computacional es relativamente alta, considerando la conveniencia que proporciona la automatización, es un compromiso aceptable.

Trabajo Relacionado

Campo de AutoML

NiaAML: Construcción automática de tuberías de clasificación basada en algoritmos inspirados en la naturaleza
NiaAML2: Versión mejorada que divide la construcción de tuberías y la optimización de hiperparámetros en dos etapas independientes
AutoML General: Marcos como TPOT, Auto-sklearn, etc., se enfocaban principalmente en tareas de clasificación y regresión

Campo de ARM

NiaARM: Marco Python que implementa el algoritmo ARM-DE
ARM Tradicional: Se enfoca principalmente en atributos categóricos
NARM: Versión mejorada capaz de procesar simultáneamente atributos numéricos y categóricos

Diferencias Técnicas

NiaAutoARM es el primer método AutoML especializado en la construcción automática de tuberías ARM, llenando un vacío en este campo.

Conclusiones y Discusión

Conclusiones Principales

NiaAutoARM puede construir automáticamente tuberías ARM de alta calidad de manera efectiva
PSO como algoritmo interno muestra el mejor desempeño, siendo la normalización Min-Max el método de preprocesamiento más preferido
Soporte y confianza son métricas centrales en ARM
En comparación con métodos de última generación existentes, este marco demuestra un desempeño superior

Limitaciones

Complejidad Computacional: Debido a la optimización iterativa y la exploración de múltiples combinaciones de preprocesamiento, el costo computacional es relativamente alto
Métricas de Evaluación: Actualmente se basa principalmente en combinaciones de soporte y confianza, que pueden no ser aplicables a todos los escenarios de aplicación
Escala de Conjuntos de Datos: Los experimentos se realizan principalmente en conjuntos de datos de tamaño pequeño a mediano, el desempeño en conjuntos de datos a gran escala requiere verificación adicional
Limitación del Conjunto de Algoritmos: El conjunto de algoritmos internos es relativamente limitado, pudiendo perder otros algoritmos efectivos

Direcciones Futuras

Extensión de Algoritmos: Integrar más algoritmos naturales inspirados con ajuste de parámetros adaptativos
Mejora del Preprocesamiento: Incorporar técnicas de preprocesamiento más avanzadas y métricas específicas del dominio
Computación Paralela: Explorar estrategias de computación paralela y distribuida para reducir la complejidad computacional
Optimización Multiobjetivo: Extender el marco para soportar optimización multiobjetivo, explorando compensaciones entre métricas conflictivas

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera aplicación de AutoML al campo de ARM, llenando un vacío importante
Método Completo: Abarca optimización completa de tuberías desde preprocesamiento hasta evaluación
Experimentación Exhaustiva: Verificación experimental completa en múltiples conjuntos de datos
Alto Valor Práctico: Proporciona implementación Python completa, facilitando aplicaciones prácticas
Base Teórica Sólida: Basado en teoría de optimización metaheurística madura

Insuficiencias

Eficiencia Computacional: La estructura de optimización bicapa resulta en costos computacionales relativamente altos
Escalabilidad: El desempeño en conjuntos de datos a gran escala no ha sido suficientemente verificado
Comparación Limitada: La comparación con VARDE es indirecta, faltando comparaciones con más métodos de línea base
Análisis de Sensibilidad: Análisis insuficiente de la sensibilidad a la configuración de parámetros del algoritmo externo

Impacto

Contribución Académica: Abre una nueva dirección de investigación en AutoARM
Valor Práctico: Reduce la barrera técnica para la aplicación de ARM, promoviendo la popularización del método
Reproducibilidad: Proporciona implementación de código abierto, facilitando investigaciones posteriores
Potencial de Extensión: Proporciona un marco de referencia para investigaciones de automatización en campos relacionados

Escenarios de Aplicación

Conjuntos de Datos Pequeños a Medianos: Particularmente adecuado para conjuntos de datos con cantidad moderada de atributos e instancias
Datos con Atributos Mixtos: Conjuntos de datos que contienen simultáneamente atributos numéricos y categóricos
Usuarios No Especializados: Usuarios sin conocimiento especializado en ARM pero que necesitan realizar análisis de asociación
Prototipado Rápido: Escenarios de investigación que requieren construcción y prueba rápida de tuberías ARM

Referencias

El artículo cita 25 referencias relacionadas, cubriendo principalmente:

Trabajos relacionados con AutoML (Yao et al., Hutter et al., He et al.)
Fundamentos de computación evolutiva (Eiben & Smith, Blum & Merkle)
Implementaciones de algoritmos específicos (Storn & Price para DE, Kennedy & Eberhart para PSO)
Marcos relacionados (series NiaPy, NiaARM, NiaAML)

Evaluación General: Este es un artículo de investigación de alta calidad que realiza contribuciones importantes en el campo de intersección entre AutoML y ARM. Aunque hay espacio para mejora en eficiencia computacional y procesamiento de datos a gran escala, su innovación, completitud y valor práctico lo convierten en un trabajo hito importante en este campo.