2025-11-12T20:28:10.501994

NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines

Mlakar, Fister, Fister
The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.
academic

NiaAutoARM: Generación automática y evaluación de tuberías de Minería de Reglas de Asociación

Información Básica

  • ID del Artículo: 2501.00138
  • Título: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
  • Autores: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (Universidad de Maribor, Eslovenia)
  • Clasificación: cs.NE (Computación Neuronal y Evolutiva), cs.AI (Inteligencia Artificial)
  • Fecha de Publicación: 30 de diciembre de 2024 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2501.00138

Resumen

El paradigma de Minería de Reglas de Asociación Numérica (NARM, por sus siglas en inglés) es capaz de procesar simultáneamente atributos numéricos y categóricos, lo que resulta beneficioso para descubrir relaciones de asociación en conjuntos de datos que contienen ambos tipos de características. Sin embargo, este proceso no es simple, ya que comprende múltiples pasos de procesamiento ejecutados secuencialmente para formar una tubería completa, como preprocesamiento, selección de algoritmos, optimización de hiperparámetros y definición de métricas para evaluar la calidad de las reglas de asociación. Este artículo propone un novedoso enfoque de aprendizaje automático automatizado llamado NiaAutoARM, que construye automáticamente tuberías completas de minería de reglas de asociación basándose en algoritmos metaheurísticos de población estocástica. Además de la representación teórica del método, el artículo proporciona una evaluación experimental exhaustiva del método propuesto.

Antecedentes de Investigación y Motivación

1. Definición del Problema

La Minería de Reglas de Asociación (ARM, por sus siglas en inglés) es un método de aprendizaje automático utilizado para descubrir relaciones entre elementos en bases de datos transaccionales. El ARM tradicional se limita al procesamiento de atributos categóricos, mientras que la Minería de Reglas de Asociación Numérica (NARM) como variante del ARM es capaz de procesar simultáneamente atributos numéricos y categóricos, eliminando así los cuellos de botella del ARM tradicional.

2. Importancia del Problema

  • Necesidad de Democratización: El Aprendizaje Automático Automatizado (AutoML) tiene como objetivo permitir que usuarios no especializados utilicen métodos de ML, evitando el principio de "humano en el bucle"
  • Desafíos de Complejidad: La tubería ARM contiene múltiples componentes complejos: preprocesamiento de datos, selección de algoritmos, optimización de hiperparámetros, selección de métricas de evaluación y evaluación
  • Ausencia de Solución Universal: De acuerdo con el teorema No Free Lunch, no existe un algoritmo metaheurístico ARM universal aplicable a todos los conjuntos de datos

3. Limitaciones de Métodos Existentes

  • La construcción manual de tuberías ARM requiere una intervención humana significativa, siendo tediosa y compleja
  • La investigación existente presta insuficiente atención a los pasos de preprocesamiento en ARM
  • Falta de métodos AutoML especializados para la construcción automática de tuberías ARM

4. Motivación de la Investigación

Inspirándose en el método NiaAML, se modela el problema de construcción de tuberías ARM como un problema de optimización continua, utilizando algoritmos metaheurísticos de población para buscar automáticamente la configuración óptima de la tubería.

Contribuciones Principales

  1. Originalidad: Propone la primera solución AutoML especializada para la búsqueda automática de tuberías ARM, representando la búsqueda automática como un problema de optimización
  2. Enfoque en Preprocesamiento: Presta especial atención a los pasos de preprocesamiento en ARM, abordando las deficiencias en trabajos de investigación recientes
  3. Marco de Implementación: Implementa un paquete Python llamado NiaAutoARM, proporcionando herramientas prácticas completas
  4. Evaluación Exhaustiva: Realiza una evaluación experimental rigurosa del método propuesto en múltiples conjuntos de datos

Explicación Detallada del Método

Definición de la Tarea

Se define la construcción de tuberías ARM como un problema de optimización continua, donde cada individuo representa una configuración viable de tubería ARM, que incluye:

  • Selección de algoritmo
  • Configuración de hiperparámetros
  • Métodos de preprocesamiento
  • Métricas de evaluación y pesos

Arquitectura del Modelo

1. Representación de la Solución

Cada individuo xi(t)x_i^{(t)} se representa como:

xi(t)=xi,1(t),yi,1(t),yi,2(t),pi,1(t),,pi,P(t),zi,1(t),,zi,M(t),wi,1(t),,wi,M(t)x_i^{(t)} = \langle x_{i,1}^{(t)}, y_{i,1}^{(t)}, y_{i,2}^{(t)}, p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}, z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}, w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)} \rangle

Donde:

  • xi,1(t)x_{i,1}^{(t)}: Selección de algoritmo
  • yi,1(t),yi,2(t)y_{i,1}^{(t)}, y_{i,2}^{(t)}: Hiperparámetros (tamaño de población NP, máximo de evaluaciones MAXFES)
  • pi,1(t),,pi,P(t)p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}: Métodos de preprocesamiento
  • zi,1(t),,zi,M(t)z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}: Métricas de evaluación
  • wi,1(t),,wi,M(t)w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)}: Pesos de métricas

2. Diseño de Componentes

Conjunto de Algoritmos: Incluye 6 algoritmos metaheurísticos: PSO, DE, GA, LSHADE, ILSHADE, jDE

Métodos de Preprocesamiento:

  • Normalización Min-Max (MM)
  • Normalización Z-Score (ZS)
  • Compresión de Datos (DS)
  • Eliminación de Características Altamente Correlacionadas (RHC)
  • Discretización K-means (DK)

Métricas de Evaluación: Soporte, confianza, cobertura, amplitud, inclusión, comprensibilidad

3. Función de Aptitud

NiaAutoARM utiliza una función de aptitud equitativa:

f(xi(t))=αsupp(XY)+βconf(XY)α+βf(x_i^{(t)}) = \frac{\alpha \cdot supp(X \Rightarrow Y) + \beta \cdot conf(X \Rightarrow Y)}{\alpha + \beta}

Donde α y β representan la influencia de diferentes métricas ARM en la calidad de la solución.

Puntos de Innovación Técnica

  1. Estructura de Optimización Bicapa: El algoritmo metaheurístico externo controla el comportamiento del algoritmo interno, buscando la configuración óptima
  2. Pesos Adaptativos: Soporta ajuste dinámico de pesos de métricas ARM
  3. Combinaciones Múltiples de Preprocesamiento: Permite seleccionar combinaciones de múltiples métodos de preprocesamiento
  4. Modelado de Optimización Continua: Transforma el problema discreto de construcción de tuberías en un problema de optimización continua

Configuración Experimental

Conjuntos de Datos

Se utilizan 10 conjuntos de datos del repositorio UCI de Aprendizaje Automático para la evaluación:

Conjunto de DatosInstanciasAtributosTipo de Atributo
Abalone4,1779DN
Balance scale6255DN
Basketball965N
Bolts408N
Buying10040N
German1,00020DN
House22,78417N
Ionosphere35135DN
Quake2,1784N
Wine17814N

Métricas de Evaluación

  • Valor de aptitud (promedio ponderado de soporte y confianza)
  • Cantidad de reglas generadas
  • Frecuencia de selección de algoritmos
  • Frecuencia de uso de métodos de preprocesamiento

Métodos de Comparación

Comparación indirecta con VARDE (Variable-length Association Rule mining using Differential Evolution), el algoritmo más reciente.

Detalles de Implementación

  • Algoritmo externo: DE y PSO
  • Tamaño de población: NP = 30
  • Máximo de evaluaciones de aptitud: MAXFES = 1000
  • Número de ejecuciones independientes: 30
  • Rango de hiperparámetros del algoritmo interno: NP ∈ 10, 30, MAXFES ∈ 2000, 10000

Resultados Experimentales

Resultados Principales

1. Experimentos de Línea Base

  • Selección de Preprocesamiento: Normalización Min-Max (MM), Normalización Z-Score (ZS) y sin preprocesamiento se seleccionan con mayor frecuencia
  • Preferencia de Métricas: Soporte y confianza están presentes en prácticamente todas las tuberías
  • Selección de Algoritmos: PSO y jDE se seleccionan con mayor frecuencia como algoritmos de optimización internos
  • Hiperparámetros: Los conjuntos de datos complejos (como Buying, German, House16) tienden a seleccionar valores NP más altos

2. Experimentos de Adaptación de Pesos

Con la adaptación de pesos de métricas ARM habilitada:

  • Ligera mejora en valores de aptitud (aunque la prueba de Wilcoxon p=0.41, diferencia no significativa)
  • Distribución dinámica de valores de peso, manteniendo pesos más altos para soporte y confianza
  • Menor frecuencia de uso de métricas de amplitud y comprensibilidad

3. Experimentos con Múltiples Métodos de Preprocesamiento

Al permitir la selección de múltiples métodos de preprocesamiento:

  • PSO: Combinaciones más frecuentes {MM,RHC} y MM individual
  • DE: Combinaciones más frecuentes {RHC,ZS}, {MM,RHC,ZS} y RHC individual
  • Las tuberías generadas por DE tienen valores de aptitud ligeramente más altos, PSO genera más reglas

4. Comparación con VARDE

Los resultados de la prueba de rango con signo de Wilcoxon muestran:

  • En múltiples configuraciones, las tuberías generadas por NiaAutoARM superan significativamente a VARDE
  • Desempeño particularmente superior cuando se habilita la adaptación de pesos y múltiples métodos de preprocesamiento

Experimentos de Ablación

Se verifica la contribución de cada componente habilitando progresivamente diferentes funcionalidades:

  1. Configuración de línea base (preprocesamiento único, sin adaptación de pesos)
  2. Habilitación de adaptación de pesos
  3. Habilitación de selección de múltiples métodos de preprocesamiento

Análisis de Complejidad Computacional

El tiempo de ejecución promedio se encuentra en el rango de 15,000-40,000 segundos. Aunque la complejidad computacional es relativamente alta, considerando la conveniencia que proporciona la automatización, es un compromiso aceptable.

Trabajo Relacionado

Campo de AutoML

  • NiaAML: Construcción automática de tuberías de clasificación basada en algoritmos inspirados en la naturaleza
  • NiaAML2: Versión mejorada que divide la construcción de tuberías y la optimización de hiperparámetros en dos etapas independientes
  • AutoML General: Marcos como TPOT, Auto-sklearn, etc., se enfocaban principalmente en tareas de clasificación y regresión

Campo de ARM

  • NiaARM: Marco Python que implementa el algoritmo ARM-DE
  • ARM Tradicional: Se enfoca principalmente en atributos categóricos
  • NARM: Versión mejorada capaz de procesar simultáneamente atributos numéricos y categóricos

Diferencias Técnicas

NiaAutoARM es el primer método AutoML especializado en la construcción automática de tuberías ARM, llenando un vacío en este campo.

Conclusiones y Discusión

Conclusiones Principales

  1. NiaAutoARM puede construir automáticamente tuberías ARM de alta calidad de manera efectiva
  2. PSO como algoritmo interno muestra el mejor desempeño, siendo la normalización Min-Max el método de preprocesamiento más preferido
  3. Soporte y confianza son métricas centrales en ARM
  4. En comparación con métodos de última generación existentes, este marco demuestra un desempeño superior

Limitaciones

  1. Complejidad Computacional: Debido a la optimización iterativa y la exploración de múltiples combinaciones de preprocesamiento, el costo computacional es relativamente alto
  2. Métricas de Evaluación: Actualmente se basa principalmente en combinaciones de soporte y confianza, que pueden no ser aplicables a todos los escenarios de aplicación
  3. Escala de Conjuntos de Datos: Los experimentos se realizan principalmente en conjuntos de datos de tamaño pequeño a mediano, el desempeño en conjuntos de datos a gran escala requiere verificación adicional
  4. Limitación del Conjunto de Algoritmos: El conjunto de algoritmos internos es relativamente limitado, pudiendo perder otros algoritmos efectivos

Direcciones Futuras

  1. Extensión de Algoritmos: Integrar más algoritmos naturales inspirados con ajuste de parámetros adaptativos
  2. Mejora del Preprocesamiento: Incorporar técnicas de preprocesamiento más avanzadas y métricas específicas del dominio
  3. Computación Paralela: Explorar estrategias de computación paralela y distribuida para reducir la complejidad computacional
  4. Optimización Multiobjetivo: Extender el marco para soportar optimización multiobjetivo, explorando compensaciones entre métricas conflictivas

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera aplicación de AutoML al campo de ARM, llenando un vacío importante
  2. Método Completo: Abarca optimización completa de tuberías desde preprocesamiento hasta evaluación
  3. Experimentación Exhaustiva: Verificación experimental completa en múltiples conjuntos de datos
  4. Alto Valor Práctico: Proporciona implementación Python completa, facilitando aplicaciones prácticas
  5. Base Teórica Sólida: Basado en teoría de optimización metaheurística madura

Insuficiencias

  1. Eficiencia Computacional: La estructura de optimización bicapa resulta en costos computacionales relativamente altos
  2. Escalabilidad: El desempeño en conjuntos de datos a gran escala no ha sido suficientemente verificado
  3. Comparación Limitada: La comparación con VARDE es indirecta, faltando comparaciones con más métodos de línea base
  4. Análisis de Sensibilidad: Análisis insuficiente de la sensibilidad a la configuración de parámetros del algoritmo externo

Impacto

  1. Contribución Académica: Abre una nueva dirección de investigación en AutoARM
  2. Valor Práctico: Reduce la barrera técnica para la aplicación de ARM, promoviendo la popularización del método
  3. Reproducibilidad: Proporciona implementación de código abierto, facilitando investigaciones posteriores
  4. Potencial de Extensión: Proporciona un marco de referencia para investigaciones de automatización en campos relacionados

Escenarios de Aplicación

  1. Conjuntos de Datos Pequeños a Medianos: Particularmente adecuado para conjuntos de datos con cantidad moderada de atributos e instancias
  2. Datos con Atributos Mixtos: Conjuntos de datos que contienen simultáneamente atributos numéricos y categóricos
  3. Usuarios No Especializados: Usuarios sin conocimiento especializado en ARM pero que necesitan realizar análisis de asociación
  4. Prototipado Rápido: Escenarios de investigación que requieren construcción y prueba rápida de tuberías ARM

Referencias

El artículo cita 25 referencias relacionadas, cubriendo principalmente:

  • Trabajos relacionados con AutoML (Yao et al., Hutter et al., He et al.)
  • Fundamentos de computación evolutiva (Eiben & Smith, Blum & Merkle)
  • Implementaciones de algoritmos específicos (Storn & Price para DE, Kennedy & Eberhart para PSO)
  • Marcos relacionados (series NiaPy, NiaARM, NiaAML)

Evaluación General: Este es un artículo de investigación de alta calidad que realiza contribuciones importantes en el campo de intersección entre AutoML y ARM. Aunque hay espacio para mejora en eficiencia computacional y procesamiento de datos a gran escala, su innovación, completitud y valor práctico lo convierten en un trabajo hito importante en este campo.