2025-11-12T20:28:10.501994

NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines

Mlakar, Fister, Fister

The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.

academic

NiaAutoARM: Generazione automatica e valutazione di pipeline di Association Rule Mining

Informazioni Fondamentali

ID Articolo: 2501.00138
Titolo: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
Autori: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (Università di Maribor, Slovenia)
Classificazione: cs.NE (Neural and Evolutionary Computation), cs.AI (Artificial Intelligence)
Data di Pubblicazione: 30 dicembre 2024 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2501.00138

Riassunto

Il paradigma del Numerical Association Rule Mining (NARM) è in grado di gestire simultaneamente attributi numerici e categorici, risultando vantaggioso per scoprire relazioni associative da dataset contenenti entrambi i tipi di caratteristiche. Tuttavia, il processo non è semplice poiché comprende molteplici fasi di elaborazione eseguite sequenzialmente per formare una pipeline completa, come la preprocessazione, la selezione dell'algoritmo, l'ottimizzazione degli iperparametri e la definizione di metriche per valutare la qualità delle regole associative. Questo articolo propone un nuovo approccio di Automated Machine Learning denominato NiaAutoARM, basato su algoritmi metaeuristici stocastici a popolazione, per costruire automaticamente pipeline complete di Association Rule Mining. Oltre alla rappresentazione teorica del metodo, l'articolo fornisce una valutazione sperimentale completa dell'approccio proposto.

Contesto di Ricerca e Motivazione

1. Definizione del Problema

L'Association Rule Mining (ARM) è un metodo di machine learning utilizzato per scoprire relazioni tra elementi nei database transazionali. L'ARM tradizionale è limitato al trattamento di attributi categorici, mentre il Numerical Association Rule Mining (NARM), come variante dell'ARM, è in grado di gestire simultaneamente attributi numerici e categorici, eliminando così i colli di bottiglia dell'ARM tradizionale.

2. Importanza del Problema

Necessità di Democratizzazione: L'Automated Machine Learning (AutoML) mira a rendere i metodi di ML accessibili anche agli utenti non specializzati, evitando il principio del "human-in-the-loop"
Sfide di Complessità: La pipeline ARM contiene molteplici componenti complesse: preprocessazione dei dati, selezione dell'algoritmo, ottimizzazione degli iperparametri, selezione delle metriche di valutazione e valutazione
Assenza di Soluzione Universale: Secondo il teorema No Free Lunch, non esiste un algoritmo metaeuristico ARM universale applicabile a tutti i dataset

3. Limitazioni dei Metodi Esistenti

La costruzione manuale della pipeline ARM richiede un intervento umano significativo, risultando dispendiosa in termini di tempo e complessa
La ricerca esistente dedica insufficiente attenzione alle fasi di preprocessazione della pipeline ARM
Mancano metodi AutoML specializzati per la costruzione automatica della pipeline ARM

4. Motivazione della Ricerca

Ispirandosi al metodo NiaAML, il problema della costruzione della pipeline ARM viene modellato come un problema di ottimizzazione continua, utilizzando algoritmi metaeuristici a popolazione per cercare automaticamente la configurazione ottimale della pipeline.

Contributi Principali

Originalità: Propone la prima soluzione AutoML specializzata per la ricerca automatica della pipeline ARM, rappresentando la ricerca automatica come un problema di ottimizzazione
Attenzione alla Preprocessazione: Dedica particolare attenzione alle fasi di preprocessazione della pipeline ARM, colmando le lacune dei lavori di ricerca recenti
Framework di Implementazione: Implementa un pacchetto Python denominato NiaAutoARM, fornendo uno strumento pratico completo
Valutazione Completa: Conduce una valutazione sperimentale rigorosa del metodo proposto su molteplici dataset

Spiegazione Dettagliata del Metodo

Definizione del Compito

La costruzione della pipeline ARM è definita come un problema di ottimizzazione continua, dove ogni individuo rappresenta una configurazione di pipeline ARM fattibile, includendo:

Selezione dell'algoritmo
Impostazioni degli iperparametri
Metodi di preprocessazione
Metriche di valutazione e relativi pesi

Architettura del Modello

1. Rappresentazione della Soluzione

Ogni individuo $x_i^{(t)}$ è rappresentato come:

$x_i^{(t)} = \langle x_{i,1}^{(t)}, y_{i,1}^{(t)}, y_{i,2}^{(t)}, p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}, z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}, w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)} \rangle$

Dove:

$x_{i,1}^{(t)}$ : selezione dell'algoritmo
$y_{i,1}^{(t)}, y_{i,2}^{(t)}$ : iperparametri (dimensione della popolazione NP, numero massimo di valutazioni MAXFES)
$p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}$ : metodi di preprocessazione
$z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}$ : metriche di valutazione
$w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)}$ : pesi delle metriche

2. Progettazione dei Componenti

Pool di Algoritmi: Include 6 algoritmi metaeuristici: PSO, DE, GA, LSHADE, ILSHADE, jDE

Metodi di Preprocessazione:

Normalizzazione Min-Max (MM)
Normalizzazione Z-Score (ZS)
Compressione dei Dati (DS)
Rimozione di Caratteristiche Altamente Correlate (RHC)
Discretizzazione K-means (DK)

Metriche di Valutazione: supporto, confidenza, copertura, ampiezza, inclusione, comprensibilità

3. Funzione di Fitness

NiaAutoARM utilizza una funzione di fitness equa:

$f(x_i^{(t)}) = \frac{\alpha \cdot supp(X \Rightarrow Y) + \beta \cdot conf(X \Rightarrow Y)}{\alpha + \beta}$

Dove α e β rappresentano l'influenza di diverse metriche ARM sulla qualità della soluzione.

Punti di Innovazione Tecnica

Struttura di Ottimizzazione Bilivello: L'algoritmo metaeuristico esterno controlla il comportamento dell'algoritmo interno, cercando la configurazione ottimale
Pesi Adattivi: Supporta l'adattamento dinamico dei pesi delle metriche ARM
Combinazioni di Preprocessazione Multipla: Consente la selezione di combinazioni di molteplici metodi di preprocessazione
Modellazione dell'Ottimizzazione Continua: Trasforma il problema discreto della costruzione della pipeline in un problema di ottimizzazione continua

Configurazione Sperimentale

Dataset

Valutazione condotta su 10 dataset del UCI Machine Learning Repository:

Dataset	Istanze	Attributi	Tipo di Attributi
Abalone	4,177	9	DN
Balance scale	625	5	DN
Basketball	96	5	N
Bolts	40	8	N
Buying	100	40	N
German	1,000	20	DN
House	22,784	17	N
Ionosphere	351	35	DN
Quake	2,178	4	N
Wine	178	14	N

Metriche di Valutazione

Valore di fitness (media ponderata di supporto e confidenza)
Numero di regole generate
Frequenza di selezione dell'algoritmo
Frequenza di utilizzo dei metodi di preprocessazione

Metodi di Confronto

Confronto indiretto con VARDE (Variable-length Association Rule mining using Differential Evolution), algoritmo più recente.

Dettagli di Implementazione

Algoritmo esterno: DE e PSO
Dimensione della popolazione: NP = 30
Numero massimo di valutazioni di fitness: MAXFES = 1000
Numero di esecuzioni indipendenti: 30
Intervallo di iperparametri dell'algoritmo interno: NP ∈ 10, 30, MAXFES ∈ 2000, 10000

Risultati Sperimentali

Risultati Principali

1. Esperimenti di Base

Selezione della Preprocessazione: Normalizzazione Min-Max (MM), normalizzazione Z-Score (ZS) e nessuna preprocessazione sono selezionate più frequentemente
Preferenza delle Metriche: Supporto e confidenza sono presenti in quasi tutte le pipeline
Selezione dell'Algoritmo: PSO e jDE sono selezionati più frequentemente come algoritmi di ottimizzazione interno
Iperparametri: I dataset complessi (come Buying, German, House16) tendono a selezionare valori NP più elevati

2. Esperimenti di Adattamento dei Pesi

Con l'adattamento dinamico dei pesi delle metriche ARM abilitato:

Leggero miglioramento nei valori di fitness (sebbene il test di Wilcoxon p=0.41, differenza non significativa)
I valori di peso mostrano una distribuzione dinamica, con supporto e confidenza che mantengono pesi più elevati
Le metriche di ampiezza e comprensibilità hanno frequenza di utilizzo inferiore

3. Esperimenti con Metodi di Preprocessazione Multipla

Quando è consentita la selezione di molteplici metodi di preprocessazione:

PSO: Le combinazioni più frequenti sono {MM,RHC} e MM singolo
DE: Le combinazioni più frequenti sono {RHC,ZS}, {MM,RHC,ZS} e RHC singolo
Le pipeline generate da DE hanno valori di fitness leggermente superiori, PSO genera più regole

4. Confronto con VARDE

I risultati del test dei ranghi con segno di Wilcoxon mostrano:

In molteplici configurazioni, le pipeline generate da NiaAutoARM sono significativamente superiori a VARDE
Prestazioni particolarmente migliori quando l'adattamento dei pesi e i metodi di preprocessazione multipla sono abilitati

Esperimenti di Ablazione

Verifica il contributo di ogni componente abilitando progressivamente diverse funzionalità:

Configurazione di base (preprocessazione singola, nessun adattamento dei pesi)
Abilitazione dell'adattamento dei pesi
Abilitazione della selezione di metodi di preprocessazione multipla

Analisi della Complessità Computazionale

Il tempo di esecuzione medio rientra nell'intervallo 15,000-40,000 secondi. Sebbene la complessità computazionale sia elevata, rappresenta un compromesso accettabile considerando i vantaggi dell'automazione.

Lavori Correlati

Campo AutoML

NiaAML: Costruzione automatica della pipeline di classificazione basata su algoritmi ispirati dalla natura
NiaAML2: Versione migliorata che divide la costruzione della pipeline e l'ottimizzazione degli iperparametri in due fasi indipendenti
AutoML Generale: Framework come TPOT, Auto-sklearn principalmente orientati a compiti di classificazione e regressione

Campo ARM

NiaARM: Framework Python che implementa l'algoritmo ARM-DE
ARM Tradizionale: Principalmente dedicato al trattamento di attributi categorici
NARM: Versione migliorata in grado di gestire simultaneamente attributi numerici e categorici

Differenze Tecniche

NiaAutoARM è il primo metodo AutoML specializzato nella costruzione automatica della pipeline ARM, colmando un vuoto importante in questo campo.

Conclusioni e Discussione

Conclusioni Principali

NiaAutoARM è in grado di costruire efficacemente pipeline ARM di alta qualità in modo automatico
PSO come algoritmo interno mostra le migliori prestazioni, la normalizzazione Min-Max è il metodo di preprocessazione più preferito
Supporto e confidenza sono le metriche fondamentali nell'ARM
Il framework dimostra prestazioni superiori rispetto ai metodi più avanzati esistenti

Limitazioni

Complessità Computazionale: A causa dell'ottimizzazione iterativa e dell'esplorazione di molteplici combinazioni di preprocessazione, i costi computazionali sono elevati
Metriche di Valutazione: Attualmente basate principalmente su combinazioni di supporto e confidenza, potrebbe non essere adatto a tutti gli scenari applicativi
Scala dei Dataset: Gli esperimenti sono principalmente condotti su dataset di piccole e medie dimensioni, le prestazioni su dataset di grandi dimensioni rimangono da verificare
Limitazione del Pool di Algoritmi: Il pool di algoritmi interni è relativamente limitato, potrebbe perdere altri algoritmi efficaci

Direzioni Future

Estensione degli Algoritmi: Integrazione di più algoritmi naturali ispirati con regolazione adattiva dei parametri
Miglioramento della Preprocessazione: Incorporazione di tecniche di preprocessazione più avanzate e metriche specifiche del dominio
Calcolo Parallelo: Esplorazione di strategie di calcolo parallelo e distribuito per ridurre la complessità computazionale
Ottimizzazione Multi-Obiettivo: Estensione del framework per supportare l'ottimizzazione multi-obiettivo, esplorando i compromessi tra metriche conflittuali

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima applicazione di AutoML al campo ARM, colmando un vuoto importante
Metodo Completo: Copre l'ottimizzazione completa della pipeline dalla preprocessazione alla valutazione
Esperimenti Sufficienti: Valutazione sperimentale completa su molteplici dataset
Alto Valore Pratico: Fornisce un'implementazione Python completa, facilitando l'applicazione pratica
Fondamenti Teorici Solidi: Basato su teoria di ottimizzazione metaeuristica consolidata

Insufficienze

Efficienza Computazionale: La struttura di ottimizzazione bilivello comporta costi computazionali elevati
Scalabilità: Le prestazioni su dataset di grandi dimensioni non sono sufficientemente verificate
Limitazioni del Confronto: Il confronto con VARDE è indiretto, mancano confronti con più metodi di base
Analisi della Sensibilità ai Parametri: Analisi insufficiente della sensibilità alle impostazioni dei parametri dell'algoritmo esterno

Impatto

Contributo Accademico: Apre una nuova direzione di ricerca nell'AutoARM
Valore Pratico: Riduce la soglia tecnica per l'applicazione dell'ARM, promuovendo la diffusione del metodo
Riproducibilità: Fornisce implementazione open-source, facilitando la ricerca successiva
Potenziale di Estensione: Fornisce un framework di riferimento per la ricerca di automazione in campi correlati

Scenari Applicabili

Dataset di Piccole e Medie Dimensioni: Particolarmente adatto a dataset con numero di attributi e istanze moderato
Dati con Attributi Misti: Dataset contenenti simultaneamente attributi numerici e categorici
Utenti Non Specializzati: Utenti privi di conoscenze specializzate in ARM ma che necessitano di analisi associativa
Prototipazione Rapida: Scenari che richiedono costruzione e test rapidi della pipeline ARM

Riferimenti Bibliografici

L'articolo cita 25 lavori correlati, principalmente coprendo:

Lavori correlati ad AutoML (Yao et al., Hutter et al., He et al.)
Fondamenti del calcolo evolutivo (Eiben & Smith, Blum & Merkle)
Implementazioni di algoritmi specifici (Storn & Price per DE, Kennedy & Eberhart per PSO)
Framework correlati (serie NiaPy, NiaARM, NiaAML)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che apporta contributi importanti nell'intersezione tra AutoML e ARM. Sebbene vi sia ancora spazio per miglioramenti in termini di efficienza computazionale e gestione di dati su larga scala, la sua innovatività, completezza e valore pratico lo rendono un lavoro fondamentale in questo campo.