The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.
- ID Articolo: 2501.00138
- Titolo: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
- Autori: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (Università di Maribor, Slovenia)
- Classificazione: cs.NE (Neural and Evolutionary Computation), cs.AI (Artificial Intelligence)
- Data di Pubblicazione: 30 dicembre 2024 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2501.00138
Il paradigma del Numerical Association Rule Mining (NARM) è in grado di gestire simultaneamente attributi numerici e categorici, risultando vantaggioso per scoprire relazioni associative da dataset contenenti entrambi i tipi di caratteristiche. Tuttavia, il processo non è semplice poiché comprende molteplici fasi di elaborazione eseguite sequenzialmente per formare una pipeline completa, come la preprocessazione, la selezione dell'algoritmo, l'ottimizzazione degli iperparametri e la definizione di metriche per valutare la qualità delle regole associative. Questo articolo propone un nuovo approccio di Automated Machine Learning denominato NiaAutoARM, basato su algoritmi metaeuristici stocastici a popolazione, per costruire automaticamente pipeline complete di Association Rule Mining. Oltre alla rappresentazione teorica del metodo, l'articolo fornisce una valutazione sperimentale completa dell'approccio proposto.
L'Association Rule Mining (ARM) è un metodo di machine learning utilizzato per scoprire relazioni tra elementi nei database transazionali. L'ARM tradizionale è limitato al trattamento di attributi categorici, mentre il Numerical Association Rule Mining (NARM), come variante dell'ARM, è in grado di gestire simultaneamente attributi numerici e categorici, eliminando così i colli di bottiglia dell'ARM tradizionale.
- Necessità di Democratizzazione: L'Automated Machine Learning (AutoML) mira a rendere i metodi di ML accessibili anche agli utenti non specializzati, evitando il principio del "human-in-the-loop"
- Sfide di Complessità: La pipeline ARM contiene molteplici componenti complesse: preprocessazione dei dati, selezione dell'algoritmo, ottimizzazione degli iperparametri, selezione delle metriche di valutazione e valutazione
- Assenza di Soluzione Universale: Secondo il teorema No Free Lunch, non esiste un algoritmo metaeuristico ARM universale applicabile a tutti i dataset
- La costruzione manuale della pipeline ARM richiede un intervento umano significativo, risultando dispendiosa in termini di tempo e complessa
- La ricerca esistente dedica insufficiente attenzione alle fasi di preprocessazione della pipeline ARM
- Mancano metodi AutoML specializzati per la costruzione automatica della pipeline ARM
Ispirandosi al metodo NiaAML, il problema della costruzione della pipeline ARM viene modellato come un problema di ottimizzazione continua, utilizzando algoritmi metaeuristici a popolazione per cercare automaticamente la configurazione ottimale della pipeline.
- Originalità: Propone la prima soluzione AutoML specializzata per la ricerca automatica della pipeline ARM, rappresentando la ricerca automatica come un problema di ottimizzazione
- Attenzione alla Preprocessazione: Dedica particolare attenzione alle fasi di preprocessazione della pipeline ARM, colmando le lacune dei lavori di ricerca recenti
- Framework di Implementazione: Implementa un pacchetto Python denominato NiaAutoARM, fornendo uno strumento pratico completo
- Valutazione Completa: Conduce una valutazione sperimentale rigorosa del metodo proposto su molteplici dataset
La costruzione della pipeline ARM è definita come un problema di ottimizzazione continua, dove ogni individuo rappresenta una configurazione di pipeline ARM fattibile, includendo:
- Selezione dell'algoritmo
- Impostazioni degli iperparametri
- Metodi di preprocessazione
- Metriche di valutazione e relativi pesi
Ogni individuo xi(t) è rappresentato come:
xi(t)=⟨xi,1(t),yi,1(t),yi,2(t),pi,1(t),…,pi,P(t),zi,1(t),…,zi,M(t),wi,1(t),…,wi,M(t)⟩
Dove:
- xi,1(t): selezione dell'algoritmo
- yi,1(t),yi,2(t): iperparametri (dimensione della popolazione NP, numero massimo di valutazioni MAXFES)
- pi,1(t),…,pi,P(t): metodi di preprocessazione
- zi,1(t),…,zi,M(t): metriche di valutazione
- wi,1(t),…,wi,M(t): pesi delle metriche
Pool di Algoritmi: Include 6 algoritmi metaeuristici: PSO, DE, GA, LSHADE, ILSHADE, jDE
Metodi di Preprocessazione:
- Normalizzazione Min-Max (MM)
- Normalizzazione Z-Score (ZS)
- Compressione dei Dati (DS)
- Rimozione di Caratteristiche Altamente Correlate (RHC)
- Discretizzazione K-means (DK)
Metriche di Valutazione: supporto, confidenza, copertura, ampiezza, inclusione, comprensibilità
NiaAutoARM utilizza una funzione di fitness equa:
f(xi(t))=α+βα⋅supp(X⇒Y)+β⋅conf(X⇒Y)
Dove α e β rappresentano l'influenza di diverse metriche ARM sulla qualità della soluzione.
- Struttura di Ottimizzazione Bilivello: L'algoritmo metaeuristico esterno controlla il comportamento dell'algoritmo interno, cercando la configurazione ottimale
- Pesi Adattivi: Supporta l'adattamento dinamico dei pesi delle metriche ARM
- Combinazioni di Preprocessazione Multipla: Consente la selezione di combinazioni di molteplici metodi di preprocessazione
- Modellazione dell'Ottimizzazione Continua: Trasforma il problema discreto della costruzione della pipeline in un problema di ottimizzazione continua
Valutazione condotta su 10 dataset del UCI Machine Learning Repository:
| Dataset | Istanze | Attributi | Tipo di Attributi |
|---|
| Abalone | 4,177 | 9 | DN |
| Balance scale | 625 | 5 | DN |
| Basketball | 96 | 5 | N |
| Bolts | 40 | 8 | N |
| Buying | 100 | 40 | N |
| German | 1,000 | 20 | DN |
| House | 22,784 | 17 | N |
| Ionosphere | 351 | 35 | DN |
| Quake | 2,178 | 4 | N |
| Wine | 178 | 14 | N |
- Valore di fitness (media ponderata di supporto e confidenza)
- Numero di regole generate
- Frequenza di selezione dell'algoritmo
- Frequenza di utilizzo dei metodi di preprocessazione
Confronto indiretto con VARDE (Variable-length Association Rule mining using Differential Evolution), algoritmo più recente.
- Algoritmo esterno: DE e PSO
- Dimensione della popolazione: NP = 30
- Numero massimo di valutazioni di fitness: MAXFES = 1000
- Numero di esecuzioni indipendenti: 30
- Intervallo di iperparametri dell'algoritmo interno: NP ∈ 10, 30, MAXFES ∈ 2000, 10000
- Selezione della Preprocessazione: Normalizzazione Min-Max (MM), normalizzazione Z-Score (ZS) e nessuna preprocessazione sono selezionate più frequentemente
- Preferenza delle Metriche: Supporto e confidenza sono presenti in quasi tutte le pipeline
- Selezione dell'Algoritmo: PSO e jDE sono selezionati più frequentemente come algoritmi di ottimizzazione interno
- Iperparametri: I dataset complessi (come Buying, German, House16) tendono a selezionare valori NP più elevati
Con l'adattamento dinamico dei pesi delle metriche ARM abilitato:
- Leggero miglioramento nei valori di fitness (sebbene il test di Wilcoxon p=0.41, differenza non significativa)
- I valori di peso mostrano una distribuzione dinamica, con supporto e confidenza che mantengono pesi più elevati
- Le metriche di ampiezza e comprensibilità hanno frequenza di utilizzo inferiore
Quando è consentita la selezione di molteplici metodi di preprocessazione:
- PSO: Le combinazioni più frequenti sono {MM,RHC} e MM singolo
- DE: Le combinazioni più frequenti sono {RHC,ZS}, {MM,RHC,ZS} e RHC singolo
- Le pipeline generate da DE hanno valori di fitness leggermente superiori, PSO genera più regole
I risultati del test dei ranghi con segno di Wilcoxon mostrano:
- In molteplici configurazioni, le pipeline generate da NiaAutoARM sono significativamente superiori a VARDE
- Prestazioni particolarmente migliori quando l'adattamento dei pesi e i metodi di preprocessazione multipla sono abilitati
Verifica il contributo di ogni componente abilitando progressivamente diverse funzionalità:
- Configurazione di base (preprocessazione singola, nessun adattamento dei pesi)
- Abilitazione dell'adattamento dei pesi
- Abilitazione della selezione di metodi di preprocessazione multipla
Il tempo di esecuzione medio rientra nell'intervallo 15,000-40,000 secondi. Sebbene la complessità computazionale sia elevata, rappresenta un compromesso accettabile considerando i vantaggi dell'automazione.
- NiaAML: Costruzione automatica della pipeline di classificazione basata su algoritmi ispirati dalla natura
- NiaAML2: Versione migliorata che divide la costruzione della pipeline e l'ottimizzazione degli iperparametri in due fasi indipendenti
- AutoML Generale: Framework come TPOT, Auto-sklearn principalmente orientati a compiti di classificazione e regressione
- NiaARM: Framework Python che implementa l'algoritmo ARM-DE
- ARM Tradizionale: Principalmente dedicato al trattamento di attributi categorici
- NARM: Versione migliorata in grado di gestire simultaneamente attributi numerici e categorici
NiaAutoARM è il primo metodo AutoML specializzato nella costruzione automatica della pipeline ARM, colmando un vuoto importante in questo campo.
- NiaAutoARM è in grado di costruire efficacemente pipeline ARM di alta qualità in modo automatico
- PSO come algoritmo interno mostra le migliori prestazioni, la normalizzazione Min-Max è il metodo di preprocessazione più preferito
- Supporto e confidenza sono le metriche fondamentali nell'ARM
- Il framework dimostra prestazioni superiori rispetto ai metodi più avanzati esistenti
- Complessità Computazionale: A causa dell'ottimizzazione iterativa e dell'esplorazione di molteplici combinazioni di preprocessazione, i costi computazionali sono elevati
- Metriche di Valutazione: Attualmente basate principalmente su combinazioni di supporto e confidenza, potrebbe non essere adatto a tutti gli scenari applicativi
- Scala dei Dataset: Gli esperimenti sono principalmente condotti su dataset di piccole e medie dimensioni, le prestazioni su dataset di grandi dimensioni rimangono da verificare
- Limitazione del Pool di Algoritmi: Il pool di algoritmi interni è relativamente limitato, potrebbe perdere altri algoritmi efficaci
- Estensione degli Algoritmi: Integrazione di più algoritmi naturali ispirati con regolazione adattiva dei parametri
- Miglioramento della Preprocessazione: Incorporazione di tecniche di preprocessazione più avanzate e metriche specifiche del dominio
- Calcolo Parallelo: Esplorazione di strategie di calcolo parallelo e distribuito per ridurre la complessità computazionale
- Ottimizzazione Multi-Obiettivo: Estensione del framework per supportare l'ottimizzazione multi-obiettivo, esplorando i compromessi tra metriche conflittuali
- Forte Innovatività: Prima applicazione di AutoML al campo ARM, colmando un vuoto importante
- Metodo Completo: Copre l'ottimizzazione completa della pipeline dalla preprocessazione alla valutazione
- Esperimenti Sufficienti: Valutazione sperimentale completa su molteplici dataset
- Alto Valore Pratico: Fornisce un'implementazione Python completa, facilitando l'applicazione pratica
- Fondamenti Teorici Solidi: Basato su teoria di ottimizzazione metaeuristica consolidata
- Efficienza Computazionale: La struttura di ottimizzazione bilivello comporta costi computazionali elevati
- Scalabilità: Le prestazioni su dataset di grandi dimensioni non sono sufficientemente verificate
- Limitazioni del Confronto: Il confronto con VARDE è indiretto, mancano confronti con più metodi di base
- Analisi della Sensibilità ai Parametri: Analisi insufficiente della sensibilità alle impostazioni dei parametri dell'algoritmo esterno
- Contributo Accademico: Apre una nuova direzione di ricerca nell'AutoARM
- Valore Pratico: Riduce la soglia tecnica per l'applicazione dell'ARM, promuovendo la diffusione del metodo
- Riproducibilità: Fornisce implementazione open-source, facilitando la ricerca successiva
- Potenziale di Estensione: Fornisce un framework di riferimento per la ricerca di automazione in campi correlati
- Dataset di Piccole e Medie Dimensioni: Particolarmente adatto a dataset con numero di attributi e istanze moderato
- Dati con Attributi Misti: Dataset contenenti simultaneamente attributi numerici e categorici
- Utenti Non Specializzati: Utenti privi di conoscenze specializzate in ARM ma che necessitano di analisi associativa
- Prototipazione Rapida: Scenari che richiedono costruzione e test rapidi della pipeline ARM
L'articolo cita 25 lavori correlati, principalmente coprendo:
- Lavori correlati ad AutoML (Yao et al., Hutter et al., He et al.)
- Fondamenti del calcolo evolutivo (Eiben & Smith, Blum & Merkle)
- Implementazioni di algoritmi specifici (Storn & Price per DE, Kennedy & Eberhart per PSO)
- Framework correlati (serie NiaPy, NiaARM, NiaAML)
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che apporta contributi importanti nell'intersezione tra AutoML e ARM. Sebbene vi sia ancora spazio per miglioramenti in termini di efficienza computazionale e gestione di dati su larga scala, la sua innovatività, completezza e valore pratico lo rendono un lavoro fondamentale in questo campo.