2025-11-12T20:28:10.501994

NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines

Mlakar, Fister, Fister
The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.
academic

NiaAutoARM: Generazione automatica e valutazione di pipeline di Association Rule Mining

Informazioni Fondamentali

  • ID Articolo: 2501.00138
  • Titolo: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
  • Autori: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (Università di Maribor, Slovenia)
  • Classificazione: cs.NE (Neural and Evolutionary Computation), cs.AI (Artificial Intelligence)
  • Data di Pubblicazione: 30 dicembre 2024 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2501.00138

Riassunto

Il paradigma del Numerical Association Rule Mining (NARM) è in grado di gestire simultaneamente attributi numerici e categorici, risultando vantaggioso per scoprire relazioni associative da dataset contenenti entrambi i tipi di caratteristiche. Tuttavia, il processo non è semplice poiché comprende molteplici fasi di elaborazione eseguite sequenzialmente per formare una pipeline completa, come la preprocessazione, la selezione dell'algoritmo, l'ottimizzazione degli iperparametri e la definizione di metriche per valutare la qualità delle regole associative. Questo articolo propone un nuovo approccio di Automated Machine Learning denominato NiaAutoARM, basato su algoritmi metaeuristici stocastici a popolazione, per costruire automaticamente pipeline complete di Association Rule Mining. Oltre alla rappresentazione teorica del metodo, l'articolo fornisce una valutazione sperimentale completa dell'approccio proposto.

Contesto di Ricerca e Motivazione

1. Definizione del Problema

L'Association Rule Mining (ARM) è un metodo di machine learning utilizzato per scoprire relazioni tra elementi nei database transazionali. L'ARM tradizionale è limitato al trattamento di attributi categorici, mentre il Numerical Association Rule Mining (NARM), come variante dell'ARM, è in grado di gestire simultaneamente attributi numerici e categorici, eliminando così i colli di bottiglia dell'ARM tradizionale.

2. Importanza del Problema

  • Necessità di Democratizzazione: L'Automated Machine Learning (AutoML) mira a rendere i metodi di ML accessibili anche agli utenti non specializzati, evitando il principio del "human-in-the-loop"
  • Sfide di Complessità: La pipeline ARM contiene molteplici componenti complesse: preprocessazione dei dati, selezione dell'algoritmo, ottimizzazione degli iperparametri, selezione delle metriche di valutazione e valutazione
  • Assenza di Soluzione Universale: Secondo il teorema No Free Lunch, non esiste un algoritmo metaeuristico ARM universale applicabile a tutti i dataset

3. Limitazioni dei Metodi Esistenti

  • La costruzione manuale della pipeline ARM richiede un intervento umano significativo, risultando dispendiosa in termini di tempo e complessa
  • La ricerca esistente dedica insufficiente attenzione alle fasi di preprocessazione della pipeline ARM
  • Mancano metodi AutoML specializzati per la costruzione automatica della pipeline ARM

4. Motivazione della Ricerca

Ispirandosi al metodo NiaAML, il problema della costruzione della pipeline ARM viene modellato come un problema di ottimizzazione continua, utilizzando algoritmi metaeuristici a popolazione per cercare automaticamente la configurazione ottimale della pipeline.

Contributi Principali

  1. Originalità: Propone la prima soluzione AutoML specializzata per la ricerca automatica della pipeline ARM, rappresentando la ricerca automatica come un problema di ottimizzazione
  2. Attenzione alla Preprocessazione: Dedica particolare attenzione alle fasi di preprocessazione della pipeline ARM, colmando le lacune dei lavori di ricerca recenti
  3. Framework di Implementazione: Implementa un pacchetto Python denominato NiaAutoARM, fornendo uno strumento pratico completo
  4. Valutazione Completa: Conduce una valutazione sperimentale rigorosa del metodo proposto su molteplici dataset

Spiegazione Dettagliata del Metodo

Definizione del Compito

La costruzione della pipeline ARM è definita come un problema di ottimizzazione continua, dove ogni individuo rappresenta una configurazione di pipeline ARM fattibile, includendo:

  • Selezione dell'algoritmo
  • Impostazioni degli iperparametri
  • Metodi di preprocessazione
  • Metriche di valutazione e relativi pesi

Architettura del Modello

1. Rappresentazione della Soluzione

Ogni individuo xi(t)x_i^{(t)} è rappresentato come:

xi(t)=xi,1(t),yi,1(t),yi,2(t),pi,1(t),,pi,P(t),zi,1(t),,zi,M(t),wi,1(t),,wi,M(t)x_i^{(t)} = \langle x_{i,1}^{(t)}, y_{i,1}^{(t)}, y_{i,2}^{(t)}, p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}, z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}, w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)} \rangle

Dove:

  • xi,1(t)x_{i,1}^{(t)}: selezione dell'algoritmo
  • yi,1(t),yi,2(t)y_{i,1}^{(t)}, y_{i,2}^{(t)}: iperparametri (dimensione della popolazione NP, numero massimo di valutazioni MAXFES)
  • pi,1(t),,pi,P(t)p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}: metodi di preprocessazione
  • zi,1(t),,zi,M(t)z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}: metriche di valutazione
  • wi,1(t),,wi,M(t)w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)}: pesi delle metriche

2. Progettazione dei Componenti

Pool di Algoritmi: Include 6 algoritmi metaeuristici: PSO, DE, GA, LSHADE, ILSHADE, jDE

Metodi di Preprocessazione:

  • Normalizzazione Min-Max (MM)
  • Normalizzazione Z-Score (ZS)
  • Compressione dei Dati (DS)
  • Rimozione di Caratteristiche Altamente Correlate (RHC)
  • Discretizzazione K-means (DK)

Metriche di Valutazione: supporto, confidenza, copertura, ampiezza, inclusione, comprensibilità

3. Funzione di Fitness

NiaAutoARM utilizza una funzione di fitness equa:

f(xi(t))=αsupp(XY)+βconf(XY)α+βf(x_i^{(t)}) = \frac{\alpha \cdot supp(X \Rightarrow Y) + \beta \cdot conf(X \Rightarrow Y)}{\alpha + \beta}

Dove α e β rappresentano l'influenza di diverse metriche ARM sulla qualità della soluzione.

Punti di Innovazione Tecnica

  1. Struttura di Ottimizzazione Bilivello: L'algoritmo metaeuristico esterno controlla il comportamento dell'algoritmo interno, cercando la configurazione ottimale
  2. Pesi Adattivi: Supporta l'adattamento dinamico dei pesi delle metriche ARM
  3. Combinazioni di Preprocessazione Multipla: Consente la selezione di combinazioni di molteplici metodi di preprocessazione
  4. Modellazione dell'Ottimizzazione Continua: Trasforma il problema discreto della costruzione della pipeline in un problema di ottimizzazione continua

Configurazione Sperimentale

Dataset

Valutazione condotta su 10 dataset del UCI Machine Learning Repository:

DatasetIstanzeAttributiTipo di Attributi
Abalone4,1779DN
Balance scale6255DN
Basketball965N
Bolts408N
Buying10040N
German1,00020DN
House22,78417N
Ionosphere35135DN
Quake2,1784N
Wine17814N

Metriche di Valutazione

  • Valore di fitness (media ponderata di supporto e confidenza)
  • Numero di regole generate
  • Frequenza di selezione dell'algoritmo
  • Frequenza di utilizzo dei metodi di preprocessazione

Metodi di Confronto

Confronto indiretto con VARDE (Variable-length Association Rule mining using Differential Evolution), algoritmo più recente.

Dettagli di Implementazione

  • Algoritmo esterno: DE e PSO
  • Dimensione della popolazione: NP = 30
  • Numero massimo di valutazioni di fitness: MAXFES = 1000
  • Numero di esecuzioni indipendenti: 30
  • Intervallo di iperparametri dell'algoritmo interno: NP ∈ 10, 30, MAXFES ∈ 2000, 10000

Risultati Sperimentali

Risultati Principali

1. Esperimenti di Base

  • Selezione della Preprocessazione: Normalizzazione Min-Max (MM), normalizzazione Z-Score (ZS) e nessuna preprocessazione sono selezionate più frequentemente
  • Preferenza delle Metriche: Supporto e confidenza sono presenti in quasi tutte le pipeline
  • Selezione dell'Algoritmo: PSO e jDE sono selezionati più frequentemente come algoritmi di ottimizzazione interno
  • Iperparametri: I dataset complessi (come Buying, German, House16) tendono a selezionare valori NP più elevati

2. Esperimenti di Adattamento dei Pesi

Con l'adattamento dinamico dei pesi delle metriche ARM abilitato:

  • Leggero miglioramento nei valori di fitness (sebbene il test di Wilcoxon p=0.41, differenza non significativa)
  • I valori di peso mostrano una distribuzione dinamica, con supporto e confidenza che mantengono pesi più elevati
  • Le metriche di ampiezza e comprensibilità hanno frequenza di utilizzo inferiore

3. Esperimenti con Metodi di Preprocessazione Multipla

Quando è consentita la selezione di molteplici metodi di preprocessazione:

  • PSO: Le combinazioni più frequenti sono {MM,RHC} e MM singolo
  • DE: Le combinazioni più frequenti sono {RHC,ZS}, {MM,RHC,ZS} e RHC singolo
  • Le pipeline generate da DE hanno valori di fitness leggermente superiori, PSO genera più regole

4. Confronto con VARDE

I risultati del test dei ranghi con segno di Wilcoxon mostrano:

  • In molteplici configurazioni, le pipeline generate da NiaAutoARM sono significativamente superiori a VARDE
  • Prestazioni particolarmente migliori quando l'adattamento dei pesi e i metodi di preprocessazione multipla sono abilitati

Esperimenti di Ablazione

Verifica il contributo di ogni componente abilitando progressivamente diverse funzionalità:

  1. Configurazione di base (preprocessazione singola, nessun adattamento dei pesi)
  2. Abilitazione dell'adattamento dei pesi
  3. Abilitazione della selezione di metodi di preprocessazione multipla

Analisi della Complessità Computazionale

Il tempo di esecuzione medio rientra nell'intervallo 15,000-40,000 secondi. Sebbene la complessità computazionale sia elevata, rappresenta un compromesso accettabile considerando i vantaggi dell'automazione.

Lavori Correlati

Campo AutoML

  • NiaAML: Costruzione automatica della pipeline di classificazione basata su algoritmi ispirati dalla natura
  • NiaAML2: Versione migliorata che divide la costruzione della pipeline e l'ottimizzazione degli iperparametri in due fasi indipendenti
  • AutoML Generale: Framework come TPOT, Auto-sklearn principalmente orientati a compiti di classificazione e regressione

Campo ARM

  • NiaARM: Framework Python che implementa l'algoritmo ARM-DE
  • ARM Tradizionale: Principalmente dedicato al trattamento di attributi categorici
  • NARM: Versione migliorata in grado di gestire simultaneamente attributi numerici e categorici

Differenze Tecniche

NiaAutoARM è il primo metodo AutoML specializzato nella costruzione automatica della pipeline ARM, colmando un vuoto importante in questo campo.

Conclusioni e Discussione

Conclusioni Principali

  1. NiaAutoARM è in grado di costruire efficacemente pipeline ARM di alta qualità in modo automatico
  2. PSO come algoritmo interno mostra le migliori prestazioni, la normalizzazione Min-Max è il metodo di preprocessazione più preferito
  3. Supporto e confidenza sono le metriche fondamentali nell'ARM
  4. Il framework dimostra prestazioni superiori rispetto ai metodi più avanzati esistenti

Limitazioni

  1. Complessità Computazionale: A causa dell'ottimizzazione iterativa e dell'esplorazione di molteplici combinazioni di preprocessazione, i costi computazionali sono elevati
  2. Metriche di Valutazione: Attualmente basate principalmente su combinazioni di supporto e confidenza, potrebbe non essere adatto a tutti gli scenari applicativi
  3. Scala dei Dataset: Gli esperimenti sono principalmente condotti su dataset di piccole e medie dimensioni, le prestazioni su dataset di grandi dimensioni rimangono da verificare
  4. Limitazione del Pool di Algoritmi: Il pool di algoritmi interni è relativamente limitato, potrebbe perdere altri algoritmi efficaci

Direzioni Future

  1. Estensione degli Algoritmi: Integrazione di più algoritmi naturali ispirati con regolazione adattiva dei parametri
  2. Miglioramento della Preprocessazione: Incorporazione di tecniche di preprocessazione più avanzate e metriche specifiche del dominio
  3. Calcolo Parallelo: Esplorazione di strategie di calcolo parallelo e distribuito per ridurre la complessità computazionale
  4. Ottimizzazione Multi-Obiettivo: Estensione del framework per supportare l'ottimizzazione multi-obiettivo, esplorando i compromessi tra metriche conflittuali

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima applicazione di AutoML al campo ARM, colmando un vuoto importante
  2. Metodo Completo: Copre l'ottimizzazione completa della pipeline dalla preprocessazione alla valutazione
  3. Esperimenti Sufficienti: Valutazione sperimentale completa su molteplici dataset
  4. Alto Valore Pratico: Fornisce un'implementazione Python completa, facilitando l'applicazione pratica
  5. Fondamenti Teorici Solidi: Basato su teoria di ottimizzazione metaeuristica consolidata

Insufficienze

  1. Efficienza Computazionale: La struttura di ottimizzazione bilivello comporta costi computazionali elevati
  2. Scalabilità: Le prestazioni su dataset di grandi dimensioni non sono sufficientemente verificate
  3. Limitazioni del Confronto: Il confronto con VARDE è indiretto, mancano confronti con più metodi di base
  4. Analisi della Sensibilità ai Parametri: Analisi insufficiente della sensibilità alle impostazioni dei parametri dell'algoritmo esterno

Impatto

  1. Contributo Accademico: Apre una nuova direzione di ricerca nell'AutoARM
  2. Valore Pratico: Riduce la soglia tecnica per l'applicazione dell'ARM, promuovendo la diffusione del metodo
  3. Riproducibilità: Fornisce implementazione open-source, facilitando la ricerca successiva
  4. Potenziale di Estensione: Fornisce un framework di riferimento per la ricerca di automazione in campi correlati

Scenari Applicabili

  1. Dataset di Piccole e Medie Dimensioni: Particolarmente adatto a dataset con numero di attributi e istanze moderato
  2. Dati con Attributi Misti: Dataset contenenti simultaneamente attributi numerici e categorici
  3. Utenti Non Specializzati: Utenti privi di conoscenze specializzate in ARM ma che necessitano di analisi associativa
  4. Prototipazione Rapida: Scenari che richiedono costruzione e test rapidi della pipeline ARM

Riferimenti Bibliografici

L'articolo cita 25 lavori correlati, principalmente coprendo:

  • Lavori correlati ad AutoML (Yao et al., Hutter et al., He et al.)
  • Fondamenti del calcolo evolutivo (Eiben & Smith, Blum & Merkle)
  • Implementazioni di algoritmi specifici (Storn & Price per DE, Kennedy & Eberhart per PSO)
  • Framework correlati (serie NiaPy, NiaARM, NiaAML)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che apporta contributi importanti nell'intersezione tra AutoML e ARM. Sebbene vi sia ancora spazio per miglioramenti in termini di efficienza computazionale e gestione di dati su larga scala, la sua innovatività, completezza e valore pratico lo rendono un lavoro fondamentale in questo campo.