2025-11-12T20:28:10.501994

NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines

Mlakar, Fister, Fister

The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.

academic

NiaAutoARM: Automatisierte Generierung und Bewertung von Association Rule Mining-Pipelines

Grundinformationen

Papier-ID: 2501.00138
Titel: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
Autoren: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (Universität Maribor, Slowenien)
Klassifizierung: cs.NE (Neural and Evolutionary Computation), cs.AI (Artificial Intelligence)
Veröffentlichungsdatum: 30. Dezember 2024 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2501.00138

Zusammenfassung

Das Paradigma des numerischen Association Rule Mining (NARM) ermöglicht die gleichzeitige Verarbeitung numerischer und kategorialer Attribute und ist daher vorteilhaft für die Entdeckung von Assoziationen in Datensätzen, die beide Merkmalstypen enthalten. Dieser Prozess ist jedoch nicht trivial, da er mehrere sequenziell ausgeführte Verarbeitungsschritte zur Bildung einer vollständigen Pipeline umfasst, wie Vorverarbeitung, Algorithmusauswahl, Hyperparameter-Optimierung und Definition von Metriken zur Bewertung der Qualität von Assoziationsregeln. Dieser Artikel präsentiert einen neuartigen AutoML-Ansatz namens NiaAutoARM, der auf stochastischen populationsbasierten Metaheuristiken basiert, um automatisch vollständige Association Rule Mining-Pipelines zu konstruieren. Neben der theoretischen Darstellung der Methode bietet das Papier auch eine umfassende experimentelle Bewertung des vorgeschlagenen Ansatzes.

Forschungshintergrund und Motivation

1. Problemdefinition

Association Rule Mining (ARM) ist eine Methode des maschinellen Lernens zur Entdeckung von Beziehungen zwischen Elementen in Transaktionsdatenbanken. Traditionelles ARM ist auf die Verarbeitung kategorialer Attribute beschränkt, während Numerical Association Rule Mining (NARM) als Variante von ARM sowohl numerische als auch kategoriale Attribute verarbeiten kann und damit die Engpässe des traditionellen ARM beseitigt.

2. Bedeutung des Problems

Demokratisierungsbedarf: Automatisiertes maschinelles Lernen (AutoML) zielt darauf ab, auch nicht-spezialisierten Benutzern die Verwendung von ML-Methoden zu ermöglichen und das Prinzip "Mensch in der Schleife" zu vermeiden
Komplexitätsherausforderungen: ARM-Pipelines enthalten mehrere komplexe Komponenten: Datenvorbereitung, Algorithmusauswahl, Hyperparameter-Optimierung, Auswahl von Bewertungsmetriken und Bewertung
Keine universelle Lösung: Nach dem No Free Lunch-Theorem gibt es keinen universellen ARM-Metaheuristik-Algorithmus, der für alle Datensätze geeignet ist

3. Einschränkungen bestehender Ansätze

Die manuelle Konstruktion von ARM-Pipelines erfordert umfangreiche menschliche Eingriffe und ist zeitaufwändig und komplex
Bestehende Forschung konzentriert sich unzureichend auf ARM-Vorverarbeitungsschritte
Es fehlen spezialisierte AutoML-Methoden zur automatischen Konstruktion von ARM-Pipelines

4. Forschungsmotivation

Inspiriert durch die NiaAML-Methode wird das ARM-Pipeline-Konstruktionsproblem als kontinuierliches Optimierungsproblem modelliert, wobei populationsbasierte Metaheuristiken verwendet werden, um automatisch nach optimalen Pipeline-Konfigurationen zu suchen.

Kernbeiträge

Erstmaligkeit: Präsentation der ersten speziellen AutoML-Lösung für automatische ARM-Pipeline-Suche, wobei die automatische Suche als Optimierungsproblem dargestellt wird
Fokus auf Vorverarbeitung: Besondere Aufmerksamkeit auf ARM-Vorverarbeitungsschritte, um Lücken in der jüngsten Forschung zu schließen
Implementierungs-Framework: Implementierung eines Python-Pakets namens NiaAutoARM, das vollständige praktische Werkzeuge bietet
Umfassende Bewertung: Strenge experimentelle Bewertung der vorgeschlagenen Methode auf mehreren Datensätzen

Methodische Details

Aufgabendefinition

Die ARM-Pipeline-Konstruktion wird als kontinuierliches Optimierungsproblem definiert, wobei jedes Individuum eine machbare ARM-Pipeline-Konfiguration darstellt, einschließlich:

Algorithmusauswahl
Hyperparameter-Einstellungen
Vorverarbeitungsmethoden
Bewertungsmetriken und deren Gewichtungen

Modellarchitektur

1. Lösungsrepräsentation

Jedes Individuum $x_i^{(t)}$ wird dargestellt als:

$x_i^{(t)} = \langle x_{i,1}^{(t)}, y_{i,1}^{(t)}, y_{i,2}^{(t)}, p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}, z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}, w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)} \rangle$

wobei:

$x_{i,1}^{(t)}$ : Algorithmusauswahl
$y_{i,1}^{(t)}, y_{i,2}^{(t)}$ : Hyperparameter (Populationsgröße NP, maximale Bewertungen MAXFES)
$p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}$ : Vorverarbeitungsmethoden
$z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}$ : Bewertungsmetriken
$w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)}$ : Metrik-Gewichtungen

2. Komponentendesign

Algorithmus-Pool: Umfasst sechs Metaheuristik-Algorithmen: PSO, DE, GA, LSHADE, ILSHADE, jDE

Vorverarbeitungsmethoden:

Min-Max-Normalisierung (MM)
Z-Score-Normalisierung (ZS)
Datenkompression (DS)
Entfernung hochkorrelierter Merkmale (RHC)
K-means-Diskretisierung (DK)

Bewertungsmetriken: Unterstützung, Konfidenz, Abdeckung, Umfang, Einschluss, Verständlichkeit

3. Fitnessfunktion

NiaAutoARM verwendet eine faire Fitnessfunktion:

$f(x_i^{(t)}) = \frac{\alpha \cdot supp(X \Rightarrow Y) + \beta \cdot conf(X \Rightarrow Y)}{\alpha + \beta}$

wobei α und β den Einfluss verschiedener ARM-Metriken auf die Lösungsqualität darstellen.

Technische Innovationen

Zweischichtige Optimierungsstruktur: Der äußere Metaheuristik-Algorithmus steuert das Verhalten des inneren Algorithmus und sucht nach optimalen Konfigurationen
Adaptive Gewichtungen: Unterstützt dynamische Anpassung der ARM-Metrik-Gewichtungen
Mehrfach-Vorverarbeitungskombinationen: Ermöglicht die Auswahl von Kombinationen mehrerer Vorverarbeitungsmethoden
Kontinuierliche Optimierungsmodellierung: Transformiert das diskrete Pipeline-Konstruktionsproblem in ein kontinuierliches Optimierungsproblem

Experimentelle Einrichtung

Datensätze

Bewertung mit 10 UCI-Datensätzen für maschinelles Lernen:

Datensatz	Instanzen	Attribute	Attributtypen
Abalone	4.177	9	DN
Balance scale	625	5	DN
Basketball	96	5	N
Bolts	40	8	N
Buying	100	40	N
German	1.000	20	DN
House	22.784	17	N
Ionosphere	351	35	DN
Quake	2.178	4	N
Wine	178	14	N

Bewertungsmetriken

Fitnesswerte (gewichteter Durchschnitt von Unterstützung und Konfidenz)
Anzahl generierter Regeln
Häufigkeit der Algorithmusauswahl
Häufigkeit der Verwendung von Vorverarbeitungsmethoden

Vergleichsmethoden

Indirekte Vergleiche mit VARDE (Variable-length Association Rule mining using Differential Evolution), dem neuesten Algorithmus.

Implementierungsdetails

Äußerer Algorithmus: DE und PSO
Populationsgröße: NP = 30
Maximale Fitness-Bewertungen: MAXFES = 1000
Anzahl unabhängiger Läufe: 30
Hyperparameter-Bereiche des inneren Algorithmus: NP ∈ 10, 30, MAXFES ∈ 2000, 10000

Experimentelle Ergebnisse

Hauptergebnisse

1. Basis-Experimente

Vorverarbeitungsauswahl: Min-Max-Normalisierung (MM), Z-Score-Normalisierung (ZS) und keine Vorverarbeitung werden am häufigsten ausgewählt
Metrik-Präferenzen: Unterstützung und Konfidenz sind in nahezu allen Pipelines vorhanden
Algorithmusauswahl: PSO und jDE werden als innere Optimierungsalgorithmen am häufigsten ausgewählt
Hyperparameter: Komplexe Datensätze (wie Buying, German, House16) neigen dazu, höhere NP-Werte auszuwählen

2. Adaptive Gewichtungs-Experimente

Nach Aktivierung der adaptiven ARM-Metrik-Gewichtung:

Leichte Verbesserung der Fitnesswerte (obwohl der Wilcoxon-Test p-Wert = 0,41 zeigt, dass der Unterschied nicht signifikant ist)
Gewichtungswerte zeigen dynamische Verteilung, wobei Unterstützung und Konfidenz höhere Gewichtungen behalten
Umfang- und Verständlichkeitsmetriken werden seltener verwendet

3. Mehrfach-Vorverarbeitungs-Experimente

Bei Zulassung mehrerer Vorverarbeitungsmethoden:

PSO: Häufigste Kombinationen sind {MM,RHC} und einzelnes MM
DE: Häufigste Kombinationen sind {RHC,ZS}, {MM,RHC,ZS} und einzelnes RHC
Von DE generierte Pipelines zeigen leicht höhere Fitnesswerte, PSO generiert mehr Regeln

4. Vergleich mit VARDE

Wilcoxon-Vorzeichen-Rang-Test-Ergebnisse zeigen:

Unter verschiedenen Konfigurationen sind von NiaAutoARM generierte Pipelines signifikant besser als VARDE
Besonders bei aktivierter Gewichtsadaptation und mehreren Vorverarbeitungsmethoden zeigt sich bessere Leistung

Ablationsstudien

Durch schrittweise Aktivierung verschiedener Funktionen wird der Beitrag jeder Komponente validiert:

Basis-Konfiguration (einzelne Vorverarbeitung, keine Gewichtsadaptation)
Aktivierung der Gewichtsadaptation
Aktivierung der Mehrfach-Vorverarbeitungsmethoden-Auswahl

Analyse der Rechenkomplexität

Die durchschnittliche Ausführungszeit liegt im Bereich von 15.000-40.000 Sekunden. Obwohl die Rechenkomplexität hoch ist, ist dies angesichts der durch Automatisierung gebotenen Vorteile ein akzeptabler Kompromiss.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

NiaAutoARM kann effektiv hochwertige ARM-Pipelines automatisch konstruieren
PSO zeigt als innerer Algorithmus die beste Leistung, Min-Max-Normalisierung ist die bevorzugteste Vorverarbeitungsmethode
Unterstützung und Konfidenz sind Kernmetriken in ARM
Das Framework zeigt überlegene Leistung im Vergleich zu bestehenden State-of-the-Art-Methoden

Einschränkungen

Rechenkomplexität: Aufgrund iterativer Optimierung und Erkundung mehrerer Vorverarbeitungskombinationen sind die Rechenkosten hoch
Bewertungsmetriken: Basiert derzeit hauptsächlich auf Kombinationen von Unterstützung und Konfidenz, möglicherweise nicht für alle Anwendungsszenarien geeignet
Datensatzgröße: Experimente werden hauptsächlich auf mittelgroßen Datensätzen durchgeführt, die Leistung auf großen Datensätzen muss noch validiert werden
Algorithmus-Pool-Limitierung: Der innere Algorithmus-Pool ist relativ begrenzt und könnte andere effektive Algorithmen übersehen

Zukünftige Richtungen

Algorithmus-Erweiterung: Integration weiterer naturinspirierter Algorithmen mit adaptiven Parameteranpassungen
Vorverarbeitungs-Verbesserung: Einbeziehung fortgeschrittenerer Vorverarbeitungstechniken und domänenspezifischer Metriken
Paralleles Rechnen: Erkundung paralleler und verteilter Rechenstrategien zur Reduzierung der Rechenkomplexität
Multi-Objective-Optimierung: Erweiterung des Frameworks zur Unterstützung von Multi-Objective-Optimierung und Erkundung von Kompromissen zwischen konfliktierenden Metriken

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erstmalige Anwendung von AutoML auf den ARM-Bereich, schließt wichtige Lücke
Vollständige Methode: Umfasst vollständige Pipeline-Optimierung von Vorverarbeitung bis Bewertung
Umfangreiche Experimente: Umfassende experimentelle Validierung auf mehreren Datensätzen
Hoher praktischer Wert: Bietet vollständige Python-Implementierung für praktische Anwendungen
Solide theoretische Grundlagen: Basiert auf etablierter Metaheuristik-Optimierungstheorie

Schwächen

Recheneffizienz: Zweischichtige Optimierungsstruktur führt zu hohen Rechenkosten
Skalierbarkeit: Leistung auf großen Datensätzen nicht ausreichend validiert
Begrenzte Vergleiche: Vergleich mit VARDE ist indirekt, es fehlen mehr Basis-Methoden-Vergleiche
Parametersensitivität: Unzureichende Sensitivitätsanalyse gegenüber äußeren Algorithmus-Parametereinstellungen

Auswirkungen

Akademischer Beitrag: Eröffnet neue Forschungsrichtung AutoARM
Praktischer Wert: Senkt technische Hürden für ARM-Anwendungen und fördert Methodenverbreitung
Reproduzierbarkeit: Bietet Open-Source-Implementierung für nachfolgende Forschung
Erweiterungspotenzial: Bietet Referenz-Framework für Automatisierungsforschung in verwandten Bereichen

Anwendungsszenarien

Mittelgroße Datensätze: Besonders geeignet für Datensätze mit moderater Anzahl von Attributen und Instanzen
Gemischte Attributdaten: Datensätze mit sowohl numerischen als auch kategorialen Attributen
Nicht-spezialisierte Benutzer: Benutzer ohne ARM-Fachkenntnisse, die Assoziationsanalysen durchführen müssen
Schnelle Prototypisierung: Szenarien, die schnelle Konstruktion und Tests von ARM-Pipelines erfordern

Literaturverzeichnis

Das Papier zitiert 25 verwandte Arbeiten, die hauptsächlich folgende Bereiche abdecken:

AutoML-bezogene Arbeiten (Yao et al., Hutter et al., He et al.)
Grundlagen der evolutionären Berechnung (Eiben & Smith, Blum & Merkle)
Spezifische Algorithmus-Implementierungen (Storn & Price für DE, Kennedy & Eberhart für PSO)
Verwandte Frameworks (NiaPy, NiaARM, NiaAML-Serie)

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das wichtige Beiträge im Schnittstellenbereich von AutoML und ARM leistet. Obwohl es noch Verbesserungspotenzial bei Recheneffizienz und großflächiger Datenverarbeitung gibt, machen seine Innovativität, Vollständigkeit und praktischer Wert es zu einem wichtigen Meilenstein in diesem Forschungsbereich.