The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.
- Papier-ID: 2501.00138
- Titel: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
- Autoren: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (Universität Maribor, Slowenien)
- Klassifizierung: cs.NE (Neural and Evolutionary Computation), cs.AI (Artificial Intelligence)
- Veröffentlichungsdatum: 30. Dezember 2024 (arXiv-Preprint)
- Papierlink: https://arxiv.org/abs/2501.00138
Das Paradigma des numerischen Association Rule Mining (NARM) ermöglicht die gleichzeitige Verarbeitung numerischer und kategorialer Attribute und ist daher vorteilhaft für die Entdeckung von Assoziationen in Datensätzen, die beide Merkmalstypen enthalten. Dieser Prozess ist jedoch nicht trivial, da er mehrere sequenziell ausgeführte Verarbeitungsschritte zur Bildung einer vollständigen Pipeline umfasst, wie Vorverarbeitung, Algorithmusauswahl, Hyperparameter-Optimierung und Definition von Metriken zur Bewertung der Qualität von Assoziationsregeln. Dieser Artikel präsentiert einen neuartigen AutoML-Ansatz namens NiaAutoARM, der auf stochastischen populationsbasierten Metaheuristiken basiert, um automatisch vollständige Association Rule Mining-Pipelines zu konstruieren. Neben der theoretischen Darstellung der Methode bietet das Papier auch eine umfassende experimentelle Bewertung des vorgeschlagenen Ansatzes.
Association Rule Mining (ARM) ist eine Methode des maschinellen Lernens zur Entdeckung von Beziehungen zwischen Elementen in Transaktionsdatenbanken. Traditionelles ARM ist auf die Verarbeitung kategorialer Attribute beschränkt, während Numerical Association Rule Mining (NARM) als Variante von ARM sowohl numerische als auch kategoriale Attribute verarbeiten kann und damit die Engpässe des traditionellen ARM beseitigt.
- Demokratisierungsbedarf: Automatisiertes maschinelles Lernen (AutoML) zielt darauf ab, auch nicht-spezialisierten Benutzern die Verwendung von ML-Methoden zu ermöglichen und das Prinzip "Mensch in der Schleife" zu vermeiden
- Komplexitätsherausforderungen: ARM-Pipelines enthalten mehrere komplexe Komponenten: Datenvorbereitung, Algorithmusauswahl, Hyperparameter-Optimierung, Auswahl von Bewertungsmetriken und Bewertung
- Keine universelle Lösung: Nach dem No Free Lunch-Theorem gibt es keinen universellen ARM-Metaheuristik-Algorithmus, der für alle Datensätze geeignet ist
- Die manuelle Konstruktion von ARM-Pipelines erfordert umfangreiche menschliche Eingriffe und ist zeitaufwändig und komplex
- Bestehende Forschung konzentriert sich unzureichend auf ARM-Vorverarbeitungsschritte
- Es fehlen spezialisierte AutoML-Methoden zur automatischen Konstruktion von ARM-Pipelines
Inspiriert durch die NiaAML-Methode wird das ARM-Pipeline-Konstruktionsproblem als kontinuierliches Optimierungsproblem modelliert, wobei populationsbasierte Metaheuristiken verwendet werden, um automatisch nach optimalen Pipeline-Konfigurationen zu suchen.
- Erstmaligkeit: Präsentation der ersten speziellen AutoML-Lösung für automatische ARM-Pipeline-Suche, wobei die automatische Suche als Optimierungsproblem dargestellt wird
- Fokus auf Vorverarbeitung: Besondere Aufmerksamkeit auf ARM-Vorverarbeitungsschritte, um Lücken in der jüngsten Forschung zu schließen
- Implementierungs-Framework: Implementierung eines Python-Pakets namens NiaAutoARM, das vollständige praktische Werkzeuge bietet
- Umfassende Bewertung: Strenge experimentelle Bewertung der vorgeschlagenen Methode auf mehreren Datensätzen
Die ARM-Pipeline-Konstruktion wird als kontinuierliches Optimierungsproblem definiert, wobei jedes Individuum eine machbare ARM-Pipeline-Konfiguration darstellt, einschließlich:
- Algorithmusauswahl
- Hyperparameter-Einstellungen
- Vorverarbeitungsmethoden
- Bewertungsmetriken und deren Gewichtungen
Jedes Individuum xi(t) wird dargestellt als:
xi(t)=⟨xi,1(t),yi,1(t),yi,2(t),pi,1(t),…,pi,P(t),zi,1(t),…,zi,M(t),wi,1(t),…,wi,M(t)⟩
wobei:
- xi,1(t): Algorithmusauswahl
- yi,1(t),yi,2(t): Hyperparameter (Populationsgröße NP, maximale Bewertungen MAXFES)
- pi,1(t),…,pi,P(t): Vorverarbeitungsmethoden
- zi,1(t),…,zi,M(t): Bewertungsmetriken
- wi,1(t),…,wi,M(t): Metrik-Gewichtungen
Algorithmus-Pool: Umfasst sechs Metaheuristik-Algorithmen: PSO, DE, GA, LSHADE, ILSHADE, jDE
Vorverarbeitungsmethoden:
- Min-Max-Normalisierung (MM)
- Z-Score-Normalisierung (ZS)
- Datenkompression (DS)
- Entfernung hochkorrelierter Merkmale (RHC)
- K-means-Diskretisierung (DK)
Bewertungsmetriken: Unterstützung, Konfidenz, Abdeckung, Umfang, Einschluss, Verständlichkeit
NiaAutoARM verwendet eine faire Fitnessfunktion:
f(xi(t))=α+βα⋅supp(X⇒Y)+β⋅conf(X⇒Y)
wobei α und β den Einfluss verschiedener ARM-Metriken auf die Lösungsqualität darstellen.
- Zweischichtige Optimierungsstruktur: Der äußere Metaheuristik-Algorithmus steuert das Verhalten des inneren Algorithmus und sucht nach optimalen Konfigurationen
- Adaptive Gewichtungen: Unterstützt dynamische Anpassung der ARM-Metrik-Gewichtungen
- Mehrfach-Vorverarbeitungskombinationen: Ermöglicht die Auswahl von Kombinationen mehrerer Vorverarbeitungsmethoden
- Kontinuierliche Optimierungsmodellierung: Transformiert das diskrete Pipeline-Konstruktionsproblem in ein kontinuierliches Optimierungsproblem
Bewertung mit 10 UCI-Datensätzen für maschinelles Lernen:
| Datensatz | Instanzen | Attribute | Attributtypen |
|---|
| Abalone | 4.177 | 9 | DN |
| Balance scale | 625 | 5 | DN |
| Basketball | 96 | 5 | N |
| Bolts | 40 | 8 | N |
| Buying | 100 | 40 | N |
| German | 1.000 | 20 | DN |
| House | 22.784 | 17 | N |
| Ionosphere | 351 | 35 | DN |
| Quake | 2.178 | 4 | N |
| Wine | 178 | 14 | N |
- Fitnesswerte (gewichteter Durchschnitt von Unterstützung und Konfidenz)
- Anzahl generierter Regeln
- Häufigkeit der Algorithmusauswahl
- Häufigkeit der Verwendung von Vorverarbeitungsmethoden
Indirekte Vergleiche mit VARDE (Variable-length Association Rule mining using Differential Evolution), dem neuesten Algorithmus.
- Äußerer Algorithmus: DE und PSO
- Populationsgröße: NP = 30
- Maximale Fitness-Bewertungen: MAXFES = 1000
- Anzahl unabhängiger Läufe: 30
- Hyperparameter-Bereiche des inneren Algorithmus: NP ∈ 10, 30, MAXFES ∈ 2000, 10000
- Vorverarbeitungsauswahl: Min-Max-Normalisierung (MM), Z-Score-Normalisierung (ZS) und keine Vorverarbeitung werden am häufigsten ausgewählt
- Metrik-Präferenzen: Unterstützung und Konfidenz sind in nahezu allen Pipelines vorhanden
- Algorithmusauswahl: PSO und jDE werden als innere Optimierungsalgorithmen am häufigsten ausgewählt
- Hyperparameter: Komplexe Datensätze (wie Buying, German, House16) neigen dazu, höhere NP-Werte auszuwählen
Nach Aktivierung der adaptiven ARM-Metrik-Gewichtung:
- Leichte Verbesserung der Fitnesswerte (obwohl der Wilcoxon-Test p-Wert = 0,41 zeigt, dass der Unterschied nicht signifikant ist)
- Gewichtungswerte zeigen dynamische Verteilung, wobei Unterstützung und Konfidenz höhere Gewichtungen behalten
- Umfang- und Verständlichkeitsmetriken werden seltener verwendet
Bei Zulassung mehrerer Vorverarbeitungsmethoden:
- PSO: Häufigste Kombinationen sind {MM,RHC} und einzelnes MM
- DE: Häufigste Kombinationen sind {RHC,ZS}, {MM,RHC,ZS} und einzelnes RHC
- Von DE generierte Pipelines zeigen leicht höhere Fitnesswerte, PSO generiert mehr Regeln
Wilcoxon-Vorzeichen-Rang-Test-Ergebnisse zeigen:
- Unter verschiedenen Konfigurationen sind von NiaAutoARM generierte Pipelines signifikant besser als VARDE
- Besonders bei aktivierter Gewichtsadaptation und mehreren Vorverarbeitungsmethoden zeigt sich bessere Leistung
Durch schrittweise Aktivierung verschiedener Funktionen wird der Beitrag jeder Komponente validiert:
- Basis-Konfiguration (einzelne Vorverarbeitung, keine Gewichtsadaptation)
- Aktivierung der Gewichtsadaptation
- Aktivierung der Mehrfach-Vorverarbeitungsmethoden-Auswahl
Die durchschnittliche Ausführungszeit liegt im Bereich von 15.000-40.000 Sekunden. Obwohl die Rechenkomplexität hoch ist, ist dies angesichts der durch Automatisierung gebotenen Vorteile ein akzeptabler Kompromiss.
- NiaAML: Automatische Konstruktion von Klassifizierungs-Pipelines basierend auf naturinspirierten Algorithmen
- NiaAML2: Verbesserte Version, die Pipeline-Konstruktion und Hyperparameter-Optimierung in zwei unabhängige Phasen aufteilt
- Allgemeines AutoML: TPOT, Auto-sklearn und andere Frameworks konzentrieren sich hauptsächlich auf Klassifizierungs- und Regressionstasks
- NiaARM: Python-Framework zur Implementierung des ARM-DE-Algorithmus
- Traditionelles ARM: Konzentriert sich hauptsächlich auf kategoriale Attribute
- NARM: Verbesserte Version, die sowohl numerische als auch kategoriale Attribute verarbeitet
NiaAutoARM ist die erste spezialisierte AutoML-Methode zur automatischen Konstruktion von ARM-Pipelines und schließt eine Lücke in diesem Forschungsbereich.
- NiaAutoARM kann effektiv hochwertige ARM-Pipelines automatisch konstruieren
- PSO zeigt als innerer Algorithmus die beste Leistung, Min-Max-Normalisierung ist die bevorzugteste Vorverarbeitungsmethode
- Unterstützung und Konfidenz sind Kernmetriken in ARM
- Das Framework zeigt überlegene Leistung im Vergleich zu bestehenden State-of-the-Art-Methoden
- Rechenkomplexität: Aufgrund iterativer Optimierung und Erkundung mehrerer Vorverarbeitungskombinationen sind die Rechenkosten hoch
- Bewertungsmetriken: Basiert derzeit hauptsächlich auf Kombinationen von Unterstützung und Konfidenz, möglicherweise nicht für alle Anwendungsszenarien geeignet
- Datensatzgröße: Experimente werden hauptsächlich auf mittelgroßen Datensätzen durchgeführt, die Leistung auf großen Datensätzen muss noch validiert werden
- Algorithmus-Pool-Limitierung: Der innere Algorithmus-Pool ist relativ begrenzt und könnte andere effektive Algorithmen übersehen
- Algorithmus-Erweiterung: Integration weiterer naturinspirierter Algorithmen mit adaptiven Parameteranpassungen
- Vorverarbeitungs-Verbesserung: Einbeziehung fortgeschrittenerer Vorverarbeitungstechniken und domänenspezifischer Metriken
- Paralleles Rechnen: Erkundung paralleler und verteilter Rechenstrategien zur Reduzierung der Rechenkomplexität
- Multi-Objective-Optimierung: Erweiterung des Frameworks zur Unterstützung von Multi-Objective-Optimierung und Erkundung von Kompromissen zwischen konfliktierenden Metriken
- Hohe Innovativität: Erstmalige Anwendung von AutoML auf den ARM-Bereich, schließt wichtige Lücke
- Vollständige Methode: Umfasst vollständige Pipeline-Optimierung von Vorverarbeitung bis Bewertung
- Umfangreiche Experimente: Umfassende experimentelle Validierung auf mehreren Datensätzen
- Hoher praktischer Wert: Bietet vollständige Python-Implementierung für praktische Anwendungen
- Solide theoretische Grundlagen: Basiert auf etablierter Metaheuristik-Optimierungstheorie
- Recheneffizienz: Zweischichtige Optimierungsstruktur führt zu hohen Rechenkosten
- Skalierbarkeit: Leistung auf großen Datensätzen nicht ausreichend validiert
- Begrenzte Vergleiche: Vergleich mit VARDE ist indirekt, es fehlen mehr Basis-Methoden-Vergleiche
- Parametersensitivität: Unzureichende Sensitivitätsanalyse gegenüber äußeren Algorithmus-Parametereinstellungen
- Akademischer Beitrag: Eröffnet neue Forschungsrichtung AutoARM
- Praktischer Wert: Senkt technische Hürden für ARM-Anwendungen und fördert Methodenverbreitung
- Reproduzierbarkeit: Bietet Open-Source-Implementierung für nachfolgende Forschung
- Erweiterungspotenzial: Bietet Referenz-Framework für Automatisierungsforschung in verwandten Bereichen
- Mittelgroße Datensätze: Besonders geeignet für Datensätze mit moderater Anzahl von Attributen und Instanzen
- Gemischte Attributdaten: Datensätze mit sowohl numerischen als auch kategorialen Attributen
- Nicht-spezialisierte Benutzer: Benutzer ohne ARM-Fachkenntnisse, die Assoziationsanalysen durchführen müssen
- Schnelle Prototypisierung: Szenarien, die schnelle Konstruktion und Tests von ARM-Pipelines erfordern
Das Papier zitiert 25 verwandte Arbeiten, die hauptsächlich folgende Bereiche abdecken:
- AutoML-bezogene Arbeiten (Yao et al., Hutter et al., He et al.)
- Grundlagen der evolutionären Berechnung (Eiben & Smith, Blum & Merkle)
- Spezifische Algorithmus-Implementierungen (Storn & Price für DE, Kennedy & Eberhart für PSO)
- Verwandte Frameworks (NiaPy, NiaARM, NiaAML-Serie)
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das wichtige Beiträge im Schnittstellenbereich von AutoML und ARM leistet. Obwohl es noch Verbesserungspotenzial bei Recheneffizienz und großflächiger Datenverarbeitung gibt, machen seine Innovativität, Vollständigkeit und praktischer Wert es zu einem wichtigen Meilenstein in diesem Forschungsbereich.