2025-11-12T20:28:10.501994

NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines

Mlakar, Fister, Fister

The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.

academic

NiaAutoARM: एसोसिएशन रूल माइनिंग पाइपलाइन्स की स्वचालित पीढ़ी और मूल्यांकन

मूल जानकारी

पेपर ID: 2501.00138
शीर्षक: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
लेखक: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (मारिबोर विश्वविद्यालय, स्लोवेनिया)
वर्गीकरण: cs.NE (तंत्रिका और विकासवादी संगणना), cs.AI (कृत्रिम बुद्धिमत्ता)
प्रकाशन समय: 30 दिसंबर 2024 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2501.00138

सारांश

संख्यात्मक एसोसिएशन रूल माइनिंग (NARM) प्रतिमान संख्यात्मक और श्रेणीबद्ध दोनों विशेषताओं को एक साथ संभाल सकता है, जो दोनों प्रकार की विशेषताओं वाले डेटासेट से संबंध खोजने के लिए अत्यंत लाभकारी है। हालांकि, यह प्रक्रिया सरल नहीं है क्योंकि इसमें पूर्ण पाइपलाइन बनाने के लिए क्रमिक रूप से निष्पादित कई प्रसंस्करण चरण शामिल हैं, जैसे पूर्व-प्रसंस्करण, एल्गोरिदम चयन, हाइपरपैरामीटर अनुकूलन और एसोसिएशन रूल गुणवत्ता का मूल्यांकन करने के लिए मेट्रिक्स परिभाषा। यह पेपर एक नई स्वचालित मशीन लर्निंग विधि NiaAutoARM प्रस्तुत करता है, जो यादृच्छिक जनसंख्या मेटाह्यूरिस्टिक एल्गोरिदम के आधार पर स्वचालित रूप से पूर्ण एसोसिएशन रूल माइनिंग पाइपलाइन का निर्माण करता है। विधि के सैद्धांतिक प्रतिनिधित्व के अलावा, पेपर प्रस्तावित विधि का व्यापक प्रायोगिक मूल्यांकन भी प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. समस्या परिभाषा

एसोसिएशन रूल माइनिंग (ARM) लेनदेन डेटाबेस में वस्तुओं के बीच संबंध खोजने के लिए एक मशीन लर्निंग विधि है। पारंपरिक ARM केवल श्रेणीबद्ध विशेषताओं को संभालने तक सीमित है, जबकि संख्यात्मक एसोसिएशन रूल माइनिंग (NARM) ARM का एक प्रकार है जो संख्यात्मक और श्रेणीबद्ध दोनों विशेषताओं को संभाल सकता है, जिससे पारंपरिक ARM की बाधा समाप्त हो जाती है।

2. समस्या की महत्ता

लोकतांत्रिकरण की आवश्यकता: स्वचालित मशीन लर्निंग (AutoML) का उद्देश्य गैर-विशेषज्ञ उपयोगकर्ताओं को भी ML विधियों का उपयोग करने में सक्षम बनाना है, "मानव-इन-द-लूप" सिद्धांत से बचना
जटिलता चुनौती: ARM पाइपलाइन में कई जटिल घटक शामिल हैं: डेटा पूर्व-प्रसंस्करण, एल्गोरिदम चयन, हाइपरपैरामीटर अनुकूलन, मूल्यांकन मेट्रिक्स चयन और मूल्यांकन
कोई सार्वभौमिक समाधान नहीं: नो फ्री लंच प्रमेय के अनुसार, सभी डेटासेट के लिए उपयुक्त कोई सार्वभौमिक ARM मेटाह्यूरिस्टिक एल्गोरिदम नहीं है

3. मौजूदा विधियों की सीमाएं

ARM पाइपलाइन का मैनुअल निर्माण बड़ी मानव हस्तक्षेप की आवश्यकता है, समय लेने वाला और जटिल है
मौजूदा अनुसंधान ARM पूर्व-प्रसंस्करण चरणों पर पर्याप्त ध्यान नहीं देता है
ARM पाइपलाइन स्वचालित निर्माण के लिए विशेष AutoML विधियों की कमी है

4. अनुसंधान प्रेरणा

NiaAML विधि से प्रेरित होकर, ARM पाइपलाइन निर्माण समस्या को एक सतत अनुकूलन समस्या के रूप में मॉडल किया गया, जनसंख्या मेटाह्यूरिस्टिक एल्गोरिदम का उपयोग करके सर्वोत्तम पाइपलाइन कॉन्फ़िगरेशन को स्वचालित रूप से खोजा गया।

मूल योगदान

प्रथम: ARM पाइपलाइन स्वचालित खोज के लिए पहली AutoML समाधान प्रस्तुत करता है, स्वचालित खोज को एक अनुकूलन समस्या के रूप में प्रस्तुत करता है
पूर्व-प्रसंस्करण पर ध्यान: ARM पूर्व-प्रसंस्करण चरणों पर विशेष ध्यान देता है, हाल के अनुसंधान कार्यों की कमी को पूरा करता है
कार्यान्वयन ढांचा: NiaAutoARM नामक Python पैकेज को लागू करता है, जो पूर्ण व्यावहारिक उपकरण प्रदान करता है
व्यापक मूल्यांकन: कई डेटासेट पर प्रस्तावित विधि का कठोर प्रायोगिक मूल्यांकन करता है

विधि विवरण

कार्य परिभाषा

ARM पाइपलाइन निर्माण को एक सतत अनुकूलन समस्या के रूप में परिभाषित किया गया है, जहां प्रत्येक व्यक्ति एक व्यवहार्य ARM पाइपलाइन कॉन्फ़िगरेशन का प्रतिनिधित्व करता है, जिसमें शामिल है:

एल्गोरिदम चयन
हाइपरपैरामीटर सेटिंग
पूर्व-प्रसंस्करण विधियां
मूल्यांकन मेट्रिक्स और वजन

मॉडल आर्किटेक्चर

1. समाधान प्रतिनिधित्व

प्रत्येक व्यक्ति $x_i^{(t)}$ को इस प्रकार प्रस्तुत किया गया है:

$x_i^{(t)} = \langle x_{i,1}^{(t)}, y_{i,1}^{(t)}, y_{i,2}^{(t)}, p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}, z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}, w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)} \rangle$

जहां:

$x_{i,1}^{(t)}$ : एल्गोरिदम चयन
$y_{i,1}^{(t)}, y_{i,2}^{(t)}$ : हाइपरपैरामीटर (जनसंख्या आकार NP, अधिकतम मूल्यांकन MAXFES)
$p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}$ : पूर्व-प्रसंस्करण विधियां
$z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}$ : मूल्यांकन मेट्रिक्स
$w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)}$ : मेट्रिक्स वजन

2. घटक डिजाइन

एल्गोरिदम पूल: PSO, DE, GA, LSHADE, ILSHADE, jDE सहित 6 मेटाह्यूरिस्टिक एल्गोरिदम शामिल हैं

पूर्व-प्रसंस्करण विधियां:

Min-Max सामान्यीकरण (MM)
Z-Score सामान्यीकरण (ZS)
डेटा संपीड़न (DS)
उच्च सहसंबंध विशेषताओं को हटाना (RHC)
K-means विवेकीकरण (DK)

मूल्यांकन मेट्रिक्स: समर्थन, आत्मविश्वास, कवरेज, आयाम, समावेशन, समझदारी

3. फिटनेस फंक्शन

NiaAutoARM न्यायसंगत फिटनेस फंक्शन का उपयोग करता है:

$f(x_i^{(t)}) = \frac{\alpha \cdot supp(X \Rightarrow Y) + \beta \cdot conf(X \Rightarrow Y)}{\alpha + \beta}$

जहां α और β विभिन्न ARM मेट्रिक्स के समाधान गुणवत्ता पर प्रभाव को दर्शाते हैं।

तकनीकी नवाचार बिंदु

दोहरी-स्तरीय अनुकूलन संरचना: बाहरी मेटाह्यूरिस्टिक आंतरिक एल्गोरिदम के व्यवहार को नियंत्रित करता है, सर्वोत्तम कॉन्फ़िगरेशन खोजता है
स्व-अनुकूली वजन: ARM मेट्रिक्स वजन के गतिशील समायोजन का समर्थन करता है
बहु-पूर्व-प्रसंस्करण संयोजन: कई पूर्व-प्रसंस्करण विधियों के संयोजन का चयन करने की अनुमति देता है
सतत अनुकूलन मॉडलिंग: असतत पाइपलाइन निर्माण समस्या को सतत अनुकूलन समस्या में परिवर्तित करता है

प्रायोगिक सेटअप

डेटासेट

मूल्यांकन के लिए 10 UCI मशीन लर्निंग डेटासेट का उपयोग किया गया:

डेटासेट	उदाहरण संख्या	विशेषता संख्या	विशेषता प्रकार
Abalone	4,177	9	DN
Balance scale	625	5	DN
Basketball	96	5	N
Bolts	40	8	N
Buying	100	40	N
German	1,000	20	DN
House	22,784	17	N
Ionosphere	351	35	DN
Quake	2,178	4	N
Wine	178	14	N

मूल्यांकन मेट्रिक्स

फिटनेस मान (समर्थन और आत्मविश्वास का भारित औसत)
उत्पन्न नियमों की संख्या
एल्गोरिदम चयन आवृत्ति
पूर्व-प्रसंस्करण विधि उपयोग आवृत्ति

तुलना विधियां

VARDE (Variable-length Association Rule mining using Differential Evolution) नवीनतम एल्गोरिदम के साथ अप्रत्यक्ष तुलना।

कार्यान्वयन विवरण

बाहरी एल्गोरिदम: DE और PSO
जनसंख्या आकार: NP = 30
अधिकतम फिटनेस मूल्यांकन: MAXFES = 1000
स्वतंत्र रन: 30 बार
आंतरिक एल्गोरिदम हाइपरपैरामीटर रेंज: NP ∈ 10, 30, MAXFES ∈ 2000, 10000

प्रायोगिक परिणाम

मुख्य परिणाम

1. आधारभूत प्रयोग

पूर्व-प्रसंस्करण चयन: Min-Max सामान्यीकरण (MM), Z-Score सामान्यीकरण (ZS) और कोई पूर्व-प्रसंस्करण सबसे अधिक बार चुने गए
मेट्रिक्स वरीयता: समर्थन और आत्मविश्वास लगभग सभी पाइपलाइन में मौजूद हैं
एल्गोरिदम चयन: PSO और jDE आंतरिक अनुकूलन एल्गोरिदम के रूप में सबसे अधिक बार चुने गए
हाइपरपैरामीटर: जटिल डेटासेट (जैसे Buying, German, House16) उच्च NP मान चुनने की प्रवृत्ति रखते हैं

2. वजन स्व-अनुकूलन प्रयोग

ARM मेट्रिक्स वजन स्व-अनुकूलन सक्षम करने के बाद:

फिटनेस मान में मामूली सुधार (हालांकि Wilcoxon परीक्षण p मान = 0.41, अंतर महत्वपूर्ण नहीं है)
वजन मान गतिशील वितरण प्रदर्शित करते हैं, समर्थन और आत्मविश्वास अभी भी उच्च वजन बनाए रखते हैं
आयाम और समझदारी मेट्रिक्स का उपयोग आवृत्ति कम है

3. बहु-पूर्व-प्रसंस्करण विधि प्रयोग

कई पूर्व-प्रसंस्करण विधियों का चयन करने की अनुमति देने पर:

PSO: सबसे बार संयोजन {MM,RHC} और अकेले MM
DE: सबसे बार संयोजन {RHC,ZS}, {MM,RHC,ZS} और अकेले RHC
DE एल्गोरिदम द्वारा उत्पन्न पाइपलाइन फिटनेस मान थोड़ा अधिक है, PSO अधिक नियम उत्पन्न करता है

4. VARDE के साथ तुलना

Wilcoxon हस्ताक्षरित रैंक परीक्षण परिणाम दिखाते हैं:

कई कॉन्फ़िगरेशन में, NiaAutoARM द्वारा उत्पन्न पाइपलाइन VARDE से महत्वपूर्ण रूप से बेहतर हैं
विशेष रूप से वजन स्व-अनुकूलन और बहु-पूर्व-प्रसंस्करण विधि सक्षम होने पर बेहतर प्रदर्शन करता है

विलोपन प्रयोग

विभिन्न कार्यों को क्रमिक रूप से सक्षम करके प्रत्येक घटक के योगदान को सत्यापित किया गया:

आधारभूत कॉन्फ़िगरेशन (एकल पूर्व-प्रसंस्करण, कोई वजन स्व-अनुकूलन नहीं)
वजन स्व-अनुकूलन सक्षम करना
बहु-पूर्व-प्रसंस्करण विधि चयन सक्षम करना

कम्प्यूटेशनल जटिलता विश्लेषण

औसत निष्पादन समय 15,000-40,000 सेकंड की रेंज में है, हालांकि कम्प्यूटेशनल जटिलता अधिक है, लेकिन स्वचालन द्वारा लाए गए सुविधा को देखते हुए, यह एक स्वीकार्य व्यापार-बंद है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

NiaAutoARM उच्च गुणवत्ता वाली ARM पाइपलाइन को प्रभावी ढंग से स्वचालित रूप से निर्माण कर सकता है
PSO आंतरिक एल्गोरिदम के रूप में सर्वश्रेष्ठ प्रदर्शन करता है, Min-Max सामान्यीकरण सबसे पसंदीदा पूर्व-प्रसंस्करण विधि है
समर्थन और आत्मविश्वास ARM में मूल मेट्रिक्स हैं
मौजूदा अत्याधुनिक विधियों की तुलना में, यह ढांचा श्रेष्ठ प्रदर्शन प्रदर्शित करता है

सीमाएं

कम्प्यूटेशनल जटिलता: पुनरावृत्तिमूलक अनुकूलन और कई पूर्व-प्रसंस्करण संयोजन अन्वेषण के कारण, कम्प्यूटेशनल लागत अधिक है
मूल्यांकन मेट्रिक्स: वर्तमान में मुख्य रूप से समर्थन और आत्मविश्वास के संयोजन पर आधारित है, सभी अनुप्रयोग परिदृश्यों के लिए उपयुक्त नहीं हो सकता है
डेटासेट आकार: प्रयोग मुख्य रूप से मध्यम आकार के डेटासेट पर किए गए हैं, बड़े डेटासेट पर प्रदर्शन सत्यापन की प्रतीक्षा में है
एल्गोरिदम पूल सीमा: आंतरिक एल्गोरिदम पूल अपेक्षाकृत सीमित है, अन्य प्रभावी एल्गोरिदम को याद किया जा सकता है

भविष्य की दिशाएं

एल्गोरिदम विस्तार: स्व-अनुकूली पैरामीटर समायोजन के साथ अधिक प्राकृतिक-प्रेरित एल्गोरिदम को एकीकृत करना
पूर्व-प्रसंस्करण वृद्धि: अधिक उन्नत पूर्व-प्रसंस्करण तकनीकें और डोमेन-विशिष्ट मेट्रिक्स शामिल करना
समानांतर संगणना: कम्प्यूटेशनल जटिलता को कम करने के लिए समानांतर और वितरित कम्प्यूटिंग रणनीतियों की खोज करना
बहु-उद्देश्य अनुकूलन: ढांचे को बहु-उद्देश्य अनुकूलन का समर्थन करने के लिए विस्तारित करना, विरोधाभासी मेट्रिक्स के बीच व्यापार-बंद की खोज करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: AutoML को ARM क्षेत्र में पहली बार लागू करता है, महत्वपूर्ण अंतराल को भरता है
पूर्ण विधि: पूर्व-प्रसंस्करण से मूल्यांकन तक पूर्ण पाइपलाइन अनुकूलन को शामिल करता है
पर्याप्त प्रयोग: कई डेटासेट पर व्यापक प्रायोगिक सत्यापन किया गया है
उच्च व्यावहारिक मूल्य: पूर्ण Python कार्यान्वयन प्रदान करता है, व्यावहारिक अनुप्रयोग के लिए सुविधाजनक है
ठोस सैद्धांतिक आधार: परिपक्व मेटाह्यूरिस्टिक अनुकूलन सिद्धांत पर आधारित है

कमियां

कम्प्यूटेशनल दक्षता: दोहरी-स्तरीय अनुकूलन संरचना उच्च कम्प्यूटेशनल लागत की ओर ले जाती है
स्केलेबिलिटी: बड़े डेटासेट पर प्रदर्शन पर्याप्त रूप से सत्यापित नहीं किया गया है
तुलना सीमा: VARDE के साथ तुलना अप्रत्यक्ष है, अधिक आधारभूत विधि तुलना की कमी है
पैरामीटर संवेदनशीलता: बाहरी एल्गोरिदम पैरामीटर सेटिंग के प्रति संवेदनशीलता विश्लेषण अपर्याप्त है

प्रभाव

शैक्षणिक योगदान: AutoARM के इस नए अनुसंधान दिशा को खोलता है
व्यावहारिक मूल्य: ARM अनुप्रयोग की तकनीकी बाधा को कम करता है, विधि प्रसार को बढ़ावा देता है
पुनरुत्पादनीयता: खुला स्रोत कार्यान्वयन प्रदान करता है, बाद के अनुसंधान को सुविधाजनक बनाता है
विस्तार संभावना: संबंधित क्षेत्रों के स्वचालन अनुसंधान के लिए संदर्भ ढांचा प्रदान करता है

लागू परिदृश्य

मध्यम आकार के डेटासेट: विशेष रूप से विशेषता संख्या और उदाहरण संख्या उपयुक्त डेटासेट के लिए उपयुक्त
मिश्रित विशेषता डेटा: संख्यात्मक और श्रेणीबद्ध दोनों विशेषताओं वाले डेटासेट
गैर-विशेषज्ञ उपयोगकर्ता: ARM विशेषज्ञता की कमी लेकिन संबंध विश्लेषण की आवश्यकता वाले उपयोगकर्ता
तीव्र प्रोटोटाइपिंग: ARM पाइपलाइन को तेजी से निर्माण और परीक्षण करने की आवश्यकता वाले अनुसंधान परिदृश्य

संदर्भ

पेपर में 25 संबंधित संदर्भ उद्धृत किए गए हैं, मुख्य रूप से शामिल हैं:

AutoML संबंधित कार्य (Yao et al., Hutter et al., He et al.)
विकासवादी संगणना आधार (Eiben & Smith, Blum & Merkle)
विशिष्ट एल्गोरिदम कार्यान्वयन (DE के लिए Storn & Price, PSO के लिए Kennedy & Eberhart)
संबंधित ढांचे (NiaPy, NiaARM, NiaAML श्रृंखला)

समग्र मूल्यांकन: यह AutoML और ARM के अंतर-अनुशासनात्मक क्षेत्र में एक उच्च गुणवत्ता वाला अनुसंधान पेपर है जो महत्वपूर्ण योगदान देता है। हालांकि कम्प्यूटेशनल दक्षता और बड़े पैमाने पर डेटा प्रसंस्करण के संदर्भ में सुधार की गुंजाइश है, इसकी नवाचार, पूर्णता और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण मील का पत्थर कार्य बनाते हैं।