The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.
- पेपर ID: 2501.00138
- शीर्षक: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
- लेखक: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (मारिबोर विश्वविद्यालय, स्लोवेनिया)
- वर्गीकरण: cs.NE (तंत्रिका और विकासवादी संगणना), cs.AI (कृत्रिम बुद्धिमत्ता)
- प्रकाशन समय: 30 दिसंबर 2024 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2501.00138
संख्यात्मक एसोसिएशन रूल माइनिंग (NARM) प्रतिमान संख्यात्मक और श्रेणीबद्ध दोनों विशेषताओं को एक साथ संभाल सकता है, जो दोनों प्रकार की विशेषताओं वाले डेटासेट से संबंध खोजने के लिए अत्यंत लाभकारी है। हालांकि, यह प्रक्रिया सरल नहीं है क्योंकि इसमें पूर्ण पाइपलाइन बनाने के लिए क्रमिक रूप से निष्पादित कई प्रसंस्करण चरण शामिल हैं, जैसे पूर्व-प्रसंस्करण, एल्गोरिदम चयन, हाइपरपैरामीटर अनुकूलन और एसोसिएशन रूल गुणवत्ता का मूल्यांकन करने के लिए मेट्रिक्स परिभाषा। यह पेपर एक नई स्वचालित मशीन लर्निंग विधि NiaAutoARM प्रस्तुत करता है, जो यादृच्छिक जनसंख्या मेटाह्यूरिस्टिक एल्गोरिदम के आधार पर स्वचालित रूप से पूर्ण एसोसिएशन रूल माइनिंग पाइपलाइन का निर्माण करता है। विधि के सैद्धांतिक प्रतिनिधित्व के अलावा, पेपर प्रस्तावित विधि का व्यापक प्रायोगिक मूल्यांकन भी प्रदान करता है।
एसोसिएशन रूल माइनिंग (ARM) लेनदेन डेटाबेस में वस्तुओं के बीच संबंध खोजने के लिए एक मशीन लर्निंग विधि है। पारंपरिक ARM केवल श्रेणीबद्ध विशेषताओं को संभालने तक सीमित है, जबकि संख्यात्मक एसोसिएशन रूल माइनिंग (NARM) ARM का एक प्रकार है जो संख्यात्मक और श्रेणीबद्ध दोनों विशेषताओं को संभाल सकता है, जिससे पारंपरिक ARM की बाधा समाप्त हो जाती है।
- लोकतांत्रिकरण की आवश्यकता: स्वचालित मशीन लर्निंग (AutoML) का उद्देश्य गैर-विशेषज्ञ उपयोगकर्ताओं को भी ML विधियों का उपयोग करने में सक्षम बनाना है, "मानव-इन-द-लूप" सिद्धांत से बचना
- जटिलता चुनौती: ARM पाइपलाइन में कई जटिल घटक शामिल हैं: डेटा पूर्व-प्रसंस्करण, एल्गोरिदम चयन, हाइपरपैरामीटर अनुकूलन, मूल्यांकन मेट्रिक्स चयन और मूल्यांकन
- कोई सार्वभौमिक समाधान नहीं: नो फ्री लंच प्रमेय के अनुसार, सभी डेटासेट के लिए उपयुक्त कोई सार्वभौमिक ARM मेटाह्यूरिस्टिक एल्गोरिदम नहीं है
- ARM पाइपलाइन का मैनुअल निर्माण बड़ी मानव हस्तक्षेप की आवश्यकता है, समय लेने वाला और जटिल है
- मौजूदा अनुसंधान ARM पूर्व-प्रसंस्करण चरणों पर पर्याप्त ध्यान नहीं देता है
- ARM पाइपलाइन स्वचालित निर्माण के लिए विशेष AutoML विधियों की कमी है
NiaAML विधि से प्रेरित होकर, ARM पाइपलाइन निर्माण समस्या को एक सतत अनुकूलन समस्या के रूप में मॉडल किया गया, जनसंख्या मेटाह्यूरिस्टिक एल्गोरिदम का उपयोग करके सर्वोत्तम पाइपलाइन कॉन्फ़िगरेशन को स्वचालित रूप से खोजा गया।
- प्रथम: ARM पाइपलाइन स्वचालित खोज के लिए पहली AutoML समाधान प्रस्तुत करता है, स्वचालित खोज को एक अनुकूलन समस्या के रूप में प्रस्तुत करता है
- पूर्व-प्रसंस्करण पर ध्यान: ARM पूर्व-प्रसंस्करण चरणों पर विशेष ध्यान देता है, हाल के अनुसंधान कार्यों की कमी को पूरा करता है
- कार्यान्वयन ढांचा: NiaAutoARM नामक Python पैकेज को लागू करता है, जो पूर्ण व्यावहारिक उपकरण प्रदान करता है
- व्यापक मूल्यांकन: कई डेटासेट पर प्रस्तावित विधि का कठोर प्रायोगिक मूल्यांकन करता है
ARM पाइपलाइन निर्माण को एक सतत अनुकूलन समस्या के रूप में परिभाषित किया गया है, जहां प्रत्येक व्यक्ति एक व्यवहार्य ARM पाइपलाइन कॉन्फ़िगरेशन का प्रतिनिधित्व करता है, जिसमें शामिल है:
- एल्गोरिदम चयन
- हाइपरपैरामीटर सेटिंग
- पूर्व-प्रसंस्करण विधियां
- मूल्यांकन मेट्रिक्स और वजन
प्रत्येक व्यक्ति xi(t) को इस प्रकार प्रस्तुत किया गया है:
xi(t)=⟨xi,1(t),yi,1(t),yi,2(t),pi,1(t),…,pi,P(t),zi,1(t),…,zi,M(t),wi,1(t),…,wi,M(t)⟩
जहां:
- xi,1(t): एल्गोरिदम चयन
- yi,1(t),yi,2(t): हाइपरपैरामीटर (जनसंख्या आकार NP, अधिकतम मूल्यांकन MAXFES)
- pi,1(t),…,pi,P(t): पूर्व-प्रसंस्करण विधियां
- zi,1(t),…,zi,M(t): मूल्यांकन मेट्रिक्स
- wi,1(t),…,wi,M(t): मेट्रिक्स वजन
एल्गोरिदम पूल: PSO, DE, GA, LSHADE, ILSHADE, jDE सहित 6 मेटाह्यूरिस्टिक एल्गोरिदम शामिल हैं
पूर्व-प्रसंस्करण विधियां:
- Min-Max सामान्यीकरण (MM)
- Z-Score सामान्यीकरण (ZS)
- डेटा संपीड़न (DS)
- उच्च सहसंबंध विशेषताओं को हटाना (RHC)
- K-means विवेकीकरण (DK)
मूल्यांकन मेट्रिक्स: समर्थन, आत्मविश्वास, कवरेज, आयाम, समावेशन, समझदारी
NiaAutoARM न्यायसंगत फिटनेस फंक्शन का उपयोग करता है:
f(xi(t))=α+βα⋅supp(X⇒Y)+β⋅conf(X⇒Y)
जहां α और β विभिन्न ARM मेट्रिक्स के समाधान गुणवत्ता पर प्रभाव को दर्शाते हैं।
- दोहरी-स्तरीय अनुकूलन संरचना: बाहरी मेटाह्यूरिस्टिक आंतरिक एल्गोरिदम के व्यवहार को नियंत्रित करता है, सर्वोत्तम कॉन्फ़िगरेशन खोजता है
- स्व-अनुकूली वजन: ARM मेट्रिक्स वजन के गतिशील समायोजन का समर्थन करता है
- बहु-पूर्व-प्रसंस्करण संयोजन: कई पूर्व-प्रसंस्करण विधियों के संयोजन का चयन करने की अनुमति देता है
- सतत अनुकूलन मॉडलिंग: असतत पाइपलाइन निर्माण समस्या को सतत अनुकूलन समस्या में परिवर्तित करता है
मूल्यांकन के लिए 10 UCI मशीन लर्निंग डेटासेट का उपयोग किया गया:
| डेटासेट | उदाहरण संख्या | विशेषता संख्या | विशेषता प्रकार |
|---|
| Abalone | 4,177 | 9 | DN |
| Balance scale | 625 | 5 | DN |
| Basketball | 96 | 5 | N |
| Bolts | 40 | 8 | N |
| Buying | 100 | 40 | N |
| German | 1,000 | 20 | DN |
| House | 22,784 | 17 | N |
| Ionosphere | 351 | 35 | DN |
| Quake | 2,178 | 4 | N |
| Wine | 178 | 14 | N |
- फिटनेस मान (समर्थन और आत्मविश्वास का भारित औसत)
- उत्पन्न नियमों की संख्या
- एल्गोरिदम चयन आवृत्ति
- पूर्व-प्रसंस्करण विधि उपयोग आवृत्ति
VARDE (Variable-length Association Rule mining using Differential Evolution) नवीनतम एल्गोरिदम के साथ अप्रत्यक्ष तुलना।
- बाहरी एल्गोरिदम: DE और PSO
- जनसंख्या आकार: NP = 30
- अधिकतम फिटनेस मूल्यांकन: MAXFES = 1000
- स्वतंत्र रन: 30 बार
- आंतरिक एल्गोरिदम हाइपरपैरामीटर रेंज: NP ∈ 10, 30, MAXFES ∈ 2000, 10000
- पूर्व-प्रसंस्करण चयन: Min-Max सामान्यीकरण (MM), Z-Score सामान्यीकरण (ZS) और कोई पूर्व-प्रसंस्करण सबसे अधिक बार चुने गए
- मेट्रिक्स वरीयता: समर्थन और आत्मविश्वास लगभग सभी पाइपलाइन में मौजूद हैं
- एल्गोरिदम चयन: PSO और jDE आंतरिक अनुकूलन एल्गोरिदम के रूप में सबसे अधिक बार चुने गए
- हाइपरपैरामीटर: जटिल डेटासेट (जैसे Buying, German, House16) उच्च NP मान चुनने की प्रवृत्ति रखते हैं
ARM मेट्रिक्स वजन स्व-अनुकूलन सक्षम करने के बाद:
- फिटनेस मान में मामूली सुधार (हालांकि Wilcoxon परीक्षण p मान = 0.41, अंतर महत्वपूर्ण नहीं है)
- वजन मान गतिशील वितरण प्रदर्शित करते हैं, समर्थन और आत्मविश्वास अभी भी उच्च वजन बनाए रखते हैं
- आयाम और समझदारी मेट्रिक्स का उपयोग आवृत्ति कम है
कई पूर्व-प्रसंस्करण विधियों का चयन करने की अनुमति देने पर:
- PSO: सबसे बार संयोजन {MM,RHC} और अकेले MM
- DE: सबसे बार संयोजन {RHC,ZS}, {MM,RHC,ZS} और अकेले RHC
- DE एल्गोरिदम द्वारा उत्पन्न पाइपलाइन फिटनेस मान थोड़ा अधिक है, PSO अधिक नियम उत्पन्न करता है
Wilcoxon हस्ताक्षरित रैंक परीक्षण परिणाम दिखाते हैं:
- कई कॉन्फ़िगरेशन में, NiaAutoARM द्वारा उत्पन्न पाइपलाइन VARDE से महत्वपूर्ण रूप से बेहतर हैं
- विशेष रूप से वजन स्व-अनुकूलन और बहु-पूर्व-प्रसंस्करण विधि सक्षम होने पर बेहतर प्रदर्शन करता है
विभिन्न कार्यों को क्रमिक रूप से सक्षम करके प्रत्येक घटक के योगदान को सत्यापित किया गया:
- आधारभूत कॉन्फ़िगरेशन (एकल पूर्व-प्रसंस्करण, कोई वजन स्व-अनुकूलन नहीं)
- वजन स्व-अनुकूलन सक्षम करना
- बहु-पूर्व-प्रसंस्करण विधि चयन सक्षम करना
औसत निष्पादन समय 15,000-40,000 सेकंड की रेंज में है, हालांकि कम्प्यूटेशनल जटिलता अधिक है, लेकिन स्वचालन द्वारा लाए गए सुविधा को देखते हुए, यह एक स्वीकार्य व्यापार-बंद है।
- NiaAML: प्राकृतिक-प्रेरित एल्गोरिदम के आधार पर वर्गीकरण पाइपलाइन स्वचालित निर्माण
- NiaAML2: सुधारा गया संस्करण, पाइपलाइन निर्माण और हाइपरपैरामीटर अनुकूलन को दो स्वतंत्र चरणों में विभाजित करता है
- सामान्य AutoML: TPOT, Auto-sklearn आदि ढांचे मुख्य रूप से वर्गीकरण और प्रतिगमन कार्यों पर केंद्रित हैं
- NiaARM: ARM-DE एल्गोरिदम को लागू करने वाली Python ढांचा
- पारंपरिक ARM: मुख्य रूप से श्रेणीबद्ध विशेषताओं को संभालता है
- NARM: संख्यात्मक और श्रेणीबद्ध दोनों विशेषताओं को संभाल सकने वाली सुधारी गई संस्करण
NiaAutoARM ARM पाइपलाइन स्वचालित निर्माण के लिए पहली AutoML विधि है, जो इस क्षेत्र में एक अंतराल को भरता है।
- NiaAutoARM उच्च गुणवत्ता वाली ARM पाइपलाइन को प्रभावी ढंग से स्वचालित रूप से निर्माण कर सकता है
- PSO आंतरिक एल्गोरिदम के रूप में सर्वश्रेष्ठ प्रदर्शन करता है, Min-Max सामान्यीकरण सबसे पसंदीदा पूर्व-प्रसंस्करण विधि है
- समर्थन और आत्मविश्वास ARM में मूल मेट्रिक्स हैं
- मौजूदा अत्याधुनिक विधियों की तुलना में, यह ढांचा श्रेष्ठ प्रदर्शन प्रदर्शित करता है
- कम्प्यूटेशनल जटिलता: पुनरावृत्तिमूलक अनुकूलन और कई पूर्व-प्रसंस्करण संयोजन अन्वेषण के कारण, कम्प्यूटेशनल लागत अधिक है
- मूल्यांकन मेट्रिक्स: वर्तमान में मुख्य रूप से समर्थन और आत्मविश्वास के संयोजन पर आधारित है, सभी अनुप्रयोग परिदृश्यों के लिए उपयुक्त नहीं हो सकता है
- डेटासेट आकार: प्रयोग मुख्य रूप से मध्यम आकार के डेटासेट पर किए गए हैं, बड़े डेटासेट पर प्रदर्शन सत्यापन की प्रतीक्षा में है
- एल्गोरिदम पूल सीमा: आंतरिक एल्गोरिदम पूल अपेक्षाकृत सीमित है, अन्य प्रभावी एल्गोरिदम को याद किया जा सकता है
- एल्गोरिदम विस्तार: स्व-अनुकूली पैरामीटर समायोजन के साथ अधिक प्राकृतिक-प्रेरित एल्गोरिदम को एकीकृत करना
- पूर्व-प्रसंस्करण वृद्धि: अधिक उन्नत पूर्व-प्रसंस्करण तकनीकें और डोमेन-विशिष्ट मेट्रिक्स शामिल करना
- समानांतर संगणना: कम्प्यूटेशनल जटिलता को कम करने के लिए समानांतर और वितरित कम्प्यूटिंग रणनीतियों की खोज करना
- बहु-उद्देश्य अनुकूलन: ढांचे को बहु-उद्देश्य अनुकूलन का समर्थन करने के लिए विस्तारित करना, विरोधाभासी मेट्रिक्स के बीच व्यापार-बंद की खोज करना
- मजबूत नवाचार: AutoML को ARM क्षेत्र में पहली बार लागू करता है, महत्वपूर्ण अंतराल को भरता है
- पूर्ण विधि: पूर्व-प्रसंस्करण से मूल्यांकन तक पूर्ण पाइपलाइन अनुकूलन को शामिल करता है
- पर्याप्त प्रयोग: कई डेटासेट पर व्यापक प्रायोगिक सत्यापन किया गया है
- उच्च व्यावहारिक मूल्य: पूर्ण Python कार्यान्वयन प्रदान करता है, व्यावहारिक अनुप्रयोग के लिए सुविधाजनक है
- ठोस सैद्धांतिक आधार: परिपक्व मेटाह्यूरिस्टिक अनुकूलन सिद्धांत पर आधारित है
- कम्प्यूटेशनल दक्षता: दोहरी-स्तरीय अनुकूलन संरचना उच्च कम्प्यूटेशनल लागत की ओर ले जाती है
- स्केलेबिलिटी: बड़े डेटासेट पर प्रदर्शन पर्याप्त रूप से सत्यापित नहीं किया गया है
- तुलना सीमा: VARDE के साथ तुलना अप्रत्यक्ष है, अधिक आधारभूत विधि तुलना की कमी है
- पैरामीटर संवेदनशीलता: बाहरी एल्गोरिदम पैरामीटर सेटिंग के प्रति संवेदनशीलता विश्लेषण अपर्याप्त है
- शैक्षणिक योगदान: AutoARM के इस नए अनुसंधान दिशा को खोलता है
- व्यावहारिक मूल्य: ARM अनुप्रयोग की तकनीकी बाधा को कम करता है, विधि प्रसार को बढ़ावा देता है
- पुनरुत्पादनीयता: खुला स्रोत कार्यान्वयन प्रदान करता है, बाद के अनुसंधान को सुविधाजनक बनाता है
- विस्तार संभावना: संबंधित क्षेत्रों के स्वचालन अनुसंधान के लिए संदर्भ ढांचा प्रदान करता है
- मध्यम आकार के डेटासेट: विशेष रूप से विशेषता संख्या और उदाहरण संख्या उपयुक्त डेटासेट के लिए उपयुक्त
- मिश्रित विशेषता डेटा: संख्यात्मक और श्रेणीबद्ध दोनों विशेषताओं वाले डेटासेट
- गैर-विशेषज्ञ उपयोगकर्ता: ARM विशेषज्ञता की कमी लेकिन संबंध विश्लेषण की आवश्यकता वाले उपयोगकर्ता
- तीव्र प्रोटोटाइपिंग: ARM पाइपलाइन को तेजी से निर्माण और परीक्षण करने की आवश्यकता वाले अनुसंधान परिदृश्य
पेपर में 25 संबंधित संदर्भ उद्धृत किए गए हैं, मुख्य रूप से शामिल हैं:
- AutoML संबंधित कार्य (Yao et al., Hutter et al., He et al.)
- विकासवादी संगणना आधार (Eiben & Smith, Blum & Merkle)
- विशिष्ट एल्गोरिदम कार्यान्वयन (DE के लिए Storn & Price, PSO के लिए Kennedy & Eberhart)
- संबंधित ढांचे (NiaPy, NiaARM, NiaAML श्रृंखला)
समग्र मूल्यांकन: यह AutoML और ARM के अंतर-अनुशासनात्मक क्षेत्र में एक उच्च गुणवत्ता वाला अनुसंधान पेपर है जो महत्वपूर्ण योगदान देता है। हालांकि कम्प्यूटेशनल दक्षता और बड़े पैमाने पर डेटा प्रसंस्करण के संदर्भ में सुधार की गुंजाइश है, इसकी नवाचार, पूर्णता और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण मील का पत्थर कार्य बनाते हैं।