2025-11-12T20:28:10.501994

NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines

Mlakar, Fister, Fister
The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.
academic

NiaAutoARM: एसोसिएशन रूल माइनिंग पाइपलाइन्स की स्वचालित पीढ़ी और मूल्यांकन

मूल जानकारी

  • पेपर ID: 2501.00138
  • शीर्षक: NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines
  • लेखक: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (मारिबोर विश्वविद्यालय, स्लोवेनिया)
  • वर्गीकरण: cs.NE (तंत्रिका और विकासवादी संगणना), cs.AI (कृत्रिम बुद्धिमत्ता)
  • प्रकाशन समय: 30 दिसंबर 2024 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2501.00138

सारांश

संख्यात्मक एसोसिएशन रूल माइनिंग (NARM) प्रतिमान संख्यात्मक और श्रेणीबद्ध दोनों विशेषताओं को एक साथ संभाल सकता है, जो दोनों प्रकार की विशेषताओं वाले डेटासेट से संबंध खोजने के लिए अत्यंत लाभकारी है। हालांकि, यह प्रक्रिया सरल नहीं है क्योंकि इसमें पूर्ण पाइपलाइन बनाने के लिए क्रमिक रूप से निष्पादित कई प्रसंस्करण चरण शामिल हैं, जैसे पूर्व-प्रसंस्करण, एल्गोरिदम चयन, हाइपरपैरामीटर अनुकूलन और एसोसिएशन रूल गुणवत्ता का मूल्यांकन करने के लिए मेट्रिक्स परिभाषा। यह पेपर एक नई स्वचालित मशीन लर्निंग विधि NiaAutoARM प्रस्तुत करता है, जो यादृच्छिक जनसंख्या मेटाह्यूरिस्टिक एल्गोरिदम के आधार पर स्वचालित रूप से पूर्ण एसोसिएशन रूल माइनिंग पाइपलाइन का निर्माण करता है। विधि के सैद्धांतिक प्रतिनिधित्व के अलावा, पेपर प्रस्तावित विधि का व्यापक प्रायोगिक मूल्यांकन भी प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. समस्या परिभाषा

एसोसिएशन रूल माइनिंग (ARM) लेनदेन डेटाबेस में वस्तुओं के बीच संबंध खोजने के लिए एक मशीन लर्निंग विधि है। पारंपरिक ARM केवल श्रेणीबद्ध विशेषताओं को संभालने तक सीमित है, जबकि संख्यात्मक एसोसिएशन रूल माइनिंग (NARM) ARM का एक प्रकार है जो संख्यात्मक और श्रेणीबद्ध दोनों विशेषताओं को संभाल सकता है, जिससे पारंपरिक ARM की बाधा समाप्त हो जाती है।

2. समस्या की महत्ता

  • लोकतांत्रिकरण की आवश्यकता: स्वचालित मशीन लर्निंग (AutoML) का उद्देश्य गैर-विशेषज्ञ उपयोगकर्ताओं को भी ML विधियों का उपयोग करने में सक्षम बनाना है, "मानव-इन-द-लूप" सिद्धांत से बचना
  • जटिलता चुनौती: ARM पाइपलाइन में कई जटिल घटक शामिल हैं: डेटा पूर्व-प्रसंस्करण, एल्गोरिदम चयन, हाइपरपैरामीटर अनुकूलन, मूल्यांकन मेट्रिक्स चयन और मूल्यांकन
  • कोई सार्वभौमिक समाधान नहीं: नो फ्री लंच प्रमेय के अनुसार, सभी डेटासेट के लिए उपयुक्त कोई सार्वभौमिक ARM मेटाह्यूरिस्टिक एल्गोरिदम नहीं है

3. मौजूदा विधियों की सीमाएं

  • ARM पाइपलाइन का मैनुअल निर्माण बड़ी मानव हस्तक्षेप की आवश्यकता है, समय लेने वाला और जटिल है
  • मौजूदा अनुसंधान ARM पूर्व-प्रसंस्करण चरणों पर पर्याप्त ध्यान नहीं देता है
  • ARM पाइपलाइन स्वचालित निर्माण के लिए विशेष AutoML विधियों की कमी है

4. अनुसंधान प्रेरणा

NiaAML विधि से प्रेरित होकर, ARM पाइपलाइन निर्माण समस्या को एक सतत अनुकूलन समस्या के रूप में मॉडल किया गया, जनसंख्या मेटाह्यूरिस्टिक एल्गोरिदम का उपयोग करके सर्वोत्तम पाइपलाइन कॉन्फ़िगरेशन को स्वचालित रूप से खोजा गया।

मूल योगदान

  1. प्रथम: ARM पाइपलाइन स्वचालित खोज के लिए पहली AutoML समाधान प्रस्तुत करता है, स्वचालित खोज को एक अनुकूलन समस्या के रूप में प्रस्तुत करता है
  2. पूर्व-प्रसंस्करण पर ध्यान: ARM पूर्व-प्रसंस्करण चरणों पर विशेष ध्यान देता है, हाल के अनुसंधान कार्यों की कमी को पूरा करता है
  3. कार्यान्वयन ढांचा: NiaAutoARM नामक Python पैकेज को लागू करता है, जो पूर्ण व्यावहारिक उपकरण प्रदान करता है
  4. व्यापक मूल्यांकन: कई डेटासेट पर प्रस्तावित विधि का कठोर प्रायोगिक मूल्यांकन करता है

विधि विवरण

कार्य परिभाषा

ARM पाइपलाइन निर्माण को एक सतत अनुकूलन समस्या के रूप में परिभाषित किया गया है, जहां प्रत्येक व्यक्ति एक व्यवहार्य ARM पाइपलाइन कॉन्फ़िगरेशन का प्रतिनिधित्व करता है, जिसमें शामिल है:

  • एल्गोरिदम चयन
  • हाइपरपैरामीटर सेटिंग
  • पूर्व-प्रसंस्करण विधियां
  • मूल्यांकन मेट्रिक्स और वजन

मॉडल आर्किटेक्चर

1. समाधान प्रतिनिधित्व

प्रत्येक व्यक्ति xi(t)x_i^{(t)} को इस प्रकार प्रस्तुत किया गया है:

xi(t)=xi,1(t),yi,1(t),yi,2(t),pi,1(t),,pi,P(t),zi,1(t),,zi,M(t),wi,1(t),,wi,M(t)x_i^{(t)} = \langle x_{i,1}^{(t)}, y_{i,1}^{(t)}, y_{i,2}^{(t)}, p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}, z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}, w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)} \rangle

जहां:

  • xi,1(t)x_{i,1}^{(t)}: एल्गोरिदम चयन
  • yi,1(t),yi,2(t)y_{i,1}^{(t)}, y_{i,2}^{(t)}: हाइपरपैरामीटर (जनसंख्या आकार NP, अधिकतम मूल्यांकन MAXFES)
  • pi,1(t),,pi,P(t)p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}: पूर्व-प्रसंस्करण विधियां
  • zi,1(t),,zi,M(t)z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}: मूल्यांकन मेट्रिक्स
  • wi,1(t),,wi,M(t)w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)}: मेट्रिक्स वजन

2. घटक डिजाइन

एल्गोरिदम पूल: PSO, DE, GA, LSHADE, ILSHADE, jDE सहित 6 मेटाह्यूरिस्टिक एल्गोरिदम शामिल हैं

पूर्व-प्रसंस्करण विधियां:

  • Min-Max सामान्यीकरण (MM)
  • Z-Score सामान्यीकरण (ZS)
  • डेटा संपीड़न (DS)
  • उच्च सहसंबंध विशेषताओं को हटाना (RHC)
  • K-means विवेकीकरण (DK)

मूल्यांकन मेट्रिक्स: समर्थन, आत्मविश्वास, कवरेज, आयाम, समावेशन, समझदारी

3. फिटनेस फंक्शन

NiaAutoARM न्यायसंगत फिटनेस फंक्शन का उपयोग करता है:

f(xi(t))=αsupp(XY)+βconf(XY)α+βf(x_i^{(t)}) = \frac{\alpha \cdot supp(X \Rightarrow Y) + \beta \cdot conf(X \Rightarrow Y)}{\alpha + \beta}

जहां α और β विभिन्न ARM मेट्रिक्स के समाधान गुणवत्ता पर प्रभाव को दर्शाते हैं।

तकनीकी नवाचार बिंदु

  1. दोहरी-स्तरीय अनुकूलन संरचना: बाहरी मेटाह्यूरिस्टिक आंतरिक एल्गोरिदम के व्यवहार को नियंत्रित करता है, सर्वोत्तम कॉन्फ़िगरेशन खोजता है
  2. स्व-अनुकूली वजन: ARM मेट्रिक्स वजन के गतिशील समायोजन का समर्थन करता है
  3. बहु-पूर्व-प्रसंस्करण संयोजन: कई पूर्व-प्रसंस्करण विधियों के संयोजन का चयन करने की अनुमति देता है
  4. सतत अनुकूलन मॉडलिंग: असतत पाइपलाइन निर्माण समस्या को सतत अनुकूलन समस्या में परिवर्तित करता है

प्रायोगिक सेटअप

डेटासेट

मूल्यांकन के लिए 10 UCI मशीन लर्निंग डेटासेट का उपयोग किया गया:

डेटासेटउदाहरण संख्याविशेषता संख्याविशेषता प्रकार
Abalone4,1779DN
Balance scale6255DN
Basketball965N
Bolts408N
Buying10040N
German1,00020DN
House22,78417N
Ionosphere35135DN
Quake2,1784N
Wine17814N

मूल्यांकन मेट्रिक्स

  • फिटनेस मान (समर्थन और आत्मविश्वास का भारित औसत)
  • उत्पन्न नियमों की संख्या
  • एल्गोरिदम चयन आवृत्ति
  • पूर्व-प्रसंस्करण विधि उपयोग आवृत्ति

तुलना विधियां

VARDE (Variable-length Association Rule mining using Differential Evolution) नवीनतम एल्गोरिदम के साथ अप्रत्यक्ष तुलना।

कार्यान्वयन विवरण

  • बाहरी एल्गोरिदम: DE और PSO
  • जनसंख्या आकार: NP = 30
  • अधिकतम फिटनेस मूल्यांकन: MAXFES = 1000
  • स्वतंत्र रन: 30 बार
  • आंतरिक एल्गोरिदम हाइपरपैरामीटर रेंज: NP ∈ 10, 30, MAXFES ∈ 2000, 10000

प्रायोगिक परिणाम

मुख्य परिणाम

1. आधारभूत प्रयोग

  • पूर्व-प्रसंस्करण चयन: Min-Max सामान्यीकरण (MM), Z-Score सामान्यीकरण (ZS) और कोई पूर्व-प्रसंस्करण सबसे अधिक बार चुने गए
  • मेट्रिक्स वरीयता: समर्थन और आत्मविश्वास लगभग सभी पाइपलाइन में मौजूद हैं
  • एल्गोरिदम चयन: PSO और jDE आंतरिक अनुकूलन एल्गोरिदम के रूप में सबसे अधिक बार चुने गए
  • हाइपरपैरामीटर: जटिल डेटासेट (जैसे Buying, German, House16) उच्च NP मान चुनने की प्रवृत्ति रखते हैं

2. वजन स्व-अनुकूलन प्रयोग

ARM मेट्रिक्स वजन स्व-अनुकूलन सक्षम करने के बाद:

  • फिटनेस मान में मामूली सुधार (हालांकि Wilcoxon परीक्षण p मान = 0.41, अंतर महत्वपूर्ण नहीं है)
  • वजन मान गतिशील वितरण प्रदर्शित करते हैं, समर्थन और आत्मविश्वास अभी भी उच्च वजन बनाए रखते हैं
  • आयाम और समझदारी मेट्रिक्स का उपयोग आवृत्ति कम है

3. बहु-पूर्व-प्रसंस्करण विधि प्रयोग

कई पूर्व-प्रसंस्करण विधियों का चयन करने की अनुमति देने पर:

  • PSO: सबसे बार संयोजन {MM,RHC} और अकेले MM
  • DE: सबसे बार संयोजन {RHC,ZS}, {MM,RHC,ZS} और अकेले RHC
  • DE एल्गोरिदम द्वारा उत्पन्न पाइपलाइन फिटनेस मान थोड़ा अधिक है, PSO अधिक नियम उत्पन्न करता है

4. VARDE के साथ तुलना

Wilcoxon हस्ताक्षरित रैंक परीक्षण परिणाम दिखाते हैं:

  • कई कॉन्फ़िगरेशन में, NiaAutoARM द्वारा उत्पन्न पाइपलाइन VARDE से महत्वपूर्ण रूप से बेहतर हैं
  • विशेष रूप से वजन स्व-अनुकूलन और बहु-पूर्व-प्रसंस्करण विधि सक्षम होने पर बेहतर प्रदर्शन करता है

विलोपन प्रयोग

विभिन्न कार्यों को क्रमिक रूप से सक्षम करके प्रत्येक घटक के योगदान को सत्यापित किया गया:

  1. आधारभूत कॉन्फ़िगरेशन (एकल पूर्व-प्रसंस्करण, कोई वजन स्व-अनुकूलन नहीं)
  2. वजन स्व-अनुकूलन सक्षम करना
  3. बहु-पूर्व-प्रसंस्करण विधि चयन सक्षम करना

कम्प्यूटेशनल जटिलता विश्लेषण

औसत निष्पादन समय 15,000-40,000 सेकंड की रेंज में है, हालांकि कम्प्यूटेशनल जटिलता अधिक है, लेकिन स्वचालन द्वारा लाए गए सुविधा को देखते हुए, यह एक स्वीकार्य व्यापार-बंद है।

संबंधित कार्य

AutoML क्षेत्र

  • NiaAML: प्राकृतिक-प्रेरित एल्गोरिदम के आधार पर वर्गीकरण पाइपलाइन स्वचालित निर्माण
  • NiaAML2: सुधारा गया संस्करण, पाइपलाइन निर्माण और हाइपरपैरामीटर अनुकूलन को दो स्वतंत्र चरणों में विभाजित करता है
  • सामान्य AutoML: TPOT, Auto-sklearn आदि ढांचे मुख्य रूप से वर्गीकरण और प्रतिगमन कार्यों पर केंद्रित हैं

ARM क्षेत्र

  • NiaARM: ARM-DE एल्गोरिदम को लागू करने वाली Python ढांचा
  • पारंपरिक ARM: मुख्य रूप से श्रेणीबद्ध विशेषताओं को संभालता है
  • NARM: संख्यात्मक और श्रेणीबद्ध दोनों विशेषताओं को संभाल सकने वाली सुधारी गई संस्करण

तकनीकी अंतर

NiaAutoARM ARM पाइपलाइन स्वचालित निर्माण के लिए पहली AutoML विधि है, जो इस क्षेत्र में एक अंतराल को भरता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. NiaAutoARM उच्च गुणवत्ता वाली ARM पाइपलाइन को प्रभावी ढंग से स्वचालित रूप से निर्माण कर सकता है
  2. PSO आंतरिक एल्गोरिदम के रूप में सर्वश्रेष्ठ प्रदर्शन करता है, Min-Max सामान्यीकरण सबसे पसंदीदा पूर्व-प्रसंस्करण विधि है
  3. समर्थन और आत्मविश्वास ARM में मूल मेट्रिक्स हैं
  4. मौजूदा अत्याधुनिक विधियों की तुलना में, यह ढांचा श्रेष्ठ प्रदर्शन प्रदर्शित करता है

सीमाएं

  1. कम्प्यूटेशनल जटिलता: पुनरावृत्तिमूलक अनुकूलन और कई पूर्व-प्रसंस्करण संयोजन अन्वेषण के कारण, कम्प्यूटेशनल लागत अधिक है
  2. मूल्यांकन मेट्रिक्स: वर्तमान में मुख्य रूप से समर्थन और आत्मविश्वास के संयोजन पर आधारित है, सभी अनुप्रयोग परिदृश्यों के लिए उपयुक्त नहीं हो सकता है
  3. डेटासेट आकार: प्रयोग मुख्य रूप से मध्यम आकार के डेटासेट पर किए गए हैं, बड़े डेटासेट पर प्रदर्शन सत्यापन की प्रतीक्षा में है
  4. एल्गोरिदम पूल सीमा: आंतरिक एल्गोरिदम पूल अपेक्षाकृत सीमित है, अन्य प्रभावी एल्गोरिदम को याद किया जा सकता है

भविष्य की दिशाएं

  1. एल्गोरिदम विस्तार: स्व-अनुकूली पैरामीटर समायोजन के साथ अधिक प्राकृतिक-प्रेरित एल्गोरिदम को एकीकृत करना
  2. पूर्व-प्रसंस्करण वृद्धि: अधिक उन्नत पूर्व-प्रसंस्करण तकनीकें और डोमेन-विशिष्ट मेट्रिक्स शामिल करना
  3. समानांतर संगणना: कम्प्यूटेशनल जटिलता को कम करने के लिए समानांतर और वितरित कम्प्यूटिंग रणनीतियों की खोज करना
  4. बहु-उद्देश्य अनुकूलन: ढांचे को बहु-उद्देश्य अनुकूलन का समर्थन करने के लिए विस्तारित करना, विरोधाभासी मेट्रिक्स के बीच व्यापार-बंद की खोज करना

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: AutoML को ARM क्षेत्र में पहली बार लागू करता है, महत्वपूर्ण अंतराल को भरता है
  2. पूर्ण विधि: पूर्व-प्रसंस्करण से मूल्यांकन तक पूर्ण पाइपलाइन अनुकूलन को शामिल करता है
  3. पर्याप्त प्रयोग: कई डेटासेट पर व्यापक प्रायोगिक सत्यापन किया गया है
  4. उच्च व्यावहारिक मूल्य: पूर्ण Python कार्यान्वयन प्रदान करता है, व्यावहारिक अनुप्रयोग के लिए सुविधाजनक है
  5. ठोस सैद्धांतिक आधार: परिपक्व मेटाह्यूरिस्टिक अनुकूलन सिद्धांत पर आधारित है

कमियां

  1. कम्प्यूटेशनल दक्षता: दोहरी-स्तरीय अनुकूलन संरचना उच्च कम्प्यूटेशनल लागत की ओर ले जाती है
  2. स्केलेबिलिटी: बड़े डेटासेट पर प्रदर्शन पर्याप्त रूप से सत्यापित नहीं किया गया है
  3. तुलना सीमा: VARDE के साथ तुलना अप्रत्यक्ष है, अधिक आधारभूत विधि तुलना की कमी है
  4. पैरामीटर संवेदनशीलता: बाहरी एल्गोरिदम पैरामीटर सेटिंग के प्रति संवेदनशीलता विश्लेषण अपर्याप्त है

प्रभाव

  1. शैक्षणिक योगदान: AutoARM के इस नए अनुसंधान दिशा को खोलता है
  2. व्यावहारिक मूल्य: ARM अनुप्रयोग की तकनीकी बाधा को कम करता है, विधि प्रसार को बढ़ावा देता है
  3. पुनरुत्पादनीयता: खुला स्रोत कार्यान्वयन प्रदान करता है, बाद के अनुसंधान को सुविधाजनक बनाता है
  4. विस्तार संभावना: संबंधित क्षेत्रों के स्वचालन अनुसंधान के लिए संदर्भ ढांचा प्रदान करता है

लागू परिदृश्य

  1. मध्यम आकार के डेटासेट: विशेष रूप से विशेषता संख्या और उदाहरण संख्या उपयुक्त डेटासेट के लिए उपयुक्त
  2. मिश्रित विशेषता डेटा: संख्यात्मक और श्रेणीबद्ध दोनों विशेषताओं वाले डेटासेट
  3. गैर-विशेषज्ञ उपयोगकर्ता: ARM विशेषज्ञता की कमी लेकिन संबंध विश्लेषण की आवश्यकता वाले उपयोगकर्ता
  4. तीव्र प्रोटोटाइपिंग: ARM पाइपलाइन को तेजी से निर्माण और परीक्षण करने की आवश्यकता वाले अनुसंधान परिदृश्य

संदर्भ

पेपर में 25 संबंधित संदर्भ उद्धृत किए गए हैं, मुख्य रूप से शामिल हैं:

  • AutoML संबंधित कार्य (Yao et al., Hutter et al., He et al.)
  • विकासवादी संगणना आधार (Eiben & Smith, Blum & Merkle)
  • विशिष्ट एल्गोरिदम कार्यान्वयन (DE के लिए Storn & Price, PSO के लिए Kennedy & Eberhart)
  • संबंधित ढांचे (NiaPy, NiaARM, NiaAML श्रृंखला)

समग्र मूल्यांकन: यह AutoML और ARM के अंतर-अनुशासनात्मक क्षेत्र में एक उच्च गुणवत्ता वाला अनुसंधान पेपर है जो महत्वपूर्ण योगदान देता है। हालांकि कम्प्यूटेशनल दक्षता और बड़े पैमाने पर डेटा प्रसंस्करण के संदर्भ में सुधार की गुंजाइश है, इसकी नवाचार, पूर्णता और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण मील का पत्थर कार्य बनाते हैं।