The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.
- معرّف الورقة: 2501.00138
- العنوان: NiaAutoARM: الإنشاء الآلي وتقييم خطوط أنابيب تعدين قواعد الارتباط
- المؤلفون: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (جامعة ماريبور، سلوفينيا)
- التصنيف: cs.NE (الحوسبة العصبية والتطورية)، cs.AI (الذكاء الاصطناعي)
- تاريخ النشر: 30 ديسمبر 2024 (نسخة أولية على arXiv)
- رابط الورقة: https://arxiv.org/abs/2501.00138
يوفر نموذج تعدين قواعد الارتباط الرقمية (Numerical Association Rule Mining, NARM) القدرة على معالجة الخصائص الرقمية والفئوية في نفس الوقت، مما يعود بالفائدة على اكتشاف العلاقات من مجموعات البيانات التي تحتوي على نوعي الخصائص. ومع ذلك، فإن هذه العملية ليست بسيطة لأنها تتضمن عدة خطوات معالجة متسلسلة لتشكيل خط أنابيب كامل، مثل المعالجة المسبقة واختيار الخوارزمية وتحسين المعاملات الفائقة وتعريف المقاييس لتقييم جودة قواعد الارتباط. تقترح هذه الورقة طريقة جديدة للتعلم الآلي الآلي تسمى NiaAutoARM، والتي تعتمد على خوارزميات ميتاهيوريستية عشوائية لإنشاء خط أنابيب تعدين قواعد ارتباط كامل تلقائياً. بالإضافة إلى التمثيل النظري للطريقة، توفر الورقة تقييماً تجريبياً شاملاً للطريقة المقترحة.
تعدين قواعد الارتباط (ARM) هو طريقة تعلم آلي تُستخدم لاكتشاف العلاقات بين العناصر في قواعد بيانات المعاملات. يقتصر تعدين قواعد الارتباط التقليدي على معالجة الخصائص الفئوية، بينما يعمل تعدين قواعد الارتباط الرقمية (NARM) كمتغير من ARM على معالجة الخصائص الرقمية والفئوية معاً، مما يزيل الاختناقات في ARM التقليدي.
- الحاجة إلى الديمقراطية: يهدف التعلم الآلي الآلي (AutoML) إلى تمكين المستخدمين غير المتخصصين من استخدام طرق ML، مما يتجنب مبدأ "الإنسان في الحلقة"
- تحديات التعقيد: يتضمن خط أنابيب ARM عدة مكونات معقدة: المعالجة المسبقة للبيانات واختيار الخوارزمية وتحسين المعاملات الفائقة واختيار مقاييس التقييم والتقييم
- عدم وجود حل عام: وفقاً لنظرية عدم وجود غداء مجاني، لا توجد خوارزمية ميتاهيوريستية ARM عامة تنطبق على جميع مجموعات البيانات
- يتطلب البناء اليدوي لخط أنابيب ARM تدخلاً يدوياً كبيراً، وهو يستغرق وقتاً طويلاً ومعقد
- تركز الأبحاث الموجودة بشكل غير كافٍ على خطوات المعالجة المسبقة لـ ARM
- يفتقر إلى طرق AutoML متخصصة لبناء خط أنابيب ARM تلقائياً
بناءً على إلهام طريقة NiaAML، يتم نمذجة مشكلة بناء خط أنابيب ARM كمشكلة تحسين مستمرة، باستخدام خوارزميات ميتاهيوريستية عشوائية للبحث التلقائي عن تكوين خط الأنابيب الأمثل.
- الريادة: تقديم أول حل AutoML متخصص للبحث التلقائي عن خط أنابيب ARM، مع تمثيل البحث التلقائي كمشكلة تحسين
- التركيز على المعالجة المسبقة: إيلاء اهتمام خاص لخطوات المعالجة المسبقة لـ ARM، مما يسد الفجوة في الأعمال البحثية الحديثة
- إطار التنفيذ: تنفيذ حزمة Python تسمى NiaAutoARM توفر أدوات عملية كاملة
- التقييم الشامل: إجراء تقييم تجريبي صارم للطريقة المقترحة على عدة مجموعات بيانات
يتم تعريف بناء خط أنابيب ARM كمشكلة تحسين مستمرة، حيث يمثل كل فرد تكويناً قابلاً للتطبيق لخط أنابيب ARM، يتضمن:
- اختيار الخوارزمية
- إعدادات المعاملات الفائقة
- طرق المعالجة المسبقة
- مقاييس التقييم والأوزان
يتم تمثيل كل فرد xi(t) على النحو التالي:
xi(t)=⟨xi,1(t),yi,1(t),yi,2(t),pi,1(t),…,pi,P(t),zi,1(t),…,zi,M(t),wi,1(t),…,wi,M(t)⟩
حيث:
- xi,1(t): اختيار الخوارزمية
- yi,1(t),yi,2(t): المعاملات الفائقة (حجم السكان NP، الحد الأقصى للتقييمات MAXFES)
- pi,1(t),…,pi,P(t): طرق المعالجة المسبقة
- zi,1(t),…,zi,M(t): مقاييس التقييم
- wi,1(t),…,wi,M(t): أوزان المقاييس
مجموعة الخوارزميات: تتضمن 6 خوارزميات ميتاهيوريستية: PSO و DE و GA و LSHADE و ILSHADE و jDE
طرق المعالجة المسبقة:
- تطبيع Min-Max (MM)
- تطبيع Z-Score (ZS)
- ضغط البيانات (DS)
- إزالة الخصائص ذات الارتباط العالي (RHC)
- تقسيم K-means (DK)
مقاييس التقييم: الدعم والثقة والتغطية والحجم والاحتواء والقابلية للفهم
يستخدم NiaAutoARM دالة ملاءمة عادلة:
f(xi(t))=α+βα⋅supp(X⇒Y)+β⋅conf(X⇒Y)
حيث يمثل α و β تأثير مقاييس ARM المختلفة على جودة الحل.
- هيكل التحسين ثنائي المستوى: تتحكم الخوارزمية الميتاهيوريستية الخارجية بسلوك الخوارزمية الداخلية، وتبحث عن التكوين الأمثل
- الأوزان التكيفية: تدعم التعديل الديناميكي لأوزان مقاييس ARM
- مجموعات معالجة متعددة: تسمح باختيار مجموعات متعددة من طرق المعالجة المسبقة
- نمذجة التحسين المستمر: تحويل مشكلة بناء خط الأنابيب المنفصلة إلى مشكلة تحسين مستمرة
تم استخدام 10 مجموعات بيانات من UCI لتعلم الآلة للتقييم:
| مجموعة البيانات | عدد الحالات | عدد الخصائص | نوع الخصائص |
|---|
| Abalone | 4,177 | 9 | DN |
| Balance scale | 625 | 5 | DN |
| Basketball | 96 | 5 | N |
| Bolts | 40 | 8 | N |
| Buying | 100 | 40 | N |
| German | 1,000 | 20 | DN |
| House | 22,784 | 17 | N |
| Ionosphere | 351 | 35 | DN |
| Quake | 2,178 | 4 | N |
| Wine | 178 | 14 | N |
- قيمة الملاءمة (المتوسط المرجح للدعم والثقة)
- عدد القواعد المُنتجة
- تكرار اختيار الخوارزمية
- تكرار استخدام طرق المعالجة المسبقة
مقارنة غير مباشرة مع خوارزمية VARDE الحديثة (تعدين قواعد الارتباط بطول متغير باستخدام التطور التفاضلي).
- الخوارزمية الخارجية: DE و PSO
- حجم السكان: NP = 30
- الحد الأقصى لتقييمات الملاءمة: MAXFES = 1000
- عدد التشغيلات المستقلة: 30 مرة
- نطاق معاملات الخوارزمية الداخلية: NP ∈ 10, 30, MAXFES ∈ 2000, 10000
- اختيار المعالجة المسبقة: تم اختيار تطبيع Min-Max (MM) و Z-Score (ZS) وعدم المعالجة بشكل متكرر
- تفضيل المقاييس: الدعم والثقة موجودان في جميع خطوط الأنابيب تقريباً
- اختيار الخوارزمية: تم اختيار PSO و jDE بشكل متكرر كخوارزميات تحسين داخلية
- المعاملات الفائقة: تميل مجموعات البيانات المعقدة (مثل Buying و German و House16) إلى اختيار قيم NP أعلى
عند تفعيل التكيف الديناميكي لأوزان مقاييس ARM:
- تحسن طفيف في قيم الملاءمة (على الرغم من أن اختبار Wilcoxon p=0.41، الفرق غير معنوي)
- توزيع ديناميكي لقيم الأوزان، مع الحفاظ على أوزان عالية للدعم والثقة
- معدل استخدام منخفض لمقاييس الحجم والقابلية للفهم
عند السماح باختيار طرق معالجة مسبقة متعددة:
- PSO: المجموعات الأكثر تكراراً هي {MM,RHC} و MM وحده
- DE: المجموعات الأكثر تكراراً هي {RHC,ZS} و {MM,RHC,ZS} و RHC وحده
- خطوط الأنابيب التي ينتجها DE لها قيم ملاءمة أعلى قليلاً، بينما ينتج PSO قواعس أكثر
أظهرت نتائج اختبار Wilcoxon للرتب الموقعة:
- في عدة تكوينات، تتفوق خطوط الأنابيب التي ينتجها NiaAutoARM بشكل معنوي على VARDE
- خاصة عند تفعيل التكيف الديناميكي للأوزان وطرق المعالجة المسبقة المتعددة
التحقق من مساهمة كل مكون من خلال تفعيل الميزات المختلفة بشكل تدريجي:
- التكوين الأساسي (معالجة مسبقة واحدة، بدون تكيف أوزان)
- تفعيل تكيف الأوزان
- تفعيل اختيار طرق معالجة مسبقة متعددة
متوسط وقت التنفيذ في نطاق 15,000-40,000 ثانية، وعلى الرغم من أن التعقيد الحسابي مرتفع، فإن هذا مقبول نظراً للمزايا التي توفرها الأتمتة.
- NiaAML: بناء خط أنابيب التصنيف التلقائي بناءً على الخوارزميات المستوحاة من الطبيعة
- NiaAML2: نسخة محسّنة تقسم بناء خط الأنابيب وتحسين المعاملات الفائقة إلى مرحلتين مستقلتين
- AutoML العام: أطر عمل مثل TPOT و Auto-sklearn موجهة بشكل أساسي لمهام التصنيف والانحدار
- NiaARM: إطار عمل Python يطبق خوارزمية ARM-DE
- ARM التقليدي: يتعامل بشكل أساسي مع الخصائص الفئوية
- NARM: نسخة محسّنة قادرة على معالجة الخصائص الرقمية والفئوية معاً
NiaAutoARM هو أول طريقة AutoML متخصصة لبناء خط أنابيب ARM تلقائياً، مما يسد الفجوة في هذا المجال.
- يمكن لـ NiaAutoARM بناء خطوط أنابيب ARM عالية الجودة بشكل فعال تلقائياً
- يُظهر PSO كخوارزمية داخلية أفضل أداء، وتطبيع Min-Max هو طريقة المعالجة المسبقة الأكثر تفضيلاً
- الدعم والثقة هما المقاييس الأساسية في ARM
- يُظهر الإطار أداءً متفوقاً مقارنة بالطرق الحديثة الموجودة
- التعقيد الحسابي: نظراً للتحسين التكراري واستكشاف مجموعات معالجة مسبقة متعددة، تكون التكاليف الحسابية عالية
- مقاييس التقييم: يعتمد حالياً بشكل أساسي على مجموعات الدعم والثقة، وقد لا ينطبق على جميع سيناريوهات التطبيق
- حجم مجموعة البيانات: تم إجراء التجارب بشكل أساسي على مجموعات بيانات صغيرة ومتوسطة الحجم، وتبقى الأداء على مجموعات البيانات الكبيرة قيد التحقق
- حدود مجموعة الخوارزميات: مجموعة الخوارزميات الداخلية محدودة نسبياً، وقد تفوت خوارزميات فعالة أخرى
- توسيع الخوارزميات: دمج المزيد من الخوارزميات الطبيعية المستوحاة مع تعديل المعاملات التكيفية
- تحسين المعالجة المسبقة: دمج تقنيات معالجة مسبقة أكثر تقدماً ومقاييس خاصة بالمجال
- الحوسبة المتوازية: استكشاف استراتيجيات الحوسبة المتوازية والموزعة لتقليل التعقيد الحسابي
- التحسين متعدد الأهداف: توسيع الإطار لدعم التحسين متعدد الأهداف واستكشاف المقايضات بين المقاييس المتضاربة
- ابتكار قوي: أول تطبيق لـ AutoML في مجال ARM، يسد فجوة مهمة
- طريقة شاملة: تغطي تحسين خط أنابيب كامل من المعالجة المسبقة إلى التقييم
- تجارب كافية: تحقق تجريبي شامل على عدة مجموعات بيانات
- قيمة عملية عالية: توفير تنفيذ Python كامل، يسهل التطبيق العملي
- أساس نظري متين: يعتمد على نظرية التحسين الميتاهيوريستية الناضجة
- كفاءة الحوسبة: يؤدي هيكل التحسين ثنائي المستوى إلى تكاليف حسابية عالية
- قابلية التوسع: لم يتم التحقق الكافي من الأداء على مجموعات البيانات الكبيرة
- محدودية المقارنة: المقارنة مع VARDE غير مباشرة، تفتقر إلى مقارنات مع طرق أساسية أكثر
- تحليل حساسية المعاملات: تحليل غير كافٍ لحساسية إعدادات الخوارزمية الخارجية
- المساهمة الأكاديمية: فتح اتجاه بحثي جديد في AutoARM
- القيمة العملية: تقليل عتبة التقنية لتطبيق ARM، تعزيز الانتشار
- قابلية الاستنساخ: توفير تنفيذ مفتوح المصدر، يسهل الأبحاث اللاحقة
- إمكانية التوسع: توفير إطار مرجعي للأبحاث الآلية في المجالات ذات الصلة
- مجموعات البيانات الصغيرة والمتوسطة: مناسبة بشكل خاص لمجموعات البيانات ذات عدد الخصائص والحالات المعتدل
- البيانات ذات الخصائص المختلطة: مجموعات البيانات التي تحتوي على خصائص رقمية وفئوية معاً
- المستخدمون غير المتخصصين: المستخدمون الذين يفتقرون إلى المعرفة المتخصصة في ARM لكنهم بحاجة إلى إجراء تحليل الارتباط
- النماذج الأولية السريعة: السيناريوهات التي تتطلب بناء واختبار سريع لخطوط أنابيب ARM
تستشهد الورقة بـ 25 مرجعاً ذا صلة، تغطي بشكل أساسي:
- الأعمال ذات الصلة بـ AutoML (Yao et al., Hutter et al., He et al.)
- أساسيات الحوسبة التطورية (Eiben & Smith, Blum & Merkle)
- تطبيقات الخوارزميات المحددة (Storn & Price لـ DE، Kennedy & Eberhart لـ PSO)
- الأطر ذات الصلة (سلسلة NiaPy و NiaARM و NiaAML)
التقييم الشامل: هذه ورقة بحثية عالية الجودة تقدم مساهمات مهمة في المجال المتقاطع بين AutoML و ARM. على الرغم من وجود مجال للتحسين في كفاءة الحوسبة ومعالجة البيانات الكبيرة، فإن ابتكاريتها واكتمالها وقيمتها العملية تجعلها عملاً فارقاً مهماً في هذا المجال.