2025-11-12T20:28:10.501994

NiaAutoARM: Automated generation and evaluation of Association Rule Mining pipelines

Mlakar, Fister, Fister

The Numerical Association Rule Mining paradigm that includes concurrent dealing with numerical and categorical attributes is beneficial for discovering associations from datasets consisting of both features. The process is not considered as easy since it incorporates several processing steps running sequentially that form an entire pipeline, e.g., preprocessing, algorithm selection, hyper-parameter optimization, and the definition of metrics evaluating the quality of the association rule. In this paper, we proposed a novel Automated Machine Learning method, NiaAutoARM, for constructing the full association rule mining pipelines based on stochastic population-based meta-heuristics automatically. Along with the theoretical representation of the proposed method, we also present a comprehensive experimental evaluation of the proposed method.

academic

NiaAutoARM: الإنشاء الآلي وتقييم خطوط أنابيب تعدين قواعد الارتباط

المعلومات الأساسية

معرّف الورقة: 2501.00138
العنوان: NiaAutoARM: الإنشاء الآلي وتقييم خطوط أنابيب تعدين قواعد الارتباط
المؤلفون: Uroš Mlakar, Iztok Fister Jr., Iztok Fister (جامعة ماريبور، سلوفينيا)
التصنيف: cs.NE (الحوسبة العصبية والتطورية)، cs.AI (الذكاء الاصطناعي)
تاريخ النشر: 30 ديسمبر 2024 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2501.00138

الملخص

يوفر نموذج تعدين قواعد الارتباط الرقمية (Numerical Association Rule Mining, NARM) القدرة على معالجة الخصائص الرقمية والفئوية في نفس الوقت، مما يعود بالفائدة على اكتشاف العلاقات من مجموعات البيانات التي تحتوي على نوعي الخصائص. ومع ذلك، فإن هذه العملية ليست بسيطة لأنها تتضمن عدة خطوات معالجة متسلسلة لتشكيل خط أنابيب كامل، مثل المعالجة المسبقة واختيار الخوارزمية وتحسين المعاملات الفائقة وتعريف المقاييس لتقييم جودة قواعد الارتباط. تقترح هذه الورقة طريقة جديدة للتعلم الآلي الآلي تسمى NiaAutoARM، والتي تعتمد على خوارزميات ميتاهيوريستية عشوائية لإنشاء خط أنابيب تعدين قواعد ارتباط كامل تلقائياً. بالإضافة إلى التمثيل النظري للطريقة، توفر الورقة تقييماً تجريبياً شاملاً للطريقة المقترحة.

الخلفية البحثية والدافع

1. تعريف المشكلة

تعدين قواعد الارتباط (ARM) هو طريقة تعلم آلي تُستخدم لاكتشاف العلاقات بين العناصر في قواعد بيانات المعاملات. يقتصر تعدين قواعد الارتباط التقليدي على معالجة الخصائص الفئوية، بينما يعمل تعدين قواعد الارتباط الرقمية (NARM) كمتغير من ARM على معالجة الخصائص الرقمية والفئوية معاً، مما يزيل الاختناقات في ARM التقليدي.

2. أهمية المشكلة

الحاجة إلى الديمقراطية: يهدف التعلم الآلي الآلي (AutoML) إلى تمكين المستخدمين غير المتخصصين من استخدام طرق ML، مما يتجنب مبدأ "الإنسان في الحلقة"
تحديات التعقيد: يتضمن خط أنابيب ARM عدة مكونات معقدة: المعالجة المسبقة للبيانات واختيار الخوارزمية وتحسين المعاملات الفائقة واختيار مقاييس التقييم والتقييم
عدم وجود حل عام: وفقاً لنظرية عدم وجود غداء مجاني، لا توجد خوارزمية ميتاهيوريستية ARM عامة تنطبق على جميع مجموعات البيانات

3. قيود الطرق الموجودة

يتطلب البناء اليدوي لخط أنابيب ARM تدخلاً يدوياً كبيراً، وهو يستغرق وقتاً طويلاً ومعقد
تركز الأبحاث الموجودة بشكل غير كافٍ على خطوات المعالجة المسبقة لـ ARM
يفتقر إلى طرق AutoML متخصصة لبناء خط أنابيب ARM تلقائياً

4. الدافع البحثي

بناءً على إلهام طريقة NiaAML، يتم نمذجة مشكلة بناء خط أنابيب ARM كمشكلة تحسين مستمرة، باستخدام خوارزميات ميتاهيوريستية عشوائية للبحث التلقائي عن تكوين خط الأنابيب الأمثل.

المساهمات الأساسية

الريادة: تقديم أول حل AutoML متخصص للبحث التلقائي عن خط أنابيب ARM، مع تمثيل البحث التلقائي كمشكلة تحسين
التركيز على المعالجة المسبقة: إيلاء اهتمام خاص لخطوات المعالجة المسبقة لـ ARM، مما يسد الفجوة في الأعمال البحثية الحديثة
إطار التنفيذ: تنفيذ حزمة Python تسمى NiaAutoARM توفر أدوات عملية كاملة
التقييم الشامل: إجراء تقييم تجريبي صارم للطريقة المقترحة على عدة مجموعات بيانات

شرح الطريقة

تعريف المهمة

يتم تعريف بناء خط أنابيب ARM كمشكلة تحسين مستمرة، حيث يمثل كل فرد تكويناً قابلاً للتطبيق لخط أنابيب ARM، يتضمن:

اختيار الخوارزمية
إعدادات المعاملات الفائقة
طرق المعالجة المسبقة
مقاييس التقييم والأوزان

معمارية النموذج

1. تمثيل الحل

يتم تمثيل كل فرد $x_i^{(t)}$ على النحو التالي:

$x_i^{(t)} = \langle x_{i,1}^{(t)}, y_{i,1}^{(t)}, y_{i,2}^{(t)}, p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}, z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}, w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)} \rangle$

حيث:

$x_{i,1}^{(t)}$ : اختيار الخوارزمية
$y_{i,1}^{(t)}, y_{i,2}^{(t)}$ : المعاملات الفائقة (حجم السكان NP، الحد الأقصى للتقييمات MAXFES)
$p_{i,1}^{(t)}, \ldots, p_{i,P}^{(t)}$ : طرق المعالجة المسبقة
$z_{i,1}^{(t)}, \ldots, z_{i,M}^{(t)}$ : مقاييس التقييم
$w_{i,1}^{(t)}, \ldots, w_{i,M}^{(t)}$ : أوزان المقاييس

2. تصميم المكونات

مجموعة الخوارزميات: تتضمن 6 خوارزميات ميتاهيوريستية: PSO و DE و GA و LSHADE و ILSHADE و jDE

طرق المعالجة المسبقة:

تطبيع Min-Max (MM)
تطبيع Z-Score (ZS)
ضغط البيانات (DS)
إزالة الخصائص ذات الارتباط العالي (RHC)
تقسيم K-means (DK)

مقاييس التقييم: الدعم والثقة والتغطية والحجم والاحتواء والقابلية للفهم

3. دالة الملاءمة

يستخدم NiaAutoARM دالة ملاءمة عادلة:

$f(x_i^{(t)}) = \frac{\alpha \cdot supp(X \Rightarrow Y) + \beta \cdot conf(X \Rightarrow Y)}{\alpha + \beta}$

حيث يمثل α و β تأثير مقاييس ARM المختلفة على جودة الحل.

نقاط الابتكار التقني

هيكل التحسين ثنائي المستوى: تتحكم الخوارزمية الميتاهيوريستية الخارجية بسلوك الخوارزمية الداخلية، وتبحث عن التكوين الأمثل
الأوزان التكيفية: تدعم التعديل الديناميكي لأوزان مقاييس ARM
مجموعات معالجة متعددة: تسمح باختيار مجموعات متعددة من طرق المعالجة المسبقة
نمذجة التحسين المستمر: تحويل مشكلة بناء خط الأنابيب المنفصلة إلى مشكلة تحسين مستمرة

إعداد التجارب

مجموعات البيانات

تم استخدام 10 مجموعات بيانات من UCI لتعلم الآلة للتقييم:

مجموعة البيانات	عدد الحالات	عدد الخصائص	نوع الخصائص
Abalone	4,177	9	DN
Balance scale	625	5	DN
Basketball	96	5	N
Bolts	40	8	N
Buying	100	40	N
German	1,000	20	DN
House	22,784	17	N
Ionosphere	351	35	DN
Quake	2,178	4	N
Wine	178	14	N

مقاييس التقييم

قيمة الملاءمة (المتوسط المرجح للدعم والثقة)
عدد القواعد المُنتجة
تكرار اختيار الخوارزمية
تكرار استخدام طرق المعالجة المسبقة

طرق المقارنة

مقارنة غير مباشرة مع خوارزمية VARDE الحديثة (تعدين قواعد الارتباط بطول متغير باستخدام التطور التفاضلي).

تفاصيل التنفيذ

الخوارزمية الخارجية: DE و PSO
حجم السكان: NP = 30
الحد الأقصى لتقييمات الملاءمة: MAXFES = 1000
عدد التشغيلات المستقلة: 30 مرة
نطاق معاملات الخوارزمية الداخلية: NP ∈ 10, 30, MAXFES ∈ 2000, 10000

نتائج التجارب

النتائج الرئيسية

1. التجارب الأساسية

اختيار المعالجة المسبقة: تم اختيار تطبيع Min-Max (MM) و Z-Score (ZS) وعدم المعالجة بشكل متكرر
تفضيل المقاييس: الدعم والثقة موجودان في جميع خطوط الأنابيب تقريباً
اختيار الخوارزمية: تم اختيار PSO و jDE بشكل متكرر كخوارزميات تحسين داخلية
المعاملات الفائقة: تميل مجموعات البيانات المعقدة (مثل Buying و German و House16) إلى اختيار قيم NP أعلى

2. تجارب الأوزان التكيفية

عند تفعيل التكيف الديناميكي لأوزان مقاييس ARM:

تحسن طفيف في قيم الملاءمة (على الرغم من أن اختبار Wilcoxon p=0.41، الفرق غير معنوي)
توزيع ديناميكي لقيم الأوزان، مع الحفاظ على أوزان عالية للدعم والثقة
معدل استخدام منخفض لمقاييس الحجم والقابلية للفهم

3. تجارب طرق المعالجة المسبقة المتعددة

عند السماح باختيار طرق معالجة مسبقة متعددة:

PSO: المجموعات الأكثر تكراراً هي {MM,RHC} و MM وحده
DE: المجموعات الأكثر تكراراً هي {RHC,ZS} و {MM,RHC,ZS} و RHC وحده
خطوط الأنابيب التي ينتجها DE لها قيم ملاءمة أعلى قليلاً، بينما ينتج PSO قواعس أكثر

4. المقارنة مع VARDE

أظهرت نتائج اختبار Wilcoxon للرتب الموقعة:

في عدة تكوينات، تتفوق خطوط الأنابيب التي ينتجها NiaAutoARM بشكل معنوي على VARDE
خاصة عند تفعيل التكيف الديناميكي للأوزان وطرق المعالجة المسبقة المتعددة

التجارب الاستئصالية

التحقق من مساهمة كل مكون من خلال تفعيل الميزات المختلفة بشكل تدريجي:

التكوين الأساسي (معالجة مسبقة واحدة، بدون تكيف أوزان)
تفعيل تكيف الأوزان
تفعيل اختيار طرق معالجة مسبقة متعددة

تحليل التعقيد الحسابي

متوسط وقت التنفيذ في نطاق 15,000-40,000 ثانية، وعلى الرغم من أن التعقيد الحسابي مرتفع، فإن هذا مقبول نظراً للمزايا التي توفرها الأتمتة.

الأعمال ذات الصلة

مجال التعلم الآلي الآلي

NiaAML: بناء خط أنابيب التصنيف التلقائي بناءً على الخوارزميات المستوحاة من الطبيعة
NiaAML2: نسخة محسّنة تقسم بناء خط الأنابيب وتحسين المعاملات الفائقة إلى مرحلتين مستقلتين
AutoML العام: أطر عمل مثل TPOT و Auto-sklearn موجهة بشكل أساسي لمهام التصنيف والانحدار

مجال تعدين قواعد الارتباط

NiaARM: إطار عمل Python يطبق خوارزمية ARM-DE
ARM التقليدي: يتعامل بشكل أساسي مع الخصائص الفئوية
NARM: نسخة محسّنة قادرة على معالجة الخصائص الرقمية والفئوية معاً

الاختلافات التقنية

NiaAutoARM هو أول طريقة AutoML متخصصة لبناء خط أنابيب ARM تلقائياً، مما يسد الفجوة في هذا المجال.

الخلاصة والنقاش

الاستنتاجات الرئيسية

يمكن لـ NiaAutoARM بناء خطوط أنابيب ARM عالية الجودة بشكل فعال تلقائياً
يُظهر PSO كخوارزمية داخلية أفضل أداء، وتطبيع Min-Max هو طريقة المعالجة المسبقة الأكثر تفضيلاً
الدعم والثقة هما المقاييس الأساسية في ARM
يُظهر الإطار أداءً متفوقاً مقارنة بالطرق الحديثة الموجودة

القيود

التعقيد الحسابي: نظراً للتحسين التكراري واستكشاف مجموعات معالجة مسبقة متعددة، تكون التكاليف الحسابية عالية
مقاييس التقييم: يعتمد حالياً بشكل أساسي على مجموعات الدعم والثقة، وقد لا ينطبق على جميع سيناريوهات التطبيق
حجم مجموعة البيانات: تم إجراء التجارب بشكل أساسي على مجموعات بيانات صغيرة ومتوسطة الحجم، وتبقى الأداء على مجموعات البيانات الكبيرة قيد التحقق
حدود مجموعة الخوارزميات: مجموعة الخوارزميات الداخلية محدودة نسبياً، وقد تفوت خوارزميات فعالة أخرى

الاتجاهات المستقبلية

توسيع الخوارزميات: دمج المزيد من الخوارزميات الطبيعية المستوحاة مع تعديل المعاملات التكيفية
تحسين المعالجة المسبقة: دمج تقنيات معالجة مسبقة أكثر تقدماً ومقاييس خاصة بالمجال
الحوسبة المتوازية: استكشاف استراتيجيات الحوسبة المتوازية والموزعة لتقليل التعقيد الحسابي
التحسين متعدد الأهداف: توسيع الإطار لدعم التحسين متعدد الأهداف واستكشاف المقايضات بين المقاييس المتضاربة

التقييم المتعمق

المزايا

ابتكار قوي: أول تطبيق لـ AutoML في مجال ARM، يسد فجوة مهمة
طريقة شاملة: تغطي تحسين خط أنابيب كامل من المعالجة المسبقة إلى التقييم
تجارب كافية: تحقق تجريبي شامل على عدة مجموعات بيانات
قيمة عملية عالية: توفير تنفيذ Python كامل، يسهل التطبيق العملي
أساس نظري متين: يعتمد على نظرية التحسين الميتاهيوريستية الناضجة

أوجه القصور

كفاءة الحوسبة: يؤدي هيكل التحسين ثنائي المستوى إلى تكاليف حسابية عالية
قابلية التوسع: لم يتم التحقق الكافي من الأداء على مجموعات البيانات الكبيرة
محدودية المقارنة: المقارنة مع VARDE غير مباشرة، تفتقر إلى مقارنات مع طرق أساسية أكثر
تحليل حساسية المعاملات: تحليل غير كافٍ لحساسية إعدادات الخوارزمية الخارجية

التأثير

المساهمة الأكاديمية: فتح اتجاه بحثي جديد في AutoARM
القيمة العملية: تقليل عتبة التقنية لتطبيق ARM، تعزيز الانتشار
قابلية الاستنساخ: توفير تنفيذ مفتوح المصدر، يسهل الأبحاث اللاحقة
إمكانية التوسع: توفير إطار مرجعي للأبحاث الآلية في المجالات ذات الصلة

السيناريوهات المناسبة

مجموعات البيانات الصغيرة والمتوسطة: مناسبة بشكل خاص لمجموعات البيانات ذات عدد الخصائص والحالات المعتدل
البيانات ذات الخصائص المختلطة: مجموعات البيانات التي تحتوي على خصائص رقمية وفئوية معاً
المستخدمون غير المتخصصين: المستخدمون الذين يفتقرون إلى المعرفة المتخصصة في ARM لكنهم بحاجة إلى إجراء تحليل الارتباط
النماذج الأولية السريعة: السيناريوهات التي تتطلب بناء واختبار سريع لخطوط أنابيب ARM

المراجع

تستشهد الورقة بـ 25 مرجعاً ذا صلة، تغطي بشكل أساسي:

الأعمال ذات الصلة بـ AutoML (Yao et al., Hutter et al., He et al.)
أساسيات الحوسبة التطورية (Eiben & Smith, Blum & Merkle)
تطبيقات الخوارزميات المحددة (Storn & Price لـ DE، Kennedy & Eberhart لـ PSO)
الأطر ذات الصلة (سلسلة NiaPy و NiaARM و NiaAML)

التقييم الشامل: هذه ورقة بحثية عالية الجودة تقدم مساهمات مهمة في المجال المتقاطع بين AutoML و ARM. على الرغم من وجود مجال للتحسين في كفاءة الحوسبة ومعالجة البيانات الكبيرة، فإن ابتكاريتها واكتمالها وقيمتها العملية تجعلها عملاً فارقاً مهماً في هذا المجال.