2025-11-12T07:37:09.358830

Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification

Malialis, Li, Panayiotou et al.
Data stream mining aims at extracting meaningful knowledge from continually evolving data streams, addressing the challenges posed by nonstationary environments, particularly, concept drift which refers to a change in the underlying data distribution over time. Graph structures offer a powerful modelling tool to represent complex systems, such as, critical infrastructure systems and social networks. Learning from graph streams becomes a necessity to understand the dynamics of graph structures and to facilitate informed decision-making. This work introduces a novel method for graph stream classification which operates under the general setting where a data generating process produces graphs with varying nodes and edges over time. The method uses incremental learning for continual model adaptation, selecting representative graphs (prototypes) for each class, and creating graph embeddings. Additionally, it incorporates a loss-based concept drift detection mechanism to recalculate graph prototypes when drift is detected.
academic

التعلم الإضافي مع كشف انجراف المفهوم والتضمينات القائمة على النماذج الأولية لتصنيف تدفقات الرسوم البيانية

المعلومات الأساسية

  • معرّف الورقة: 2404.02572
  • العنوان: التعلم الإضافي مع كشف انجراف المفهوم والتضمينات القائمة على النماذج الأولية لتصنيف تدفقات الرسوم البيانية
  • المؤلفون: Kleanthis Malialis, Jin Li, Christos G. Panayiotou, Marios M. Polycarpou
  • التصنيف: cs.LG
  • تاريخ النشر: 12 أبريل 2024 (arXiv v2)
  • المؤسسة التابعة: مركز KIOS للبحث والابتكار المتميز بجامعة قبرص، قسم الهندسة الكهربائية والحاسوبية
  • رابط الورقة: https://arxiv.org/abs/2404.02572

الملخص

يهدف التنقيب في تدفقات البيانات إلى استخراج معرفة ذات مغزى من تدفقات بيانات متطورة بشكل مستمر، مع معالجة التحديات الناشئة عن البيئات غير المستقرة، وخاصة انجراف المفهوم (concept drift)، أي التغيير في التوزيع الاحتمالي الأساسي للبيانات عبر الزمن. توفر الهياكل الرسومية أداة نمذجة قوية لتمثيل الأنظمة المعقدة مثل أنظمة البنية التحتية الحرجة والشبكات الاجتماعية. أصبح التعلم من تدفقات الرسوم البيانية ضرورياً لفهم الديناميكيات الهيكلية للرسوم البيانية وتعزيز اتخاذ القرارات المستنيرة. تقترح هذه الدراسة طريقة جديدة لتصنيف تدفقات الرسوم البيانية، قابلة للتطبيق على الإعدادات العامة حيث تنتج عملية توليد البيانات رسوماً بيانية ذات عقد وحواف متغيرة عبر الزمن. تستخدم الطريقة التعلم الإضافي للتكيف المستمر للنموذج، واختيار رسوم بيانية تمثيلية (نماذج أولية) لكل فئة، وإنشاء تضمينات رسومية. علاوة على ذلك، تدمج آلية كشف انجراف المفهوم القائمة على الخسارة، وإعادة حساب النماذج الأولية للرسوم البيانية عند اكتشاف الانجراف.

السياق البحثي والدافع

1. المشكلة الأساسية

تتمثل المشكلة الأساسية التي تعالجها هذه الدراسة في مهام التصنيف في بيئات تدفقات الرسوم البيانية الديناميكية، حيث يتغير عدد العقد والحواف في الرسم البياني عبر الزمن، مع وجود ظاهرة انجراف المفهوم.

2. أهمية المشكلة

  • الاحتياجات العملية: تمثل العديد من الأنظمة الحقيقية (مثل البنية التحتية الحرجة والشبكات الاجتماعية وأنظمة التوصيات) باستخدام هياكل رسومية ديناميكية
  • خصائص البيانات: تتمتع البيانات الناتجة من هذه الأنظمة بخصائص السرعة العالية والحجم الكبير والتنوع
  • تحديات البيئة: يؤدي انجراف المفهوم في البيئات غير المستقرة إلى تدهور أداء النموذج

3. قيود الطرق الموجودة

  • طرق تصنيف الرسوم البيانية التقليدية: تركز بشكل أساسي على الرسوم البيانية الثابتة، وغير قادرة على التعامل مع تدفقات الرسوم البيانية الديناميكية
  • طرق تدفقات الرسوم البيانية الموجودة: تركز معظمها على كشف الشذوذ بدلاً من التصنيف متعدد الفئات؛ وتفتقر إلى آليات فعالة للتعامل مع انجراف المفهوم
  • استخراج الميزات: تستخدم الطرق الموجودة ميزات رسومية بسيطة (مثل كثافة الحواف والفجوة الطيفية)، ذات قدرة تعبيرية محدودة

4. الدافع البحثي

الحاجة إلى تطوير طرق قادرة على:

  • التعامل مع تدفقات الرسوم البيانية الديناميكية ذات الأعداد المتغيرة من العقد والحواف
  • إجراء التصنيف متعدد الفئات بدلاً من الاقتصار على كشف الشذوذ
  • كشف والتكيف الفعال مع انجراف المفهوم
  • استخدام طرق تمثيل رسومية أكثر ثراءً

المساهمات الأساسية

  1. اقتراح إطار عمل جديد لتصنيف تدفقات الرسوم البيانية: قابل للتطبيق على الإعدادات العامة للرسوم البيانية ذات الأعداد المتغيرة من العقد والحواف، مع دعم مهام التصنيف متعدد الفئات
  2. تصميم طريقة تضمين رسومية قائمة على النماذج الأولية: من خلال اختيار رسوم بيانية تمثيلية لكل فئة كنماذج أولية، وتحويل الرسوم البيانية إلى تمثيلات متجهة ذات بُعد ثابت
  3. دمج آلية كشف انجراف مفهوم هجينة: تجمع بين التعلم الإضافي وكشف الانجراف القائم على الخسارة، لتحقيق استراتيجية تكيف هجينة نشطة-سلبية
  4. توفير التحقق التجريبي الشامل: التحقق من فعالية الطريقة على مجموعات بيانات معيارية متعددة، مع إجراء دراسات استبدال تفصيلية

شرح الطريقة

تعريف المهمة

بالنظر إلى تدفق الرسوم البيانية D={(gt,yt)}t=1D = \{(g_t, y_t)\}_{t=1}^{\infty}، حيث:

  • gt=(V,E)g_t = (V, E) هو الرسم البياني المنسوب في الخطوة الزمنية tt
  • yt{1,...,K}y_t \in \{1, ..., K\} هو تسمية الفئة للرسم البياني
  • يمكن للرسم البياني أن يحتوي على أعداد متغيرة من العقد والحواف
  • تأتي البيانات من توزيع احتمالي قد يكون غير مستقر pt(g,y)p_t(g, y)

الهدف هو تعلم مصنف h:GYh: G \rightarrow Y قادر على:

  1. تصنيف الرسوم البيانية الجديدة الواردة بدقة
  2. التكيف المستمر من خلال التعلم الإضافي
  3. كشف ومعالجة انجراف المفهوم

معمارية النموذج

1. إدارة ذاكرة الرسوم البيانية

الحفاظ على طوابير متعددة لتخزين الرسوم البيانية الحديثة: q={qc}c=1Kq = \{q_c\}_{c=1}^Kqc={gi}i=1Lq_c = \{g_i\}_{i=1}^L حيث LL هو حجم طابور كل فئة.

2. اختيار النموذج الأولي للرسم البياني

استخدام خوارزمية Centers لاختيار RR رسم بياني نموذجي لكل فئة: pc=argming1qcg2qcδ(g1,g2)p_c = \arg\min_{g_1 \in q_c} \sum_{g_2 \in q_c} \delta(g_1, g_2) حيث δ(,)\delta(\cdot, \cdot) هي مسافة تحرير الرسم البياني.

3. توليد تضمين الرسم البياني

حساب تضمين الرسم البياني بناءً على النماذج الأولية: eg={δ(g,pi)}i=1R×Ke_g = \{\delta(g, p_i)\}_{i=1}^{R \times K} تحويل الرسم البياني إلى متجه بُعد R×KR \times K.

4. التعلم الإضافي

استخدام مصنف الشبكة العصبية، دالة التكلفة: C=1L×Ki=1L×Kl(yi,h(egi))C = \frac{1}{L \times K} \sum_{i=1}^{L \times K} l(y_i, h(e_{g_i})) يتم تحديث المصنف من خلال التدريب الإضافي: ht=ht1.train()h_t = h_{t-1}.train(\cdot)

5. كشف انجراف المفهوم

الحفاظ على طابوري دقة التنبؤ:

  • طابور المرجع qrefq_{ref}: يخزن درجات التنبؤ التاريخية
  • طابور الحركة qmovq_{mov}: يخزن درجات التنبؤ الحديثة

استخدام التوزيع ذي الحدين للنمذجة، شرط الكشف: μmovμrefβσref\mu_{mov} \leq \mu_{ref} - \beta\sigma_{ref} حيث β\beta هو معامل الحساسية.

نقاط الابتكار التقني

  1. استراتيجية اختيار النموذج الأولي: استخدام مسافة تحرير الرسم البياني وطريقة الوسيط لاختيار الرسوم البيانية الأكثر تمثيلاً كنماذج أولية
  2. التكيف الهجين مع الانجراف: دمج التعلم الإضافي السلبي وكشف الانجراف النشط، مع إعادة حساب النماذج الأولية عند اكتشاف الانجراف
  3. معالجة الرسوم البيانية المتغيرة: التعامل مع الرسوم البيانية ذات الأعداد المتغيرة من العقد والحواف من خلال طريقة تضمين قائمة على المسافة
  4. الكشف المدفوع بالخسارة: استخدام أداء التنبؤ بدلاً من تغيير توزيع البيانات لكشف انجراف المفهوم

إعداد التجارب

مجموعات البيانات

  1. مجموعة بيانات Letter:
    • تحتوي على تمثيلات رسومية للأحرف "A" و"I" و"Z"
    • متغيران: Letter high (اضطراب عالي)، Letter med high (اضطراب متوسط-عالي)
    • لاختبار القدرة على التكيف مع انجراف المفهوم
  2. مجموعة بيانات GREC:
    • تمثيلات رسومية لرموز الرسومات المعمارية والإلكترونية
    • خمس مستويات اضطراب
    • ثلاث فئات، موزعة بالتساوي
  3. مجموعة بيانات Fingerprint:
    • تمثيلات رسومية لصور بصمات الأصابع
    • فئتان: "arch" و"left"
    • من قاعدة بيانات NIST-4 للبصمات

مقاييس التقييم

استخدام المتوسط الهندسي (G-mean): G-mean=c=1KrcKG\text{-mean} = \sqrt[K]{\prod_{c=1}^K r_c} حيث rcr_c هو معدل الاستدعاء للفئة cc.

استخدام طريقة التقييم التنبؤية مع عامل التحلل (prequential evaluation)، عامل التحلل = 0.99.

طرق المقارنة

  • الطريقة المقترحة: الطريقة الكاملة باستخدام تضمين النموذج الأولي
  • طريقة الميزات: طريقة أساسية باستخدام ميزتين بسيطتين: كثافة الحواف والفجوة الطيفية

تفاصيل التنفيذ

  • مسافة الرسم البياني: مسافة تحرير الرسم البياني
  • المصنف: شبكة عصبية متصلة بالكامل
  • محسّن: Adam
  • معدل التعلم: 0.001-0.01 (يعتمد على مجموعة البيانات)
  • حجم الذاكرة: L=10L = 10
  • عدد النماذج الأولية: R=1R = 1 أو R=3R = 3

نتائج التجارب

النتائج الرئيسية

  1. دور ذاكرة الرسوم البيانية: يحسّن استخدام ذاكرة الرسوم البيانية بشكل كبير سرعة التعلم والأداء النهائية، خاصة في المراحل الأولى من التعلم.
  2. تأثير عدد النماذج الأولية:
    • في حالات عدم وجود انجراف أو انجراف طفيف، يتفوق 3 نماذج أولية على نموذج واحد
    • بعد انجراف مفهوم شديد، يكون أداء عدد أقل من النماذج الأولية أفضل
    • على مجموعات بيانات GREC و Fingerprint، يُظهر 3 نماذج أولية أداءً متفوقاً بشكل مستمر
  3. فعالية كشف انجراف المفهوم:
    • قبل حدوث انجراف المفهوم، تكون الأداء متشابهة مع وبدون كاشف الانجراف
    • بعد حدوث الانجراف، تُظهر الطريقة مع كاشف الانجراف تحسناً كبيراً في الأداء
    • يتحقق من فعالية إعادة حساب النماذج الأولية
  4. مقارنة الطرق: تتفوق الطريقة المقترحة القائمة على التضمين بشكل كبير على طريقة الميزات البسيطة على جميع مجموعات البيانات.

دراسات الاستبدال

  1. حجم الذاكرة: التحقق من الدور الحاسم لذاكرة الرسوم البيانية في الأداء
  2. عدد النماذج الأولية: تحليل أداء أعداد مختلفة من النماذج الأولية في سيناريوهات انجراف مختلفة
  3. كشف الانجراف: إثبات ضرورة آلية كشف الانجراف

النتائج التجريبية

  1. منحنيات التعلم: تُظهر جميع الطرق مرحلة تعلم في البداية، لكن الطريقة المقترحة تتقارب بشكل أسرع
  2. التكيف مع الانجراف: استراتيجية التكيف مع الانجراف القائمة على إعادة حساب النموذج الأولي فعالة
  3. القدرة التعبيرية: يتمتع التضمين القائم على النموذج الأولي بقدرة تعبيرية أكبر من ميزات الرسوم البيانية البسيطة

الأعمال ذات الصلة

التكيف مع انجراف المفهوم

  • الطرق النشطة: استخدام الاختبارات الإحصائية أو طرق العتبة للكشف الصريح عن الانجراف
  • الطرق السلبية: استخدام التعلم الإضافي للتكيف الضمني مع الانجراف
  • الطرق الهجينة: دمج مزايا الكشف النشط والتكيف السلبي

تصنيف تدفقات الرسوم البيانية

  • تصنيف الرسوم البيانية التقليدي: يركز بشكل أساسي على الرسوم البيانية الثابتة، مع طرق غنية لكن غير مناسبة للسيناريوهات الدفقية
  • طرق تدفقات الرسوم البيانية الموجودة: تركز بشكل أساسي على كشف الشذوذ، مع بحث محدود في التصنيف متعدد الفئات
  • تضمين الرسوم البيانية: استخدام طرق مثل المشفرات التلقائية لتعلم تمثيلات الرسوم البيانية

يكمن الابتكار في هذه الورقة في دمج تضمين النموذج الأولي والتعلم الإضافي وكشف انجراف المفهوم، مع التركيز على مهام التصنيف متعدد الفئات لتدفقات الرسوم البيانية.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. فعالية الطريقة: تُظهر الطريقة الهجينة المقترحة أداءً ممتازاً في مهام تصنيف تدفقات الرسوم البيانية، خاصة في السيناريوهات التي يوجد فيها انجراف مفهوم
  2. أهمية المكونات: تساهم ذاكرة الرسوم البيانية واختيار النموذج الأولي وآلية كشف الانجراف جميعها بشكل مهم في الأداء النهائية
  3. التكيفية: تتمكن الطريقة من التعامل الفعال مع تدفقات الرسوم البيانية الديناميكية ذات الأعداد المتغيرة من العقد والحواف

القيود

  1. التعقيد الحسابي: يتمتع حساب مسافة تحرير الرسم البياني بتعقيد حسابي عالي، قد يحد من التطبيقات على نطاق واسع
  2. حساسية المعاملات: يتطلب معامل حساسية كشف الانجراف تعديلاً وفقاً للمهمة
  3. توفر التسميات: يفترض الحصول على التسميات الحقيقية في كل خطوة، وقد لا يكون هذا واقعياً في التطبيقات العملية

الاتجاهات المستقبلية

تحدد الورقة بوضوح اتجاهين بحثيين مهمين للمستقبل:

  1. تعلم تضمينات الرسوم البيانية: البحث عن طرق لتعلم تضمينات الرسوم البيانية من طرف إلى طرف، للتطبيق على مشاكل تدفقات الرسوم البيانية على نطاق واسع
  2. التعلم مع التسميات المحدودة: النظر في نماذج التعلم غير الموجه والموجه جزئياً والتعلم النشط، بالإضافة إلى تقنيات التعلم من عدد قليل من الأمثلة وتعزيز البيانات

التقييم المتعمق

المزايا

  1. أهمية المشكلة: يعتبر تصنيف تدفقات الرسوم البيانية مشكلة عملية وهامة، ذات قيمة تطبيقية واسعة
  2. ابتكار الطريقة: دمج اختيار النموذج الأولي والتعلم الإضافي وكشف انجراف المفهوم بشكل عضوي، لتشكيل حل شامل
  3. كفاية التجارب: إجراء تحقق تجريبي شامل، بما في ذلك دراسات الاستبدال وتحليل المعاملات
  4. وضوح الكتابة: هيكل الورقة واضح، وصف الطريقة مفصل، سهل الفهم والتكرار

أوجه القصور

  1. حجم مجموعات البيانات: تستخدم مجموعات بيانات نسبياً صغيرة، تأثير تدفقات الرسوم البيانية على نطاق واسع غير معروف
  2. الكفاءة الحسابية: يتمتع حساب مسافة تحرير الرسم البياني بتعقيد حسابي عالي، قد يصبح اختناقاً في التطبيقات العملية
  3. التحليل النظري: يفتقر إلى التحليل النظري وضمانات التقارب
  4. أنواع الانجراف: يركز بشكل أساسي على الانجراف المفاجئ، تأثير معالجة الانجراف التدريجي غير واضح

التأثير

  1. المساهمة الأكاديمية: توفير فكرة حل جديدة لتصنيف تدفقات الرسوم البيانية، ملء الفراغ في هذا المجال
  2. القيمة العملية: تتمتع الطريقة بإمكانية تطبيق عملية، خاصة في مجالات مثل مراقبة البنية التحتية الحرجة
  3. قابلية التكرار: توفير تفاصيل تنفيذ دقيقة وإعدادات معاملات، مما يسهل التكرار

السيناريوهات المناسبة

تناسب هذه الطريقة بشكل خاص:

  • مراقبة أنظمة البنية التحتية الحرجة
  • تحليل الديناميكيات في الشبكات الاجتماعية
  • اكتشاف الأدوية في الرسوم البيانية الجزيئية
  • تحليل سلوك المستخدمين في أنظمة التوصيات
  • أي سيناريو يتطلب التعامل مع هياكل رسومية ديناميكية مع وجود انجراف مفهوم

المراجع

تستشهد الورقة بـ 37 مرجعاً ذا صلة، تغطي كشف انجراف المفهوم والشبكات العصبية الرسومية والتعلم الإضافي وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً متيناً للبحث.


التقييم الإجمالي: هذه ورقة عالية الجودة ذات مساهمة مهمة في مجال تصنيف تدفقات الرسوم البيانية. يتمتع تصميم الطريقة بعقلانية، والتحقق التجريبي بكفاية، والكتابة بوضوح، مما يوفر رؤى وحلولاً قيمة لتطور هذا المجال. على الرغم من وجود بعض القيود، فإن ابتكاريتها وقيمتها العملية تمنحها أهمية أكاديمية وتطبيقية كبيرة.