2025-11-23T22:46:17.287043

Beyond Single-Granularity Prompts: A Multi-Scale Chain-of-Thought Prompt Learning for Graph

Zheng, Yang, Guan et al.

The "pre-train, prompt'' paradigm, designed to bridge the gap between pre-training tasks and downstream objectives, has been extended from the NLP domain to the graph domain and has achieved remarkable progress. Current mainstream graph prompt-tuning methods modify input or output features using learnable prompt vectors. However, existing approaches are confined to single-granularity (e.g., node-level or subgraph-level) during prompt generation, overlooking the inherently multi-scale structural information in graph data, which limits the diversity of prompt semantics. To address this issue, we pioneer the integration of multi-scale information into graph prompt and propose a Multi-Scale Graph Chain-of-Thought (MSGCOT) prompting framework. Specifically, we design a lightweight, low-rank coarsening network to efficiently capture multi-scale structural features as hierarchical basis vectors for prompt generation. Subsequently, mimicking human cognition from coarse-to-fine granularity, we dynamically integrate multi-scale information at each reasoning step, forming a progressive coarse-to-fine prompt chain. Extensive experiments on eight benchmark datasets demonstrate that MSGCOT outperforms the state-of-the-art single-granularity graph prompt-tuning method, particularly in few-shot scenarios, showcasing superior performance.

academic

ما وراء المحفزات أحادية الحبيبية: تعلم سلسلة الأفكار متعددة الأبعاد للرسوم البيانية

المعلومات الأساسية

معرّف الورقة: 2510.09394
العنوان: التفاعلات من الدرجة الأعلى للمحفزات متعددة الطبقات (ما وراء المحفزات أحادية الحبيبية: تعلم سلسلة الأفكار متعددة الأبعاد للرسوم البيانية)
المؤلفون: Ziyu Zheng, Yaming Yang, Ziyu Guan, Wei Zhao, Xinyan Huang, Weigang Lu
التصنيف: cs.CL, cs.AI
وقت النشر/المؤتمر: اختصار المؤتمر 'XX، 3-5 يونيو 2018، وودستوك، نيويورك (قيد الانتظار)
رابط الورقة: https://arxiv.org/abs/2510.09394

الملخص

يهدف نموذج "التدريب المسبق-المحفز" إلى سد الفجوة بين مهام التدريب المسبق والأهداف النهائية، وقد امتد من مجال معالجة اللغات الطبيعية إلى مجال الرسوم البيانية محققاً تقدماً ملحوظاً. تستخدم طرق ضبط المحفزات الحالية للرسوم البيانية متجهات محفزات قابلة للتعلم لتعديل ميزات الإدخال أو الإخراج. ومع ذلك، تقتصر الطرق الموجودة على حبيبية واحدة (مثل مستوى العقدة أو مستوى الرسم البياني الجزئي) في عملية توليد المحفزات، متجاهلة المعلومات الهيكلية متعددة الأبعاد المتأصلة في بيانات الرسوم البيانية، مما يحد من تنوع دلالات المحفزات. لمعالجة هذه المشكلة، تقدم هذه الورقة للمرة الأولى إطار عمل محفزات سلسلة الأفكار متعددة الأبعاد للرسوم البيانية (MSGCOT). بشكل محدد، تم تصميم شبكة تخشين منخفضة الرتبة خفيفة الوزن لالتقاط ميزات الهيكل متعددة الأبعاد بكفاءة كمتجهات أساسية هرمية لتوليد المحفزات. بعد ذلك، محاكاة عملية الإدراك البشري من الخشن إلى الدقيق، يتم دمج المعلومات متعددة الأبعاد بشكل ديناميكي في كل خطوة استدلال، مما يشكل سلسلة محفزات تدريجية من الخشن إلى الدقيق. تُظهر التجارب الشاملة على ثمانية مجموعات بيانات معيارية أن MSGCOT يتفوق على أحدث طرق ضبط المحفزات أحادية الحبيبية للرسوم البيانية، خاصة في السيناريوهات قليلة العينات.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية التي تعالجها هذه الدراسة هي قيود الحبيبية الواحدة في طرق تعلم المحفزات الحالية للشبكات العصبية للرسوم البيانية. يتجلى هذا بشكل محدد في:

التقيد بحبيبية واحدة: تركز الطرق الموجودة (مثل GPF+ و GCOT) على مستوى معلومات واحد فقط (مستوى العقدة أو مستوى الحافة أو مستوى الرسم البياني الجزئي)، متجاهلة المعلومات المتعايشة متعددة الأبعاد من العقد إلى الرسوم البيانية الجزئية الهرمية
عدم كفاية التنوع الدلالي: يحد توليد المحفزات أحادي الحبيبية من القدرة التعبيرية والثراء الدلالي للمحفزات
الاستخدام غير الكافي لمعلومات الهيكل: عدم الاستفادة الكاملة من ميزات الهيكل الهرمي المتأصلة في بيانات الرسوم البيانية

تحليل الأهمية

تتجلى أهمية هذه المشكلة في:

احتياجات التطبيق العملي: بيانات الرسوم البيانية في العالم الحقيقي (الشبكات الاجتماعية والرسوم البيانية الجزيئية وأنظمة التوصية وغيرها) تحتوي بطبيعتها على معلومات هيكلية متعددة المستويات
مساحة تحسين الأداء: يمكن للاستخدام الفعال للمعلومات متعددة الأبعاد أن يحسّن بشكل كبير قدرة النموذج على التعميم في سيناريوهات التعلم قليلة العينات
اكتمال النظرية: سد الفجوة في إطار عمل نظرية تعلم المحفزات للرسوم البيانية فيما يتعلق بنمذجة المعلومات متعددة الحبيبية

قيود الطرق الموجودة

GCOT: على الرغم من اعتماده على توليد محفزات متعدد الخطوات، إلا أن كل خطوة لا تزال مقتصرة على حبيبية مستوى العقدة
طرق المحفزات أحادية الخطوة (GPF+ و EdgePrompt وغيرها): توليد مباشر للمحفزات الكاملة، تفتقر إلى آلية التحسين التدريجي
طرق الاعتماد على التدريب المسبق: تتطلب استراتيجيات تدريب مسبق محددة، مع قابلية عامة محدودة

المساهمات الأساسية

إطار عمل سلسلة الأفكار متعددة الأبعاد للرسوم البيانية الرائد: تقديم أول إطار عمل لتعلم المحفزات بسلسلة الأفكار يدمج معلومات متعددة الحبيبية، متجاوزاً قيود الطرق الموجودة أحادية الحبيبية
آلية محاكاة إدراكية مبتكرة: تصميم شبكة تخشين منخفضة الرتبة لاستخراج ميزات متعددة الأبعاد، واقتراح آلية محفزات استرجاعية لتحقيق توليد محفزات تدريجي، محاكاة عملية الإدراك البشري من الخشن إلى الدقيق
تصميم خفيف الوزن وفعال: تقليل كبير لعدد المعاملات من خلال التحليل منخفض الرتبة (تقليل 47.1%-85.7% مقارنة بـ GCOT)، مع الحفاظ على أداء ممتازة
التحقق التجريبي الشامل: تحقيق أداء مثلى في مهام تصنيف العقد والرسوم البيانية على 8 مجموعات بيانات معيارية، خاصة في السيناريوهات قليلة العينات

شرح الطريقة

تعريف المهمة

الإدخال: الرسم البياني $G = (V, E)$ ، حيث $V$ مجموعة العقد، $E$ مجموعة الحواف، مصفوفة ميزات العقدة $X \in \mathbb{R}^{N \times F}$ ، مصفوفة المجاورة $A \in \mathbb{R}^{N \times N}$

الإخراج: تمثيل محسّن لمهام المصب (تصنيف العقد/تصنيف الرسوم البيانية)

القيود: تجميد معاملات النموذج المدرب مسبقاً، تحديث معاملات المحفزات الخفيفة فقط

معمارية النموذج

1. الإطار العام

يتضمن إطار عمل MSGCOT ثلاث وحدات أساسية:

توليد المحفزات على مستوى العقدة: توليد متجهات محفزات خاصة بالمهمة على مستوى العقدة
بناء التفكير متعدد الأبعاد: بناء تمثيلات هرمية من خلال شبكة التخشين
محفزات الاسترجاع من الخشن إلى الدقيق: دمج محفزات متعددة الأبعاد تدريجي

2. توليد المحفزات على مستوى العقدة

P_x = \text{CONDNET}(H)

\hat{H} = \text{GNN}(X \odot P_x, A)

حيث $H$ هو التضمين المدرب مسبقاً، $P_x$ هو محفز مستوى العقدة، $\hat{H}$ هو التضمين بعد المحفز.

3. بناء التفكير متعدد الأبعاد

استخدام تصميم التحليل منخفض الرتبة لشبكة تخشين خفيفة الوزن:

S^l = \text{Softmax}(W_{up}^l(\sigma(W_{down}^{lT} T^{l-1})))

T^l = S^{lT} T^{l-1}

حيث $W_{down} \in \mathbb{R}^{d \times r}$ ، $W_{up} \in \mathbb{R}^{r \times C_l}$ ( $r \ll d$ )، $T^l$ هو تمثيل التخشين في الطبقة $l$ .

4. آلية المحفزات الاسترجاعية من الخشن إلى الدقيق

p_i^{l+1} = \sum_{j=1}^{C_l} \alpha_{ij}^{l+1} t_j^l

\alpha_{ij}^{l+1} = \frac{\exp(t_j^l \hat{h}_i^l)}{\sum_k \exp(t_k^l \hat{h}_i^l)}

\hat{h}_i^{l+1} = \hat{h}_i^l + p_i^{l+1}

نقاط الابتكار التقني

1. تصميم شبكة التخشين منخفضة الرتبة

كفاءة المعاملات: تقليل عدد المعاملات من $O(d \times C_l)$ إلى $O(d \times r + r \times C_l)$ من خلال التحليل منخفض الرتبة
التقاط متعدد الأبعاد: توليد تمثيلات هيكلية بدرجات حبيبية مختلفة من خلال التخشين التدريجي
التكيف مع المهمة: مصفوفة التخصيص القابلة للتعلم تتكيف مع مهام المصب المختلفة

2. سلسلة المحفزات المستوحاة من الإدراك

محاكاة الإدراك البشري: فهم تدريجي من الطوبولوجيا العامة إلى التفاصيل المحلية
التفكير المنظم: استخدام تمثيلات التخشين الهرمية كبديل "تفكير منظم" للقوالب النصية
الدمج الديناميكي: اختيار ودمج ديناميكي للمعلومات بدرجات حبيبية مختلفة في كل خطوة

3. آليات القيد

إدخال خسارة إعادة البناء بالجيب لمنع فقدان معلومات العقدة:

L_r = \frac{1}{N}(1 - \frac{\hat{h}_i \cdot h_i}{||\hat{h}_i|| \cdot ||h_i||})^\gamma

إعداد التجارب

مجموعات البيانات

تصنيف العقد:

Cora (2,708 عقدة، 7 فئات)
Citeseer (3,327 عقدة، 6 فئات)
Pubmed (19,717 عقدة، 3 فئات)
Photo (7,650 عقدة، 8 فئات)

تصنيف الرسوم البيانية:

MUTAG (188 رسم بياني، مركبات جزيئية)
COX2 (467 رسم بياني، مثبطات الأكسجيناز)
BZR (405 رسم بياني، روابط مستقبلات البنزوديازيبين)
PROTEINS (1,113 رسم بياني، هياكل البروتين)

مؤشرات التقييم

الدقة (Accuracy): مؤشر التقييم القياسي لمهام التصنيف
الأهمية الإحصائية: المتوسط والتباين من 100 عينة عشوائية

طرق المقارنة

التعلم الخاضع للإشراف: GCN, GAT
التدريب المسبق + الضبط الدقيق: LP, GraphCL, DGI/InfoGraph
التدريب المسبق + المحفزات:
- أحادية الخطوة: All-in-One, GPF+, SUPT, GraphPrompt, EdgePrompt+, DAGPrompT
- متعددة الخطوات: GCOT

تفاصيل التنفيذ

الشبكة الأساسية: GCN (طبقات مخفية بحجم 256)
عدد طبقات التخشين: طبقتان
نسب التخشين: {0.01, 0.1, 0.2, 0.3}
بُعد الرتبة المنخفضة: r=8 لمهام العقد، r=1 لمهام الرسوم البيانية
وزن القيد: α=1 لتصنيف العقد، α=0 لتصنيف الرسوم البيانية

نتائج التجارب

النتائج الرئيسية

أداء التصنيف أحادي العينة

حقق MSGCOT أداء مثلى على جميع مجموعات البيانات الثماني:

تصنيف العقد:

Cora: 62.13% (مقابل GCOT 59.54%، +4.35%)
Citeseer: 49.05% (مقابل GCOT 48.13%، +1.91%)
Pubmed: 64.67% (مقابل GCOT 63.38%، +2.04%)
Photo: 68.01% (مقابل GCOT 66.98%، +1.54%)

تصنيف الرسوم البيانية:

MUTAG: 63.54% (مقابل GCOT 60.34%، +5.30%)
COX2: 73.62% (مقابل DAGPrompt 55.00%، +33.85%)
BZR: 69.85% (مقابل DAGPrompt 55.49%، +25.87%)
PROTEINS: 57.83% (مقابل DAGPrompt 56.22%، +2.86%)

أداء التعلم قليل العينات

في إعدادات 1-3 عينات، يتفوق MSGCOT على طرق الأساس بمتوسط 5-8%، مما يُظهر قدرة تعميم ممتازة قليلة العينات.

التجارب الاستئصالية

التحقق التجريبي المنهجي من مساهمة كل مكون:

المحفزات متعددة الأبعاد (MSP): يؤدي الحذف إلى انخفاض متوسط 5.52% في مهام العقد و 17.7% في مهام الرسوم البيانية
خسارة إعادة البناء (RE): تأثير كبير على تصنيف العقد، مع التركيز على المعلومات العامة لتصنيف الرسوم البيانية
آلية الاسترجاع (TB): حاسمة بشكل خاص لتصنيف الرسوم البيانية، مع انخفاض 12-15% في الأداء عند استخدام المحفزات أحادية الاتجاه
التحديث الإضافي (IU): يجلب التحديث التدريجي تحسناً بنسبة 2-5% في الأداء

تحليل كفاءة المعاملات

تقليل كبير لعدد المعاملات مقارنة بـ GCOT:

تصنيف العقد: تقليل المعاملات بنسبة 47.1%-68.3%
تصنيف الرسوم البيانية: تقليل المعاملات بنسبة 29.1%-85.7%
كفاءة الوقت: متوسط وقت التدريب لكل جولة في مهام الرسوم البيانية ينخفض بنسبة 34.8%

حساسية المعاملات الفائقة

نسبة التخشين: النطاق الأمثل 0.1-0.3 لمهام العقد، مستقرة في النطاق 0.05-0.3 لمهام الرسوم البيانية
عدد طبقات التخشين: تحقيق الأمثلية عند طبقتين لمهام العقد، يمكن دعم طبقات أعمق لمهام الرسوم البيانية
البُعد المخفي: r=8 يحقق الأمثلية لمهام العقد، r=1 يُظهر أداء ممتازة لمهام الرسوم البيانية

الأعمال ذات الصلة

التدريب المسبق للرسوم البيانية

التعلم المتناقض: GraphCL و DGI وغيرها تتعلم التمثيلات من خلال تناقض أزواج العينات الموجبة والسالبة
التعلم التوليدي: التدريب المسبق من خلال إعادة بناء ميزات العقدة أو هيكل الرسم البياني
القيود: الفجوة بين أهداف التدريب المسبق والمهام النهائية تحد من الأداء

تعلم المحفزات للرسوم البيانية

طرق الاعتماد على التدريب المسبق: GPPT و GraphPrompt و All-in-One
طرق عدم الاعتماد على التدريب المسبق: GPF+ و SUPT و EdgePrompt
المحفزات متعددة الخطوات: GCOT يدخل مفهوم سلسلة الأفكار لكن مقتصر على حبيبية واحدة

تقنيات تخشين الرسوم البيانية

الطرق التقليدية: التجميع الطيفي وتحليل المصفوفات غير السالبة
الطرق القابلة للتعلم: DiffPool وغيرها تحقق تمثيلات هرمية من خلال مصفوفات تخصيص قابلة للتعلم
مساهمة هذه الورقة: دمج تخشين الرسوم البيانية مع تعلم المحفزات، تحقيق توليد محفزات متعددة الأبعاد

الخلاصة والمناقشة

الاستنتاجات الرئيسية

أهمية المعلومات متعددة الأبعاد: تثبت التجارب أهمية المعلومات الهيكلية متعددة الأبعاد لتعلم المحفزات للرسوم البيانية
فعالية التصميم المستوحى من الإدراك: محاكاة عملية الإدراك البشري من الخشن إلى الدقيق تحسّن الأداء بشكل كبير
التوازن بين كفاءة المعاملات والأداء: يحافظ التصميم منخفض الرتبة على أداء ممتازة مع تقليل كبير للمعاملات
مزايا التعلم قليل العينات: تُظهر المحفزات متعددة الأبعاد أداء استثنائية في سيناريوهات البيانات النادرة

القيود

التعقيد الحسابي: يزيد الاستدلال متعدد الخطوات من التكلفة الحسابية إلى حد ما
حساسية المعاملات الفائقة: تتطلب نسب التخشين وعدد الطبقات ضبطاً لأنواع مهام مختلفة
عدم كفاية التحليل النظري: نقص الضمانات النظرية لفعالية المحفزات متعددة الأبعاد

الاتجاهات المستقبلية

استراتيجيات التخشين التكيفية: البحث عن آليات تخشين متكيفة مع المهمة
التحليل النظري: بناء إطار عمل نظري لتعلم المحفزات متعددة الأبعاد
التطبيقات الموسعة: استكشاف إمكانيات التطبيق في مهام تعلم رسوم بيانية أكثر

التقييم المتعمق

المزايا

ابتكار قوي: أول تكامل منهجي للمعلومات متعددة الأبعاد في تعلم المحفزات للرسوم البيانية
تصميم معقول: تصميم شبكة التخشين منخفضة الرتبة وآلية الاسترجاع ذكي، يوازن بين الكفاءة والفعالية
تجارب شاملة: 8 مجموعات بيانات وطرق مقارنة متعددة وتجارب استئصالية مفصلة
قيمة عملية عالية: مزايا واضحة في السيناريوهات قليلة العينات، تتوافق مع احتياجات التطبيق الفعلي

أوجه القصور

أساس نظري ضعيف: نقص التحليل النظري والضمانات لفعالية الطريقة
تحليل التكلفة الحسابية غير كافٍ: على الرغم من توفير تحليل التعقيد، إلا أن مقارنات وقت التشغيل الفعلي محدودة
مناقشة القابلية للتطبيق غير كافية: تحليل غير كافٍ لقابلية التطبيق على أنواع بيانات رسوم بيانية مختلفة

التأثير

المساهمة الأكاديمية: توفير اتجاه بحثي جديد لمجال تعلم المحفزات للرسوم البيانية
القيمة العملية: قيمة تطبيقية مهمة في سيناريوهات التعلم قليل العينات مع موارد محدودة
قابلية الاستنساخ: توفير تفاصيل تنفيذ شاملة وإعدادات معاملات فائقة

السيناريوهات المناسبة

تعلم الرسوم البيانية قليل العينات: مهام تحليل الرسوم البيانية حيث تكون البيانات المُصنّفة نادرة
تحليل الرسوم البيانية متعددة الأبعاد: التطبيقات التي تتطلب التقاط معلومات هيكلية متعددة المستويات
بيئات الموارد المحدودة: سيناريوهات النشر التي لها متطلبات لكفاءة المعاملات

المراجع

تستشهد هذه الورقة بـ 38 مرجعاً ذا صلة، تغطي شبكات الرسوم البيانية العصبية والتدريب المسبق للرسوم البيانية وتعلم المحفزات وتخشين الرسوم البيانية وغيرها من مجالات البحث ذات الصلة، مما يوفر أساساً نظرياً قوياً للبحث.

التقييم الإجمالي: هذه ورقة عالية الجودة في مجال تعلم المحفزات للرسوم البيانية العصبية، تعالج بشكل مبتكر مشكلة القيود أحادية الحبيبية في الطرق الموجودة. يتمتع التصميم بمعقولية، والتحقق التجريبي شامل، وله أهمية كبيرة من حيث المساهمة النظرية والقيمة العملية. على الرغم من وجود مجال للتحسين في التحليل النظري، إلا أن الورقة بشكل عام تقدم مساهمة مهمة لمجال تعلم المحفزات للرسوم البيانية.