2025-11-17T15:49:13.397134

FLARE: Fast Low-rank Attention Routing Engine

Puri, Joglekar, Ferguson et al.

The quadratic complexity of self-attention limits its applicability and scalability on large unstructured meshes. We introduce Fast Low-rank Attention Routing Engine (FLARE), a linear complexity self-attention mechanism that routes attention through fixed-length latent sequences. Each attention head performs global communication among $N$ tokens by projecting the input sequence onto a fixed length latent sequence of $M \ll N$ tokens using learnable query tokens. By routing attention through a bottleneck sequence, FLARE learns a low-rank form of attention that can be applied at $O(NM)$ cost. FLARE not only scales to unprecedented problem sizes, but also delivers superior accuracy compared to state-of-the-art neural PDE surrogates across diverse benchmarks. We also release a new additive manufacturing dataset to spur further research. Our code is available at https://github.com/vpuri3/FLARE.py.

academic

FLARE: محرك توجيه الانتباه منخفض الرتبة السريع

المعلومات الأساسية

معرّف الورقة: 2508.12594
العنوان: FLARE: Fast Low-rank Attention Routing Engine
المؤلفون: Vedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara (جامعة كارنيجي ميلون)
التصنيف: cs.LG (التعلم الآلي)
تاريخ النشر: 15 أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2508.12594

الملخص

يحد التعقيد التربيعي لآليات الانتباه الذاتي التقليدية من قابليتها للتطبيق والتوسع على الشبكات غير المنتظمة واسعة النطاق. تقترح هذه الورقة محرك توجيه الانتباه منخفض الرتبة السريع (FLARE)، وهي آلية انتباه ذاتي بتعقيد خطي تقوم بتوجيه الانتباه من خلال تسلسل كامن بطول ثابت. يحقق كل رأس انتباه التواصل العام بين N رمز من خلال إسقاط تسلسل الإدخال على تسلسل كامن بطول ثابت M≪N باستخدام رموز استعلام قابلة للتعلم. من خلال توجيه الانتباه عبر تسلسل الاختناق، يتعلم FLARE أشكالاً منخفضة الرتبة من الانتباه التي يمكن تطبيقها بتكلفة O(NM). لا يقتصر FLARE على التوسع إلى أحجام مشاكل غير مسبوقة، بل يوفر أيضاً دقة أفضل مقارنة بنماذج وكلاء PDE العصبية الحديثة عبر معايير متعددة.

السياق البحثي والدافع

خلفية المشكلة

المشكلة الأساسية: تتمتع آلية الانتباه الذاتي في Transformer التقليدي بتعقيد زمني وذاكري بقيمة O(N²)، مما يحد بشدة من تطبيقه على الشبكات غير المنتظمة واسعة النطاق (مثل السحب النقطية والشبكات في المحاكاة الفيزيائية).
الأهمية التطبيقية: في نمذجة وكيل المعادلات التفاضلية الجزئية (PDE)، يتم اعتبار كل نقطة في السحابة النقطية ثلاثية الأبعاد كرمز يحتوي على ميزات هندسية وفيزيائية (مثل الإحداثيات والمتجهات الطبيعية والخصائص المادية). تكون محاكاة الأنظمة الفيزيائية عالية الدقة مكلفة للغاية، وتوفر نماذج وكلاء التعلم الآلي بديلاً سريعاً للتقريب.
قيود الطرق الموجودة:
- PerceiverIO: ينفذ فقط ترميزاً وفك ترميز واحد، قد يحد الاختناق الكامن من الدقة
- Transolver: يشارك أوزان الإسقاط عبر الرؤوس، لا يمكنه الاستفادة من نوى GPU الموجودة لتوسيع انتباه الضرب النقطي
- LNO: يطبق فقط إسقاطاً واحداً، يفتقر إلى قدرة النموذج العميق
الدافع البحثي: تطوير آلية انتباه تحافظ على قدرة التواصل العام ولكن بتعقيد خطي، مما يمكّن Transformer من معالجة الأشكال الهندسية التي تحتوي على ملايين النقاط.

المساهمات الأساسية

خلط الرموز بتعقيد خطي: اقتراح آلية انتباه ذاتي FLARE تحقق تعقيداً خطياً من خلال الإسقاط منخفض الرتبة وإعادة البناء بدلاً من الانتباه الذاتي الكامل.
دقة متفوقة: تحقيق دقة تنبؤ أفضل من نماذج الوكلاء العصبية الرائدة عبر معايير PDE متعددة مع معاملات أقل وتعقيد حسابي أقل.
قابلية توسع غير مسبوقة: بناء FLARE بالكامل على أوليات الانتباه المدمجة القياسية، مما يضمن استخدام GPU عالي، ويدعم التدريب الشامل للشبكات غير المنتظمة بملايين النقاط.
مجموعة بيانات معيارية جديدة: إطلاق مجموعة بيانات عالية الدقة واسعة النطاق للتصنيع الإضافي للمعادن لأبحاث التنبؤ بالإزاحة المتبقية.

شرح الطريقة

تعريف المهمة

بالنظر إلى تسلسل الإدخال X ∈ R^(N×C)، حيث N هو عدد الرموز و C هو بعد الميزة، يهدف FLARE إلى تعلم آلية انتباه بتعقيد خطي تحقق التواصل العام الفعال بين الرموز.

معمارية النموذج

آلية FLARE الأساسية

يقدم FLARE M≪N رموز كامنة قابلة للتعلم كاختناق لتبادل المعلومات، يتضمن مرحلتين:

مرحلة الترميز: يتم إسقاط تسلسل الإدخال على الرموز الكامنة من خلال انتباه متقاطع
```
Z_h = SDPA(Q_h, K_h, V_h, s=1)
```
حيث Q_h ∈ R^(M×D) مصفوفة استعلام قابلة للتعلم، K_h, V_h ∈ R^(N×D)
مرحلة فك الترميز: يتم إسقاط الرموز الكامنة مرة أخرى على تسلسل الإدخال
```
Y_h = SDPA(K_h, Q_h, Z_h, s=1)
```

مصفوفة التواصل منخفضة الرتبة

العملية برمتها معادلة لـ:

Y_h = (W_decode,h · W_encode,h) · V_h

حيث:

W_encode,h = softmax(Q_h · K_h^T) ∈ R^(M×N)
W_decode,h = softmax(K_h · Q_h^T) ∈ R^(N×M)
W_h = W_decode,h · W_encode,h ∈ R^(N×N) مصفوفة التواصل العام برتبة على الأكثر M

بنية كتلة FLARE

X = X + FLARE(LayerNorm(X))
X = X + ResMLP(LayerNorm(X))

نقاط الابتكار التقني

الإسقاط المستقل بين الرؤوس: بخلاف Transolver الذي يشارك أوزان الإسقاط، يخصص FLARE شرائح رموز كامنة مختلفة لكل رأس، مما يسمح لكل رأس بتعلم علاقات انتباه مستقلة.
شبكة MLP متبقية عميقة: استخدام شبكة متبقية عميقة لإسقاط المفاتيح والقيم، مما يتعلم تفاعلات ميزات أعلى مرتبة مقارنة بالطبقات الخطية البسيطة.
تصميم ترميز/فك ترميز متماثل: يعزز تماثل عمليات الترميز وفك الترميز تدفق المعلومات المستقر.
التوافق مع النوى المدمجة: مبني بالكامل على عمليات SDPA القياسية، يمكنه الاستفادة من خوارزميات التحسين مثل Flash Attention.

إعداد التجارب

مجموعات البيانات

تقيّم الورقة 6 مجموعات بيانات معيارية و1 مجموعة بيانات مقترحة جديدة:

مجموعة البيانات	البعد	نوع الشبكة	عدد النقاط	ميزات الإدخال/الإخراج	عينات التدريب/الاختبار
Elasticity	2D	غير منتظمة	972	2/1	1000/200
Darcy	2D	منتظمة	7,225	2/1	1000/200
Airfoil	2D	منتظمة	11,271	2/1	1000/200
Pipe	2D	منتظمة	16,641	2/1	1000/200
DrivAerML-40k	3D	غير منتظمة	40,000	3/1	387/97
LPBF	3D	غير منتظمة	1,000-50,000	3/1	1100/290

مقاييس التقييم

يستخدم بشكل أساسي الخطأ النسبي L2:

Relative L2 = ||û - u||₂ / ||u||₂

طرق المقارنة

نماذج الانتباه العامة: Vanilla Transformer, PerceiverIO
وكلاء PDE القائمة على الانتباه: Transolver, LNO
المشغلات العصبية: GNOT

تفاصيل التنفيذ

المُحسِّن: AdamW (β₁=0.9, β₂=0.999)
جدول معدل التعلم: OneCycleLR، معدل التعلم الذروة 10⁻³
عدد الحقب: 500 حقبة للمشاكل ثنائية الأبعاد، 250 حقبة لـ LPBF
حجم الدفعة: 2 للمشاكل ثنائية الأبعاد، 1 للمشاكل ثلاثية الأبعاد

نتائج التجارب

النتائج الرئيسية

حقق FLARE نتائج مثلى أو شبه مثلى عبر جميع المعايير:

النموذج	Elasticity	Darcy	Airfoil	Pipe	DrivAerML-40k	LPBF
Vanilla Transformer	5.37	4.38	6.28	∼	∼	∼
PerceiverIO	23.4	21.5	162	7.14	760	56.3
GNOT	13.3	16.9	103	5.89	115	24.3
LNO	9.25	7.64	17.8	8.10	146	24.7
Transolver بدون conv	6.40	18.6	8.24	4.87	70.5	20.4
Transolver مع conv	\	5.94	5.50	3.90	\	\
FLARE (ملكنا)	3.38	5.10	4.28	2.85	60.8	18.5

ملاحظة: القيم هي خطأ L2 نسبي (×10⁻³)

تجارب الأشكال الهندسية بملايين النقاط

نجح FLARE في التدريب على مجموعة بيانات DrivAerML بملايين النقاط على وحدة معالجة رسومات H100 واحدة، وهو أول نموذج وكيل عصبي قائم على الانتباه يعالج ملايين النقاط دون استخدام تفريغ الذاكرة أو الحوسبة الموزعة.

تجارب الاستئصال

تأثير عدد الكتل (B) وعدد الرموز الكامنة (M):
- يؤدي زيادة عدد الكتل إلى تقليل مستمر للخطأ النسبي
- عادة ما تحسن زيادة M الأداء، لكن الاتجاه ليس أحادي الاتجاه بشكل صارم
- تتطلب المشاكل المختلفة احتياجات مختلفة من الرتبة
التعقيد الزمني والذاكري:
- FLARE أسرع من الانتباه العادي بأكثر من 200 مرة
- استخدام الذاكرة أعلى قليلاً من الانتباه العادي لكنه أقل بكثير من Physics Attention

التحليل الطيفي

تحليل مصفوفات التواصل المتعلمة من خلال خوارزمية تحليل ذاتي بتعقيد زمني O(M³+M²N):

تتحلل القيم الذاتية بسرعة في الكتل المبكرة، مما يشير إلى ضغط فعال
تستخدم الكتل العميقة قدرة كامنة أكثر
تمتلك الرؤوس المختلفة ملامح طيفية مختلفة، مما يتحقق من تصميم الإسقاط المستقل للرؤوس

الأعمال ذات الصلة

وكلاء PDE العصبية

المشغلات العصبية: FNO, DeepONet وغيرها تتعلم التعيينات بين فضاءات الدوال اللانهائية الأبعاد
شبكات الرسم البياني: تستخدم التفاعلات المحلية في الحي على الشبكات
معمارية Transformer: تسمح بتجميع السياق العام لكن محدودة بالتعقيد التربيعي

آليات الانتباه الفعالة

Linformer: إسقاط تسلسلات المفاتيح والقيم من خلال تعيينات خطية مدروسة
Reformer: استخدام التجزئة الحساسة للموقع المحلي
Nyströmformer: استخدام طريقة Nyström لتقريب الانتباه الذاتي
LoRA: التكيف منخفض الرتبة يستخدم بشكل أساسي للضبط الدقيق الفعال

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يتجاوز FLARE بنجاح اختناق التعقيد التربيعي للانتباه الذاتي من خلال آلية انتباه منخفضة الرتبة
يحقق دقة SOTA عبر معايير PDE متعددة مع معاملات أقل وتعقيد حسابي أقل
يحقق للمرة الأولى تدريب نماذج وكلاء عصبية قائمة على الانتباه على أشكال هندسية بملايين النقاط

القيود

اعتماد شبكة MLP المتبقية العميقة: قد يقدم اختناق تسلسلي ويزيد من الكمون
قيود الرموز الكامنة الثابتة: يتطلب اختيار M ضبطاً خاصاً بالمشكلة
قابلية التطبيق على بعض المشاكل عالية الرتبة: مثل مشكلة Darcy حيث لا يزال vanilla transformer له ميزة

الاتجاهات المستقبلية

زيادة عدد الرموز الكامنة بشكل تدريجي أثناء التدريب
تصميم رموز كامنة مشروطة بالوقت لنمذجة الانتشار
تطوير متغيرات فك ترميز فقط لنمذجة الانحدار التلقائي
حل مشكلة الاختناق التسلسلي لشبكة MLP المتبقية العميقة

التقييم المتعمق

المميزات

ابتكار تقني قوي:
- تحويل ذكي لمشكلة توجيه الانتباه إلى تحليل مصفوفة منخفضة الرتبة
- تصميم الإسقاط المستقل للرؤوس يسمح بأنماط توجيه متخصصة
- توافق كامل مع نوى GPU الموجودة
كفاية التجارب:
- تغطي 6 معايير PDE مختلفة
- تجارب استئصال وتحليل طيفي مفصل
- تجارب بمقياس ملايين النقاط للمرة الأولى
تحليل نظري عميق:
- توفير خوارزمية تحليل ذاتي بتعقيد O(M³+M²N)
- شرح من منظور رياضي لفعالية التواصل منخفض الرتبة
- التحقق من خلال التحليل الطيفي من افتراضات التصميم
قيمة عملية عالية:
- إطلاق مجموعة بيانات جديدة للتصنيع الإضافي
- الكود مفتوح المصدر، يسهل إعادة الإنتاج
- يمكن دمجه مباشرة في معمارية Transformer الموجودة

أوجه القصور

قيود قابلية تطبيق الطريقة:
- تأثير محدود على المشاكل عالية الرتبة (مثل Darcy)
- يتطلب اختيار M ضبطاً خاصاً بالمشكلة
- قد تصبح شبكة MLP العميقة اختناقاً حسابياً جديداً
قيود إعداد التجارب:
- نقص المقارنة مع المزيد من الطرق الحديثة
- حجم نسبي صغير لبعض المعايير
- تحتاج إلى التحقق من الشمولية عبر أنواع مختلفة من مشاكل PDE
نقص التحليل النظري:
- نقص تحليل التقارب
- توجيه نظري محدود لاختيار M الأمثل
- تحتاج إلى مزيد من الحجج لمعقولية افتراض الرتبة المنخفضة عبر جميع مشاكل PDE

التأثير

المساهمة الأكاديمية: توفير نموذج تصميم جديد لآليات الانتباه الفعالة، خاصة في مجال الحوسبة العلمية
القيمة العملية: تمكين Transformer من معالجة مشاكل هندسية واسعة النطاق، تعزيز تطور AI4Science
قابلية إعادة الإنتاج: الكود مفتوح المصدر، إعدادات التجارب مفصلة، يسهل البحث اللاحق

السيناريوهات القابلة للتطبيق

حل PDE على شبكات غير منتظمة واسعة النطاق
معالجة السحب النقطية والتعلم الهندسي العميق
مهام نمذجة التسلسل التي تتطلب تواصلاً عاماً مع موارد حسابية محدودة
تطبيقات نمذجة الوكيل في الحوسبة العلمية

المراجع

تستشهد الورقة بأعمال مهمة في مجالات Transformer والمشغلات العصبية وآليات الانتباه الفعالة، مما يوفر أساساً نظرياً قوياً ومعايير مقارنة.

التقييم الشامل: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً لمشكلة قابلية توسع Transformer. لا تتمتع طريقة FLARE بتفسير تحليل منخفض الرتبة أنيق من الناحية النظرية فحسب، بل تظهر أيضاً أداءً استثنائياً في الممارسة العملية. يتميز التصميم التجريبي بالكفاية والتحليل النظري بالعمق، مما يحمل أهمية كبيرة لتعزيز التعلم الهندسي العميق واسع النطاق والحوسبة العلمية.