2025-11-17T15:49:13.397134

FLARE: Fast Low-rank Attention Routing Engine

Puri, Joglekar, Ferguson et al.
The quadratic complexity of self-attention limits its applicability and scalability on large unstructured meshes. We introduce Fast Low-rank Attention Routing Engine (FLARE), a linear complexity self-attention mechanism that routes attention through fixed-length latent sequences. Each attention head performs global communication among $N$ tokens by projecting the input sequence onto a fixed length latent sequence of $M \ll N$ tokens using learnable query tokens. By routing attention through a bottleneck sequence, FLARE learns a low-rank form of attention that can be applied at $O(NM)$ cost. FLARE not only scales to unprecedented problem sizes, but also delivers superior accuracy compared to state-of-the-art neural PDE surrogates across diverse benchmarks. We also release a new additive manufacturing dataset to spur further research. Our code is available at https://github.com/vpuri3/FLARE.py.
academic

FLARE: محرك توجيه الانتباه منخفض الرتبة السريع

المعلومات الأساسية

  • معرّف الورقة: 2508.12594
  • العنوان: FLARE: Fast Low-rank Attention Routing Engine
  • المؤلفون: Vedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara (جامعة كارنيجي ميلون)
  • التصنيف: cs.LG (التعلم الآلي)
  • تاريخ النشر: 15 أكتوبر 2025 (arXiv v2)
  • رابط الورقة: https://arxiv.org/abs/2508.12594

الملخص

يحد التعقيد التربيعي لآليات الانتباه الذاتي التقليدية من قابليتها للتطبيق والتوسع على الشبكات غير المنتظمة واسعة النطاق. تقترح هذه الورقة محرك توجيه الانتباه منخفض الرتبة السريع (FLARE)، وهي آلية انتباه ذاتي بتعقيد خطي تقوم بتوجيه الانتباه من خلال تسلسل كامن بطول ثابت. يحقق كل رأس انتباه التواصل العام بين N رمز من خلال إسقاط تسلسل الإدخال على تسلسل كامن بطول ثابت M≪N باستخدام رموز استعلام قابلة للتعلم. من خلال توجيه الانتباه عبر تسلسل الاختناق، يتعلم FLARE أشكالاً منخفضة الرتبة من الانتباه التي يمكن تطبيقها بتكلفة O(NM). لا يقتصر FLARE على التوسع إلى أحجام مشاكل غير مسبوقة، بل يوفر أيضاً دقة أفضل مقارنة بنماذج وكلاء PDE العصبية الحديثة عبر معايير متعددة.

السياق البحثي والدافع

خلفية المشكلة

  1. المشكلة الأساسية: تتمتع آلية الانتباه الذاتي في Transformer التقليدي بتعقيد زمني وذاكري بقيمة O(N²)، مما يحد بشدة من تطبيقه على الشبكات غير المنتظمة واسعة النطاق (مثل السحب النقطية والشبكات في المحاكاة الفيزيائية).
  2. الأهمية التطبيقية: في نمذجة وكيل المعادلات التفاضلية الجزئية (PDE)، يتم اعتبار كل نقطة في السحابة النقطية ثلاثية الأبعاد كرمز يحتوي على ميزات هندسية وفيزيائية (مثل الإحداثيات والمتجهات الطبيعية والخصائص المادية). تكون محاكاة الأنظمة الفيزيائية عالية الدقة مكلفة للغاية، وتوفر نماذج وكلاء التعلم الآلي بديلاً سريعاً للتقريب.
  3. قيود الطرق الموجودة:
    • PerceiverIO: ينفذ فقط ترميزاً وفك ترميز واحد، قد يحد الاختناق الكامن من الدقة
    • Transolver: يشارك أوزان الإسقاط عبر الرؤوس، لا يمكنه الاستفادة من نوى GPU الموجودة لتوسيع انتباه الضرب النقطي
    • LNO: يطبق فقط إسقاطاً واحداً، يفتقر إلى قدرة النموذج العميق
  4. الدافع البحثي: تطوير آلية انتباه تحافظ على قدرة التواصل العام ولكن بتعقيد خطي، مما يمكّن Transformer من معالجة الأشكال الهندسية التي تحتوي على ملايين النقاط.

المساهمات الأساسية

  1. خلط الرموز بتعقيد خطي: اقتراح آلية انتباه ذاتي FLARE تحقق تعقيداً خطياً من خلال الإسقاط منخفض الرتبة وإعادة البناء بدلاً من الانتباه الذاتي الكامل.
  2. دقة متفوقة: تحقيق دقة تنبؤ أفضل من نماذج الوكلاء العصبية الرائدة عبر معايير PDE متعددة مع معاملات أقل وتعقيد حسابي أقل.
  3. قابلية توسع غير مسبوقة: بناء FLARE بالكامل على أوليات الانتباه المدمجة القياسية، مما يضمن استخدام GPU عالي، ويدعم التدريب الشامل للشبكات غير المنتظمة بملايين النقاط.
  4. مجموعة بيانات معيارية جديدة: إطلاق مجموعة بيانات عالية الدقة واسعة النطاق للتصنيع الإضافي للمعادن لأبحاث التنبؤ بالإزاحة المتبقية.

شرح الطريقة

تعريف المهمة

بالنظر إلى تسلسل الإدخال X ∈ R^(N×C)، حيث N هو عدد الرموز و C هو بعد الميزة، يهدف FLARE إلى تعلم آلية انتباه بتعقيد خطي تحقق التواصل العام الفعال بين الرموز.

معمارية النموذج

آلية FLARE الأساسية

يقدم FLARE M≪N رموز كامنة قابلة للتعلم كاختناق لتبادل المعلومات، يتضمن مرحلتين:

  1. مرحلة الترميز: يتم إسقاط تسلسل الإدخال على الرموز الكامنة من خلال انتباه متقاطع
    Z_h = SDPA(Q_h, K_h, V_h, s=1)
    

    حيث Q_h ∈ R^(M×D) مصفوفة استعلام قابلة للتعلم، K_h, V_h ∈ R^(N×D)
  2. مرحلة فك الترميز: يتم إسقاط الرموز الكامنة مرة أخرى على تسلسل الإدخال
    Y_h = SDPA(K_h, Q_h, Z_h, s=1)
    

مصفوفة التواصل منخفضة الرتبة

العملية برمتها معادلة لـ:

Y_h = (W_decode,h · W_encode,h) · V_h

حيث:

  • W_encode,h = softmax(Q_h · K_h^T) ∈ R^(M×N)
  • W_decode,h = softmax(K_h · Q_h^T) ∈ R^(N×M)
  • W_h = W_decode,h · W_encode,h ∈ R^(N×N) مصفوفة التواصل العام برتبة على الأكثر M

بنية كتلة FLARE

X = X + FLARE(LayerNorm(X))
X = X + ResMLP(LayerNorm(X))

نقاط الابتكار التقني

  1. الإسقاط المستقل بين الرؤوس: بخلاف Transolver الذي يشارك أوزان الإسقاط، يخصص FLARE شرائح رموز كامنة مختلفة لكل رأس، مما يسمح لكل رأس بتعلم علاقات انتباه مستقلة.
  2. شبكة MLP متبقية عميقة: استخدام شبكة متبقية عميقة لإسقاط المفاتيح والقيم، مما يتعلم تفاعلات ميزات أعلى مرتبة مقارنة بالطبقات الخطية البسيطة.
  3. تصميم ترميز/فك ترميز متماثل: يعزز تماثل عمليات الترميز وفك الترميز تدفق المعلومات المستقر.
  4. التوافق مع النوى المدمجة: مبني بالكامل على عمليات SDPA القياسية، يمكنه الاستفادة من خوارزميات التحسين مثل Flash Attention.

إعداد التجارب

مجموعات البيانات

تقيّم الورقة 6 مجموعات بيانات معيارية و1 مجموعة بيانات مقترحة جديدة:

مجموعة البياناتالبعدنوع الشبكةعدد النقاطميزات الإدخال/الإخراجعينات التدريب/الاختبار
Elasticity2Dغير منتظمة9722/11000/200
Darcy2Dمنتظمة7,2252/11000/200
Airfoil2Dمنتظمة11,2712/11000/200
Pipe2Dمنتظمة16,6412/11000/200
DrivAerML-40k3Dغير منتظمة40,0003/1387/97
LPBF3Dغير منتظمة1,000-50,0003/11100/290

مقاييس التقييم

يستخدم بشكل أساسي الخطأ النسبي L2:

Relative L2 = ||û - u||₂ / ||u||₂

طرق المقارنة

  • نماذج الانتباه العامة: Vanilla Transformer, PerceiverIO
  • وكلاء PDE القائمة على الانتباه: Transolver, LNO
  • المشغلات العصبية: GNOT

تفاصيل التنفيذ

  • المُحسِّن: AdamW (β₁=0.9, β₂=0.999)
  • جدول معدل التعلم: OneCycleLR، معدل التعلم الذروة 10⁻³
  • عدد الحقب: 500 حقبة للمشاكل ثنائية الأبعاد، 250 حقبة لـ LPBF
  • حجم الدفعة: 2 للمشاكل ثنائية الأبعاد، 1 للمشاكل ثلاثية الأبعاد

نتائج التجارب

النتائج الرئيسية

حقق FLARE نتائج مثلى أو شبه مثلى عبر جميع المعايير:

النموذجElasticityDarcyAirfoilPipeDrivAerML-40kLPBF
Vanilla Transformer5.374.386.28
PerceiverIO23.421.51627.1476056.3
GNOT13.316.91035.8911524.3
LNO9.257.6417.88.1014624.7
Transolver بدون conv6.4018.68.244.8770.520.4
Transolver مع conv\5.945.503.90\\
FLARE (ملكنا)3.385.104.282.8560.818.5

ملاحظة: القيم هي خطأ L2 نسبي (×10⁻³)

تجارب الأشكال الهندسية بملايين النقاط

نجح FLARE في التدريب على مجموعة بيانات DrivAerML بملايين النقاط على وحدة معالجة رسومات H100 واحدة، وهو أول نموذج وكيل عصبي قائم على الانتباه يعالج ملايين النقاط دون استخدام تفريغ الذاكرة أو الحوسبة الموزعة.

تجارب الاستئصال

  1. تأثير عدد الكتل (B) وعدد الرموز الكامنة (M):
    • يؤدي زيادة عدد الكتل إلى تقليل مستمر للخطأ النسبي
    • عادة ما تحسن زيادة M الأداء، لكن الاتجاه ليس أحادي الاتجاه بشكل صارم
    • تتطلب المشاكل المختلفة احتياجات مختلفة من الرتبة
  2. التعقيد الزمني والذاكري:
    • FLARE أسرع من الانتباه العادي بأكثر من 200 مرة
    • استخدام الذاكرة أعلى قليلاً من الانتباه العادي لكنه أقل بكثير من Physics Attention

التحليل الطيفي

تحليل مصفوفات التواصل المتعلمة من خلال خوارزمية تحليل ذاتي بتعقيد زمني O(M³+M²N):

  • تتحلل القيم الذاتية بسرعة في الكتل المبكرة، مما يشير إلى ضغط فعال
  • تستخدم الكتل العميقة قدرة كامنة أكثر
  • تمتلك الرؤوس المختلفة ملامح طيفية مختلفة، مما يتحقق من تصميم الإسقاط المستقل للرؤوس

الأعمال ذات الصلة

وكلاء PDE العصبية

  • المشغلات العصبية: FNO, DeepONet وغيرها تتعلم التعيينات بين فضاءات الدوال اللانهائية الأبعاد
  • شبكات الرسم البياني: تستخدم التفاعلات المحلية في الحي على الشبكات
  • معمارية Transformer: تسمح بتجميع السياق العام لكن محدودة بالتعقيد التربيعي

آليات الانتباه الفعالة

  • Linformer: إسقاط تسلسلات المفاتيح والقيم من خلال تعيينات خطية مدروسة
  • Reformer: استخدام التجزئة الحساسة للموقع المحلي
  • Nyströmformer: استخدام طريقة Nyström لتقريب الانتباه الذاتي
  • LoRA: التكيف منخفض الرتبة يستخدم بشكل أساسي للضبط الدقيق الفعال

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. يتجاوز FLARE بنجاح اختناق التعقيد التربيعي للانتباه الذاتي من خلال آلية انتباه منخفضة الرتبة
  2. يحقق دقة SOTA عبر معايير PDE متعددة مع معاملات أقل وتعقيد حسابي أقل
  3. يحقق للمرة الأولى تدريب نماذج وكلاء عصبية قائمة على الانتباه على أشكال هندسية بملايين النقاط

القيود

  1. اعتماد شبكة MLP المتبقية العميقة: قد يقدم اختناق تسلسلي ويزيد من الكمون
  2. قيود الرموز الكامنة الثابتة: يتطلب اختيار M ضبطاً خاصاً بالمشكلة
  3. قابلية التطبيق على بعض المشاكل عالية الرتبة: مثل مشكلة Darcy حيث لا يزال vanilla transformer له ميزة

الاتجاهات المستقبلية

  1. زيادة عدد الرموز الكامنة بشكل تدريجي أثناء التدريب
  2. تصميم رموز كامنة مشروطة بالوقت لنمذجة الانتشار
  3. تطوير متغيرات فك ترميز فقط لنمذجة الانحدار التلقائي
  4. حل مشكلة الاختناق التسلسلي لشبكة MLP المتبقية العميقة

التقييم المتعمق

المميزات

  1. ابتكار تقني قوي:
    • تحويل ذكي لمشكلة توجيه الانتباه إلى تحليل مصفوفة منخفضة الرتبة
    • تصميم الإسقاط المستقل للرؤوس يسمح بأنماط توجيه متخصصة
    • توافق كامل مع نوى GPU الموجودة
  2. كفاية التجارب:
    • تغطي 6 معايير PDE مختلفة
    • تجارب استئصال وتحليل طيفي مفصل
    • تجارب بمقياس ملايين النقاط للمرة الأولى
  3. تحليل نظري عميق:
    • توفير خوارزمية تحليل ذاتي بتعقيد O(M³+M²N)
    • شرح من منظور رياضي لفعالية التواصل منخفض الرتبة
    • التحقق من خلال التحليل الطيفي من افتراضات التصميم
  4. قيمة عملية عالية:
    • إطلاق مجموعة بيانات جديدة للتصنيع الإضافي
    • الكود مفتوح المصدر، يسهل إعادة الإنتاج
    • يمكن دمجه مباشرة في معمارية Transformer الموجودة

أوجه القصور

  1. قيود قابلية تطبيق الطريقة:
    • تأثير محدود على المشاكل عالية الرتبة (مثل Darcy)
    • يتطلب اختيار M ضبطاً خاصاً بالمشكلة
    • قد تصبح شبكة MLP العميقة اختناقاً حسابياً جديداً
  2. قيود إعداد التجارب:
    • نقص المقارنة مع المزيد من الطرق الحديثة
    • حجم نسبي صغير لبعض المعايير
    • تحتاج إلى التحقق من الشمولية عبر أنواع مختلفة من مشاكل PDE
  3. نقص التحليل النظري:
    • نقص تحليل التقارب
    • توجيه نظري محدود لاختيار M الأمثل
    • تحتاج إلى مزيد من الحجج لمعقولية افتراض الرتبة المنخفضة عبر جميع مشاكل PDE

التأثير

  1. المساهمة الأكاديمية: توفير نموذج تصميم جديد لآليات الانتباه الفعالة، خاصة في مجال الحوسبة العلمية
  2. القيمة العملية: تمكين Transformer من معالجة مشاكل هندسية واسعة النطاق، تعزيز تطور AI4Science
  3. قابلية إعادة الإنتاج: الكود مفتوح المصدر، إعدادات التجارب مفصلة، يسهل البحث اللاحق

السيناريوهات القابلة للتطبيق

  • حل PDE على شبكات غير منتظمة واسعة النطاق
  • معالجة السحب النقطية والتعلم الهندسي العميق
  • مهام نمذجة التسلسل التي تتطلب تواصلاً عاماً مع موارد حسابية محدودة
  • تطبيقات نمذجة الوكيل في الحوسبة العلمية

المراجع

تستشهد الورقة بأعمال مهمة في مجالات Transformer والمشغلات العصبية وآليات الانتباه الفعالة، مما يوفر أساساً نظرياً قوياً ومعايير مقارنة.


التقييم الشامل: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً لمشكلة قابلية توسع Transformer. لا تتمتع طريقة FLARE بتفسير تحليل منخفض الرتبة أنيق من الناحية النظرية فحسب، بل تظهر أيضاً أداءً استثنائياً في الممارسة العملية. يتميز التصميم التجريبي بالكفاية والتحليل النظري بالعمق، مما يحمل أهمية كبيرة لتعزيز التعلم الهندسي العميق واسع النطاق والحوسبة العلمية.