The quadratic complexity of self-attention limits its applicability and scalability on large unstructured meshes. We introduce Fast Low-rank Attention Routing Engine (FLARE), a linear complexity self-attention mechanism that routes attention through fixed-length latent sequences. Each attention head performs global communication among $N$ tokens by projecting the input sequence onto a fixed length latent sequence of $M \ll N$ tokens using learnable query tokens. By routing attention through a bottleneck sequence, FLARE learns a low-rank form of attention that can be applied at $O(NM)$ cost. FLARE not only scales to unprecedented problem sizes, but also delivers superior accuracy compared to state-of-the-art neural PDE surrogates across diverse benchmarks. We also release a new additive manufacturing dataset to spur further research. Our code is available at https://github.com/vpuri3/FLARE.py.
يحد التعقيد التربيعي لآليات الانتباه الذاتي التقليدية من قابليتها للتطبيق والتوسع على الشبكات غير المنتظمة واسعة النطاق. تقترح هذه الورقة محرك توجيه الانتباه منخفض الرتبة السريع (FLARE)، وهي آلية انتباه ذاتي بتعقيد خطي تقوم بتوجيه الانتباه من خلال تسلسل كامن بطول ثابت. يحقق كل رأس انتباه التواصل العام بين N رمز من خلال إسقاط تسلسل الإدخال على تسلسل كامن بطول ثابت M≪N باستخدام رموز استعلام قابلة للتعلم. من خلال توجيه الانتباه عبر تسلسل الاختناق، يتعلم FLARE أشكالاً منخفضة الرتبة من الانتباه التي يمكن تطبيقها بتكلفة O(NM). لا يقتصر FLARE على التوسع إلى أحجام مشاكل غير مسبوقة، بل يوفر أيضاً دقة أفضل مقارنة بنماذج وكلاء PDE العصبية الحديثة عبر معايير متعددة.
المشكلة الأساسية: تتمتع آلية الانتباه الذاتي في Transformer التقليدي بتعقيد زمني وذاكري بقيمة O(N²)، مما يحد بشدة من تطبيقه على الشبكات غير المنتظمة واسعة النطاق (مثل السحب النقطية والشبكات في المحاكاة الفيزيائية).
الأهمية التطبيقية: في نمذجة وكيل المعادلات التفاضلية الجزئية (PDE)، يتم اعتبار كل نقطة في السحابة النقطية ثلاثية الأبعاد كرمز يحتوي على ميزات هندسية وفيزيائية (مثل الإحداثيات والمتجهات الطبيعية والخصائص المادية). تكون محاكاة الأنظمة الفيزيائية عالية الدقة مكلفة للغاية، وتوفر نماذج وكلاء التعلم الآلي بديلاً سريعاً للتقريب.
قيود الطرق الموجودة:
PerceiverIO: ينفذ فقط ترميزاً وفك ترميز واحد، قد يحد الاختناق الكامن من الدقة
Transolver: يشارك أوزان الإسقاط عبر الرؤوس، لا يمكنه الاستفادة من نوى GPU الموجودة لتوسيع انتباه الضرب النقطي
LNO: يطبق فقط إسقاطاً واحداً، يفتقر إلى قدرة النموذج العميق
الدافع البحثي: تطوير آلية انتباه تحافظ على قدرة التواصل العام ولكن بتعقيد خطي، مما يمكّن Transformer من معالجة الأشكال الهندسية التي تحتوي على ملايين النقاط.
خلط الرموز بتعقيد خطي: اقتراح آلية انتباه ذاتي FLARE تحقق تعقيداً خطياً من خلال الإسقاط منخفض الرتبة وإعادة البناء بدلاً من الانتباه الذاتي الكامل.
دقة متفوقة: تحقيق دقة تنبؤ أفضل من نماذج الوكلاء العصبية الرائدة عبر معايير PDE متعددة مع معاملات أقل وتعقيد حسابي أقل.
قابلية توسع غير مسبوقة: بناء FLARE بالكامل على أوليات الانتباه المدمجة القياسية، مما يضمن استخدام GPU عالي، ويدعم التدريب الشامل للشبكات غير المنتظمة بملايين النقاط.
مجموعة بيانات معيارية جديدة: إطلاق مجموعة بيانات عالية الدقة واسعة النطاق للتصنيع الإضافي للمعادن لأبحاث التنبؤ بالإزاحة المتبقية.
بالنظر إلى تسلسل الإدخال X ∈ R^(N×C)، حيث N هو عدد الرموز و C هو بعد الميزة، يهدف FLARE إلى تعلم آلية انتباه بتعقيد خطي تحقق التواصل العام الفعال بين الرموز.
الإسقاط المستقل بين الرؤوس: بخلاف Transolver الذي يشارك أوزان الإسقاط، يخصص FLARE شرائح رموز كامنة مختلفة لكل رأس، مما يسمح لكل رأس بتعلم علاقات انتباه مستقلة.
شبكة MLP متبقية عميقة: استخدام شبكة متبقية عميقة لإسقاط المفاتيح والقيم، مما يتعلم تفاعلات ميزات أعلى مرتبة مقارنة بالطبقات الخطية البسيطة.
تصميم ترميز/فك ترميز متماثل: يعزز تماثل عمليات الترميز وفك الترميز تدفق المعلومات المستقر.
التوافق مع النوى المدمجة: مبني بالكامل على عمليات SDPA القياسية، يمكنه الاستفادة من خوارزميات التحسين مثل Flash Attention.
نجح FLARE في التدريب على مجموعة بيانات DrivAerML بملايين النقاط على وحدة معالجة رسومات H100 واحدة، وهو أول نموذج وكيل عصبي قائم على الانتباه يعالج ملايين النقاط دون استخدام تفريغ الذاكرة أو الحوسبة الموزعة.
تستشهد الورقة بأعمال مهمة في مجالات Transformer والمشغلات العصبية وآليات الانتباه الفعالة، مما يوفر أساساً نظرياً قوياً ومعايير مقارنة.
التقييم الشامل: هذه ورقة بحثية عالية الجودة تقترح حلاً مبتكراً لمشكلة قابلية توسع Transformer. لا تتمتع طريقة FLARE بتفسير تحليل منخفض الرتبة أنيق من الناحية النظرية فحسب، بل تظهر أيضاً أداءً استثنائياً في الممارسة العملية. يتميز التصميم التجريبي بالكفاية والتحليل النظري بالعمق، مما يحمل أهمية كبيرة لتعزيز التعلم الهندسي العميق واسع النطاق والحوسبة العلمية.