2025-11-17T15:49:13.397134

FLARE: Fast Low-rank Attention Routing Engine

Puri, Joglekar, Ferguson et al.

The quadratic complexity of self-attention limits its applicability and scalability on large unstructured meshes. We introduce Fast Low-rank Attention Routing Engine (FLARE), a linear complexity self-attention mechanism that routes attention through fixed-length latent sequences. Each attention head performs global communication among $N$ tokens by projecting the input sequence onto a fixed length latent sequence of $M \ll N$ tokens using learnable query tokens. By routing attention through a bottleneck sequence, FLARE learns a low-rank form of attention that can be applied at $O(NM)$ cost. FLARE not only scales to unprecedented problem sizes, but also delivers superior accuracy compared to state-of-the-art neural PDE surrogates across diverse benchmarks. We also release a new additive manufacturing dataset to spur further research. Our code is available at https://github.com/vpuri3/FLARE.py.

academic

FLARE: Fast Low-rank Attention Routing Engine

Informations de base

ID de l'article: 2508.12594
Titre: FLARE: Fast Low-rank Attention Routing Engine
Auteurs: Vedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara (Carnegie Mellon University)
Classification: cs.LG (Apprentissage automatique)
Date de publication: 15 octobre 2025 (arXiv v2)
Lien de l'article: https://arxiv.org/abs/2508.12594

Résumé

La complexité quadratique des mécanismes d'auto-attention traditionnels limite leur applicabilité et leur scalabilité sur les maillages non structurés à grande échelle. Cet article propose FLARE (Fast Low-rank Attention Routing Engine), un mécanisme d'auto-attention à complexité linéaire qui achemine l'attention via une séquence latente de longueur fixe. Chaque tête d'attention projette la séquence d'entrée sur une séquence latente de longueur fixe M≪N en utilisant des jetons de requête apprenables, réalisant ainsi une communication globale entre N jetons. En acheminant l'attention via une séquence goulot d'étranglement, FLARE apprend une forme d'attention de faible rang qui peut être appliquée au coût O(NM). FLARE non seulement s'étend à des échelles de problèmes sans précédent, mais fournit également une meilleure précision par rapport aux modèles d'agents PDE neuraux de pointe sur plusieurs benchmarks.

Contexte et motivation de la recherche

Contexte du problème

Problème fondamental: Le mécanisme d'auto-attention du Transformer traditionnel possède une complexité temporelle et mémoire O(N²), ce qui limite sévèrement son application sur les maillages non structurés à grande échelle (tels que les nuages de points et les maillages dans les simulations physiques).
Importance de l'application: Dans la modélisation d'agents PDE (équations aux dérivées partielles), chaque point dans un nuage de points 3D est considéré comme un jeton contenant des caractéristiques géométriques et physiques (telles que les coordonnées, les vecteurs normaux, les propriétés matérielles). La simulation de systèmes physiques haute fidélité est trop coûteuse; les modèles d'agents d'apprentissage automatique offrent une alternative d'approximation rapide.
Limitations des méthodes existantes:
- PerceiverIO: Effectue uniquement un encodage et un décodage uniques; le goulot d'étranglement potentiel peut limiter la précision
- Transolver: Partage les poids de projection entre les têtes, ne peut pas exploiter les noyaux GPU existants pour l'attention au produit scalaire échelonné
- LNO: Applique uniquement une projection unique, manque de capacité de modèle profond
Motivation de la recherche: Développer un mécanisme d'attention capable de maintenir la communication globale tout en possédant une complexité linéaire, permettant aux Transformers de traiter des géométries avec des millions de points.

Contributions principales

Mélange de jetons à complexité linéaire: Propose le mécanisme d'auto-attention FLARE, réalisant une complexité linéaire en remplaçant l'auto-attention complète par une projection et reconstruction de faible rang.
Précision supérieure: Sur plusieurs benchmarks PDE, FLARE atteint une précision de prédiction supérieure aux modèles d'agents neuraux leaders avec moins de paramètres et une complexité computationnelle inférieure.
Scalabilité sans précédent: FLARE est entièrement construit sur des primitives d'attention fusionnées standard, assurant une utilisation GPU élevée et supportant l'entraînement bout en bout sur des maillages non structurés avec des millions de points.
Nouveau benchmark de données: Publie un ensemble de données haute résolution à grande échelle pour la fabrication additive métallique destiné à la recherche sur la prédiction de déplacement résiduel.

Détails de la méthode

Définition de la tâche

Étant donné une séquence d'entrée X ∈ R^(N×C), où N est le nombre de jetons et C est la dimension des caractéristiques, FLARE vise à apprendre un mécanisme d'attention à complexité linéaire réalisant une communication efficace entre jetons globale.

Architecture du modèle

Mécanisme principal de FLARE

FLARE introduit M≪N jetons latents apprenables comme goulot d'étranglement pour l'échange d'informations, comprenant deux étapes:

Étape d'encodage: La séquence d'entrée est projetée sur les jetons latents via attention croisée
```
Z_h = SDPA(Q_h, K_h, V_h, s=1)
```
où Q_h ∈ R^(M×D) est la matrice de requête apprenables, K_h, V_h ∈ R^(N×D)
Étape de décodage: Les jetons latents sont projetés sur la séquence d'entrée
```
Y_h = SDPA(K_h, Q_h, Z_h, s=1)
```

Matrice de communication de faible rang

L'ensemble du processus est équivalent à:

Y_h = (W_decode,h · W_encode,h) · V_h

où:

W_encode,h = softmax(Q_h · K_h^T) ∈ R^(M×N)
W_decode,h = softmax(K_h · Q_h^T) ∈ R^(N×M)
W_h = W_decode,h · W_encode,h ∈ R^(N×N) est la matrice de communication globale de rang au maximum M

Structure du bloc FLARE

X = X + FLARE(LayerNorm(X))
X = X + ResMLP(LayerNorm(X))

Points d'innovation technique

Projection indépendante par tête: Contrairement à Transolver qui partage les poids de projection, FLARE assigne à chaque tête une tranche différente de jetons latents, permettant à chaque tête d'apprendre des relations d'attention indépendantes.
MLP résiduel profond: Utilise des réseaux résiduels profonds pour la projection clé/valeur, apprenant des interactions de caractéristiques d'ordre supérieur par rapport aux couches linéaires simples.
Conception symétrique encodage-décodage: La symétrie des opérations d'encodage et de décodage favorise un flux d'information stable.
Compatibilité avec les noyaux fusionnés: Entièrement basé sur les opérations SDPA standard, peut exploiter les algorithmes d'optimisation tels que Flash Attention.

Configuration expérimentale

Ensembles de données

L'article évalue 6 ensembles de données de benchmark et 1 nouvel ensemble de données proposé:

Ensemble de données	Dimension	Type de maillage	Nombre de points	Caractéristiques entrée/sortie	Échantillons entraînement/test
Elasticity	2D	Non structuré	972	2/1	1000/200
Darcy	2D	Structuré	7,225	2/1	1000/200
Airfoil	2D	Structuré	11,271	2/1	1000/200
Pipe	2D	Structuré	16,641	2/1	1000/200
DrivAerML-40k	3D	Non structuré	40,000	3/1	387/97
LPBF	3D	Non structuré	1,000-50,000	3/1	1100/290

Métriques d'évaluation

Utilise principalement l'erreur L2 relative:

Relative L2 = ||û - u||₂ / ||u||₂

Méthodes de comparaison

Modèles d'attention généraux: Vanilla Transformer, PerceiverIO
Agents PDE basés sur l'attention: Transolver, LNO
Opérateurs neuraux: GNOT

Détails d'implémentation

Optimiseur: AdamW (β₁=0.9, β₂=0.999)
Planification du taux d'apprentissage: OneCycleLR, taux d'apprentissage maximal 10⁻³
Nombre d'épochs: 500 pour les problèmes 2D, 250 pour LPBF
Taille de batch: 2 pour les problèmes 2D, 1 pour les problèmes 3D

Résultats expérimentaux

Résultats principaux

FLARE atteint les résultats optimaux ou quasi-optimaux sur tous les benchmarks:

Modèle	Elasticity	Darcy	Airfoil	Pipe	DrivAerML-40k	LPBF
Vanilla Transformer	5.37	4.38	6.28	∼	∼	∼
PerceiverIO	23.4	21.5	162	7.14	760	56.3
GNOT	13.3	16.9	103	5.89	115	24.3
LNO	9.25	7.64	17.8	8.10	146	24.7
Transolver s/conv	6.40	18.6	8.24	4.87	70.5	20.4
Transolver avec conv	\	5.94	5.50	3.90	\	\
FLARE (nôtre)	3.38	5.10	4.28	2.85	60.8	18.5

Remarque: Les valeurs sont l'erreur L2 relative (×10⁻³)

Expériences sur géométries avec millions de points

FLARE entraîne avec succès l'ensemble de données DrivAerML avec millions de points sur un seul GPU H100, étant le premier modèle d'agent neuraux basé sur l'attention à traiter des millions de points sans déchargement mémoire ou calcul distribué.

Études d'ablation

Impact du nombre de blocs (B) et du nombre de jetons latents (M):
- L'augmentation du nombre de blocs réduit continuellement l'erreur relative
- L'augmentation de M améliore généralement les performances, mais la tendance n'est pas strictement monotone
- Différents problèmes nécessitent différents rangs
Complexité temporelle et mémoire:
- FLARE est plus de 200 fois plus rapide que l'attention vanilla
- L'utilisation mémoire est légèrement supérieure à l'attention vanilla mais bien inférieure à Physics Attention

Analyse spectrale

Analyse les matrices de communication apprises via un algorithme de décomposition en valeurs propres de complexité O(M³+M²N):

Les valeurs propres décroissent rapidement dans les blocs précoces, indiquant une compression efficace
Les blocs profonds utilisent plus de capacité latente
Différentes têtes possèdent différents profils spectraux, validant la conception de projection indépendante par tête

Travaux connexes

Agents PDE neuraux

Opérateurs neuraux: FNO, DeepONet et autres apprennent les mappages entre espaces de fonctions de dimension infinie
Réseaux de graphes: Exploitent les interactions de voisinage local sur les maillages
Architecture Transformer: Permettent l'agrégation de contexte global mais sont limités par la complexité quadratique

Mécanismes d'attention efficaces

Linformer: Projette les séquences clé-valeur via des mappages linéaires appris
Reformer: Utilise le hachage sensible à la localité
Nyströmformer: Utilise la méthode de Nyström pour approximer l'auto-attention
LoRA: L'adaptation de faible rang est principalement utilisée pour l'ajustement efficace

Conclusion et discussion

Conclusions principales

FLARE contourne avec succès le goulot d'étranglement de complexité quadratique de l'auto-attention via un mécanisme d'attention de faible rang
Atteint la précision SOTA sur plusieurs benchmarks PDE avec moins de paramètres et une complexité computationnelle inférieure
Réalise pour la première fois l'entraînement de modèles d'agents neuraux basés sur l'attention sur des géométries avec millions de points

Limitations

Dépendance au MLP résiduel profond: Peut introduire un goulot d'étranglement séquentiel et augmenter la latence
Limitation des jetons latents fixes: Le choix de M nécessite un ajustement spécifique au problème
Applicabilité à certains problèmes de rang élevé: Comme dans le problème Darcy où Vanilla Transformer conserve un avantage

Directions futures

Augmenter progressivement le nombre de jetons latents pendant l'entraînement
Concevoir des jetons latents conditionnés temporellement pour la modélisation par diffusion
Développer des variantes décodeur uniquement pour la modélisation autorégressive
Résoudre le goulot d'étranglement séquentiel du MLP résiduel profond

Évaluation approfondie

Avantages

Innovation technique forte:
- Transforme intelligemment le problème d'acheminement d'attention en décomposition matricielle de faible rang
- La conception de projection indépendante par tête permet des motifs d'acheminement spécialisés
- Entièrement compatible avec les noyaux GPU existants
Expérimentation suffisante:
- Couvre 6 benchmarks PDE différents
- Études d'ablation détaillées et analyse spectrale
- Premières expériences à l'échelle des millions de points
Analyse théorique approfondie:
- Fournit un algorithme de décomposition en valeurs propres O(M³+M²N)
- Explique mathématiquement l'efficacité de la communication de faible rang
- Valide les hypothèses de conception via analyse spectrale
Valeur pratique élevée:
- Publie un nouvel ensemble de données de fabrication additive
- Code open source, facilitant la reproduction
- Peut s'intégrer directement dans les architectures Transformer existantes

Insuffisances

Limitations d'applicabilité de la méthode:
- Efficacité limitée sur les problèmes de rang élevé (comme Darcy)
- Le choix de M nécessite un ajustement spécifique au problème
- Le MLP profond peut devenir un nouveau goulot d'étranglement computationnel
Limitations de la configuration expérimentale:
- Manque de comparaisons avec plus de méthodes récentes
- L'échelle de certains benchmarks est relativement petite
- L'universalité pour différents types de problèmes PDE nécessite plus de validation
Analyse théorique insuffisante:
- Manque d'analyse de convergence
- Guidance théorique limitée pour le choix optimal de M
- La validité de l'hypothèse de faible rang pour tous les problèmes PDE nécessite justification supplémentaire

Impact

Contribution académique: Fournit un nouveau paradigme de conception pour les mécanismes d'attention efficaces, particulièrement dans le calcul scientifique
Valeur pratique: Permet aux Transformers de traiter des problèmes géométriques à grande échelle, promouvant le développement de l'IA pour la science
Reproductibilité: Code open source, configuration expérimentale détaillée, facilitant les recherches ultérieures

Scénarios d'application

Résolution PDE sur maillages non structurés à grande échelle
Traitement de nuages de points et apprentissage géométrique profond
Tâches de modélisation de séquences nécessitant communication globale avec ressources computationnelles limitées
Applications de modélisation d'agents en calcul scientifique

Références

L'article cite des travaux importants dans les domaines connexes du Transformer, des opérateurs neuraux et des mécanismes d'attention efficaces, fournissant une base théorique solide et des benchmarks de comparaison.

Évaluation globale: Cet article est une recherche de haute qualité proposant une solution innovante pour résoudre le problème de scalabilité du Transformer. La méthode FLARE possède non seulement une explication élégante de décomposition de faible rang en théorie, mais démontre également d'excellentes performances en pratique. La conception expérimentale est suffisante, l'analyse théorique est approfondie, et elle a une importance significative pour promouvoir l'apprentissage géométrique profond à grande échelle et le calcul scientifique.