2025-11-17T15:49:13.397134

FLARE: Fast Low-rank Attention Routing Engine

Puri, Joglekar, Ferguson et al.

The quadratic complexity of self-attention limits its applicability and scalability on large unstructured meshes. We introduce Fast Low-rank Attention Routing Engine (FLARE), a linear complexity self-attention mechanism that routes attention through fixed-length latent sequences. Each attention head performs global communication among $N$ tokens by projecting the input sequence onto a fixed length latent sequence of $M \ll N$ tokens using learnable query tokens. By routing attention through a bottleneck sequence, FLARE learns a low-rank form of attention that can be applied at $O(NM)$ cost. FLARE not only scales to unprecedented problem sizes, but also delivers superior accuracy compared to state-of-the-art neural PDE surrogates across diverse benchmarks. We also release a new additive manufacturing dataset to spur further research. Our code is available at https://github.com/vpuri3/FLARE.py.

academic

FLARE: Motor de Enrutamiento de Atención de Bajo Rango Rápido

Información Básica

ID del Artículo: 2508.12594
Título: FLARE: Fast Low-rank Attention Routing Engine
Autores: Vedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara (Carnegie Mellon University)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 15 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2508.12594

Resumen

La complejidad cuadrática del mecanismo de autoatención tradicional limita su aplicabilidad y escalabilidad en mallas no estructuradas a gran escala. Este artículo propone el Motor de Enrutamiento de Atención de Bajo Rango Rápido (FLARE), un mecanismo de autoatención con complejidad lineal que enruta la atención a través de una secuencia latente de longitud fija. Cada cabeza de atención proyecta la secuencia de entrada a una secuencia latente de longitud fija M≪N utilizando tokens de consulta aprendibles, logrando comunicación global entre N tokens. Mediante el enrutamiento de atención a través de una secuencia cuello de botella, FLARE aprende formas de atención de bajo rango que pueden aplicarse con costo O(NM). FLARE no solo escala a tamaños de problema sin precedentes, sino que también proporciona mayor precisión en comparación con los modelos de agentes PDE neuronales de última generación en múltiples puntos de referencia.

Antecedentes y Motivación de la Investigación

Contexto del Problema

Problema Central: El mecanismo de autoatención del Transformer tradicional tiene complejidad temporal y de memoria O(N²), lo que limita severamente su aplicación en mallas no estructuradas a gran escala (como nubes de puntos y mallas en simulaciones físicas).
Importancia de la Aplicación: En el modelado de agentes sustitutos de ecuaciones diferenciales parciales (PDE), cada punto en una nube de puntos 3D se considera un token que contiene características geométricas y físicas (como coordenadas, vectores normales, propiedades de materiales, etc.). Las simulaciones de sistemas físicos de alta fidelidad son prohibitivamente costosas, y los modelos de agentes de aprendizaje automático proporcionan una alternativa de aproximación rápida.
Limitaciones de Métodos Existentes:
- PerceiverIO: Solo realiza codificación y decodificación única, el cuello de botella latente puede limitar la precisión
- Transolver: Comparte pesos de proyección entre cabezas, no puede aprovechar kernels GPU existentes para atención de producto escalar escalado
- LNO: Solo aplica proyección única, carece de capacidad de modelo profundo
Motivación de la Investigación: Desarrollar un mecanismo de atención que mantenga la capacidad de comunicación global pero con complejidad lineal, permitiendo que Transformer procese geometrías con millones de puntos.

Contribuciones Principales

Mezcla de Tokens con Complejidad Lineal: Propone el mecanismo de autoatención FLARE que logra complejidad lineal reemplazando la autoatención completa con proyección de bajo rango y reconstrucción.
Precisión Superior: FLARE logra precisión de predicción superior a los modelos de agentes neuronales líderes en múltiples puntos de referencia de PDE con menos parámetros y menor complejidad computacional.
Escalabilidad Sin Precedentes: FLARE se construye completamente sobre primitivas de atención fusionadas estándar, asegurando alta utilización de GPU y soportando entrenamiento de extremo a extremo en mallas no estructuradas de millones de puntos.
Nuevo Conjunto de Datos de Referencia: Publica un conjunto de datos de fabricación aditiva de metales de alta resolución a gran escala para investigación de predicción de desplazamiento residual.

Explicación Detallada del Método

Definición de la Tarea

Dada una secuencia de entrada X ∈ R^(N×C), donde N es el número de tokens y C es la dimensión de características, FLARE tiene como objetivo aprender un mecanismo de atención con complejidad lineal que logre comunicación eficiente de tokens global.

Arquitectura del Modelo

Mecanismo Principal de FLARE

FLARE introduce M≪N tokens latentes aprendibles como cuello de botella para el intercambio de información, que comprende dos etapas:

Etapa de Codificación: La secuencia de entrada se proyecta a tokens latentes mediante atención cruzada
```
Z_h = SDPA(Q_h, K_h, V_h, s=1)
```
donde Q_h ∈ R^(M×D) es la matriz de consulta aprendible, K_h, V_h ∈ R^(N×D)
Etapa de Decodificación: Los tokens latentes se proyectan de vuelta a la secuencia de entrada
```
Y_h = SDPA(K_h, Q_h, Z_h, s=1)
```

Matriz de Comunicación de Bajo Rango

Todo el proceso es equivalente a:

Y_h = (W_decode,h · W_encode,h) · V_h

donde:

W_encode,h = softmax(Q_h · K_h^T) ∈ R^(M×N)
W_decode,h = softmax(K_h · Q_h^T) ∈ R^(N×M)
W_h = W_decode,h · W_encode,h ∈ R^(N×N) es la matriz de comunicación global con rango máximo M

Estructura del Bloque FLARE

X = X + FLARE(LayerNorm(X))
X = X + ResMLP(LayerNorm(X))

Puntos de Innovación Técnica

Proyecciones Independientes entre Cabezas: A diferencia de Transolver que comparte pesos de proyección, FLARE asigna diferentes cortes de tokens latentes a cada cabeza, permitiendo que cada cabeza aprenda relaciones de atención independientes.
MLP Residual Profundo: Utiliza redes residuales profundas para proyecciones de clave/valor, aprendiendo interacciones de características de orden superior en comparación con capas lineales simples.
Diseño Simétrico de Codificación-Decodificación: La simetría de las operaciones de codificación y decodificación promueve flujo de información estable.
Compatibilidad con Kernels Fusionados: Se construye completamente sobre operaciones SDPA estándar, pudiendo aprovechar algoritmos de optimización como Flash Attention.

Configuración Experimental

Conjuntos de Datos

El artículo evalúa 6 conjuntos de datos de referencia y 1 conjunto de datos propuesto recientemente:

Conjunto de Datos	Dimensión	Tipo de Malla	Número de Puntos	Características Entrada/Salida	Muestras Entrenamiento/Prueba
Elasticity	2D	No estructurada	972	2/1	1000/200
Darcy	2D	Estructurada	7,225	2/1	1000/200
Airfoil	2D	Estructurada	11,271	2/1	1000/200
Pipe	2D	Estructurada	16,641	2/1	1000/200
DrivAerML-40k	3D	No estructurada	40,000	3/1	387/97
LPBF	3D	No estructurada	1,000-50,000	3/1	1100/290

Métricas de Evaluación

Se utiliza principalmente el error L2 relativo:

Relative L2 = ||û - u||₂ / ||u||₂

Métodos de Comparación

Modelos de Atención General: Vanilla Transformer, PerceiverIO
Agentes PDE Basados en Atención: Transolver, LNO
Operadores Neuronales: GNOT

Detalles de Implementación

Optimizador: AdamW (β₁=0.9, β₂=0.999)
Planificación de Tasa de Aprendizaje: OneCycleLR, tasa de aprendizaje pico 10⁻³
Épocas de Entrenamiento: 500 para problemas 2D, 250 para LPBF
Tamaño de Lote: 2 para problemas 2D, 1 para problemas 3D

Resultados Experimentales

Resultados Principales

FLARE logra resultados óptimos o casi óptimos en todos los puntos de referencia:

Modelo	Elasticity	Darcy	Airfoil	Pipe	DrivAerML-40k	LPBF
Vanilla Transformer	5.37	4.38	6.28	∼	∼	∼
PerceiverIO	23.4	21.5	162	7.14	760	56.3
GNOT	13.3	16.9	103	5.89	115	24.3
LNO	9.25	7.64	17.8	8.10	146	24.7
Transolver sin conv	6.40	18.6	8.24	4.87	70.5	20.4
Transolver con conv	\	5.94	5.50	3.90	\	\
FLARE (nuestro)	3.38	5.10	4.28	2.85	60.8	18.5

Nota: Los valores son errores L2 relativos (×10⁻³)

Experimentos con Geometrías de Millones de Puntos

FLARE entrena exitosamente el conjunto de datos DrivAerML de millones de puntos en una única GPU H100, siendo el primer modelo de agente neuronal basado en atención que procesa millones de puntos sin usar descarga de memoria o computación distribuida.

Experimentos de Ablación

Impacto del Número de Bloques (B) y Tokens Latentes (M):
- Aumentar el número de bloques reduce continuamente el error relativo
- Aumentar M generalmente mejora el rendimiento, pero la tendencia no es estrictamente monótona
- Diferentes problemas requieren diferentes rangos
Complejidad Temporal y de Memoria:
- FLARE es más de 200 veces más rápido que atención vanilla
- El uso de memoria es ligeramente superior a atención vanilla pero muy inferior a Physics Attention

Análisis Espectral

Mediante un algoritmo de descomposición de valores propios con complejidad temporal O(M³+M²N) se analizan las matrices de comunicación aprendidas:

Los valores propios decaen rápidamente en bloques tempranos, indicando compresión efectiva
Los bloques profundos utilizan más capacidad latente
Diferentes cabezas tienen perfiles espectrales distintos, validando el diseño de proyecciones independientes por cabeza

Trabajo Relacionado

Agentes Sustitutos de PDE Neuronales

Operadores Neuronales: FNO, DeepONet, etc. aprenden mapeos entre espacios de funciones de dimensión infinita
Redes de Grafos: Aprovechan interacciones de vecindario local en mallas
Arquitecturas Transformer: Permiten agregación de contexto global pero limitadas por complejidad cuadrática

Mecanismos de Atención Eficiente

Linformer: Proyecta secuencias clave-valor mediante mapeos lineales aprendidos
Reformer: Utiliza hashing sensible a la localidad
Nyströmformer: Utiliza el método de Nyström para aproximar autoatención
LoRA: Adaptación de bajo rango principalmente para ajuste fino eficiente

Conclusiones y Discusión

Conclusiones Principales

FLARE supera exitosamente el cuello de botella de complejidad cuadrática de la autoatención mediante un mecanismo de atención de bajo rango
Logra precisión SOTA en múltiples puntos de referencia de PDE con menos parámetros y menor complejidad computacional
Realiza por primera vez el entrenamiento de modelos de agentes neuronales basados en atención en geometrías de millones de puntos

Limitaciones

Dependencia de MLP Residual Profundo: Puede introducir cuello de botella secuencial e incrementar latencia
Limitación de Tokens Latentes Fijos: La elección de M requiere ajuste específico del problema
Aplicabilidad a Ciertos Problemas de Alto Rango: Como el problema de Darcy donde Vanilla Transformer aún tiene ventaja

Direcciones Futuras

Aumentar incrementalmente el número de tokens latentes durante el entrenamiento
Diseñar tokens latentes condicionados por tiempo para modelado de difusión
Desarrollar variantes solo-decodificador para modelado autorregresivo
Abordar el cuello de botella secuencial del MLP residual profundo

Evaluación Profunda

Fortalezas

Fuerte Innovación Técnica:
- Transforma ingeniosamente el problema de enrutamiento de atención en descomposición de matrices de bajo rango
- El diseño de proyecciones independientes por cabeza permite patrones de enrutamiento especializados
- Completamente compatible con kernels GPU existentes
Suficiencia Experimental:
- Cubre 6 puntos de referencia de PDE diferentes
- Experimentos de ablación detallados y análisis espectral
- Primeros experimentos a escala de millones de puntos
Análisis Teórico Profundo:
- Proporciona algoritmo de descomposición de valores propios O(M³+M²N)
- Explica desde perspectiva matemática la efectividad de la comunicación de bajo rango
- Valida mediante análisis espectral las suposiciones de diseño
Alto Valor Práctico:
- Publica nuevo conjunto de datos de fabricación aditiva
- Código de código abierto para facilitar reproducción
- Puede integrarse directamente en arquitecturas Transformer existentes

Insuficiencias

Limitaciones de Aplicabilidad del Método:
- Efectividad limitada en problemas de alto rango (como Darcy)
- La elección de M requiere ajuste específico del problema
- El MLP profundo puede convertirse en nuevo cuello de botella computacional
Limitaciones de Configuración Experimental:
- Faltan comparaciones con más métodos recientes
- Escala relativamente pequeña en algunos puntos de referencia
- Necesita más validación de universalidad en diferentes tipos de problemas PDE
Análisis Teórico Insuficiente:
- Carece de análisis de convergencia
- Orientación teórica limitada para selección óptima de M
- La razonabilidad de la suposición de bajo rango en todos los problemas PDE necesita mayor justificación

Impacto

Contribución Académica: Proporciona nuevo paradigma de diseño para mecanismos de atención eficiente, especialmente en computación científica
Valor Práctico: Permite que Transformer procese problemas geométricos a gran escala, impulsando desarrollo de IA4Science
Reproducibilidad: Código de código abierto, configuración experimental detallada, facilita investigación posterior

Escenarios Aplicables

Resolución de PDE en mallas no estructuradas a gran escala
Procesamiento de nubes de puntos y aprendizaje geométrico profundo
Tareas de modelado de secuencias que requieren comunicación global pero con recursos computacionales limitados
Aplicaciones de modelado sustituto en computación científica

Referencias

El artículo cita trabajos importantes en campos relacionados como Transformer, operadores neuronales y mecanismos de atención eficiente, proporcionando base teórica sólida y puntos de referencia de comparación para esta investigación.

Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para abordar el problema de escalabilidad de Transformer. El método FLARE no solo tiene una explicación elegante de descomposición de bajo rango en teoría, sino que también demuestra rendimiento excepcional en la práctica. El diseño experimental es suficiente, el análisis teórico es profundo, y tiene importancia significativa para impulsar el aprendizaje geométrico profundo a gran escala y la computación científica.