2025-11-17T15:49:13.397134

FLARE: Fast Low-rank Attention Routing Engine

Puri, Joglekar, Ferguson et al.
The quadratic complexity of self-attention limits its applicability and scalability on large unstructured meshes. We introduce Fast Low-rank Attention Routing Engine (FLARE), a linear complexity self-attention mechanism that routes attention through fixed-length latent sequences. Each attention head performs global communication among $N$ tokens by projecting the input sequence onto a fixed length latent sequence of $M \ll N$ tokens using learnable query tokens. By routing attention through a bottleneck sequence, FLARE learns a low-rank form of attention that can be applied at $O(NM)$ cost. FLARE not only scales to unprecedented problem sizes, but also delivers superior accuracy compared to state-of-the-art neural PDE surrogates across diverse benchmarks. We also release a new additive manufacturing dataset to spur further research. Our code is available at https://github.com/vpuri3/FLARE.py.
academic

FLARE: Motor de Enrutamiento de Atención de Bajo Rango Rápido

Información Básica

  • ID del Artículo: 2508.12594
  • Título: FLARE: Fast Low-rank Attention Routing Engine
  • Autores: Vedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara (Carnegie Mellon University)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 15 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2508.12594

Resumen

La complejidad cuadrática del mecanismo de autoatención tradicional limita su aplicabilidad y escalabilidad en mallas no estructuradas a gran escala. Este artículo propone el Motor de Enrutamiento de Atención de Bajo Rango Rápido (FLARE), un mecanismo de autoatención con complejidad lineal que enruta la atención a través de una secuencia latente de longitud fija. Cada cabeza de atención proyecta la secuencia de entrada a una secuencia latente de longitud fija M≪N utilizando tokens de consulta aprendibles, logrando comunicación global entre N tokens. Mediante el enrutamiento de atención a través de una secuencia cuello de botella, FLARE aprende formas de atención de bajo rango que pueden aplicarse con costo O(NM). FLARE no solo escala a tamaños de problema sin precedentes, sino que también proporciona mayor precisión en comparación con los modelos de agentes PDE neuronales de última generación en múltiples puntos de referencia.

Antecedentes y Motivación de la Investigación

Contexto del Problema

  1. Problema Central: El mecanismo de autoatención del Transformer tradicional tiene complejidad temporal y de memoria O(N²), lo que limita severamente su aplicación en mallas no estructuradas a gran escala (como nubes de puntos y mallas en simulaciones físicas).
  2. Importancia de la Aplicación: En el modelado de agentes sustitutos de ecuaciones diferenciales parciales (PDE), cada punto en una nube de puntos 3D se considera un token que contiene características geométricas y físicas (como coordenadas, vectores normales, propiedades de materiales, etc.). Las simulaciones de sistemas físicos de alta fidelidad son prohibitivamente costosas, y los modelos de agentes de aprendizaje automático proporcionan una alternativa de aproximación rápida.
  3. Limitaciones de Métodos Existentes:
    • PerceiverIO: Solo realiza codificación y decodificación única, el cuello de botella latente puede limitar la precisión
    • Transolver: Comparte pesos de proyección entre cabezas, no puede aprovechar kernels GPU existentes para atención de producto escalar escalado
    • LNO: Solo aplica proyección única, carece de capacidad de modelo profundo
  4. Motivación de la Investigación: Desarrollar un mecanismo de atención que mantenga la capacidad de comunicación global pero con complejidad lineal, permitiendo que Transformer procese geometrías con millones de puntos.

Contribuciones Principales

  1. Mezcla de Tokens con Complejidad Lineal: Propone el mecanismo de autoatención FLARE que logra complejidad lineal reemplazando la autoatención completa con proyección de bajo rango y reconstrucción.
  2. Precisión Superior: FLARE logra precisión de predicción superior a los modelos de agentes neuronales líderes en múltiples puntos de referencia de PDE con menos parámetros y menor complejidad computacional.
  3. Escalabilidad Sin Precedentes: FLARE se construye completamente sobre primitivas de atención fusionadas estándar, asegurando alta utilización de GPU y soportando entrenamiento de extremo a extremo en mallas no estructuradas de millones de puntos.
  4. Nuevo Conjunto de Datos de Referencia: Publica un conjunto de datos de fabricación aditiva de metales de alta resolución a gran escala para investigación de predicción de desplazamiento residual.

Explicación Detallada del Método

Definición de la Tarea

Dada una secuencia de entrada X ∈ R^(N×C), donde N es el número de tokens y C es la dimensión de características, FLARE tiene como objetivo aprender un mecanismo de atención con complejidad lineal que logre comunicación eficiente de tokens global.

Arquitectura del Modelo

Mecanismo Principal de FLARE

FLARE introduce M≪N tokens latentes aprendibles como cuello de botella para el intercambio de información, que comprende dos etapas:

  1. Etapa de Codificación: La secuencia de entrada se proyecta a tokens latentes mediante atención cruzada
    Z_h = SDPA(Q_h, K_h, V_h, s=1)
    

    donde Q_h ∈ R^(M×D) es la matriz de consulta aprendible, K_h, V_h ∈ R^(N×D)
  2. Etapa de Decodificación: Los tokens latentes se proyectan de vuelta a la secuencia de entrada
    Y_h = SDPA(K_h, Q_h, Z_h, s=1)
    

Matriz de Comunicación de Bajo Rango

Todo el proceso es equivalente a:

Y_h = (W_decode,h · W_encode,h) · V_h

donde:

  • W_encode,h = softmax(Q_h · K_h^T) ∈ R^(M×N)
  • W_decode,h = softmax(K_h · Q_h^T) ∈ R^(N×M)
  • W_h = W_decode,h · W_encode,h ∈ R^(N×N) es la matriz de comunicación global con rango máximo M

Estructura del Bloque FLARE

X = X + FLARE(LayerNorm(X))
X = X + ResMLP(LayerNorm(X))

Puntos de Innovación Técnica

  1. Proyecciones Independientes entre Cabezas: A diferencia de Transolver que comparte pesos de proyección, FLARE asigna diferentes cortes de tokens latentes a cada cabeza, permitiendo que cada cabeza aprenda relaciones de atención independientes.
  2. MLP Residual Profundo: Utiliza redes residuales profundas para proyecciones de clave/valor, aprendiendo interacciones de características de orden superior en comparación con capas lineales simples.
  3. Diseño Simétrico de Codificación-Decodificación: La simetría de las operaciones de codificación y decodificación promueve flujo de información estable.
  4. Compatibilidad con Kernels Fusionados: Se construye completamente sobre operaciones SDPA estándar, pudiendo aprovechar algoritmos de optimización como Flash Attention.

Configuración Experimental

Conjuntos de Datos

El artículo evalúa 6 conjuntos de datos de referencia y 1 conjunto de datos propuesto recientemente:

Conjunto de DatosDimensiónTipo de MallaNúmero de PuntosCaracterísticas Entrada/SalidaMuestras Entrenamiento/Prueba
Elasticity2DNo estructurada9722/11000/200
Darcy2DEstructurada7,2252/11000/200
Airfoil2DEstructurada11,2712/11000/200
Pipe2DEstructurada16,6412/11000/200
DrivAerML-40k3DNo estructurada40,0003/1387/97
LPBF3DNo estructurada1,000-50,0003/11100/290

Métricas de Evaluación

Se utiliza principalmente el error L2 relativo:

Relative L2 = ||û - u||₂ / ||u||₂

Métodos de Comparación

  • Modelos de Atención General: Vanilla Transformer, PerceiverIO
  • Agentes PDE Basados en Atención: Transolver, LNO
  • Operadores Neuronales: GNOT

Detalles de Implementación

  • Optimizador: AdamW (β₁=0.9, β₂=0.999)
  • Planificación de Tasa de Aprendizaje: OneCycleLR, tasa de aprendizaje pico 10⁻³
  • Épocas de Entrenamiento: 500 para problemas 2D, 250 para LPBF
  • Tamaño de Lote: 2 para problemas 2D, 1 para problemas 3D

Resultados Experimentales

Resultados Principales

FLARE logra resultados óptimos o casi óptimos en todos los puntos de referencia:

ModeloElasticityDarcyAirfoilPipeDrivAerML-40kLPBF
Vanilla Transformer5.374.386.28
PerceiverIO23.421.51627.1476056.3
GNOT13.316.91035.8911524.3
LNO9.257.6417.88.1014624.7
Transolver sin conv6.4018.68.244.8770.520.4
Transolver con conv\5.945.503.90\\
FLARE (nuestro)3.385.104.282.8560.818.5

Nota: Los valores son errores L2 relativos (×10⁻³)

Experimentos con Geometrías de Millones de Puntos

FLARE entrena exitosamente el conjunto de datos DrivAerML de millones de puntos en una única GPU H100, siendo el primer modelo de agente neuronal basado en atención que procesa millones de puntos sin usar descarga de memoria o computación distribuida.

Experimentos de Ablación

  1. Impacto del Número de Bloques (B) y Tokens Latentes (M):
    • Aumentar el número de bloques reduce continuamente el error relativo
    • Aumentar M generalmente mejora el rendimiento, pero la tendencia no es estrictamente monótona
    • Diferentes problemas requieren diferentes rangos
  2. Complejidad Temporal y de Memoria:
    • FLARE es más de 200 veces más rápido que atención vanilla
    • El uso de memoria es ligeramente superior a atención vanilla pero muy inferior a Physics Attention

Análisis Espectral

Mediante un algoritmo de descomposición de valores propios con complejidad temporal O(M³+M²N) se analizan las matrices de comunicación aprendidas:

  • Los valores propios decaen rápidamente en bloques tempranos, indicando compresión efectiva
  • Los bloques profundos utilizan más capacidad latente
  • Diferentes cabezas tienen perfiles espectrales distintos, validando el diseño de proyecciones independientes por cabeza

Trabajo Relacionado

Agentes Sustitutos de PDE Neuronales

  • Operadores Neuronales: FNO, DeepONet, etc. aprenden mapeos entre espacios de funciones de dimensión infinita
  • Redes de Grafos: Aprovechan interacciones de vecindario local en mallas
  • Arquitecturas Transformer: Permiten agregación de contexto global pero limitadas por complejidad cuadrática

Mecanismos de Atención Eficiente

  • Linformer: Proyecta secuencias clave-valor mediante mapeos lineales aprendidos
  • Reformer: Utiliza hashing sensible a la localidad
  • Nyströmformer: Utiliza el método de Nyström para aproximar autoatención
  • LoRA: Adaptación de bajo rango principalmente para ajuste fino eficiente

Conclusiones y Discusión

Conclusiones Principales

  1. FLARE supera exitosamente el cuello de botella de complejidad cuadrática de la autoatención mediante un mecanismo de atención de bajo rango
  2. Logra precisión SOTA en múltiples puntos de referencia de PDE con menos parámetros y menor complejidad computacional
  3. Realiza por primera vez el entrenamiento de modelos de agentes neuronales basados en atención en geometrías de millones de puntos

Limitaciones

  1. Dependencia de MLP Residual Profundo: Puede introducir cuello de botella secuencial e incrementar latencia
  2. Limitación de Tokens Latentes Fijos: La elección de M requiere ajuste específico del problema
  3. Aplicabilidad a Ciertos Problemas de Alto Rango: Como el problema de Darcy donde Vanilla Transformer aún tiene ventaja

Direcciones Futuras

  1. Aumentar incrementalmente el número de tokens latentes durante el entrenamiento
  2. Diseñar tokens latentes condicionados por tiempo para modelado de difusión
  3. Desarrollar variantes solo-decodificador para modelado autorregresivo
  4. Abordar el cuello de botella secuencial del MLP residual profundo

Evaluación Profunda

Fortalezas

  1. Fuerte Innovación Técnica:
    • Transforma ingeniosamente el problema de enrutamiento de atención en descomposición de matrices de bajo rango
    • El diseño de proyecciones independientes por cabeza permite patrones de enrutamiento especializados
    • Completamente compatible con kernels GPU existentes
  2. Suficiencia Experimental:
    • Cubre 6 puntos de referencia de PDE diferentes
    • Experimentos de ablación detallados y análisis espectral
    • Primeros experimentos a escala de millones de puntos
  3. Análisis Teórico Profundo:
    • Proporciona algoritmo de descomposición de valores propios O(M³+M²N)
    • Explica desde perspectiva matemática la efectividad de la comunicación de bajo rango
    • Valida mediante análisis espectral las suposiciones de diseño
  4. Alto Valor Práctico:
    • Publica nuevo conjunto de datos de fabricación aditiva
    • Código de código abierto para facilitar reproducción
    • Puede integrarse directamente en arquitecturas Transformer existentes

Insuficiencias

  1. Limitaciones de Aplicabilidad del Método:
    • Efectividad limitada en problemas de alto rango (como Darcy)
    • La elección de M requiere ajuste específico del problema
    • El MLP profundo puede convertirse en nuevo cuello de botella computacional
  2. Limitaciones de Configuración Experimental:
    • Faltan comparaciones con más métodos recientes
    • Escala relativamente pequeña en algunos puntos de referencia
    • Necesita más validación de universalidad en diferentes tipos de problemas PDE
  3. Análisis Teórico Insuficiente:
    • Carece de análisis de convergencia
    • Orientación teórica limitada para selección óptima de M
    • La razonabilidad de la suposición de bajo rango en todos los problemas PDE necesita mayor justificación

Impacto

  1. Contribución Académica: Proporciona nuevo paradigma de diseño para mecanismos de atención eficiente, especialmente en computación científica
  2. Valor Práctico: Permite que Transformer procese problemas geométricos a gran escala, impulsando desarrollo de IA4Science
  3. Reproducibilidad: Código de código abierto, configuración experimental detallada, facilita investigación posterior

Escenarios Aplicables

  • Resolución de PDE en mallas no estructuradas a gran escala
  • Procesamiento de nubes de puntos y aprendizaje geométrico profundo
  • Tareas de modelado de secuencias que requieren comunicación global pero con recursos computacionales limitados
  • Aplicaciones de modelado sustituto en computación científica

Referencias

El artículo cita trabajos importantes en campos relacionados como Transformer, operadores neuronales y mecanismos de atención eficiente, proporcionando base teórica sólida y puntos de referencia de comparación para esta investigación.


Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para abordar el problema de escalabilidad de Transformer. El método FLARE no solo tiene una explicación elegante de descomposición de bajo rango en teoría, sino que también demuestra rendimiento excepcional en la práctica. El diseño experimental es suficiente, el análisis teórico es profundo, y tiene importancia significativa para impulsar el aprendizaje geométrico profundo a gran escala y la computación científica.