The quadratic complexity of self-attention limits its applicability and scalability on large unstructured meshes. We introduce Fast Low-rank Attention Routing Engine (FLARE), a linear complexity self-attention mechanism that routes attention through fixed-length latent sequences. Each attention head performs global communication among $N$ tokens by projecting the input sequence onto a fixed length latent sequence of $M \ll N$ tokens using learnable query tokens. By routing attention through a bottleneck sequence, FLARE learns a low-rank form of attention that can be applied at $O(NM)$ cost. FLARE not only scales to unprecedented problem sizes, but also delivers superior accuracy compared to state-of-the-art neural PDE surrogates across diverse benchmarks. We also release a new additive manufacturing dataset to spur further research. Our code is available at https://github.com/vpuri3/FLARE.py.
academic
FLARE: Motor de Enrutamiento de Atención de Bajo Rango Rápido
La complejidad cuadrática del mecanismo de autoatención tradicional limita su aplicabilidad y escalabilidad en mallas no estructuradas a gran escala. Este artículo propone el Motor de Enrutamiento de Atención de Bajo Rango Rápido (FLARE), un mecanismo de autoatención con complejidad lineal que enruta la atención a través de una secuencia latente de longitud fija. Cada cabeza de atención proyecta la secuencia de entrada a una secuencia latente de longitud fija M≪N utilizando tokens de consulta aprendibles, logrando comunicación global entre N tokens. Mediante el enrutamiento de atención a través de una secuencia cuello de botella, FLARE aprende formas de atención de bajo rango que pueden aplicarse con costo O(NM). FLARE no solo escala a tamaños de problema sin precedentes, sino que también proporciona mayor precisión en comparación con los modelos de agentes PDE neuronales de última generación en múltiples puntos de referencia.
Problema Central: El mecanismo de autoatención del Transformer tradicional tiene complejidad temporal y de memoria O(N²), lo que limita severamente su aplicación en mallas no estructuradas a gran escala (como nubes de puntos y mallas en simulaciones físicas).
Importancia de la Aplicación: En el modelado de agentes sustitutos de ecuaciones diferenciales parciales (PDE), cada punto en una nube de puntos 3D se considera un token que contiene características geométricas y físicas (como coordenadas, vectores normales, propiedades de materiales, etc.). Las simulaciones de sistemas físicos de alta fidelidad son prohibitivamente costosas, y los modelos de agentes de aprendizaje automático proporcionan una alternativa de aproximación rápida.
Limitaciones de Métodos Existentes:
PerceiverIO: Solo realiza codificación y decodificación única, el cuello de botella latente puede limitar la precisión
Transolver: Comparte pesos de proyección entre cabezas, no puede aprovechar kernels GPU existentes para atención de producto escalar escalado
LNO: Solo aplica proyección única, carece de capacidad de modelo profundo
Motivación de la Investigación: Desarrollar un mecanismo de atención que mantenga la capacidad de comunicación global pero con complejidad lineal, permitiendo que Transformer procese geometrías con millones de puntos.
Mezcla de Tokens con Complejidad Lineal: Propone el mecanismo de autoatención FLARE que logra complejidad lineal reemplazando la autoatención completa con proyección de bajo rango y reconstrucción.
Precisión Superior: FLARE logra precisión de predicción superior a los modelos de agentes neuronales líderes en múltiples puntos de referencia de PDE con menos parámetros y menor complejidad computacional.
Escalabilidad Sin Precedentes: FLARE se construye completamente sobre primitivas de atención fusionadas estándar, asegurando alta utilización de GPU y soportando entrenamiento de extremo a extremo en mallas no estructuradas de millones de puntos.
Nuevo Conjunto de Datos de Referencia: Publica un conjunto de datos de fabricación aditiva de metales de alta resolución a gran escala para investigación de predicción de desplazamiento residual.
Dada una secuencia de entrada X ∈ R^(N×C), donde N es el número de tokens y C es la dimensión de características, FLARE tiene como objetivo aprender un mecanismo de atención con complejidad lineal que logre comunicación eficiente de tokens global.
Proyecciones Independientes entre Cabezas: A diferencia de Transolver que comparte pesos de proyección, FLARE asigna diferentes cortes de tokens latentes a cada cabeza, permitiendo que cada cabeza aprenda relaciones de atención independientes.
MLP Residual Profundo: Utiliza redes residuales profundas para proyecciones de clave/valor, aprendiendo interacciones de características de orden superior en comparación con capas lineales simples.
Diseño Simétrico de Codificación-Decodificación: La simetría de las operaciones de codificación y decodificación promueve flujo de información estable.
Compatibilidad con Kernels Fusionados: Se construye completamente sobre operaciones SDPA estándar, pudiendo aprovechar algoritmos de optimización como Flash Attention.
FLARE entrena exitosamente el conjunto de datos DrivAerML de millones de puntos en una única GPU H100, siendo el primer modelo de agente neuronal basado en atención que procesa millones de puntos sin usar descarga de memoria o computación distribuida.
El artículo cita trabajos importantes en campos relacionados como Transformer, operadores neuronales y mecanismos de atención eficiente, proporcionando base teórica sólida y puntos de referencia de comparación para esta investigación.
Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para abordar el problema de escalabilidad de Transformer. El método FLARE no solo tiene una explicación elegante de descomposición de bajo rango en teoría, sino que también demuestra rendimiento excepcional en la práctica. El diseño experimental es suficiente, el análisis teórico es profundo, y tiene importancia significativa para impulsar el aprendizaje geométrico profundo a gran escala y la computación científica.