The quadratic complexity of self-attention limits its applicability and scalability on large unstructured meshes. We introduce Fast Low-rank Attention Routing Engine (FLARE), a linear complexity self-attention mechanism that routes attention through fixed-length latent sequences. Each attention head performs global communication among $N$ tokens by projecting the input sequence onto a fixed length latent sequence of $M \ll N$ tokens using learnable query tokens. By routing attention through a bottleneck sequence, FLARE learns a low-rank form of attention that can be applied at $O(NM)$ cost. FLARE not only scales to unprecedented problem sizes, but also delivers superior accuracy compared to state-of-the-art neural PDE surrogates across diverse benchmarks. We also release a new additive manufacturing dataset to spur further research. Our code is available at https://github.com/vpuri3/FLARE.py.
Квадратичная сложность традиционного механизма самовнимания ограничивает его применимость и масштабируемость на больших неструктурированных сетках. В данной работе предлагается быстрый механизм маршрутизации внимания низкого ранга (FLARE) — механизм самовнимания с линейной сложностью, который маршрутизирует внимание через последовательность скрытых переменных фиксированной длины. Каждая голова внимания проецирует входную последовательность на последовательность скрытых переменных длины M≪N, используя обучаемые токены запроса, обеспечивая глобальную коммуникацию между N токенами. Благодаря маршрутизации внимания через узкое место последовательности FLARE изучает внимание низкого ранга, которое может быть применено с затратами O(NM). FLARE не только масштабируется до беспрецедентных размеров задач, но и обеспечивает лучшую точность по сравнению с современными моделями нейронных агентов для УЧП на нескольких эталонах.
Основная проблема: Механизм самовнимания традиционного Transformer имеет временную и пространственную сложность O(N²), что серьёзно ограничивает его применение на больших неструктурированных сетках (таких как облака точек и сетки в физическом моделировании).
Важность приложений: При моделировании агентов уравнений в частных производных (УЧП) каждая точка в облаке точек 3D рассматривается как токен, содержащий геометрические и физические величины (такие как координаты, нормальные векторы, свойства материалов). Моделирование высокоточных физических систем требует больших вычислительных затрат, поэтому модели машинного обучения предоставляют быструю альтернативу приближения.
Ограничения существующих методов:
PerceiverIO: Выполняет только одно кодирование и декодирование, узкое место может ограничить точность
Transolver: Совместное использование весов проекции между головами не позволяет использовать существующие GPU ядра для масштабирования скалярного произведения внимания
LNO: Применяет только одну проекцию, не хватает возможностей глубокой модели
Исследовательская мотивация: Разработать механизм внимания, который сохраняет способность глобальной коммуникации, но имеет линейную сложность, позволяя Transformer обрабатывать геометрии с миллионами точек.
Смешивание токенов с линейной сложностью: Предложен механизм самовнимания FLARE, который достигает линейной сложности путём замены полного самовнимания на проекцию низкого ранга и реконструкцию.
Превосходная точность: На нескольких эталонах УЧП FLARE достигает точности предсказания, превосходящей ведущие модели нейронных агентов, с меньшим количеством параметров и более низкой вычислительной сложностью.
Беспрецедентная масштабируемость: FLARE полностью построен на стандартных примитивах объединённого внимания, обеспечивая высокое использование GPU и поддерживая сквозное обучение неструктурированных сеток с миллионами точек.
Новый эталонный набор данных: Выпущен крупномасштабный высокоразрешающий набор данных аддитивного производства металла для исследования предсказания остаточного смещения.
Дана входная последовательность X ∈ R^(N×C), где N — количество токенов, C — размерность признаков. FLARE направлен на изучение механизма внимания с линейной сложностью, обеспечивающего эффективную глобальную коммуникацию между токенами.
Независимая проекция между головами: В отличие от Transolver, который совместно использует веса проекции, FLARE назначает каждой голове различные срезы скрытых токенов, позволяя каждой голове изучать независимые отношения внимания.
Глубокая остаточная MLP: Использование глубокой остаточной сети для проекции ключей/значений позволяет изучать взаимодействия признаков более высокого порядка по сравнению с простыми линейными слоями.
Симметричный дизайн кодирования-декодирования: Симметричность операций кодирования и декодирования способствует стабильному потоку информации.
Совместимость с объединёнными ядрами: Полностью построен на стандартных операциях SDPA, может использовать оптимизированные алгоритмы, такие как Flash Attention.
FLARE успешно обучается на наборе данных DrivAerML с миллионом точек на одном GPU H100, что является первым методом на основе внимания для нейронных агентов, обрабатывающим миллион точек без выгрузки памяти или распределённых вычислений.
В статье цитируются важные работы в области Transformer, нейронных операторов, эффективных механизмов внимания и других смежных областей, обеспечивая прочную теоретическую основу и эталоны сравнения для данного исследования.
Общая оценка: Это высококачественная исследовательская работа, предлагающая инновационное решение проблемы масштабируемости Transformer. Метод FLARE не только имеет элегантное объяснение с точки зрения разложения матрицы низкого ранга, но и демонстрирует превосходную производительность на практике. Экспериментальный дизайн полный, теоретический анализ глубокий, работа имеет важное значение для продвижения крупномасштабного геометрического глубокого обучения и научных вычислений.