Mixture of Block Attention (MoBA) (Lu et al., 2025) is a promising building block for efficiently processing long contexts in LLMs by enabling queries to sparsely attend to a small subset of key-value blocks, drastically reducing computational cost. However, the design principles governing MoBA's performance are poorly understood, and it lacks an efficient GPU implementation, hindering its practical adoption. In this paper, we first develop a statistical model to analyze MoBA's underlying mechanics. Our model reveals that performance critically depends on the router's ability to accurately distinguish relevant from irrelevant blocks based on query-key affinities. We derive a signal-to-noise ratio that formally connects architectural parameters to this retrieval accuracy. Guided by our analysis, we identify two key pathways for improvement: using smaller block sizes and applying a short convolution on keys to cluster relevant signals, which enhances routing accuracy. While theoretically better, small block sizes are inefficient on GPUs. To bridge this gap, we introduce FlashMoBA, a hardware-aware CUDA kernel that enables efficient MoBA execution even with the small block sizes our theory recommends. We validate our insights by training LLMs from scratch, showing that our improved MoBA models match the performance of dense attention baselines. FlashMoBA achieves up to 14.7x speedup over FlashAttention-2 for small blocks, making our theoretically-grounded improvements practical. Code is available at: https://github.com/mit-han-lab/flash-moba.
В данной статье проводится систематическая оптимизация механизма Mixture of Block Attention (MoBA). MoBA эффективно обрабатывает длинные контексты, позволяя запросам разреженно обращать внимание на небольшое количество блоков ключ-значение, однако принципы его проектирования неясны и отсутствует эффективная реализация на GPU. Авторы разработали статистическую модель для анализа механизма MoBA и вывели формулу отношения сигнал-шум SNR ∝ √(d/B), раскрывающую связь между параметрами архитектуры и точностью извлечения. На основе теоретического анализа предложены два пути улучшения: использование меньших размеров блоков и применение коротких свёрток к ключам для кластеризации релевантных сигналов. Для решения проблемы неэффективности малых блоков на GPU разработано ядро CUDA FlashMoBA, чувствительное к аппаратуре, достигающее ускорения в 14,7 раза по сравнению с FlashAttention-2, делая теоретически оптимальные конфигурации практически осуществимыми.
Большие языковые модели (LLM) расширяются в область понимания видео и других мультимодальных приложений, требующих обработки сверхдлинных контекстов. Однако квадратичная сложность вычислений механизма самовнимания становится узким местом. Методы разреженного внимания пытаются решить эту проблему, обращая внимание только на важные области, где MoBA является перспективным подходом, снижающим сложность до почти линейной путём обучения маршрутизатора направлять каждый запрос на небольшое количество блоков ключ-значение.
По мере расширения LLM на приложения, такие как понимание видео и обработка длинных документов, длина контекста может достигать миллионов токенов. Сложность O(N²) традиционного плотного внимания делает эти приложения вычислительно неосуществимыми. Эффективный механизм разреженного внимания является ключевой технологией для реализации этого видения.
Хотя MoBA теоретически привлекателен, он сталкивается с двумя критическими проблемами:
Неясные принципы проектирования: отсутствует теоретическое понимание того, как маршрутизатор надёжно выбирает небольшое количество правильных блоков из тысяч кандидатов (проблема "поиска иголки в стоге сена")
Отсутствие эффективной реализации: особенно для малых размеров блоков, исходная реализация неэффективна и даже медленнее плотного внимания
Авторы считают необходимым прорыв как на теоретическом, так и на практическом уровне: теоретически понять механизм работы MoBA, практически разработать эффективную реализацию на GPU, делающую теоретически оптимальные конфигурации осуществимыми на аппаратуре.
Статистическая теоретическая модель: разработана статистическая модель механизма выбора блоков MoBA, выведена формула отношения сигнал-шум SNR = Δμ_eff√(d/2B), формально связывающая параметры архитектуры (d, B) с точностью извлечения маршрутизатора
Принципы проектирования: на основе теоретического анализа предложены и проверены два пути улучшения:
Оптимизация отношения размерности головы к размеру блока (d/B) путём варьирования размера блока B для управления ёмкостью модели
Применение коротких свёрток к ключам для улучшения кластеризации сигналов
Ядро FlashMoBA: разработано чувствительное к аппаратуре ядро CUDA, делающее теоретически оптимальные малые размеры блоков практически осуществимыми, достигающее:
Ускорения в 14,7 раза по сравнению с FlashAttention-2 для конфигураций с малыми блоками
Ускорения в 7,4 раза и экономии памяти в 6,1 раза по сравнению с исходной реализацией MoBA при длине последовательности 64K
Эмпирическая верификация: путём обучения LLM с нуля проверены улучшенные модели MoBA, сохраняющие разреженность 7/8 и соответствующие производительности базовых моделей с плотным вниманием
Входные данные: пары ключ-значение (K, V) и запросы Q длины последовательности N
Выходные данные: выход внимания O = softmax(QK^T/√d)V
Ограничение: снижение сложности с O(N²) до O(N·kB) через разреженное внимание, где k≪n=N/B
MoBA разбивает N ключей на n=N/B блоков размера B. Для каждого запроса q вместо внимания ко всем N ключ-значениям выбираются только top-k наиболее релевантных блоков.
Ключевой вывод 1: отношение d/B является критическим
SNR пропорционально √(d/B)
Увеличение размерности головы d или уменьшение размера блока B повышают SNR
Поскольку d является смешивающей переменной (одновременно увеличивает параметры и FLOPs), в экспериментах зафиксирована d=64 и систематически варьируется B для верификации
Ключевой вывод 2: кластеризация внутри блока является усилителем производительности
Когда семантически релевантные токены кластеризованы внутри блока, Δμ_eff значительно повышается благодаря большему m и μ_cluster
Это поведение поощряется путём применения свёртки ключей на уровне токена (Yang et al., 2025) во время обучения
Этап 2: вдохновленное FlashAttention-2 ядро с плитками, вычисляющее оценки между Q и K̃, находящее top-k блоки ключей для каждого запроса без материализации полной матрицы оценок (алгоритм 3)
Этап 3: эффективный epilogue переформатирует индексы центров запросов в макет varlen центров блоков ключей
2. Forward Pass: Gather-and-Densify (Алгоритм 1)
Для каждого логического блока запросов Q_i:
Для каждого логического блока ключей K_j:
Используя индексы varlen, найти релевантные запросы
Пакетировать подмножество запросов в плотные физические блоки:
- Собрать физические блоки запросов из HBM в SRAM
- Кэшировать в SRAM, переиспользовать для всех физических плиток логического блока K_j
- Выполнить эффективное плотное GEMM
- Рассеять результаты обратно в HBM
Ключевая оптимизация: кэширование собранных блоков запросов в SRAM и переиспользование их для нескольких плотных GEMM эффективно амортизирует стоимость нерегулярной операции сбора
Глубокая разделяемая причинная 1-D свёртка: groups=hidden_size, независимая фильтрация каждого канала
Причинная структура: левое заполнение, сохранение авторегрессивного свойства
Размер ядра: W ∈ {3, 5} (kconv3 и kconv5)
Активация и остаток: активация SiLU + остаточное соединение
Формализация:
k'_t = k_t + SiLU(Σ_{ℓ=0}^{W-1} W_ℓ ⊙ k_{t-ℓ})
Эффект: во время обучения поощряет поток градиентов между соседними токенами внутри блока, неявно способствуя выравниванию соседних токенов с направлением запроса, увеличивая количество релевантных токенов в блоке m и среднее сродство μ_cluster
Во всех бенчмарках и масштабах MoBA соответствует или превосходит плотное внимание:
Масштаб модели
Задача
Dense
MoBA лучший
Улучшение
340M
LM Acc
44.2%
46.2% (kconv5)
+2.0%
340M
RULER
42.0%
63.9% (kconv5)
+21.9%
340M
LongBench
11.3
13.7 (kconv3)
+2.4
1B
LM Acc
50.9%
52.7% (kconv3)
+1.8%
1B
RULER
61.3%
68.2% (kconv3)
+6.9%
Ключевые выводы:
Плотное внимание полностью отказывает при длине 32K (0%), MoBA-128+kconv5 достигает 100% при 64K
Разреженная маршрутизация смягчает разбавление внимания: с ростом длины последовательности плотный softmax распределяет вероятностную массу по всем токенам, тогда как MoBA концентрирует её на небольшом количестве целевых блоков
Методы с фиксированным паттерном: Sparse Transformer (Child et al., 2019), Longformer (Beltagy et al., 2020), BigBird (Zaheer et al., 2021)
Методы обучения: Reformer (LSH, Kitaev et al., 2020), Linformer (проекция, Wang et al., 2020), Routing Transformer (Roy et al., 2021), Performer (Choromanski et al., 2021)
Оптимизации реализации: FlashAttention (Dao et al., 2022; 2023) улучшает IO, но не снижает сложность
Вызовы: нерегулярные паттерны доступа в память разреженности сложно реализовать эффективно
Инструменты: Triton (Tillet et al., 2019) упрощает разработку ядер, но пиковая производительность требует тщательной оптимизации
Связанные оптимизации: FlashDecoding++ (Hong et al., 2024), PagedAttention (Kwon et al., 2023), Ring Attention (Liu et al., 2023), FlashInfer (Ye et al., 2025)
Отличие данной работы: FlashMoBA специально оптимизирован для паттерна блочной разреженности с малыми блоками, делая теоретически оптимальные конфигурации практичными
Теоретический вклад: разработана статистическая основа для MoBA, формула SNR = Δμ_eff√(d/2B) формализует связь между параметрами архитектуры и точностью выбора блока
Принципы проектирования:
Оптимизация отношения d/B является критической (проверена путём уменьшения B)
Свёртка ключей служит усилителем производительности через кластеризацию сигналов
Практический прорыв: FlashMoBA делает конфигурации с малыми блоками практичными, достигая ускорения в 14,7 раза
Проверка качества: оптимизированный MoBA соответствует или превосходит плотное внимание при использовании 12,5% вычислений
Масштабируемость: прокладывает путь для приложений с контекстом на уровне миллионов токенов
Исходная статья MoBA: Lu et al. (2025) — предложение концепции Mixture of Block Attention
Серия FlashAttention: Dao et al. (2022), Dao (2023) — основа для эффективной реализации внимания на IO
Свёртка ключей: Yang et al. (2025) — правило дельта для параллелизации линейных преобразований
Бенчмарки оценки:
RULER: Hsieh et al. (2024) — оценка извлечения в длинном контексте
LongBench: Bai et al. (2024) — многозадачное понимание длинного контекста
Связанные методы разреженности:
Block Sparse Attention: Guo et al. (2024)
XAttention: Xu et al. (2025)
BigBird: Zaheer et al. (2021)
Общая оценка: это отличная статья, плотно объединяющая теорию и практику. Теоретически модель SNR предоставляет ясное руководство для проектирования разреженного внимания; практически FlashMoBA преобразует теоретические выводы в реальное улучшение производительности. Несмотря на ограничения в масштабе модели и диапазоне экспериментов, основные вклады — формализованные принципы проектирования и эффективная реализация — имеют значительное значение для развития LLM с длинным контекстом. Особенно похвально строгое отношение авторов к проверке теории через контролируемые эксперименты и усилия по открытию исходного кода для содействия принятию сообществом.