NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
Barmpas, Lee, Koliousis et al.
Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.
academic
NeuroRVQ: Многомасштабная токенизация ЭЭГ для генеративных больших моделей мозговых волн
Сигналы электроэнцефалограммы (ЭЭГ) фиксируют нейронную активность на нескольких временных и спектральных масштабах, создавая богатые, но сложные сигналы, которые представляют вызовы для обучения представлениям. В последнее время фундаментальные модели ЭЭГ, обученные путем предсказания замаскированных сигнальных токенов, показали перспективность в изучении обобщаемых представлений, однако их производительность ограничена модулем токенизации сигнала. Существующие нейротокенизаторы не могут сохранить высокочастотную динамику, что ограничивает их способность к высокоточной реконструкции сигналов ЭЭГ. В данной работе представлен NeuroRVQ — масштабируемая модель больших мозговых волн (LBM), сосредоточенная на токенизаторе на основе кодовой книги. Этот токенизатор интегрирует: (i) многомасштабный модуль извлечения признаков, захватывающий полный частотный спектр нейронов; (ii) иерархическую остаточную векторную квантизацию (RVQ) кодовую книгу для высокоразрешающего кодирования; (iii) функцию потерь, чувствительную к фазе и амплитуде сигнала ЭЭГ, для эффективного обучения.
Системы интерфейса мозг-компьютер (BCI) обеспечивают прямую коммуникацию между мозгом и внешним миром путем анализа мозговых волн, записанных устройствами ЭЭГ. Сигналы ЭЭГ могут представлять полный спектр человеческого опыта — от сна и эмоций до движения. Однако существующие модели больших мозговых волн (LBM) сталкиваются с фундаментальным узким местом — токенизацией сигнала.
Многомасштабные характеристики: Мозговая активность развивается на нескольких частотных масштабах, включая диапазоны дельта (0,5-4 Гц), тета (4-8 Гц), альфа (8-13 Гц), бета (13-30 Гц) и гамма (>30 Гц)
Качество токенизации: Существующие токенизаторы испытывают трудности с сохранением полной структурной информации, особенно высокочастотных компонентов, что критично для надежного генеративного моделирования с маскировкой
Точность реконструкции: Прямое применение дискретных кодовых книг из компьютерного зрения (например, VQ-VAE) не обеспечивает верную реконструкцию мозговых сигналов
Авторы утверждают, что ключ к разблокированию масштабного моделирования с маскировкой для ЭЭГ лежит в дизайне токенизатора. Хорошо спроектированный токенизатор должен не только сжимать непрерывные нейронные сигналы в дискретные токены, но и верно реконструировать исходные волновые формы на всех важных частотных масштабах.
Предложен токенизатор NeuroRVQ: Захватывает многомасштабные частотные признаки путем применения временных свёрток с различными размерами ядра
Разработана иерархическая структура кодовой книги RVQ: Одна кодовая книга на каждый частотный масштаб, использующая 32 кодовые книги (2³² параметров) для захвата сложных паттернов, необходимых для высокоточной реконструкции сигнала
Введена функция потерь, чувствительная к фазе и амплитуде: На основе принципов обработки сигналов, захватывающая амплитуду и упакованную информацию о фазе ЭЭГ сигнала через синусоидальное и косинусоидальное представления
Достигнута производительность SOTA: На четырёх задачах классификации BCI на 15% выше точность по сравнению с существующими LBM
Входной сигнал ЭЭГ разбивается на P временных патчей длины w (соответствующих временному окну в 1 секунду), получая разбитый входной образец x ∈ R^(P×w).
Реконструирует исходный сигнал на основе изученных токенов кодовой книги, используя спектр Фурье в качестве цели реконструкции с тремя головками предсказания:
Традиционные методы применяют MSE непосредственно к фазе, что создает проблемы с периодическими граничными разрывами. NeuroRVQ вводит функцию потерь, чувствительную к единичной окружности:
L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
+ λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²
Ранние методы полагались на ручные признаки, такие как спектральная плотность мощности (PSD) и анализ независимых компонент (ICA), но имели ограниченную способность к обобщению из-за большой межсубъектной вариативности и шумовых характеристик сигналов ЭЭГ.
Модели EEGNet, EEGInception, EEGConformer и другие снизили зависимость от ручных признаков, но по-прежнему требуют тщательно аннотированных данных и обучения для конкретных задач.
LaBraM, NeuroGPT, CBraMod и другие представляют направление развития фундаментальных моделей ЭЭГ, но все сталкиваются с узким местом токенизации сигнала. NeuroRVQ решает эту критическую проблему путём улучшения дизайна кодовой книги.
Сильная техническая инновативность: Многомасштабный дизайн RVQ и функция потерь, чувствительная к фазе, представляют важные инновации, специфичные для характеристик сигналов ЭЭГ
Полные эксперименты: Включают оценку внутри и вне распределения, абляционные исследования и многозадачную проверку
Прочная теоретическая база: Дизайн, основанный на принципах обработки сигналов, имеет сильную теоретическую поддержку
Высокая практическая ценность: Значительно улучшает производительность фундаментальных моделей ЭЭГ
Статья цитирует 68 связанных работ, охватывающих анализ ЭЭГ, глубокое обучение, фундаментальные модели и другие важные области, обеспечивая прочную теоретическую базу для исследования.
Общая оценка: Это высококачественная статья с важным вкладом в области обработки сигналов ЭЭГ и фундаментальных моделей. Благодаря инновационному дизайну, специфичному для характеристик сигналов ЭЭГ, она значительно улучшает производительность существующих методов и обеспечивает важный импульс для развития этой области.