2025-11-23T22:58:17.474910

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

Barmpas, Lee, Koliousis et al.
Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.
academic

NeuroRVQ: Многомасштабная токенизация ЭЭГ для генеративных больших моделей мозговых волн

Основная информация

  • ID статьи: 2510.13068
  • Название: NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
  • Авторы: Konstantinos Barmpas, Na Lee, Alexandros Koliousis, Yannis Panagakis, Dimitrios Adamos, Nikolaos Laskaris, Stefanos Zafeiriou
  • Классификация: cs.LG cs.AI cs.HC
  • Дата публикации: 15 октября 2025 г. (препринт)
  • Ссылка на статью: https://arxiv.org/abs/2510.13068

Аннотация

Сигналы электроэнцефалограммы (ЭЭГ) фиксируют нейронную активность на нескольких временных и спектральных масштабах, создавая богатые, но сложные сигналы, которые представляют вызовы для обучения представлениям. В последнее время фундаментальные модели ЭЭГ, обученные путем предсказания замаскированных сигнальных токенов, показали перспективность в изучении обобщаемых представлений, однако их производительность ограничена модулем токенизации сигнала. Существующие нейротокенизаторы не могут сохранить высокочастотную динамику, что ограничивает их способность к высокоточной реконструкции сигналов ЭЭГ. В данной работе представлен NeuroRVQ — масштабируемая модель больших мозговых волн (LBM), сосредоточенная на токенизаторе на основе кодовой книги. Этот токенизатор интегрирует: (i) многомасштабный модуль извлечения признаков, захватывающий полный частотный спектр нейронов; (ii) иерархическую остаточную векторную квантизацию (RVQ) кодовую книгу для высокоразрешающего кодирования; (iii) функцию потерь, чувствительную к фазе и амплитуде сигнала ЭЭГ, для эффективного обучения.

Исследовательский контекст и мотивация

Определение проблемы

Системы интерфейса мозг-компьютер (BCI) обеспечивают прямую коммуникацию между мозгом и внешним миром путем анализа мозговых волн, записанных устройствами ЭЭГ. Сигналы ЭЭГ могут представлять полный спектр человеческого опыта — от сна и эмоций до движения. Однако существующие модели больших мозговых волн (LBM) сталкиваются с фундаментальным узким местом — токенизацией сигнала.

Основные вызовы

  1. Многомасштабные характеристики: Мозговая активность развивается на нескольких частотных масштабах, включая диапазоны дельта (0,5-4 Гц), тета (4-8 Гц), альфа (8-13 Гц), бета (13-30 Гц) и гамма (>30 Гц)
  2. Качество токенизации: Существующие токенизаторы испытывают трудности с сохранением полной структурной информации, особенно высокочастотных компонентов, что критично для надежного генеративного моделирования с маскировкой
  3. Точность реконструкции: Прямое применение дискретных кодовых книг из компьютерного зрения (например, VQ-VAE) не обеспечивает верную реконструкцию мозговых сигналов

Исследовательская мотивация

Авторы утверждают, что ключ к разблокированию масштабного моделирования с маскировкой для ЭЭГ лежит в дизайне токенизатора. Хорошо спроектированный токенизатор должен не только сжимать непрерывные нейронные сигналы в дискретные токены, но и верно реконструировать исходные волновые формы на всех важных частотных масштабах.

Основные вклады

  1. Предложен токенизатор NeuroRVQ: Захватывает многомасштабные частотные признаки путем применения временных свёрток с различными размерами ядра
  2. Разработана иерархическая структура кодовой книги RVQ: Одна кодовая книга на каждый частотный масштаб, использующая 32 кодовые книги (2³² параметров) для захвата сложных паттернов, необходимых для высокоточной реконструкции сигнала
  3. Введена функция потерь, чувствительная к фазе и амплитуде: На основе принципов обработки сигналов, захватывающая амплитуду и упакованную информацию о фазе ЭЭГ сигнала через синусоидальное и косинусоидальное представления
  4. Достигнута производительность SOTA: На четырёх задачах классификации BCI на 15% выше точность по сравнению с существующими LBM

Подробное описание методологии

Определение задачи

Дан многомерный временной ряд ЭЭГ X ∈ R^(C×T) (где T — количество временных точек, C — количество электродов), цель состоит в:

  1. Токенизации непрерывного сигнала ЭЭГ в дискретные нейротокены
  2. Поддержке точной реконструкции на всех частотных полосах
  3. Обеспечении надежного генеративного моделирования с маскировкой

Архитектура модели

1. Генерация патчей

Входной сигнал ЭЭГ разбивается на P временных патчей длины w (соответствующих временному окну в 1 секунду), получая разбитый входной образец x ∈ R^(P×w).

2. Многомасштабный временной кодировщик

Использует модуль в стиле Inception для извлечения признаков на S различных временных масштабах:

  • Применяет 1-D временные свёртки с различными размерами ядра: K_temporal1, K_temporal2, ..., K_temporalS
  • Каждая временная ветвь содержит: 1-D свёртка → групповая нормализация → активация GELU → пулинг (повторяется дважды)
  • Производит S выходов: F1, F2, ..., FS, где Fi ∈ R^w

3. Кодировщик Transformer

  • Вводит обучаемые временные вложения TE и пространственные вложения SE
  • Добавляет многомасштабные признаки с вложениями перед прохождением через общие слои Transformer
  • Производит многомасштабные представления патчей: p1, p2, ..., pS ∈ R^D

4. Кодовая книга RVQ

Для каждой временной ветви используется кодовая книга RVQ R для дискретизации:

R = {Vi | i = 1, ..., N}
Vi = {vj | j = 1, ..., K} ∈ R^(K×D)

Итеративный процесс квантизации:

z1 = arg min_{v∈V1} ||l2(p1) - l2(v)||
pi+1 = pi - zi
p̂ = Σ(i=1 to N) zi

5. Декодировщик токенизатора

Реконструирует исходный сигнал на основе изученных токенов кодовой книги, используя спектр Фурье в качестве цели реконструкции с тремя головками предсказания:

  • log(1 + Â): логарифмическая амплитуда
  • sin φ̂: синусоидальная компонента фазы
  • cos φ̂: косинусоидальная компонента фазы

Технические инновации

1. Функция потерь, чувствительная к единичной окружности

Традиционные методы применяют MSE непосредственно к фазе, что создает проблемы с периодическими граничными разрывами. NeuroRVQ вводит функцию потерь, чувствительную к единичной окружности:

L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
             + λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²

2. Комплексная цель обучения

LT = ||log(1 + Âi) - log(1 + Ai)||²₂ + L_unit-loss + ||X̂i - Xi||²₂ + LQ

где LQ — функция потерь квантизации.

Экспериментальная установка

Наборы данных

Используются 13 крупномасштабных наборов данных ЭЭГ (примерно 235 часов), включая:

  • Открытые наборы данных: BCI Competition IV-1, Grasp and Lift, Physionet MI и 12 других
  • Самостоятельно собранный набор данных: примерно 235 часов данных моторного воображения (29 каналов)
  • Все данные переискусствены на частоту 200 Гц

Метрики оценки

  • Качество реконструкции: среднеквадратичная ошибка (MSE) на всех частотных полосах
  • Нижестоящие задачи: сбалансированная точность с использованием 10-кратной перекрёстной проверки без учёта субъекта

Методы сравнения

  • Сравнение токенизаторов: LaBraM
  • Сравнение фундаментальных моделей: NeuroGPT, CBraMod, LaBraM, EEGPT, BIOT

Детали реализации

  • Обучение токенизатора: 100 эпох, S=4 временные ветви, 4 кодовые книги RVQ, каждая содержит 8 отдельных кодовых книг Vi ∈ R^(8192×128)
  • Обучение фундаментальной модели: 50 эпох, λ_circle = 0,4
  • Оборудование: NVIDIA DGX с 4 графическими процессорами NVIDIA Tesla V100

Результаты экспериментов

Основные результаты

1. Производительность реконструкции токенизатора

Оценка внутри распределения (таблица 1):

Частотная полосаRaw SignalDeltaThetaAlphaBetaGamma
LaBraM1.0711.5610.1840.0990.1220.020
NeuroRVQ0.0160.0060.0020.0020.0050.002

NeuroRVQ достигает ошибки реконструкции на порядок ниже на всех частотных полосах.

Оценка вне распределения:

  • На задачах памяти и движения NeuroRVQ постоянно превосходит обе версии LaBraM
  • Демонстрирует превосходную способность к обобщению

2. Производительность нижестоящих задач

МодельMotorMemorySleepEyesMeanПараметры
NeuroGPT0.682±0.0830.597±0.0290.674±0.0330.827±0.0360.695±0.04579.5M
CBraMod0.614±0.1040.574±0.0380.635±0.0410.839±0.0410.666±0.0564.9M
LaBraM0.630±0.0760.526±0.0260.652±0.0370.799±0.0470.652±0.0475.8M
NeuroRVQ0.700±0.0730.574±0.0270.728±0.0280.869±0.0260.717±0.0385.9M

NeuroRVQ достигает лучшей или второй лучшей производительности на всех задачах с оптимальной средней производительностью.

Абляционные исследования

  • Количество слоёв RVQ: Эксперименты показывают, что использование 8 слоёв Vi ∈ R^(8192×128) обеспечивает лучшую производительность реконструкции
  • Представление фазы: Синусоидально-косинусоидальное представление значительно улучшает стабильность обучения по сравнению с прямым предсказанием фазы

Экспериментальные находки

  1. Эффективность многомасштабного дизайна: Временные свёртки с различными размерами ядра успешно захватывают многочастотные характеристики сигналов ЭЭГ
  2. Важность функции потерь, чувствительной к фазе: Ограничение единичной окружности обеспечивает геометрический смысл предсказания фазы
  3. Параметрическая эффективность: NeuroRVQ достигает лучшей производительности, чем NeuroGPT с 79,5M параметрами, используя только 5,9M параметров

Связанные работы

Традиционные методы анализа ЭЭГ

Ранние методы полагались на ручные признаки, такие как спектральная плотность мощности (PSD) и анализ независимых компонент (ICA), но имели ограниченную способность к обобщению из-за большой межсубъектной вариативности и шумовых характеристик сигналов ЭЭГ.

Эпоха глубокого обучения

Модели EEGNet, EEGInception, EEGConformer и другие снизили зависимость от ручных признаков, но по-прежнему требуют тщательно аннотированных данных и обучения для конкретных задач.

Фундаментальные модели

LaBraM, NeuroGPT, CBraMod и другие представляют направление развития фундаментальных моделей ЭЭГ, но все сталкиваются с узким местом токенизации сигнала. NeuroRVQ решает эту критическую проблему путём улучшения дизайна кодовой книги.

Заключение и обсуждение

Основные выводы

  1. Токенизатор NeuroRVQ достигает производительности SOTA при реконструкции сигналов ЭЭГ
  2. Многомасштабное извлечение признаков и иерархический дизайн RVQ эффективно захватывают сложные паттерны сигналов ЭЭГ
  3. Обучение, чувствительное к фазе и амплитуде, значительно улучшает качество токенизации
  4. Достигается лучшая производительность на нескольких нижестоящих задачах BCI

Ограничения

  1. Вычислительная сложность: Многомасштабный кодировщик и несколько кодовых книг RVQ увеличивают вычислительные затраты
  2. Зависимость от данных: Производительность по-прежнему зависит от качества и разнообразия крупномасштабных данных предварительного обучения
  3. Фиксированные частотные полосы: Текущий дизайн ориентирован на традиционные частотные полосы ЭЭГ и может быть неприменим к другим биосигналам

Направления будущих исследований

  1. Интеграция причинного вывода: Объединение с более целевыми стратегиями пространственно-временного маскирования
  2. Мультимодальное расширение: Распространение принципов на другие биосигналы
  3. Оптимизация архитектуры: Исследование интеграции архитектур более крупных масштабов LBM

Глубокая оценка

Преимущества

  1. Сильная техническая инновативность: Многомасштабный дизайн RVQ и функция потерь, чувствительная к фазе, представляют важные инновации, специфичные для характеристик сигналов ЭЭГ
  2. Полные эксперименты: Включают оценку внутри и вне распределения, абляционные исследования и многозадачную проверку
  3. Прочная теоретическая база: Дизайн, основанный на принципах обработки сигналов, имеет сильную теоретическую поддержку
  4. Высокая практическая ценность: Значительно улучшает производительность фундаментальных моделей ЭЭГ

Недостатки

  1. Ограниченные базовые линии сравнения: Основное сравнение с LaBraM, отсутствует сравнение с большим количеством методов кодовых книг
  2. Отсутствует анализ вычислительных затрат: Не предоставлены детальные анализы вычислительной сложности и времени вывода
  3. Недостаточная проверка обобщаемости: Проверка в основном на задачах BCI, ограниченная проверка в других сценариях применения ЭЭГ

Влияние

  1. Академический вклад: Предоставляет важное решение для токенизации фундаментальных моделей ЭЭГ
  2. Практическая ценность: Может быть непосредственно применено для улучшения существующих систем BCI
  3. Воспроизводимость: Предоставляет подробные детали реализации и настройки гиперпараметров

Применимые сценарии

  • Приложения, требующие высокоточной реконструкции сигналов ЭЭГ
  • Предварительное обучение и тонкая настройка крупномасштабных данных ЭЭГ
  • Разработка многозадачных систем BCI
  • Исследование фундаментальных моделей биосигналов

Библиография

Статья цитирует 68 связанных работ, охватывающих анализ ЭЭГ, глубокое обучение, фундаментальные модели и другие важные области, обеспечивая прочную теоретическую базу для исследования.


Общая оценка: Это высококачественная статья с важным вкладом в области обработки сигналов ЭЭГ и фундаментальных моделей. Благодаря инновационному дизайну, специфичному для характеристик сигналов ЭЭГ, она значительно улучшает производительность существующих методов и обеспечивает важный импульс для развития этой области.