2025-11-23T22:58:17.474910

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

Barmpas, Lee, Koliousis et al.

Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.

academic

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

基本信息

论文ID: 2510.13068
标题: NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
作者: Konstantinos Barmpas, Na Lee, Alexandros Koliousis, Yannis Panagakis, Dimitrios Adamos, Nikolaos Laskaris, Stefanos Zafeiriou
分类: cs.LG cs.AI cs.HC
发表时间: 2025年10月15日 (预印本)
论文链接: https://arxiv.org/abs/2510.13068

摘要

脑电图(EEG)信号在多个时间和频谱尺度上捕获神经活动，产生的信号丰富但复杂，给表示学习带来挑战。近年来，通过预测掩码信号标记训练的EEG基础模型在学习可泛化表示方面显示出前景，但其性能受到信号标记化模块的限制。现有的神经标记器无法保留高频动态，限制了其高保真度重构EEG信号的能力。本文引入NeuroRVQ，这是一个以基于码本的标记器为中心的可扩展大脑波模型(LBM)。该标记器集成了：(i)捕获完整频率神经频谱的多尺度特征提取模块；(ii)用于高分辨率编码的分层残差向量量化(RVQ)码本；(iii)用于高效训练的EEG信号相位和幅度感知损失函数。

多尺度特性：大脑活动在多个频率尺度上展开，包括delta(0.5-4Hz)、theta(4-8Hz)、alpha(8-13Hz)、beta(13-30Hz)和gamma(>30Hz)频段
标记化质量：现有标记器难以保留完整的结构信息，特别是高频成分，这对于鲁棒的生成掩码建模至关重要
重构保真度：直接采用计算机视觉中的离散码本标记器(如VQ-VAE)无法实现对脑信号的忠实重构

研究动机

作者认为，解锁EEG基础规模掩码建模的关键在于标记器设计。一个设计良好的标记器不仅应该将连续神经信号压缩为离散标记，还应该能够在所有重要频率尺度上忠实重构原始波形。

核心贡献

提出了NeuroRVQ标记器：通过应用不同核大小的时间卷积捕获多尺度频率特征
设计了分层RVQ码本结构：每个频率尺度一个码本，使用32个码本(2³²参数)捕获高保真度信号重构所需的复杂模式
引入了相位和幅度感知损失函数：基于强信号处理原理，通过正弦和余弦表示捕获EEG信号的幅度和包装相位信息
实现了SOTA性能：在四个BCI分类任务上比现有LBMs高出15%的准确率

方法详解

任务定义

给定多变量EEG时间序列 X ∈ R^(C×T)（其中T是时间点数，C是电极数），目标是：

将连续EEG信号标记化为离散神经标记
支持跨所有频率带的准确重构
实现鲁棒的生成掩码建模

应用具有不同核大小的1-D时间卷积：K_temporal1, K_temporal2, ..., K_temporalS
每个时间分支包含：1-D卷积 → 组归一化 → GELU激活 → 池化（重复两次）
产生S个输出：F1, F2, ..., FS，其中Fi ∈ R^w

3. Transformer编码器

引入可训练的时间嵌入TE和空间嵌入SE
将多尺度特征与嵌入相加后通过共享Transformer层
产生多尺度补丁表示：p1, p2, ..., pS ∈ R^D

4. RVQ码本

对于每个时间分支，使用RVQ码本R进行离散化：

R = {Vi | i = 1, ..., N}
Vi = {vj | j = 1, ..., K} ∈ R^(K×D)

迭代量化过程：

z1 = arg min_{v∈V1} ||l2(p1) - l2(v)||
pi+1 = pi - zi
p̂ = Σ(i=1 to N) zi

5. 标记器解码器

基于学习到的码本标记重构原始信号，使用傅里叶频谱作为重构目标，包含三个预测头：

log(1 + Â)：对数幅度
sin φ̂：相位正弦分量
cos φ̂：相位余弦分量

技术创新点

1. 单位圆感知相位损失

传统方法直接对相位应用MSE存在周期性边界不连续问题。NeuroRVQ引入单位圆感知损失：

L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
             + λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²

2. 综合训练目标

LT = ||log(1 + Âi) - log(1 + Ai)||²₂ + L_unit-loss + ||X̂i - Xi||²₂ + LQ

其中LQ是量化损失。

实验设置

数据集

使用13个大规模EEG数据集（约235小时），包括：

公开数据集：BCI Competition IV-1、Grasp and Lift、Physionet MI等12个
自收集数据集：约235小时的运动想象数据（29通道）
所有数据重采样至200Hz

评价指标

重构质量：跨频率带的均方误差(MSE)
下游任务：平衡准确率，使用10折受试者无关交叉验证

对比方法

标记器对比：LaBraM
基础模型对比：NeuroGPT、CBraMod、LaBraM、EEGPT、BIOT

实现细节

标记器训练：100轮，S=4时间分支，4个RVQ码本，每个包含8个单码本Vi ∈ R^(8192×128)
基础模型训练：50轮，λ_circle = 0.4
硬件：NVIDIA DGX，4个NVIDIA Tesla V100 GPU

频率带	Raw Signal	Delta	Theta	Alpha	Beta	Gamma
LaBraM	1.071	1.561	0.184	0.099	0.122	0.020
NeuroRVQ	0.016	0.006	0.002	0.002	0.005	0.002

NeuroRVQ在所有频率带上实现了数量级更低的重构误差。

分布外评估：

在记忆任务和运动任务上，NeuroRVQ consistently优于LaBraM的两个版本
展现出卓越的泛化能力

2. 下游任务性能

模型	Motor	Memory	Sleep	Eyes	Mean	参数量
NeuroGPT	0.682±0.083	0.597±0.029	0.674±0.033	0.827±0.036	0.695±0.045	79.5M
CBraMod	0.614±0.104	0.574±0.038	0.635±0.041	0.839±0.041	0.666±0.056	4.9M
LaBraM	0.630±0.076	0.526±0.026	0.652±0.037	0.799±0.047	0.652±0.047	5.8M
NeuroRVQ	0.700±0.073	0.574±0.027	0.728±0.028	0.869±0.026	0.717±0.038	5.9M