2025-11-23T22:58:17.474910

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

Barmpas, Lee, Koliousis et al.
Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.
academic

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

基本信息

  • 论文ID: 2510.13068
  • 标题: NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
  • 作者: Konstantinos Barmpas, Na Lee, Alexandros Koliousis, Yannis Panagakis, Dimitrios Adamos, Nikolaos Laskaris, Stefanos Zafeiriou
  • 分类: cs.LG cs.AI cs.HC
  • 发表时间: 2025年10月15日 (预印本)
  • 论文链接: https://arxiv.org/abs/2510.13068

摘要

脑电图(EEG)信号在多个时间和频谱尺度上捕获神经活动,产生的信号丰富但复杂,给表示学习带来挑战。近年来,通过预测掩码信号标记训练的EEG基础模型在学习可泛化表示方面显示出前景,但其性能受到信号标记化模块的限制。现有的神经标记器无法保留高频动态,限制了其高保真度重构EEG信号的能力。本文引入NeuroRVQ,这是一个以基于码本的标记器为中心的可扩展大脑波模型(LBM)。该标记器集成了:(i)捕获完整频率神经频谱的多尺度特征提取模块;(ii)用于高分辨率编码的分层残差向量量化(RVQ)码本;(iii)用于高效训练的EEG信号相位和幅度感知损失函数。

研究背景与动机

问题定义

脑机接口(BCI)系统通过分析EEG设备记录的脑电波实现大脑与外部世界的直接通信。EEG信号可以表示人类体验的完整频谱,从睡眠和情绪到运动。然而,现有的大脑波模型(LBMs)面临一个根本瓶颈——信号标记化。

核心挑战

  1. 多尺度特性:大脑活动在多个频率尺度上展开,包括delta(0.5-4Hz)、theta(4-8Hz)、alpha(8-13Hz)、beta(13-30Hz)和gamma(>30Hz)频段
  2. 标记化质量:现有标记器难以保留完整的结构信息,特别是高频成分,这对于鲁棒的生成掩码建模至关重要
  3. 重构保真度:直接采用计算机视觉中的离散码本标记器(如VQ-VAE)无法实现对脑信号的忠实重构

研究动机

作者认为,解锁EEG基础规模掩码建模的关键在于标记器设计。一个设计良好的标记器不仅应该将连续神经信号压缩为离散标记,还应该能够在所有重要频率尺度上忠实重构原始波形。

核心贡献

  1. 提出了NeuroRVQ标记器:通过应用不同核大小的时间卷积捕获多尺度频率特征
  2. 设计了分层RVQ码本结构:每个频率尺度一个码本,使用32个码本(2³²参数)捕获高保真度信号重构所需的复杂模式
  3. 引入了相位和幅度感知损失函数:基于强信号处理原理,通过正弦和余弦表示捕获EEG信号的幅度和包装相位信息
  4. 实现了SOTA性能:在四个BCI分类任务上比现有LBMs高出15%的准确率

方法详解

任务定义

给定多变量EEG时间序列 X ∈ R^(C×T)(其中T是时间点数,C是电极数),目标是:

  1. 将连续EEG信号标记化为离散神经标记
  2. 支持跨所有频率带的准确重构
  3. 实现鲁棒的生成掩码建模

模型架构

1. 补丁生成

将输入EEG信号分割为P个长度为w的时间补丁(对应1秒时间窗口),得到分割输入样本 x ∈ R^(P×w)。

2. 多尺度时间编码器

使用inception风格模块提取S个不同时间尺度的特征:

  • 应用具有不同核大小的1-D时间卷积:K_temporal1, K_temporal2, ..., K_temporalS
  • 每个时间分支包含:1-D卷积 → 组归一化 → GELU激活 → 池化(重复两次)
  • 产生S个输出:F1, F2, ..., FS,其中Fi ∈ R^w

3. Transformer编码器

  • 引入可训练的时间嵌入TE和空间嵌入SE
  • 将多尺度特征与嵌入相加后通过共享Transformer层
  • 产生多尺度补丁表示:p1, p2, ..., pS ∈ R^D

4. RVQ码本

对于每个时间分支,使用RVQ码本R进行离散化:

R = {Vi | i = 1, ..., N}
Vi = {vj | j = 1, ..., K} ∈ R^(K×D)

迭代量化过程:

z1 = arg min_{v∈V1} ||l2(p1) - l2(v)||
pi+1 = pi - zi
p̂ = Σ(i=1 to N) zi

5. 标记器解码器

基于学习到的码本标记重构原始信号,使用傅里叶频谱作为重构目标,包含三个预测头:

  • log(1 + Â):对数幅度
  • sin φ̂:相位正弦分量
  • cos φ̂:相位余弦分量

技术创新点

1. 单位圆感知相位损失

传统方法直接对相位应用MSE存在周期性边界不连续问题。NeuroRVQ引入单位圆感知损失:

L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
             + λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²

2. 综合训练目标

LT = ||log(1 + Âi) - log(1 + Ai)||²₂ + L_unit-loss + ||X̂i - Xi||²₂ + LQ

其中LQ是量化损失。

实验设置

数据集

使用13个大规模EEG数据集(约235小时),包括:

  • 公开数据集:BCI Competition IV-1、Grasp and Lift、Physionet MI等12个
  • 自收集数据集:约235小时的运动想象数据(29通道)
  • 所有数据重采样至200Hz

评价指标

  • 重构质量:跨频率带的均方误差(MSE)
  • 下游任务:平衡准确率,使用10折受试者无关交叉验证

对比方法

  • 标记器对比:LaBraM
  • 基础模型对比:NeuroGPT、CBraMod、LaBraM、EEGPT、BIOT

实现细节

  • 标记器训练:100轮,S=4时间分支,4个RVQ码本,每个包含8个单码本Vi ∈ R^(8192×128)
  • 基础模型训练:50轮,λ_circle = 0.4
  • 硬件:NVIDIA DGX,4个NVIDIA Tesla V100 GPU

实验结果

主要结果

1. 标记器重构性能

分布内评估(表1):

频率带Raw SignalDeltaThetaAlphaBetaGamma
LaBraM1.0711.5610.1840.0990.1220.020
NeuroRVQ0.0160.0060.0020.0020.0050.002

NeuroRVQ在所有频率带上实现了数量级更低的重构误差。

分布外评估

  • 在记忆任务和运动任务上,NeuroRVQ consistently优于LaBraM的两个版本
  • 展现出卓越的泛化能力

2. 下游任务性能

模型MotorMemorySleepEyesMean参数量
NeuroGPT0.682±0.0830.597±0.0290.674±0.0330.827±0.0360.695±0.04579.5M
CBraMod0.614±0.1040.574±0.0380.635±0.0410.839±0.0410.666±0.0564.9M
LaBraM0.630±0.0760.526±0.0260.652±0.0370.799±0.0470.652±0.0475.8M
NeuroRVQ0.700±0.0730.574±0.0270.728±0.0280.869±0.0260.717±0.0385.9M

NeuroRVQ在所有任务上达到最佳或次佳性能,平均性能最优。

消融实验

  • RVQ层数:实验表明使用8层Vi ∈ R^(8192×128)实现最佳重构性能
  • 相位表示:正弦-余弦表示相比直接相位预测显著改善了训练稳定性

实验发现

  1. 多尺度设计的有效性:不同核大小的时间卷积成功捕获了EEG信号的多频率特性
  2. 相位感知损失的重要性:单位圆约束确保了相位预测的几何意义
  3. 参数效率:NeuroRVQ用5.9M参数实现了比79.5M参数NeuroGPT更好的性能

相关工作

传统EEG分析方法

早期方法依赖手工特征如功率谱密度(PSD)和独立成分分析(ICA),但因受试者间变异性大和EEG信号噪声特性而泛化能力有限。

深度学习时代

EEGNet、EEGInception、EEGConformer等模型减少了对手工特征的依赖,但仍需要精心标注的数据和任务特定训练。

基础模型

LaBraM、NeuroGPT、CBraMod等代表了EEG基础模型的发展方向,但都面临信号标记化的瓶颈。NeuroRVQ通过改进码本设计解决了这一关键问题。

结论与讨论

主要结论

  1. NeuroRVQ标记器实现了SOTA的EEG信号重构性能
  2. 多尺度特征提取和分层RVQ设计有效捕获了EEG信号的复杂模式
  3. 相位和幅度感知训练显著改善了标记化质量
  4. 在多个下游BCI任务上达到最佳性能

局限性

  1. 计算复杂度:多尺度编码器和多个RVQ码本增加了计算开销
  2. 数据依赖性:性能仍然依赖于大规模预训练数据的质量和多样性
  3. 频率带固定:当前设计针对传统EEG频率带,可能不适用于其他生物信号

未来方向

  1. 因果推理集成:结合更有针对性的时空掩码策略
  2. 多模态扩展:将原理扩展到其他生物信号
  3. 架构优化:探索更大规模LBM架构的集成

深度评价

优点

  1. 技术创新性强:多尺度RVQ设计和相位感知损失是针对EEG信号特性的重要创新
  2. 实验充分:包含分布内外评估、消融实验和多任务验证
  3. 理论基础扎实:基于信号处理原理的设计具有强理论支撑
  4. 实用价值高:显著改善了EEG基础模型的性能

不足

  1. 对比基线有限:主要与LaBraM对比,缺乏与更多码本方法的比较
  2. 计算成本分析缺失:未提供详细的计算复杂度和推理时间分析
  3. 泛化性验证不足:主要在BCI任务上验证,其他EEG应用场景验证有限

影响力

  1. 学术贡献:为EEG基础模型提供了重要的标记化解决方案
  2. 实用价值:可直接应用于现有BCI系统改进
  3. 可复现性:提供了详细的实现细节和超参数设置

适用场景

  • 需要高保真度EEG信号重构的应用
  • 大规模EEG数据的预训练和微调
  • 多任务BCI系统开发
  • 生物信号基础模型研究

参考文献

论文引用了68篇相关文献,涵盖了EEG分析、深度学习、基础模型等多个领域的重要工作,为研究提供了坚实的理论基础。


总评:这是一篇在EEG信号处理和基础模型领域具有重要贡献的高质量论文。通过针对EEG信号特性的创新设计,显著改善了现有方法的性能,为该领域的发展提供了重要推动力。