2025-11-23T22:58:17.474910

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

Barmpas, Lee, Koliousis et al.

Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.

academic

NeuroRVQ: 生成型大規模脳波モデルのための多スケールEEGトークン化

基本情報

論文ID: 2510.13068
タイトル: NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
著者: Konstantinos Barmpas, Na Lee, Alexandros Koliousis, Yannis Panagakis, Dimitrios Adamos, Nikolaos Laskaris, Stefanos Zafeiriou
分類: cs.LG cs.AI cs.HC
発表日: 2025年10月15日（プレプリント）
論文リンク: https://arxiv.org/abs/2510.13068

要旨

脳電図(EEG)信号は複数の時間および周波数スケールで神経活動を捉え、豊富ながら複雑な信号を生成し、表現学習に課題をもたらします。近年、マスク信号トークン予測により訓練されたEEG基礎モデルは汎化可能な表現学習において有望性を示していますが、その性能は信号トークン化モジュールによって制限されています。既存のニューラルトークナイザーは高周波ダイナミクスを保持できず、EEG信号の高忠実度再構成能力を制限しています。本論文ではNeuroRVQを導入します。これはコードブックベースのトークナイザーを中心とした拡張可能な大規模脳波モデル(LBM)です。このトークナイザーは以下を統合しています：(i)完全な周波数神経スペクトラムを捉える多スケール特徴抽出モジュール；(ii)高解像度符号化のための階層的残差ベクトル量化(RVQ)コードブック；(iii)効率的な訓練のためのEEG信号位相および振幅認識損失関数。

研究背景と動機

問題定義

ブレイン・コンピュータ・インターフェース(BCI)システムはEEGデバイスで記録された脳波を分析することにより、脳と外部世界の直接通信を実現します。EEG信号は睡眠、感情、運動など人間の経験の完全なスペクトラムを表現できます。しかし、既存の大規模脳波モデル(LBMs)は根本的なボトルネック、すなわち信号トークン化に直面しています。

核心的課題

多スケール特性：脳活動は複数の周波数スケールで展開し、デルタ(0.5-4Hz)、シータ(4-8Hz)、アルファ(8-13Hz)、ベータ(13-30Hz)、ガンマ(>30Hz)周波数帯を含みます
トークン化品質：既存のトークナイザーは完全な構造情報、特に高周波成分を保持することが困難であり、これは堅牢な生成マスクモデリングに重要です
再構成忠実度：コンピュータビジョンの離散コードブックトークナイザー(VQ-VAEなど)を直接採用することは脳信号の忠実な再構成を実現できません

研究動機

著者らは、EEG基礎規模マスクモデリングを解放する鍵はトークナイザー設計にあると考えています。よく設計されたトークナイザーは、連続神経信号を離散トークンに圧縮するだけでなく、すべての重要な周波数スケールで元の波形を忠実に再構成できるべきです。

核心的貢献

NeuroRVQトークナイザーの提案：異なるカーネルサイズの時間畳み込みを適用することで多スケール周波数特徴を捉えます
階層的RVQコードブック構造の設計：各周波数スケールに1つのコードブック、32個のコードブック(2³²パラメータ)を使用して高忠実度信号再構成に必要な複雑なパターンを捉えます
位相および振幅認識損失関数の導入：強力な信号処理原理に基づき、正弦および余弦表現を通じてEEG信号の振幅と包装位相情報を捉えます
SOTA性能の実現：4つのBCI分類タスクで既存LBMsを15%上回る精度を達成します

方法の詳細

タスク定義

多変量EEG時系列 X ∈ R^(C×T)（Tは時間ポイント数、Cは電極数）が与えられたとき、目標は：

連続EEG信号を離散ニューラルトークンにトークン化する
すべての周波数帯にわたる正確な再構成をサポートする
堅牢な生成マスクモデリングを実現する

モデルアーキテクチャ

1. パッチ生成

入力EEG信号をP個の長さwの時間パッチに分割します（1秒の時間ウィンドウに対応）。分割入力サンプル x ∈ R^(P×w)を得ます。

2. 多スケール時間エンコーダ

Inceptionスタイルモジュールを使用してS個の異なる時間スケールの特徴を抽出します：

異なるカーネルサイズの1-D時間畳み込みを適用：K_temporal1, K_temporal2, ..., K_temporalS
各時間ブランチには以下が含まれます：1-D畳み込み → グループ正規化 → GELU活性化 → プーリング（2回繰り返し）
S個の出力を生成：F1, F2, ..., FS、ここでFi ∈ R^w

3. Transformerエンコーダ

訓練可能な時間埋め込みTE および空間埋め込みSEを導入
多スケール特徴を埋め込みと加算した後、共有Transformerレイヤーを通す
多スケールパッチ表現を生成：p1, p2, ..., pS ∈ R^D

4. RVQコードブック

各時間ブランチについて、RVQコードブックRを使用して離散化します：

R = {Vi | i = 1, ..., N}
Vi = {vj | j = 1, ..., K} ∈ R^(K×D)

反復量化プロセス：

z1 = arg min_{v∈V1} ||l2(p1) - l2(v)||
pi+1 = pi - zi
p̂ = Σ(i=1 to N) zi

5. トークナイザーデコーダ

学習されたコードブックトークンに基づいて元の信号を再構成します。フーリエスペクトラムを再構成ターゲットとして使用し、3つの予測ヘッドを含みます：

log(1 + Â)：対数振幅
sin φ̂：位相正弦成分
cos φ̂：位相余弦成分

技術的革新点

1. 単位円認識位相損失

従来の方法は位相に直接MSEを適用しますが、周期性境界の不連続性の問題があります。NeuroRVQは単位円認識損失を導入します：

L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
             + λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²

2. 統合訓練目標

LT = ||log(1 + Âi) - log(1 + Ai)||²₂ + L_unit-loss + ||X̂i - Xi||²₂ + LQ

ここでLQは量化損失です。

実験設定

データセット

13個の大規模EEGデータセット（約235時間）を使用します。以下を含みます：

公開データセット：BCI Competition IV-1、Grasp and Lift、Physionet MI等12個
自己収集データセット：約235時間の運動想像データ（29チャネル）
すべてのデータを200Hzにリサンプリング

評価指標

再構成品質：周波数帯にわたる平均二乗誤差(MSE)
下流タスク：バランス精度、10分割被験者無関交差検証を使用

比較手法

トークナイザー比較：LaBraM
基礎モデル比較：NeuroGPT、CBraMod、LaBraM、EEGPT、BIOT

実装詳細

トークナイザー訓練：100エポック、S=4時間ブランチ、4つのRVQコードブック、各コードブックは8つの単一コードブックVi ∈ R^(8192×128)を含む
基礎モデル訓練：50エポック、λ_circle = 0.4
ハードウェア：NVIDIA DGX、4つのNVIDIA Tesla V100 GPU

実験結果

主要結果

1. トークナイザー再構成性能

分布内評価（表1）：

周波数帯	生信号	デルタ	シータ	アルファ	ベータ	ガンマ
LaBraM	1.071	1.561	0.184	0.099	0.122	0.020
NeuroRVQ	0.016	0.006	0.002	0.002	0.005	0.002

NeuroRVQはすべての周波数帯で数桁低い再構成誤差を実現しています。

分布外評価：

記憶タスクと運動タスクにおいて、NeuroRVQはLaBraMの両バージョンを一貫して上回ります
優れた汎化能力を示します

2. 下流タスク性能

モデル	運動	記憶	睡眠	眼	平均	パラメータ数
NeuroGPT	0.682±0.083	0.597±0.029	0.674±0.033	0.827±0.036	0.695±0.045	79.5M
CBraMod	0.614±0.104	0.574±0.038	0.635±0.041	0.839±0.041	0.666±0.056	4.9M
LaBraM	0.630±0.076	0.526±0.026	0.652±0.037	0.799±0.047	0.652±0.047	5.8M
NeuroRVQ	0.700±0.073	0.574±0.027	0.728±0.028	0.869±0.026	0.717±0.038	5.9M