Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.
論文ID : 2510.13068タイトル : NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models著者 : Konstantinos Barmpas, Na Lee, Alexandros Koliousis, Yannis Panagakis, Dimitrios Adamos, Nikolaos Laskaris, Stefanos Zafeiriou分類 : cs.LG cs.AI cs.HC発表日 : 2025年10月15日(プレプリント)論文リンク : https://arxiv.org/abs/2510.13068 脳電図(EEG)信号は複数の時間および周波数スケールで神経活動を捉え、豊富ながら複雑な信号を生成し、表現学習に課題をもたらします。近年、マスク信号トークン予測により訓練されたEEG基礎モデルは汎化可能な表現学習において有望性を示していますが、その性能は信号トークン化モジュールによって制限されています。既存のニューラルトークナイザーは高周波ダイナミクスを保持できず、EEG信号の高忠実度再構成能力を制限しています。本論文ではNeuroRVQを導入します。これはコードブックベースのトークナイザーを中心とした拡張可能な大規模脳波モデル(LBM)です。このトークナイザーは以下を統合しています:(i)完全な周波数神経スペクトラムを捉える多スケール特徴抽出モジュール;(ii)高解像度符号化のための階層的残差ベクトル量化(RVQ)コードブック;(iii)効率的な訓練のためのEEG信号位相および振幅認識損失関数。
ブレイン・コンピュータ・インターフェース(BCI)システムはEEGデバイスで記録された脳波を分析することにより、脳と外部世界の直接通信を実現します。EEG信号は睡眠、感情、運動など人間の経験の完全なスペクトラムを表現できます。しかし、既存の大規模脳波モデル(LBMs)は根本的なボトルネック、すなわち信号トークン化に直面しています。
多スケール特性 :脳活動は複数の周波数スケールで展開し、デルタ(0.5-4Hz)、シータ(4-8Hz)、アルファ(8-13Hz)、ベータ(13-30Hz)、ガンマ(>30Hz)周波数帯を含みますトークン化品質 :既存のトークナイザーは完全な構造情報、特に高周波成分を保持することが困難であり、これは堅牢な生成マスクモデリングに重要です再構成忠実度 :コンピュータビジョンの離散コードブックトークナイザー(VQ-VAEなど)を直接採用することは脳信号の忠実な再構成を実現できません著者らは、EEG基礎規模マスクモデリングを解放する鍵はトークナイザー設計にあると考えています。よく設計されたトークナイザーは、連続神経信号を離散トークンに圧縮するだけでなく、すべての重要な周波数スケールで元の波形を忠実に再構成できるべきです。
NeuroRVQトークナイザーの提案 :異なるカーネルサイズの時間畳み込みを適用することで多スケール周波数特徴を捉えます階層的RVQコードブック構造の設計 :各周波数スケールに1つのコードブック、32個のコードブック(2³²パラメータ)を使用して高忠実度信号再構成に必要な複雑なパターンを捉えます位相および振幅認識損失関数の導入 :強力な信号処理原理に基づき、正弦および余弦表現を通じてEEG信号の振幅と包装位相情報を捉えますSOTA性能の実現 :4つのBCI分類タスクで既存LBMsを15%上回る精度を達成します多変量EEG時系列 X ∈ R^(C×T)(Tは時間ポイント数、Cは電極数)が与えられたとき、目標は:
連続EEG信号を離散ニューラルトークンにトークン化する すべての周波数帯にわたる正確な再構成をサポートする 堅牢な生成マスクモデリングを実現する 入力EEG信号をP個の長さwの時間パッチに分割します(1秒の時間ウィンドウに対応)。分割入力サンプル x ∈ R^(P×w)を得ます。
Inceptionスタイルモジュールを使用してS個の異なる時間スケールの特徴を抽出します:
異なるカーネルサイズの1-D時間畳み込みを適用:K_temporal1, K_temporal2, ..., K_temporalS 各時間ブランチには以下が含まれます:1-D畳み込み → グループ正規化 → GELU活性化 → プーリング(2回繰り返し) S個の出力を生成:F1, F2, ..., FS、ここでFi ∈ R^w 訓練可能な時間埋め込みTE および空間埋め込みSEを導入 多スケール特徴を埋め込みと加算した後、共有Transformerレイヤーを通す 多スケールパッチ表現を生成:p1, p2, ..., pS ∈ R^D 各時間ブランチについて、RVQコードブックRを使用して離散化します:
R = {Vi | i = 1, ..., N}
Vi = {vj | j = 1, ..., K} ∈ R^(K×D)
反復量化プロセス:
z1 = arg min_{v∈V1} ||l2(p1) - l2(v)||
pi+1 = pi - zi
p̂ = Σ(i=1 to N) zi
学習されたコードブックトークンに基づいて元の信号を再構成します。フーリエスペクトラムを再構成ターゲットとして使用し、3つの予測ヘッドを含みます:
log(1 + Â):対数振幅 sin φ̂:位相正弦成分 cos φ̂:位相余弦成分 従来の方法は位相に直接MSEを適用しますが、周期性境界の不連続性の問題があります。NeuroRVQは単位円認識損失を導入します:
L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
+ λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²
LT = ||log(1 + Âi) - log(1 + Ai)||²₂ + L_unit-loss + ||X̂i - Xi||²₂ + LQ
ここでLQは量化損失です。
13個の大規模EEGデータセット(約235時間)を使用します。以下を含みます:
公開データセット :BCI Competition IV-1、Grasp and Lift、Physionet MI等12個自己収集データセット :約235時間の運動想像データ(29チャネル)すべてのデータを200Hzにリサンプリング 再構成品質 :周波数帯にわたる平均二乗誤差(MSE)下流タスク :バランス精度、10分割被験者無関交差検証を使用トークナイザー比較 :LaBraM基礎モデル比較 :NeuroGPT、CBraMod、LaBraM、EEGPT、BIOTトークナイザー訓練 :100エポック、S=4時間ブランチ、4つのRVQコードブック、各コードブックは8つの単一コードブックVi ∈ R^(8192×128)を含む基礎モデル訓練 :50エポック、λ_circle = 0.4ハードウェア :NVIDIA DGX、4つのNVIDIA Tesla V100 GPU分布内評価 (表1):
周波数帯 生信号 デルタ シータ アルファ ベータ ガンマ LaBraM 1.071 1.561 0.184 0.099 0.122 0.020 NeuroRVQ 0.016 0.006 0.002 0.002 0.005 0.002
NeuroRVQはすべての周波数帯で数桁低い再構成誤差を実現しています。
分布外評価 :
記憶タスクと運動タスクにおいて、NeuroRVQはLaBraMの両バージョンを一貫して上回ります 優れた汎化能力を示します モデル 運動 記憶 睡眠 眼 平均 パラメータ数 NeuroGPT 0.682±0.083 0.597±0.029 0.674±0.033 0.827±0.036 0.695±0.045 79.5M CBraMod 0.614±0.104 0.574±0.038 0.635±0.041 0.839±0.041 0.666±0.056 4.9M LaBraM 0.630±0.076 0.526±0.026 0.652±0.037 0.799±0.047 0.652±0.047 5.8M NeuroRVQ 0.700±0.073 0.574±0.027 0.728±0.028 0.869±0.026 0.717±0.038 5.9M
NeuroRVQはすべてのタスクで最良または次点の性能を達成し、平均性能が最適です。
RVQレイヤー数 :実験により8層Vi ∈ R^(8192×128)を使用することが最良の再構成性能を実現することが示されました位相表現 :正弦-余弦表現は直接位相予測と比較して訓練安定性を大幅に改善しました多スケール設計の有効性 :異なるカーネルサイズの時間畳み込みはEEG信号の多周波数特性を成功裏に捉えました位相認識損失の重要性 :単位円制約は位相予測の幾何学的意味を確保しましたパラメータ効率 :NeuroRVQは5.9Mパラメータで79.5Mパラメータのより優れた性能を実現しました初期の手法は電力スペクトル密度(PSD)および独立成分分析(ICA)などの手工特徴に依存していましたが、被験者間変動の大きさとEEG信号のノイズ特性により汎化能力が限定されていました。
EEGNet、EEGInception、EEGConformerなどのモデルは手工特徴への依存を減らしましたが、依然として注意深くラベル付けされたデータとタスク特定の訓練が必要でした。
LaBraM、NeuroGPT、CBraModはEEG基礎モデルの発展方向を表していますが、すべて信号トークン化のボトルネックに直面しています。NeuroRVQはコードブック設計の改善を通じてこの重要な問題を解決しました。
NeuroRVQトークナイザーはSOTA EEG信号再構成性能を実現しました 多スケール特徴抽出と階層的RVQ設計はEEG信号の複雑なパターンを効果的に捉えました 位相および振幅認識訓練はトークン化品質を大幅に改善しました 複数の下流BCIタスクで最良の性能を達成しました 計算複雑性 :多スケールエンコーダと複数のRVQコードブックは計算オーバーヘッドを増加させますデータ依存性 :性能は依然として大規模事前訓練データの品質と多様性に依存しています周波数帯固定 :現在の設計は従来のEEG周波数帯を対象としており、他の生物信号には適用できない可能性があります因果推論統合 :より標的化された時空マスク戦略との組み合わせマルチモーダル拡張 :原理を他の生物信号に拡張アーキテクチャ最適化 :より大規模なLBMアーキテクチャ統合の探索技術的革新性が強い :多スケールRVQ設計と位相認識損失はEEG信号特性に対する重要な革新です実験が充分 :分布内外評価、アブレーション実験、マルチタスク検証を含みます理論的基礎が堅実 :信号処理原理に基づく設計は強力な理論的支持を持ちます実用価値が高い :EEG基礎モデルの性能を大幅に改善しました比較ベースラインが限定的 :主にLaBraMとの比較であり、より多くのコードブック手法との比較が不足しています計算コスト分析が欠落 :詳細な計算複雑性と推論時間分析が提供されていません汎化性検証が不十分 :主にBCIタスクで検証され、他のEEGアプリケーションシナリオの検証が限定的です学術的貢献 :EEG基礎モデルに重要なトークン化ソリューションを提供しました実用価値 :既存のBCIシステム改善に直接適用できます再現性 :詳細な実装詳細とハイパーパラメータ設定を提供しました高忠実度EEG信号再構成が必要なアプリケーション 大規模EEGデータの事前訓練と微調整 マルチタスクBCIシステム開発 生物信号基礎モデル研究 論文は68の関連文献を引用しており、EEG分析、ディープラーニング、基礎モデルなど複数の分野の重要な研究をカバーし、研究に堅実な理論的基礎を提供しています。
総合評価 :これはEEG信号処理と基礎モデル分野における重要な貢献を持つ高品質な論文です。EEG信号特性に対する革新的な設計を通じて、既存手法の性能を大幅に改善し、この分野の発展に重要な推進力を提供しています。