2025-11-23T22:58:17.474910

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

Barmpas, Lee, Koliousis et al.
Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.
academic

NeuroRVQ: 生成型大規模脳波モデルのための多スケールEEGトークン化

基本情報

  • 論文ID: 2510.13068
  • タイトル: NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
  • 著者: Konstantinos Barmpas, Na Lee, Alexandros Koliousis, Yannis Panagakis, Dimitrios Adamos, Nikolaos Laskaris, Stefanos Zafeiriou
  • 分類: cs.LG cs.AI cs.HC
  • 発表日: 2025年10月15日(プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.13068

要旨

脳電図(EEG)信号は複数の時間および周波数スケールで神経活動を捉え、豊富ながら複雑な信号を生成し、表現学習に課題をもたらします。近年、マスク信号トークン予測により訓練されたEEG基礎モデルは汎化可能な表現学習において有望性を示していますが、その性能は信号トークン化モジュールによって制限されています。既存のニューラルトークナイザーは高周波ダイナミクスを保持できず、EEG信号の高忠実度再構成能力を制限しています。本論文ではNeuroRVQを導入します。これはコードブックベースのトークナイザーを中心とした拡張可能な大規模脳波モデル(LBM)です。このトークナイザーは以下を統合しています:(i)完全な周波数神経スペクトラムを捉える多スケール特徴抽出モジュール;(ii)高解像度符号化のための階層的残差ベクトル量化(RVQ)コードブック;(iii)効率的な訓練のためのEEG信号位相および振幅認識損失関数。

研究背景と動機

問題定義

ブレイン・コンピュータ・インターフェース(BCI)システムはEEGデバイスで記録された脳波を分析することにより、脳と外部世界の直接通信を実現します。EEG信号は睡眠、感情、運動など人間の経験の完全なスペクトラムを表現できます。しかし、既存の大規模脳波モデル(LBMs)は根本的なボトルネック、すなわち信号トークン化に直面しています。

核心的課題

  1. 多スケール特性:脳活動は複数の周波数スケールで展開し、デルタ(0.5-4Hz)、シータ(4-8Hz)、アルファ(8-13Hz)、ベータ(13-30Hz)、ガンマ(>30Hz)周波数帯を含みます
  2. トークン化品質:既存のトークナイザーは完全な構造情報、特に高周波成分を保持することが困難であり、これは堅牢な生成マスクモデリングに重要です
  3. 再構成忠実度:コンピュータビジョンの離散コードブックトークナイザー(VQ-VAEなど)を直接採用することは脳信号の忠実な再構成を実現できません

研究動機

著者らは、EEG基礎規模マスクモデリングを解放する鍵はトークナイザー設計にあると考えています。よく設計されたトークナイザーは、連続神経信号を離散トークンに圧縮するだけでなく、すべての重要な周波数スケールで元の波形を忠実に再構成できるべきです。

核心的貢献

  1. NeuroRVQトークナイザーの提案:異なるカーネルサイズの時間畳み込みを適用することで多スケール周波数特徴を捉えます
  2. 階層的RVQコードブック構造の設計:各周波数スケールに1つのコードブック、32個のコードブック(2³²パラメータ)を使用して高忠実度信号再構成に必要な複雑なパターンを捉えます
  3. 位相および振幅認識損失関数の導入:強力な信号処理原理に基づき、正弦および余弦表現を通じてEEG信号の振幅と包装位相情報を捉えます
  4. SOTA性能の実現:4つのBCI分類タスクで既存LBMsを15%上回る精度を達成します

方法の詳細

タスク定義

多変量EEG時系列 X ∈ R^(C×T)(Tは時間ポイント数、Cは電極数)が与えられたとき、目標は:

  1. 連続EEG信号を離散ニューラルトークンにトークン化する
  2. すべての周波数帯にわたる正確な再構成をサポートする
  3. 堅牢な生成マスクモデリングを実現する

モデルアーキテクチャ

1. パッチ生成

入力EEG信号をP個の長さwの時間パッチに分割します(1秒の時間ウィンドウに対応)。分割入力サンプル x ∈ R^(P×w)を得ます。

2. 多スケール時間エンコーダ

Inceptionスタイルモジュールを使用してS個の異なる時間スケールの特徴を抽出します:

  • 異なるカーネルサイズの1-D時間畳み込みを適用:K_temporal1, K_temporal2, ..., K_temporalS
  • 各時間ブランチには以下が含まれます:1-D畳み込み → グループ正規化 → GELU活性化 → プーリング(2回繰り返し)
  • S個の出力を生成:F1, F2, ..., FS、ここでFi ∈ R^w

3. Transformerエンコーダ

  • 訓練可能な時間埋め込みTE および空間埋め込みSEを導入
  • 多スケール特徴を埋め込みと加算した後、共有Transformerレイヤーを通す
  • 多スケールパッチ表現を生成:p1, p2, ..., pS ∈ R^D

4. RVQコードブック

各時間ブランチについて、RVQコードブックRを使用して離散化します:

R = {Vi | i = 1, ..., N}
Vi = {vj | j = 1, ..., K} ∈ R^(K×D)

反復量化プロセス:

z1 = arg min_{v∈V1} ||l2(p1) - l2(v)||
pi+1 = pi - zi
p̂ = Σ(i=1 to N) zi

5. トークナイザーデコーダ

学習されたコードブックトークンに基づいて元の信号を再構成します。フーリエスペクトラムを再構成ターゲットとして使用し、3つの予測ヘッドを含みます:

  • log(1 + Â):対数振幅
  • sin φ̂:位相正弦成分
  • cos φ̂:位相余弦成分

技術的革新点

1. 単位円認識位相損失

従来の方法は位相に直接MSEを適用しますが、周期性境界の不連続性の問題があります。NeuroRVQは単位円認識損失を導入します:

L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
             + λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²

2. 統合訓練目標

LT = ||log(1 + Âi) - log(1 + Ai)||²₂ + L_unit-loss + ||X̂i - Xi||²₂ + LQ

ここでLQは量化損失です。

実験設定

データセット

13個の大規模EEGデータセット(約235時間)を使用します。以下を含みます:

  • 公開データセット:BCI Competition IV-1、Grasp and Lift、Physionet MI等12個
  • 自己収集データセット:約235時間の運動想像データ(29チャネル)
  • すべてのデータを200Hzにリサンプリング

評価指標

  • 再構成品質:周波数帯にわたる平均二乗誤差(MSE)
  • 下流タスク:バランス精度、10分割被験者無関交差検証を使用

比較手法

  • トークナイザー比較:LaBraM
  • 基礎モデル比較:NeuroGPT、CBraMod、LaBraM、EEGPT、BIOT

実装詳細

  • トークナイザー訓練:100エポック、S=4時間ブランチ、4つのRVQコードブック、各コードブックは8つの単一コードブックVi ∈ R^(8192×128)を含む
  • 基礎モデル訓練:50エポック、λ_circle = 0.4
  • ハードウェア:NVIDIA DGX、4つのNVIDIA Tesla V100 GPU

実験結果

主要結果

1. トークナイザー再構成性能

分布内評価(表1):

周波数帯生信号デルタシータアルファベータガンマ
LaBraM1.0711.5610.1840.0990.1220.020
NeuroRVQ0.0160.0060.0020.0020.0050.002

NeuroRVQはすべての周波数帯で数桁低い再構成誤差を実現しています。

分布外評価

  • 記憶タスクと運動タスクにおいて、NeuroRVQはLaBraMの両バージョンを一貫して上回ります
  • 優れた汎化能力を示します

2. 下流タスク性能

モデル運動記憶睡眠平均パラメータ数
NeuroGPT0.682±0.0830.597±0.0290.674±0.0330.827±0.0360.695±0.04579.5M
CBraMod0.614±0.1040.574±0.0380.635±0.0410.839±0.0410.666±0.0564.9M
LaBraM0.630±0.0760.526±0.0260.652±0.0370.799±0.0470.652±0.0475.8M
NeuroRVQ0.700±0.0730.574±0.0270.728±0.0280.869±0.0260.717±0.0385.9M

NeuroRVQはすべてのタスクで最良または次点の性能を達成し、平均性能が最適です。

アブレーション実験

  • RVQレイヤー数:実験により8層Vi ∈ R^(8192×128)を使用することが最良の再構成性能を実現することが示されました
  • 位相表現:正弦-余弦表現は直接位相予測と比較して訓練安定性を大幅に改善しました

実験的発見

  1. 多スケール設計の有効性:異なるカーネルサイズの時間畳み込みはEEG信号の多周波数特性を成功裏に捉えました
  2. 位相認識損失の重要性:単位円制約は位相予測の幾何学的意味を確保しました
  3. パラメータ効率:NeuroRVQは5.9Mパラメータで79.5Mパラメータのより優れた性能を実現しました

関連研究

従来のEEG分析手法

初期の手法は電力スペクトル密度(PSD)および独立成分分析(ICA)などの手工特徴に依存していましたが、被験者間変動の大きさとEEG信号のノイズ特性により汎化能力が限定されていました。

ディープラーニング時代

EEGNet、EEGInception、EEGConformerなどのモデルは手工特徴への依存を減らしましたが、依然として注意深くラベル付けされたデータとタスク特定の訓練が必要でした。

基礎モデル

LaBraM、NeuroGPT、CBraModはEEG基礎モデルの発展方向を表していますが、すべて信号トークン化のボトルネックに直面しています。NeuroRVQはコードブック設計の改善を通じてこの重要な問題を解決しました。

結論と議論

主要な結論

  1. NeuroRVQトークナイザーはSOTA EEG信号再構成性能を実現しました
  2. 多スケール特徴抽出と階層的RVQ設計はEEG信号の複雑なパターンを効果的に捉えました
  3. 位相および振幅認識訓練はトークン化品質を大幅に改善しました
  4. 複数の下流BCIタスクで最良の性能を達成しました

制限事項

  1. 計算複雑性:多スケールエンコーダと複数のRVQコードブックは計算オーバーヘッドを増加させます
  2. データ依存性:性能は依然として大規模事前訓練データの品質と多様性に依存しています
  3. 周波数帯固定:現在の設計は従来のEEG周波数帯を対象としており、他の生物信号には適用できない可能性があります

今後の方向性

  1. 因果推論統合:より標的化された時空マスク戦略との組み合わせ
  2. マルチモーダル拡張:原理を他の生物信号に拡張
  3. アーキテクチャ最適化:より大規模なLBMアーキテクチャ統合の探索

深度評価

利点

  1. 技術的革新性が強い:多スケールRVQ設計と位相認識損失はEEG信号特性に対する重要な革新です
  2. 実験が充分:分布内外評価、アブレーション実験、マルチタスク検証を含みます
  3. 理論的基礎が堅実:信号処理原理に基づく設計は強力な理論的支持を持ちます
  4. 実用価値が高い:EEG基礎モデルの性能を大幅に改善しました

不足

  1. 比較ベースラインが限定的:主にLaBraMとの比較であり、より多くのコードブック手法との比較が不足しています
  2. 計算コスト分析が欠落:詳細な計算複雑性と推論時間分析が提供されていません
  3. 汎化性検証が不十分:主にBCIタスクで検証され、他のEEGアプリケーションシナリオの検証が限定的です

影響力

  1. 学術的貢献:EEG基礎モデルに重要なトークン化ソリューションを提供しました
  2. 実用価値:既存のBCIシステム改善に直接適用できます
  3. 再現性:詳細な実装詳細とハイパーパラメータ設定を提供しました

適用シナリオ

  • 高忠実度EEG信号再構成が必要なアプリケーション
  • 大規模EEGデータの事前訓練と微調整
  • マルチタスクBCIシステム開発
  • 生物信号基礎モデル研究

参考文献

論文は68の関連文献を引用しており、EEG分析、ディープラーニング、基礎モデルなど複数の分野の重要な研究をカバーし、研究に堅実な理論的基礎を提供しています。


総合評価:これはEEG信号処理と基礎モデル分野における重要な貢献を持つ高品質な論文です。EEG信号特性に対する革新的な設計を通じて、既存手法の性能を大幅に改善し、この分野の発展に重要な推進力を提供しています。