2025-11-23T22:58:17.474910

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

Barmpas, Lee, Koliousis et al.
Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.
academic

NeuroRVQ: Tokenizzazione EEG Multi-Scala per Modelli Generativi di Onde Cerebrali su Larga Scala

Informazioni Fondamentali

  • ID Articolo: 2510.13068
  • Titolo: NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
  • Autori: Konstantinos Barmpas, Na Lee, Alexandros Koliousis, Yannis Panagakis, Dimitrios Adamos, Nikolaos Laskaris, Stefanos Zafeiriou
  • Classificazione: cs.LG cs.AI cs.HC
  • Data di Pubblicazione: 15 ottobre 2025 (preprint)
  • Link Articolo: https://arxiv.org/abs/2510.13068

Riassunto

I segnali elettroencefalografici (EEG) catturano l'attività neurale su molteplici scale temporali e spettrali, producendo segnali ricchi ma complessi che presentano sfide significative per l'apprendimento della rappresentazione. Recentemente, i modelli fondamentali EEG addestrati mediante la previsione di token di segnali mascherati hanno dimostrato promesse nell'apprendimento di rappresentazioni generalizzabili, tuttavia le loro prestazioni sono limitate dal modulo di tokenizzazione del segnale. I tokenizzatori neurali esistenti non riescono a preservare le dinamiche ad alta frequenza, limitando la loro capacità di ricostruire i segnali EEG con alta fedeltà. Questo articolo introduce NeuroRVQ, un modello di onde cerebrali su larga scala (LBM) incentrato su un tokenizzatore basato su codebook. Il tokenizzatore integra: (i) un modulo di estrazione di caratteristiche multi-scala che cattura lo spettro neurale completo delle frequenze; (ii) un codebook di quantizzazione vettoriale residua gerarchica (RVQ) per la codifica ad alta risoluzione; (iii) una funzione di perdita consapevole della fase e dell'ampiezza del segnale EEG per l'addestramento efficiente.

Contesto di Ricerca e Motivazione

Definizione del Problema

I sistemi di interfaccia cervello-computer (BCI) realizzano la comunicazione diretta tra il cervello e il mondo esterno analizzando le onde cerebrali registrate dai dispositivi EEG. I segnali EEG possono rappresentare l'intero spettro dell'esperienza umana, dal sonno e dalle emozioni al movimento. Tuttavia, i modelli di onde cerebrali attuali (LBM) affrontano un collo di bottiglia fondamentale: la tokenizzazione del segnale.

Sfide Principali

  1. Caratteristiche Multi-Scala: L'attività cerebrale si sviluppa su molteplici scale di frequenza, incluse le bande delta (0,5-4 Hz), theta (4-8 Hz), alfa (8-13 Hz), beta (13-30 Hz) e gamma (>30 Hz)
  2. Qualità della Tokenizzazione: I tokenizzatori esistenti hanno difficoltà a preservare le informazioni strutturali complete, in particolare le componenti ad alta frequenza, cruciali per la modellazione generativa robusta con maschere
  3. Fedeltà della Ricostruzione: L'adozione diretta di tokenizzatori con codebook discreti dalla visione artificiale (come VQ-VAE) non riesce a realizzare una ricostruzione fedele dei segnali cerebrali

Motivazione della Ricerca

Gli autori sostengono che la chiave per sbloccare la modellazione con maschere su scala fondamentale EEG risieda nella progettazione del tokenizzatore. Un tokenizzatore ben progettato non dovrebbe solo comprimere i segnali neurali continui in token discreti, ma dovrebbe anche essere in grado di ricostruire fedelmente la forma d'onda originale su tutte le scale di frequenza importanti.

Contributi Principali

  1. Proposta del Tokenizzatore NeuroRVQ: Cattura caratteristiche di frequenza multi-scala applicando convoluzioni temporali con diversi dimensioni del kernel
  2. Progettazione della Struttura del Codebook RVQ Gerarchico: Un codebook per ogni scala di frequenza, utilizzando 32 codebook (parametri 2³²) per catturare i modelli complessi necessari per la ricostruzione del segnale ad alta fedeltà
  3. Introduzione di una Funzione di Perdita Consapevole della Fase e dell'Ampiezza: Basata su principi robusti di elaborazione del segnale, cattura l'ampiezza del segnale EEG e le informazioni di fase avvolta attraverso rappresentazioni seno e coseno
  4. Realizzazione di Prestazioni SOTA: Accuratezza superiore del 15% rispetto agli LBM esistenti su quattro compiti di classificazione BCI

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato una serie temporale EEG multivariata X ∈ R^(C×T) (dove T è il numero di punti temporali e C è il numero di elettrodi), l'obiettivo è:

  1. Tokenizzare i segnali EEG continui in token neurali discreti
  2. Supportare la ricostruzione accurata su tutte le bande di frequenza
  3. Realizzare una modellazione generativa robusta con maschere

Architettura del Modello

1. Generazione di Patch

Dividere il segnale EEG di input in P patch temporali di lunghezza w (corrispondenti a una finestra temporale di 1 secondo), ottenendo il campione di input segmentato x ∈ R^(P×w).

2. Codificatore Temporale Multi-Scala

Utilizza un modulo in stile inception per estrarre caratteristiche su S diverse scale temporali:

  • Applica convoluzioni temporali 1-D con diversi dimensioni del kernel: K_temporal1, K_temporal2, ..., K_temporalS
  • Ogni ramo temporale contiene: convoluzione 1-D → normalizzazione di gruppo → attivazione GELU → pooling (ripetuto due volte)
  • Produce S output: F1, F2, ..., FS, dove Fi ∈ R^w

3. Codificatore Transformer

  • Introduce embedding temporali TE e embedding spaziali SE addestrabili
  • Aggiunge caratteristiche multi-scala agli embedding e le passa attraverso strati Transformer condivisi
  • Produce rappresentazioni di patch multi-scala: p1, p2, ..., pS ∈ R^D

4. Codebook RVQ

Per ogni ramo temporale, utilizza il codebook RVQ R per la discretizzazione:

R = {Vi | i = 1, ..., N}
Vi = {vj | j = 1, ..., K} ∈ R^(K×D)

Processo di quantizzazione iterativa:

z1 = arg min_{v∈V1} ||l2(p1) - l2(v)||
pi+1 = pi - zi
p̂ = Σ(i=1 to N) zi

5. Decodificatore del Tokenizzatore

Ricostruisce il segnale originale basandosi sui token del codebook appresi, utilizzando lo spettro di Fourier come obiettivo di ricostruzione, includendo tre teste di previsione:

  • log(1 + Â): ampiezza logaritmica
  • sin φ̂: componente seno della fase
  • cos φ̂: componente coseno della fase

Punti di Innovazione Tecnica

1. Perdita di Fase Consapevole del Cerchio Unitario

I metodi tradizionali applicano direttamente MSE alla fase, presentando problemi di discontinuità ai confini periodici. NeuroRVQ introduce una perdita consapevole del cerchio unitario:

L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
             + λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²

2. Obiettivo di Addestramento Integrato

LT = ||log(1 + Âi) - log(1 + Ai)||²₂ + L_unit-loss + ||X̂i - Xi||²₂ + LQ

dove LQ è la perdita di quantizzazione.

Configurazione Sperimentale

Dataset

Utilizza 13 dataset EEG su larga scala (circa 235 ore), inclusi:

  • Dataset Pubblici: BCI Competition IV-1, Grasp and Lift, Physionet MI e altri 12
  • Dataset Raccolti Internamente: circa 235 ore di dati di immaginazione motoria (29 canali)
  • Tutti i dati ricampionati a 200 Hz

Metriche di Valutazione

  • Qualità della Ricostruzione: Errore quadratico medio (MSE) su bande di frequenza
  • Compiti a Valle: Accuratezza bilanciata, utilizzando convalida incrociata senza soggetto a 10 pieghe

Metodi di Confronto

  • Confronto Tokenizzatori: LaBraM
  • Confronto Modelli Fondamentali: NeuroGPT, CBraMod, LaBraM, EEGPT, BIOT

Dettagli di Implementazione

  • Addestramento Tokenizzatore: 100 epoche, S=4 rami temporali, 4 codebook RVQ, ciascuno contenente 8 codebook singoli Vi ∈ R^(8192×128)
  • Addestramento Modello Fondamentale: 50 epoche, λ_circle = 0,4
  • Hardware: NVIDIA DGX, 4 GPU NVIDIA Tesla V100

Risultati Sperimentali

Risultati Principali

1. Prestazioni di Ricostruzione del Tokenizzatore

Valutazione Intra-Distribuzione (Tabella 1):

Banda di FrequenzaSegnale GrezzoDeltaThetaAlfaBetaGamma
LaBraM1.0711.5610.1840.0990.1220.020
NeuroRVQ0.0160.0060.0020.0020.0050.002

NeuroRVQ realizza errori di ricostruzione di ordini di grandezza inferiori su tutte le bande di frequenza.

Valutazione Extra-Distribuzione:

  • Su compiti di memoria e movimento, NeuroRVQ supera costantemente entrambe le versioni di LaBraM
  • Dimostra capacità di generalizzazione superiore

2. Prestazioni dei Compiti a Valle

ModelloMotoreMemoriaSonnoOcchiMediaParametri
NeuroGPT0.682±0.0830.597±0.0290.674±0.0330.827±0.0360.695±0.04579.5M
CBraMod0.614±0.1040.574±0.0380.635±0.0410.839±0.0410.666±0.0564.9M
LaBraM0.630±0.0760.526±0.0260.652±0.0370.799±0.0470.652±0.0475.8M
NeuroRVQ0.700±0.0730.574±0.0270.728±0.0280.869±0.0260.717±0.0385.9M

NeuroRVQ raggiunge prestazioni migliori o secondarie su tutti i compiti, con prestazioni medie ottimali.

Esperimenti di Ablazione

  • Strati RVQ: Gli esperimenti dimostrano che l'utilizzo di 8 strati Vi ∈ R^(8192×128) realizza le migliori prestazioni di ricostruzione
  • Rappresentazione della Fase: La rappresentazione seno-coseno rispetto alla previsione diretta della fase migliora significativamente la stabilità dell'addestramento

Risultati Sperimentali

  1. Efficacia della Progettazione Multi-Scala: Le convoluzioni temporali con diversi dimensioni del kernel catturano con successo le caratteristiche multi-frequenza dei segnali EEG
  2. Importanza della Perdita Consapevole della Fase: Il vincolo del cerchio unitario garantisce il significato geometrico della previsione della fase
  3. Efficienza dei Parametri: NeuroRVQ realizza prestazioni migliori rispetto a NeuroGPT con 79.5M parametri utilizzando solo 5.9M parametri

Lavori Correlati

Metodi Tradizionali di Analisi EEG

I metodi iniziali si affidavano a caratteristiche costruite manualmente come la densità spettrale di potenza (PSD) e l'analisi delle componenti indipendenti (ICA), ma hanno capacità di generalizzazione limitate a causa della grande variabilità tra soggetti e delle caratteristiche di rumore dei segnali EEG.

Era dell'Apprendimento Profondo

Modelli come EEGNet, EEGInception e EEGConformer hanno ridotto la dipendenza da caratteristiche costruite manualmente, ma richiedono comunque dati accuratamente annotati e addestramento specifico per il compito.

Modelli Fondamentali

LaBraM, NeuroGPT e CBraMod rappresentano la direzione dello sviluppo dei modelli fondamentali EEG, ma affrontano tutti il collo di bottiglia della tokenizzazione del segnale. NeuroRVQ affronta questo problema critico attraverso il miglioramento della progettazione del codebook.

Conclusioni e Discussione

Conclusioni Principali

  1. Il tokenizzatore NeuroRVQ realizza prestazioni SOTA di ricostruzione del segnale EEG
  2. L'estrazione di caratteristiche multi-scala e la progettazione RVQ gerarchica catturano efficacemente i modelli complessi dei segnali EEG
  3. L'addestramento consapevole della fase e dell'ampiezza migliora significativamente la qualità della tokenizzazione
  4. Raggiunge prestazioni ottimali su molteplici compiti BCI a valle

Limitazioni

  1. Complessità Computazionale: L'encoder multi-scala e i molteplici codebook RVQ aumentano il carico computazionale
  2. Dipendenza dai Dati: Le prestazioni rimangono dipendenti dalla qualità e dalla diversità dei dati di preaddestramento su larga scala
  3. Bande di Frequenza Fisse: La progettazione attuale è orientata alle bande di frequenza EEG tradizionali e potrebbe non essere applicabile ad altri segnali biologici

Direzioni Future

  1. Integrazione di Inferenza Causale: Combinazione con strategie di mascheramento spazio-temporale più mirate
  2. Estensione Multimodale: Estensione dei principi ad altri segnali biologici
  3. Ottimizzazione dell'Architettura: Esplorazione dell'integrazione di architetture LBM su scala più ampia

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione Tecnica: La progettazione RVQ multi-scala e la perdita consapevole della fase rappresentano innovazioni importanti specifiche per le caratteristiche dei segnali EEG
  2. Esperimenti Completi: Include valutazioni intra e extra-distribuzione, esperimenti di ablazione e verifica multi-compito
  3. Fondamento Teorico Solido: La progettazione basata su principi di elaborazione del segnale ha un forte supporto teorico
  4. Alto Valore Pratico: Migliora significativamente le prestazioni dei modelli fondamentali EEG

Insufficienze

  1. Baseline di Confronto Limitati: Principalmente confrontati con LaBraM, mancano confronti con più metodi basati su codebook
  2. Analisi dei Costi Computazionali Mancante: Non fornisce analisi dettagliata della complessità computazionale e del tempo di inferenza
  3. Verifica di Generalizzazione Insufficiente: Principalmente verificata su compiti BCI, con verifica limitata in altri scenari di applicazione EEG

Impatto

  1. Contributo Accademico: Fornisce una soluzione di tokenizzazione importante per i modelli fondamentali EEG
  2. Valore Pratico: Può essere direttamente applicato al miglioramento dei sistemi BCI esistenti
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni di iperparametri

Scenari Applicabili

  • Applicazioni che richiedono ricostruzione di segnali EEG ad alta fedeltà
  • Preaddestramento e fine-tuning di dati EEG su larga scala
  • Sviluppo di sistemi BCI multi-compito
  • Ricerca su modelli fondamentali di segnali biologici

Riferimenti Bibliografici

L'articolo cita 68 riferimenti correlati, coprendo molteplici campi inclusa l'analisi EEG, l'apprendimento profondo e i modelli fondamentali, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo dell'elaborazione dei segnali EEG e dei modelli fondamentali. Attraverso una progettazione innovativa specifica per le caratteristiche dei segnali EEG, migliora significativamente le prestazioni dei metodi esistenti, fornendo un importante impulso allo sviluppo di questo campo.