NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
Barmpas, Lee, Koliousis et al.
Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.
academic
NeuroRVQ: Tokenizzazione EEG Multi-Scala per Modelli Generativi di Onde Cerebrali su Larga Scala
I segnali elettroencefalografici (EEG) catturano l'attività neurale su molteplici scale temporali e spettrali, producendo segnali ricchi ma complessi che presentano sfide significative per l'apprendimento della rappresentazione. Recentemente, i modelli fondamentali EEG addestrati mediante la previsione di token di segnali mascherati hanno dimostrato promesse nell'apprendimento di rappresentazioni generalizzabili, tuttavia le loro prestazioni sono limitate dal modulo di tokenizzazione del segnale. I tokenizzatori neurali esistenti non riescono a preservare le dinamiche ad alta frequenza, limitando la loro capacità di ricostruire i segnali EEG con alta fedeltà. Questo articolo introduce NeuroRVQ, un modello di onde cerebrali su larga scala (LBM) incentrato su un tokenizzatore basato su codebook. Il tokenizzatore integra: (i) un modulo di estrazione di caratteristiche multi-scala che cattura lo spettro neurale completo delle frequenze; (ii) un codebook di quantizzazione vettoriale residua gerarchica (RVQ) per la codifica ad alta risoluzione; (iii) una funzione di perdita consapevole della fase e dell'ampiezza del segnale EEG per l'addestramento efficiente.
I sistemi di interfaccia cervello-computer (BCI) realizzano la comunicazione diretta tra il cervello e il mondo esterno analizzando le onde cerebrali registrate dai dispositivi EEG. I segnali EEG possono rappresentare l'intero spettro dell'esperienza umana, dal sonno e dalle emozioni al movimento. Tuttavia, i modelli di onde cerebrali attuali (LBM) affrontano un collo di bottiglia fondamentale: la tokenizzazione del segnale.
Caratteristiche Multi-Scala: L'attività cerebrale si sviluppa su molteplici scale di frequenza, incluse le bande delta (0,5-4 Hz), theta (4-8 Hz), alfa (8-13 Hz), beta (13-30 Hz) e gamma (>30 Hz)
Qualità della Tokenizzazione: I tokenizzatori esistenti hanno difficoltà a preservare le informazioni strutturali complete, in particolare le componenti ad alta frequenza, cruciali per la modellazione generativa robusta con maschere
Fedeltà della Ricostruzione: L'adozione diretta di tokenizzatori con codebook discreti dalla visione artificiale (come VQ-VAE) non riesce a realizzare una ricostruzione fedele dei segnali cerebrali
Gli autori sostengono che la chiave per sbloccare la modellazione con maschere su scala fondamentale EEG risieda nella progettazione del tokenizzatore. Un tokenizzatore ben progettato non dovrebbe solo comprimere i segnali neurali continui in token discreti, ma dovrebbe anche essere in grado di ricostruire fedelmente la forma d'onda originale su tutte le scale di frequenza importanti.
Proposta del Tokenizzatore NeuroRVQ: Cattura caratteristiche di frequenza multi-scala applicando convoluzioni temporali con diversi dimensioni del kernel
Progettazione della Struttura del Codebook RVQ Gerarchico: Un codebook per ogni scala di frequenza, utilizzando 32 codebook (parametri 2³²) per catturare i modelli complessi necessari per la ricostruzione del segnale ad alta fedeltà
Introduzione di una Funzione di Perdita Consapevole della Fase e dell'Ampiezza: Basata su principi robusti di elaborazione del segnale, cattura l'ampiezza del segnale EEG e le informazioni di fase avvolta attraverso rappresentazioni seno e coseno
Realizzazione di Prestazioni SOTA: Accuratezza superiore del 15% rispetto agli LBM esistenti su quattro compiti di classificazione BCI
Dividere il segnale EEG di input in P patch temporali di lunghezza w (corrispondenti a una finestra temporale di 1 secondo), ottenendo il campione di input segmentato x ∈ R^(P×w).
Ricostruisce il segnale originale basandosi sui token del codebook appresi, utilizzando lo spettro di Fourier come obiettivo di ricostruzione, includendo tre teste di previsione:
I metodi tradizionali applicano direttamente MSE alla fase, presentando problemi di discontinuità ai confini periodici. NeuroRVQ introduce una perdita consapevole del cerchio unitario:
L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
+ λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²
Strati RVQ: Gli esperimenti dimostrano che l'utilizzo di 8 strati Vi ∈ R^(8192×128) realizza le migliori prestazioni di ricostruzione
Rappresentazione della Fase: La rappresentazione seno-coseno rispetto alla previsione diretta della fase migliora significativamente la stabilità dell'addestramento
Efficacia della Progettazione Multi-Scala: Le convoluzioni temporali con diversi dimensioni del kernel catturano con successo le caratteristiche multi-frequenza dei segnali EEG
Importanza della Perdita Consapevole della Fase: Il vincolo del cerchio unitario garantisce il significato geometrico della previsione della fase
Efficienza dei Parametri: NeuroRVQ realizza prestazioni migliori rispetto a NeuroGPT con 79.5M parametri utilizzando solo 5.9M parametri
I metodi iniziali si affidavano a caratteristiche costruite manualmente come la densità spettrale di potenza (PSD) e l'analisi delle componenti indipendenti (ICA), ma hanno capacità di generalizzazione limitate a causa della grande variabilità tra soggetti e delle caratteristiche di rumore dei segnali EEG.
Modelli come EEGNet, EEGInception e EEGConformer hanno ridotto la dipendenza da caratteristiche costruite manualmente, ma richiedono comunque dati accuratamente annotati e addestramento specifico per il compito.
LaBraM, NeuroGPT e CBraMod rappresentano la direzione dello sviluppo dei modelli fondamentali EEG, ma affrontano tutti il collo di bottiglia della tokenizzazione del segnale. NeuroRVQ affronta questo problema critico attraverso il miglioramento della progettazione del codebook.
Complessità Computazionale: L'encoder multi-scala e i molteplici codebook RVQ aumentano il carico computazionale
Dipendenza dai Dati: Le prestazioni rimangono dipendenti dalla qualità e dalla diversità dei dati di preaddestramento su larga scala
Bande di Frequenza Fisse: La progettazione attuale è orientata alle bande di frequenza EEG tradizionali e potrebbe non essere applicabile ad altri segnali biologici
Forte Innovazione Tecnica: La progettazione RVQ multi-scala e la perdita consapevole della fase rappresentano innovazioni importanti specifiche per le caratteristiche dei segnali EEG
Esperimenti Completi: Include valutazioni intra e extra-distribuzione, esperimenti di ablazione e verifica multi-compito
Fondamento Teorico Solido: La progettazione basata su principi di elaborazione del segnale ha un forte supporto teorico
Alto Valore Pratico: Migliora significativamente le prestazioni dei modelli fondamentali EEG
L'articolo cita 68 riferimenti correlati, coprendo molteplici campi inclusa l'analisi EEG, l'apprendimento profondo e i modelli fondamentali, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: Questo è un articolo di alta qualità con importanti contributi nel campo dell'elaborazione dei segnali EEG e dei modelli fondamentali. Attraverso una progettazione innovativa specifica per le caratteristiche dei segnali EEG, migliora significativamente le prestazioni dei metodi esistenti, fornendo un importante impulso allo sviluppo di questo campo.