2025-11-23T22:58:17.474910

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

Barmpas, Lee, Koliousis et al.

Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.

academic

NeuroRVQ: Multi-Scale EEG Tokenisierung für generative große Gehirnwellenmodelle

Grundlegende Informationen

Papier-ID: 2510.13068
Titel: NeuroRVQ: Multi-Scale EEG Tokenisierung für generative große Gehirnwellenmodelle
Autoren: Konstantinos Barmpas, Na Lee, Alexandros Koliousis, Yannis Panagakis, Dimitrios Adamos, Nikolaos Laskaris, Stefanos Zafeiriou
Klassifizierung: cs.LG cs.AI cs.HC
Veröffentlichungsdatum: 15. Oktober 2025 (Preprint)
Papierlink: https://arxiv.org/abs/2510.13068

Zusammenfassung

Elektroenzephalogramm(EEG)-Signale erfassen neuronale Aktivität auf mehreren zeitlichen und spektralen Skalen und erzeugen reichhaltige, aber komplexe Signale, die Herausforderungen für das Repräsentationslernens darstellen. In jüngster Zeit haben EEG-Grundmodelle, die durch Vorhersage maskierter Signaltoken trainiert werden, Versprechen beim Lernen verallgemeinerbarer Repräsentationen gezeigt, aber ihre Leistung wird durch das Signaltokenisierungsmodul begrenzt. Bestehende neuronale Tokenizer können hochfrequente Dynamiken nicht bewahren und begrenzen ihre Fähigkeit zur hochgetreuen Rekonstruktion von EEG-Signalen. Dieses Papier führt NeuroRVQ ein, einen skalierbaren Gehirnwellenmodell(LBM) mit einem codebuchgestützten Tokenizer im Mittelpunkt. Der Tokenizer integriert: (i) ein Multi-Scale-Merkmalsextraktionsmodul, das das vollständige Frequenzneuralspektrum erfasst; (ii) hierarchische residuelle Vektorquantisierung(RVQ)-Codebücher für hochauflösende Kodierung; (iii) eine phasen- und amplitudenabhängige Verlustfunktion für EEG-Signale für effizientes Training.

Forschungshintergrund und Motivation

Problemdefinition

Gehirn-Computer-Schnittstellen(BCI)-Systeme ermöglichen direkte Kommunikation zwischen Gehirn und Außenwelt durch Analyse von Gehirnwellen, die von EEG-Geräten aufgezeichnet werden. EEG-Signale können das vollständige Spektrum menschlicher Erfahrung darstellen, von Schlaf und Emotionen bis zu Bewegung. Allerdings sehen sich bestehende Gehirnwellenmodelle(LBMs) einem grundlegenden Engpass gegenüber — der Signaltokenisierung.

Kernherausforderungen

Multi-Scale-Charakteristiken: Gehirnaktivität entfaltet sich auf mehreren Frequenzskalen, einschließlich Delta(0,5-4 Hz), Theta(4-8 Hz), Alpha(8-13 Hz), Beta(13-30 Hz) und Gamma(>30 Hz) Frequenzbänder
Tokenisierungsqualität: Bestehende Tokenizer haben Schwierigkeiten, vollständige Strukturinformationen zu bewahren, besonders hochfrequente Komponenten, die für robustes generatives Maskenmodellieren entscheidend sind
Rekonstruktionstreue: Die direkte Anwendung diskreter Codebuch-Tokenizer aus Computer Vision(wie VQ-VAE) kann keine treue Rekonstruktion von Gehirnsignalen erreichen

Forschungsmotivation

Die Autoren vertreten die Ansicht, dass der Schlüssel zur Freischaltung von EEG-Grundskalen-Maskenmodellierung in der Tokenizer-Gestaltung liegt. Ein gut gestalteter Tokenizer sollte nicht nur kontinuierliche Neuralsignale in diskrete Token komprimieren, sondern auch die ursprüngliche Wellenform auf allen wichtigen Frequenzskalen treu rekonstruieren können.

Kernbeiträge

Einführung des NeuroRVQ-Tokenizers: Erfassung von Multi-Scale-Frequenzmerkmalen durch Anwendung zeitlicher Faltungen mit unterschiedlichen Kerngrößen
Gestaltung einer hierarchischen RVQ-Codebuch-Struktur: Ein Codebuch pro Frequenzskala, Verwendung von 32 Codebüchern(2³² Parameter) zur Erfassung komplexer Muster, die für hochgetreue Signalrekonstruktion erforderlich sind
Einführung einer phasen- und amplitudenabhängigen Verlustfunktion: Basierend auf starken Signalverarbeitungsprinzipien, Erfassung von Amplitude und verpackter Phaseninformation von EEG-Signalen durch Sinus- und Kosinusdarstellung
Erreichung von SOTA-Leistung: 15% höhere Genauigkeit als bestehende LBMs bei vier BCI-Klassifizierungsaufgaben

Methodische Erklärung

Aufgabendefinition

Gegeben eine multivariate EEG-Zeitreihe X ∈ R^(C×T)(wobei T die Anzahl der Zeitpunkte und C die Anzahl der Elektroden ist), besteht das Ziel darin:

Kontinuierliche EEG-Signale in diskrete Neuraltokens zu tokenisieren
Genaue Rekonstruktion über alle Frequenzbänder zu unterstützen
Robustes generatives Maskenmodellieren zu ermöglichen

Modellarchitektur

1. Patch-Generierung

Aufteilung des Eingabe-EEG-Signals in P Zeitpatches der Länge w(entsprechend einem 1-Sekunden-Zeitfenster), um die aufgeteilte Eingabeprobe x ∈ R^(P×w) zu erhalten.

2. Multi-Scale-Zeitencoder

Verwendung eines Inception-ähnlichen Moduls zur Extraktion von Merkmalen auf S verschiedenen zeitlichen Skalen:

Anwendung von 1-D-Zeitfaltungen mit unterschiedlichen Kerngrößen: K_temporal1, K_temporal2, ..., K_temporalS
Jeder Zeitbranch enthält: 1-D-Faltung → Gruppennormalisierung → GELU-Aktivierung → Pooling(zweimal wiederholt)
Erzeugung von S Ausgaben: F1, F2, ..., FS, wobei Fi ∈ R^w

3. Transformer-Encoder

Einführung von trainierbaren zeitlichen Einbettungen TE und räumlichen Einbettungen SE
Durchleitung von Multi-Scale-Merkmalen mit Einbettungen durch gemeinsame Transformer-Schichten
Erzeugung von Multi-Scale-Patch-Repräsentationen: p1, p2, ..., pS ∈ R^D

4. RVQ-Codebuch

Für jeden Zeitbranch wird das RVQ-Codebuch R zur Diskretisierung verwendet:

R = {Vi | i = 1, ..., N}
Vi = {vj | j = 1, ..., K} ∈ R^(K×D)

Iterativer Quantisierungsprozess:

z1 = arg min_{v∈V1} ||l2(p1) - l2(v)||
pi+1 = pi - zi
p̂ = Σ(i=1 to N) zi

5. Tokenizer-Decoder

Rekonstruktion des ursprünglichen Signals basierend auf gelernten Codebuch-Tokens, Verwendung des Fourier-Spektrums als Rekonstruktionsziel, einschließlich drei Vorhersageköpfe:

log(1 + Â): logarithmische Amplitude
sin φ̂: Phasen-Sinuskomponente
cos φ̂: Phasen-Kosinuskomponente

Technische Innovationen

1. Einheitskreis-bewusster Phasenverlust

Traditionelle Methoden wenden MSE direkt auf Phase an, was zu periodischen Grenzunstetigkeitsproblemen führt. NeuroRVQ führt einen einheitskreis-bewussten Verlust ein:

L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
             + λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²

2. Umfassendes Trainingsziel

LT = ||log(1 + Âi) - log(1 + Ai)||²₂ + L_unit-loss + ||X̂i - Xi||²₂ + LQ

wobei LQ der Quantisierungsverlust ist.

Experimentelle Einrichtung

Datensätze

Verwendung von 13 großen EEG-Datensätzen(etwa 235 Stunden), einschließlich:

Öffentliche Datensätze: BCI Competition IV-1, Grasp and Lift, Physionet MI und 12 weitere
Selbst gesammelte Datensätze: etwa 235 Stunden Bewegungsvorstellungsdaten(29 Kanäle)
Alle Daten neu abgetastet auf 200 Hz

Bewertungsmetriken

Rekonstruktionsqualität: mittlerer quadratischer Fehler(MSE) über Frequenzbänder
Nachgelagerte Aufgaben: ausgewogene Genauigkeit, Verwendung von 10-facher subjektunabhängiger Kreuzvalidierung

Vergleichsmethoden

Tokenizer-Vergleich: LaBraM
Grundmodell-Vergleich: NeuroGPT, CBraMod, LaBraM, EEGPT, BIOT

Implementierungsdetails

Tokenizer-Training: 100 Epochen, S=4 Zeitbranches, 4 RVQ-Codebücher, jedes mit 8 einzelnen Codebüchern Vi ∈ R^(8192×128)
Grundmodell-Training: 50 Epochen, λ_circle = 0,4
Hardware: NVIDIA DGX, 4 NVIDIA Tesla V100 GPUs

Experimentelle Ergebnisse

Hauptergebnisse

1. Tokenizer-Rekonstruktionsleistung

Verteilungsinterne Bewertung(Tabelle 1):

Frequenzband	Raw Signal	Delta	Theta	Alpha	Beta	Gamma
LaBraM	1.071	1.561	0.184	0.099	0.122	0.020
NeuroRVQ	0.016	0.006	0.002	0.002	0.005	0.002

NeuroRVQ erreicht über alle Frequenzbänder hinweg um Größenordnungen niedrigere Rekonstruktionsfehler.

Verteilungsexterne Bewertung:

Bei Gedächtnis- und Bewegungsaufgaben übertrifft NeuroRVQ konsistent beide Versionen von LaBraM
Zeigt überlegene Generalisierungsfähigkeit

2. Nachgelagerte Aufgabenleistung

Modell	Motor	Memory	Sleep	Eyes	Mean	Parameter
NeuroGPT	0.682±0.083	0.597±0.029	0.674±0.033	0.827±0.036	0.695±0.045	79.5M
CBraMod	0.614±0.104	0.574±0.038	0.635±0.041	0.839±0.041	0.666±0.056	4.9M
LaBraM	0.630±0.076	0.526±0.026	0.652±0.037	0.799±0.047	0.652±0.047	5.8M
NeuroRVQ	0.700±0.073	0.574±0.027	0.728±0.028	0.869±0.026	0.717±0.038	5.9M

NeuroRVQ erreicht beste oder zweitbeste Leistung bei allen Aufgaben mit optimaler durchschnittlicher Leistung.

Ablationsstudien

RVQ-Schichten: Experimente zeigen, dass die Verwendung von 8 Schichten Vi ∈ R^(8192×128) optimale Rekonstruktionsleistung erreicht
Phasendarstellung: Die Sinus-Kosinus-Darstellung verbessert die Trainingsstabilität erheblich im Vergleich zur direkten Phasenvorhersage

Experimentelle Erkenntnisse

Effektivität des Multi-Scale-Designs: Zeitliche Faltungen mit unterschiedlichen Kerngrößen erfassen erfolgreich die Multi-Frequenz-Charakteristiken von EEG-Signalen
Wichtigkeit des phasenbewussten Verlusts: Die Einheitskreisbeschränkung gewährleistet die geometrische Bedeutung der Phasenvorhersage
Parametereffizientz: NeuroRVQ erreicht mit 5,9M Parametern bessere Leistung als NeuroGPT mit 79,5M Parametern

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Der NeuroRVQ-Tokenizer erreicht SOTA-EEG-Signalrekonstruktionsleistung
Multi-Scale-Merkmalsextraktion und hierarchisches RVQ-Design erfassen effektiv komplexe Muster von EEG-Signalen
Phasen- und amplitudenabhängiges Training verbessert die Tokenisierungsqualität erheblich
Erreicht beste Leistung bei mehreren nachgelagerten BCI-Aufgaben

Einschränkungen

Rechenkomplexität: Multi-Scale-Encoder und mehrere RVQ-Codebücher erhöhen den Rechenaufwand
Datenabhängigkeit: Die Leistung hängt immer noch von der Qualität und Vielfalt großer Vortrainingsdaten ab
Feste Frequenzbänder: Das aktuelle Design zielt auf traditionelle EEG-Frequenzbänder ab und ist möglicherweise nicht auf andere Biosignale anwendbar

Zukünftige Richtungen

Integration kausaler Inferenz: Kombination mit gezielteren räumlich-zeitlichen Maskenstrategien
Multimodale Erweiterung: Erweiterung der Prinzipien auf andere Biosignale
Architekturoptimierung: Erkundung der Integration größerer LBM-Architekturen

Tiefgreifende Bewertung

Stärken

Starke technische Innovation: Multi-Scale-RVQ-Gestaltung und phasenbewusster Verlust sind wichtige Innovationen für EEG-Signalcharakteristiken
Umfassende Experimente: Einschließlich verteilungsinterner und -externer Bewertung, Ablationsstudien und Multi-Task-Validierung
Solide theoretische Grundlage: Auf Signalverarbeitungsprinzipien basierende Gestaltung hat starke theoretische Unterstützung
Hoher praktischer Wert: Signifikante Verbesserung der EEG-Grundmodellleistung

Mängel

Begrenzte Vergleichsbaselines: Hauptsächlich Vergleich mit LaBraM, mangelnde Vergleiche mit mehr Codebuch-Methoden
Fehlende Rechenkostenanalyse: Keine detaillierte Analyse der Rechenkomplexität und Inferenzzeit
Unzureichende Generalisierungsvalidierung: Hauptsächlich auf BCI-Aufgaben validiert, begrenzte Validierung in anderen EEG-Anwendungsszenarien

Auswirkungen

Akademischer Beitrag: Bietet wichtige Tokenisierungslösung für EEG-Grundmodelle
Praktischer Wert: Kann direkt zur Verbesserung bestehender BCI-Systeme angewendet werden
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Hyperparameter-Einstellungen

Anwendbare Szenarien

Anwendungen, die hochgetreue EEG-Signalrekonstruktion erfordern
Vortraining und Feinabstimmung großer EEG-Datenmengen
Entwicklung von Multi-Task-BCI-Systemen
Forschung zu Biosignal-Grundmodellen

Referenzen

Das Papier zitiert 68 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie EEG-Analyse, tiefes Lernen und Grundmodelle abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigen Beiträgen im Bereich EEG-Signalverarbeitung und Grundmodelle. Durch innovative Gestaltung, die auf EEG-Signalcharakteristiken zugeschnitten ist, verbessert es die Leistung bestehender Methoden erheblich und bietet wichtige Impulse für die Entwicklung dieses Bereichs.