2025-11-23T22:58:17.474910

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

Barmpas, Lee, Koliousis et al.
Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.
academic

NeuroRVQ: Multi-Scale EEG Tokenisierung für generative große Gehirnwellenmodelle

Grundlegende Informationen

  • Papier-ID: 2510.13068
  • Titel: NeuroRVQ: Multi-Scale EEG Tokenisierung für generative große Gehirnwellenmodelle
  • Autoren: Konstantinos Barmpas, Na Lee, Alexandros Koliousis, Yannis Panagakis, Dimitrios Adamos, Nikolaos Laskaris, Stefanos Zafeiriou
  • Klassifizierung: cs.LG cs.AI cs.HC
  • Veröffentlichungsdatum: 15. Oktober 2025 (Preprint)
  • Papierlink: https://arxiv.org/abs/2510.13068

Zusammenfassung

Elektroenzephalogramm(EEG)-Signale erfassen neuronale Aktivität auf mehreren zeitlichen und spektralen Skalen und erzeugen reichhaltige, aber komplexe Signale, die Herausforderungen für das Repräsentationslernens darstellen. In jüngster Zeit haben EEG-Grundmodelle, die durch Vorhersage maskierter Signaltoken trainiert werden, Versprechen beim Lernen verallgemeinerbarer Repräsentationen gezeigt, aber ihre Leistung wird durch das Signaltokenisierungsmodul begrenzt. Bestehende neuronale Tokenizer können hochfrequente Dynamiken nicht bewahren und begrenzen ihre Fähigkeit zur hochgetreuen Rekonstruktion von EEG-Signalen. Dieses Papier führt NeuroRVQ ein, einen skalierbaren Gehirnwellenmodell(LBM) mit einem codebuchgestützten Tokenizer im Mittelpunkt. Der Tokenizer integriert: (i) ein Multi-Scale-Merkmalsextraktionsmodul, das das vollständige Frequenzneuralspektrum erfasst; (ii) hierarchische residuelle Vektorquantisierung(RVQ)-Codebücher für hochauflösende Kodierung; (iii) eine phasen- und amplitudenabhängige Verlustfunktion für EEG-Signale für effizientes Training.

Forschungshintergrund und Motivation

Problemdefinition

Gehirn-Computer-Schnittstellen(BCI)-Systeme ermöglichen direkte Kommunikation zwischen Gehirn und Außenwelt durch Analyse von Gehirnwellen, die von EEG-Geräten aufgezeichnet werden. EEG-Signale können das vollständige Spektrum menschlicher Erfahrung darstellen, von Schlaf und Emotionen bis zu Bewegung. Allerdings sehen sich bestehende Gehirnwellenmodelle(LBMs) einem grundlegenden Engpass gegenüber — der Signaltokenisierung.

Kernherausforderungen

  1. Multi-Scale-Charakteristiken: Gehirnaktivität entfaltet sich auf mehreren Frequenzskalen, einschließlich Delta(0,5-4 Hz), Theta(4-8 Hz), Alpha(8-13 Hz), Beta(13-30 Hz) und Gamma(>30 Hz) Frequenzbänder
  2. Tokenisierungsqualität: Bestehende Tokenizer haben Schwierigkeiten, vollständige Strukturinformationen zu bewahren, besonders hochfrequente Komponenten, die für robustes generatives Maskenmodellieren entscheidend sind
  3. Rekonstruktionstreue: Die direkte Anwendung diskreter Codebuch-Tokenizer aus Computer Vision(wie VQ-VAE) kann keine treue Rekonstruktion von Gehirnsignalen erreichen

Forschungsmotivation

Die Autoren vertreten die Ansicht, dass der Schlüssel zur Freischaltung von EEG-Grundskalen-Maskenmodellierung in der Tokenizer-Gestaltung liegt. Ein gut gestalteter Tokenizer sollte nicht nur kontinuierliche Neuralsignale in diskrete Token komprimieren, sondern auch die ursprüngliche Wellenform auf allen wichtigen Frequenzskalen treu rekonstruieren können.

Kernbeiträge

  1. Einführung des NeuroRVQ-Tokenizers: Erfassung von Multi-Scale-Frequenzmerkmalen durch Anwendung zeitlicher Faltungen mit unterschiedlichen Kerngrößen
  2. Gestaltung einer hierarchischen RVQ-Codebuch-Struktur: Ein Codebuch pro Frequenzskala, Verwendung von 32 Codebüchern(2³² Parameter) zur Erfassung komplexer Muster, die für hochgetreue Signalrekonstruktion erforderlich sind
  3. Einführung einer phasen- und amplitudenabhängigen Verlustfunktion: Basierend auf starken Signalverarbeitungsprinzipien, Erfassung von Amplitude und verpackter Phaseninformation von EEG-Signalen durch Sinus- und Kosinusdarstellung
  4. Erreichung von SOTA-Leistung: 15% höhere Genauigkeit als bestehende LBMs bei vier BCI-Klassifizierungsaufgaben

Methodische Erklärung

Aufgabendefinition

Gegeben eine multivariate EEG-Zeitreihe X ∈ R^(C×T)(wobei T die Anzahl der Zeitpunkte und C die Anzahl der Elektroden ist), besteht das Ziel darin:

  1. Kontinuierliche EEG-Signale in diskrete Neuraltokens zu tokenisieren
  2. Genaue Rekonstruktion über alle Frequenzbänder zu unterstützen
  3. Robustes generatives Maskenmodellieren zu ermöglichen

Modellarchitektur

1. Patch-Generierung

Aufteilung des Eingabe-EEG-Signals in P Zeitpatches der Länge w(entsprechend einem 1-Sekunden-Zeitfenster), um die aufgeteilte Eingabeprobe x ∈ R^(P×w) zu erhalten.

2. Multi-Scale-Zeitencoder

Verwendung eines Inception-ähnlichen Moduls zur Extraktion von Merkmalen auf S verschiedenen zeitlichen Skalen:

  • Anwendung von 1-D-Zeitfaltungen mit unterschiedlichen Kerngrößen: K_temporal1, K_temporal2, ..., K_temporalS
  • Jeder Zeitbranch enthält: 1-D-Faltung → Gruppennormalisierung → GELU-Aktivierung → Pooling(zweimal wiederholt)
  • Erzeugung von S Ausgaben: F1, F2, ..., FS, wobei Fi ∈ R^w

3. Transformer-Encoder

  • Einführung von trainierbaren zeitlichen Einbettungen TE und räumlichen Einbettungen SE
  • Durchleitung von Multi-Scale-Merkmalen mit Einbettungen durch gemeinsame Transformer-Schichten
  • Erzeugung von Multi-Scale-Patch-Repräsentationen: p1, p2, ..., pS ∈ R^D

4. RVQ-Codebuch

Für jeden Zeitbranch wird das RVQ-Codebuch R zur Diskretisierung verwendet:

R = {Vi | i = 1, ..., N}
Vi = {vj | j = 1, ..., K} ∈ R^(K×D)

Iterativer Quantisierungsprozess:

z1 = arg min_{v∈V1} ||l2(p1) - l2(v)||
pi+1 = pi - zi
p̂ = Σ(i=1 to N) zi

5. Tokenizer-Decoder

Rekonstruktion des ursprünglichen Signals basierend auf gelernten Codebuch-Tokens, Verwendung des Fourier-Spektrums als Rekonstruktionsziel, einschließlich drei Vorhersageköpfe:

  • log(1 + Â): logarithmische Amplitude
  • sin φ̂: Phasen-Sinuskomponente
  • cos φ̂: Phasen-Kosinuskomponente

Technische Innovationen

1. Einheitskreis-bewusster Phasenverlust

Traditionelle Methoden wenden MSE direkt auf Phase an, was zu periodischen Grenzunstetigkeitsproblemen führt. NeuroRVQ führt einen einheitskreis-bewussten Verlust ein:

L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
             + λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²

2. Umfassendes Trainingsziel

LT = ||log(1 + Âi) - log(1 + Ai)||²₂ + L_unit-loss + ||X̂i - Xi||²₂ + LQ

wobei LQ der Quantisierungsverlust ist.

Experimentelle Einrichtung

Datensätze

Verwendung von 13 großen EEG-Datensätzen(etwa 235 Stunden), einschließlich:

  • Öffentliche Datensätze: BCI Competition IV-1, Grasp and Lift, Physionet MI und 12 weitere
  • Selbst gesammelte Datensätze: etwa 235 Stunden Bewegungsvorstellungsdaten(29 Kanäle)
  • Alle Daten neu abgetastet auf 200 Hz

Bewertungsmetriken

  • Rekonstruktionsqualität: mittlerer quadratischer Fehler(MSE) über Frequenzbänder
  • Nachgelagerte Aufgaben: ausgewogene Genauigkeit, Verwendung von 10-facher subjektunabhängiger Kreuzvalidierung

Vergleichsmethoden

  • Tokenizer-Vergleich: LaBraM
  • Grundmodell-Vergleich: NeuroGPT, CBraMod, LaBraM, EEGPT, BIOT

Implementierungsdetails

  • Tokenizer-Training: 100 Epochen, S=4 Zeitbranches, 4 RVQ-Codebücher, jedes mit 8 einzelnen Codebüchern Vi ∈ R^(8192×128)
  • Grundmodell-Training: 50 Epochen, λ_circle = 0,4
  • Hardware: NVIDIA DGX, 4 NVIDIA Tesla V100 GPUs

Experimentelle Ergebnisse

Hauptergebnisse

1. Tokenizer-Rekonstruktionsleistung

Verteilungsinterne Bewertung(Tabelle 1):

FrequenzbandRaw SignalDeltaThetaAlphaBetaGamma
LaBraM1.0711.5610.1840.0990.1220.020
NeuroRVQ0.0160.0060.0020.0020.0050.002

NeuroRVQ erreicht über alle Frequenzbänder hinweg um Größenordnungen niedrigere Rekonstruktionsfehler.

Verteilungsexterne Bewertung:

  • Bei Gedächtnis- und Bewegungsaufgaben übertrifft NeuroRVQ konsistent beide Versionen von LaBraM
  • Zeigt überlegene Generalisierungsfähigkeit

2. Nachgelagerte Aufgabenleistung

ModellMotorMemorySleepEyesMeanParameter
NeuroGPT0.682±0.0830.597±0.0290.674±0.0330.827±0.0360.695±0.04579.5M
CBraMod0.614±0.1040.574±0.0380.635±0.0410.839±0.0410.666±0.0564.9M
LaBraM0.630±0.0760.526±0.0260.652±0.0370.799±0.0470.652±0.0475.8M
NeuroRVQ0.700±0.0730.574±0.0270.728±0.0280.869±0.0260.717±0.0385.9M

NeuroRVQ erreicht beste oder zweitbeste Leistung bei allen Aufgaben mit optimaler durchschnittlicher Leistung.

Ablationsstudien

  • RVQ-Schichten: Experimente zeigen, dass die Verwendung von 8 Schichten Vi ∈ R^(8192×128) optimale Rekonstruktionsleistung erreicht
  • Phasendarstellung: Die Sinus-Kosinus-Darstellung verbessert die Trainingsstabilität erheblich im Vergleich zur direkten Phasenvorhersage

Experimentelle Erkenntnisse

  1. Effektivität des Multi-Scale-Designs: Zeitliche Faltungen mit unterschiedlichen Kerngrößen erfassen erfolgreich die Multi-Frequenz-Charakteristiken von EEG-Signalen
  2. Wichtigkeit des phasenbewussten Verlusts: Die Einheitskreisbeschränkung gewährleistet die geometrische Bedeutung der Phasenvorhersage
  3. Parametereffizientz: NeuroRVQ erreicht mit 5,9M Parametern bessere Leistung als NeuroGPT mit 79,5M Parametern

Verwandte Arbeiten

Traditionelle EEG-Analysemethoden

Frühe Methoden verließen sich auf handgefertigte Merkmale wie Leistungsspektraldichte(PSD) und unabhängige Komponentenanalyse(ICA), zeigten aber begrenzte Generalisierungsfähigkeit aufgrund großer Variabilität zwischen Probanden und Rauschcharakteristiken von EEG-Signalen.

Tiefes Lernen Ära

Modelle wie EEGNet, EEGInception, EEGConformer reduzierten die Abhängigkeit von handgefertigten Merkmalen, erforderten aber immer noch sorgfältig annotierte Daten und aufgabenspezifisches Training.

Grundmodelle

LaBraM, NeuroGPT, CBraMod und andere repräsentieren die Entwicklungsrichtung von EEG-Grundmodellen, sehen sich aber alle dem Engpass der Signaltokenisierung gegenüber. NeuroRVQ löst dieses kritische Problem durch verbesserte Codebuch-Gestaltung.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Der NeuroRVQ-Tokenizer erreicht SOTA-EEG-Signalrekonstruktionsleistung
  2. Multi-Scale-Merkmalsextraktion und hierarchisches RVQ-Design erfassen effektiv komplexe Muster von EEG-Signalen
  3. Phasen- und amplitudenabhängiges Training verbessert die Tokenisierungsqualität erheblich
  4. Erreicht beste Leistung bei mehreren nachgelagerten BCI-Aufgaben

Einschränkungen

  1. Rechenkomplexität: Multi-Scale-Encoder und mehrere RVQ-Codebücher erhöhen den Rechenaufwand
  2. Datenabhängigkeit: Die Leistung hängt immer noch von der Qualität und Vielfalt großer Vortrainingsdaten ab
  3. Feste Frequenzbänder: Das aktuelle Design zielt auf traditionelle EEG-Frequenzbänder ab und ist möglicherweise nicht auf andere Biosignale anwendbar

Zukünftige Richtungen

  1. Integration kausaler Inferenz: Kombination mit gezielteren räumlich-zeitlichen Maskenstrategien
  2. Multimodale Erweiterung: Erweiterung der Prinzipien auf andere Biosignale
  3. Architekturoptimierung: Erkundung der Integration größerer LBM-Architekturen

Tiefgreifende Bewertung

Stärken

  1. Starke technische Innovation: Multi-Scale-RVQ-Gestaltung und phasenbewusster Verlust sind wichtige Innovationen für EEG-Signalcharakteristiken
  2. Umfassende Experimente: Einschließlich verteilungsinterner und -externer Bewertung, Ablationsstudien und Multi-Task-Validierung
  3. Solide theoretische Grundlage: Auf Signalverarbeitungsprinzipien basierende Gestaltung hat starke theoretische Unterstützung
  4. Hoher praktischer Wert: Signifikante Verbesserung der EEG-Grundmodellleistung

Mängel

  1. Begrenzte Vergleichsbaselines: Hauptsächlich Vergleich mit LaBraM, mangelnde Vergleiche mit mehr Codebuch-Methoden
  2. Fehlende Rechenkostenanalyse: Keine detaillierte Analyse der Rechenkomplexität und Inferenzzeit
  3. Unzureichende Generalisierungsvalidierung: Hauptsächlich auf BCI-Aufgaben validiert, begrenzte Validierung in anderen EEG-Anwendungsszenarien

Auswirkungen

  1. Akademischer Beitrag: Bietet wichtige Tokenisierungslösung für EEG-Grundmodelle
  2. Praktischer Wert: Kann direkt zur Verbesserung bestehender BCI-Systeme angewendet werden
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Hyperparameter-Einstellungen

Anwendbare Szenarien

  • Anwendungen, die hochgetreue EEG-Signalrekonstruktion erfordern
  • Vortraining und Feinabstimmung großer EEG-Datenmengen
  • Entwicklung von Multi-Task-BCI-Systemen
  • Forschung zu Biosignal-Grundmodellen

Referenzen

Das Papier zitiert 68 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie EEG-Analyse, tiefes Lernen und Grundmodelle abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigen Beiträgen im Bereich EEG-Signalverarbeitung und Grundmodelle. Durch innovative Gestaltung, die auf EEG-Signalcharakteristiken zugeschnitten ist, verbessert es die Leistung bestehender Methoden erheblich und bietet wichtige Impulse für die Entwicklung dieses Bereichs.