NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
Barmpas, Lee, Koliousis et al.
Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.
academic
NeuroRVQ: Multi-Scale EEG Tokenisierung für generative große Gehirnwellenmodelle
Elektroenzephalogramm(EEG)-Signale erfassen neuronale Aktivität auf mehreren zeitlichen und spektralen Skalen und erzeugen reichhaltige, aber komplexe Signale, die Herausforderungen für das Repräsentationslernens darstellen. In jüngster Zeit haben EEG-Grundmodelle, die durch Vorhersage maskierter Signaltoken trainiert werden, Versprechen beim Lernen verallgemeinerbarer Repräsentationen gezeigt, aber ihre Leistung wird durch das Signaltokenisierungsmodul begrenzt. Bestehende neuronale Tokenizer können hochfrequente Dynamiken nicht bewahren und begrenzen ihre Fähigkeit zur hochgetreuen Rekonstruktion von EEG-Signalen. Dieses Papier führt NeuroRVQ ein, einen skalierbaren Gehirnwellenmodell(LBM) mit einem codebuchgestützten Tokenizer im Mittelpunkt. Der Tokenizer integriert: (i) ein Multi-Scale-Merkmalsextraktionsmodul, das das vollständige Frequenzneuralspektrum erfasst; (ii) hierarchische residuelle Vektorquantisierung(RVQ)-Codebücher für hochauflösende Kodierung; (iii) eine phasen- und amplitudenabhängige Verlustfunktion für EEG-Signale für effizientes Training.
Gehirn-Computer-Schnittstellen(BCI)-Systeme ermöglichen direkte Kommunikation zwischen Gehirn und Außenwelt durch Analyse von Gehirnwellen, die von EEG-Geräten aufgezeichnet werden. EEG-Signale können das vollständige Spektrum menschlicher Erfahrung darstellen, von Schlaf und Emotionen bis zu Bewegung. Allerdings sehen sich bestehende Gehirnwellenmodelle(LBMs) einem grundlegenden Engpass gegenüber — der Signaltokenisierung.
Multi-Scale-Charakteristiken: Gehirnaktivität entfaltet sich auf mehreren Frequenzskalen, einschließlich Delta(0,5-4 Hz), Theta(4-8 Hz), Alpha(8-13 Hz), Beta(13-30 Hz) und Gamma(>30 Hz) Frequenzbänder
Tokenisierungsqualität: Bestehende Tokenizer haben Schwierigkeiten, vollständige Strukturinformationen zu bewahren, besonders hochfrequente Komponenten, die für robustes generatives Maskenmodellieren entscheidend sind
Rekonstruktionstreue: Die direkte Anwendung diskreter Codebuch-Tokenizer aus Computer Vision(wie VQ-VAE) kann keine treue Rekonstruktion von Gehirnsignalen erreichen
Die Autoren vertreten die Ansicht, dass der Schlüssel zur Freischaltung von EEG-Grundskalen-Maskenmodellierung in der Tokenizer-Gestaltung liegt. Ein gut gestalteter Tokenizer sollte nicht nur kontinuierliche Neuralsignale in diskrete Token komprimieren, sondern auch die ursprüngliche Wellenform auf allen wichtigen Frequenzskalen treu rekonstruieren können.
Einführung des NeuroRVQ-Tokenizers: Erfassung von Multi-Scale-Frequenzmerkmalen durch Anwendung zeitlicher Faltungen mit unterschiedlichen Kerngrößen
Gestaltung einer hierarchischen RVQ-Codebuch-Struktur: Ein Codebuch pro Frequenzskala, Verwendung von 32 Codebüchern(2³² Parameter) zur Erfassung komplexer Muster, die für hochgetreue Signalrekonstruktion erforderlich sind
Einführung einer phasen- und amplitudenabhängigen Verlustfunktion: Basierend auf starken Signalverarbeitungsprinzipien, Erfassung von Amplitude und verpackter Phaseninformation von EEG-Signalen durch Sinus- und Kosinusdarstellung
Erreichung von SOTA-Leistung: 15% höhere Genauigkeit als bestehende LBMs bei vier BCI-Klassifizierungsaufgaben
Aufteilung des Eingabe-EEG-Signals in P Zeitpatches der Länge w(entsprechend einem 1-Sekunden-Zeitfenster), um die aufgeteilte Eingabeprobe x ∈ R^(P×w) zu erhalten.
Rekonstruktion des ursprünglichen Signals basierend auf gelernten Codebuch-Tokens, Verwendung des Fourier-Spektrums als Rekonstruktionsziel, einschließlich drei Vorhersageköpfe:
Traditionelle Methoden wenden MSE direkt auf Phase an, was zu periodischen Grenzunstetigkeitsproblemen führt. NeuroRVQ führt einen einheitskreis-bewussten Verlust ein:
L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
+ λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²
Effektivität des Multi-Scale-Designs: Zeitliche Faltungen mit unterschiedlichen Kerngrößen erfassen erfolgreich die Multi-Frequenz-Charakteristiken von EEG-Signalen
Wichtigkeit des phasenbewussten Verlusts: Die Einheitskreisbeschränkung gewährleistet die geometrische Bedeutung der Phasenvorhersage
Parametereffizientz: NeuroRVQ erreicht mit 5,9M Parametern bessere Leistung als NeuroGPT mit 79,5M Parametern
Frühe Methoden verließen sich auf handgefertigte Merkmale wie Leistungsspektraldichte(PSD) und unabhängige Komponentenanalyse(ICA), zeigten aber begrenzte Generalisierungsfähigkeit aufgrund großer Variabilität zwischen Probanden und Rauschcharakteristiken von EEG-Signalen.
Modelle wie EEGNet, EEGInception, EEGConformer reduzierten die Abhängigkeit von handgefertigten Merkmalen, erforderten aber immer noch sorgfältig annotierte Daten und aufgabenspezifisches Training.
LaBraM, NeuroGPT, CBraMod und andere repräsentieren die Entwicklungsrichtung von EEG-Grundmodellen, sehen sich aber alle dem Engpass der Signaltokenisierung gegenüber. NeuroRVQ löst dieses kritische Problem durch verbesserte Codebuch-Gestaltung.
Das Papier zitiert 68 verwandte Literaturquellen, die wichtige Arbeiten in mehreren Bereichen wie EEG-Analyse, tiefes Lernen und Grundmodelle abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Papier mit wichtigen Beiträgen im Bereich EEG-Signalverarbeitung und Grundmodelle. Durch innovative Gestaltung, die auf EEG-Signalcharakteristiken zugeschnitten ist, verbessert es die Leistung bestehender Methoden erheblich und bietet wichtige Impulse für die Entwicklung dieses Bereichs.