NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
Barmpas, Lee, Koliousis et al.
Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.
academic
NeuroRVQ : Tokenisation EEG Multi-Échelle pour les Modèles Génératifs de Grandes Ondes Cérébrales
Les signaux d'électroencéphalographie (EEG) capturent l'activité neuronale à plusieurs échelles temporelles et spectrales, produisant des signaux riches mais complexes, ce qui pose des défis pour l'apprentissage de représentations. Récemment, les modèles fondamentaux d'EEG entraînés par prédiction de marqueurs de signaux masqués ont montré des promesses dans l'apprentissage de représentations généralisables, mais leurs performances sont limitées par le module de tokenisation des signaux. Les tokeniseurs neurologiques existants ne peuvent pas préserver les dynamiques haute fréquence, ce qui limite leur capacité à reconstruire les signaux EEG avec une haute fidélité. Cet article introduit NeuroRVQ, un modèle d'ondes cérébrales (LBM) extensible centré sur un tokeniseur basé sur un codebook. Ce tokeniseur intègre : (i) un module d'extraction de caractéristiques multi-échelle capturant le spectre neuronal complet ; (ii) un codebook de quantification vectorielle résiduelle hiérarchique (RVQ) pour un codage haute résolution ; (iii) une fonction de perte sensible à la phase et à l'amplitude des signaux EEG pour un entraînement efficace.
Les systèmes d'interface cerveau-ordinateur (BCI) réalisent la communication directe entre le cerveau et le monde extérieur en analysant les ondes cérébrales enregistrées par les appareils EEG. Les signaux EEG peuvent représenter le spectre complet de l'expérience humaine, du sommeil et des émotions aux mouvements. Cependant, les modèles d'ondes cérébrales actuels (LBMs) font face à un goulot d'étranglement fondamental : la tokenisation des signaux.
Caractéristiques multi-échelles : L'activité cérébrale se déploie sur plusieurs échelles de fréquence, incluant les bandes delta (0,5-4 Hz), thêta (4-8 Hz), alpha (8-13 Hz), bêta (13-30 Hz) et gamma (>30 Hz)
Qualité de la tokenisation : Les tokeniseurs existants ont du mal à préserver les informations structurelles complètes, en particulier les composantes haute fréquence, essentielles pour la modélisation générative robuste avec masquage
Fidélité de la Reconstruction : L'adoption directe de tokeniseurs de codebook discrets de la vision par ordinateur (comme VQ-VAE) ne peut pas réaliser une reconstruction fidèle des signaux cérébraux
Les auteurs affirment que la clé pour déverrouiller la modélisation avec masquage à l'échelle fondamentale de l'EEG réside dans la conception du tokeniseur. Un tokeniseur bien conçu ne devrait pas seulement compresser les signaux neurologiques continus en marqueurs discrets, mais aussi être capable de reconstruire fidèlement la forme d'onde originale à toutes les échelles de fréquence importantes.
Proposition du tokeniseur NeuroRVQ : Capture des caractéristiques de fréquence multi-échelle en appliquant des convolutions temporelles avec différentes tailles de noyau
Conception d'une structure de codebook RVQ hiérarchique : Un codebook par échelle de fréquence, utilisant 32 codebooks (paramètres 2³²) pour capturer les motifs complexes nécessaires à la reconstruction de signaux haute fidélité
Introduction d'une fonction de perte sensible à la phase et à l'amplitude : Basée sur des principes robustes du traitement du signal, capturant l'amplitude et les informations de phase enveloppée des signaux EEG via des représentations sinusoïdales et cosinusoïdales
Réalisation de performances SOTA : Précision supérieure de 15 % par rapport aux LBMs existants sur quatre tâches de classification BCI
Étant donné une série temporelle EEG multivariée X ∈ R^(C×T) (où T est le nombre de points temporels et C est le nombre d'électrodes), l'objectif est :
Tokeniser les signaux EEG continus en marqueurs neurologiques discrets
Supporter la reconstruction précise sur toutes les bandes de fréquence
Réaliser une modélisation générative robuste avec masquage
Segmentation du signal EEG d'entrée en P patchs temporels de longueur w (correspondant à une fenêtre temporelle d'1 seconde), produisant un échantillon d'entrée segmenté x ∈ R^(P×w).
Reconstruction du signal original basée sur les marqueurs de codebook appris, utilisant le spectre de Fourier comme cible de reconstruction, incluant trois têtes de prédiction :
Les méthodes traditionnelles appliquant directement l'erreur quadratique moyenne (MSE) à la phase souffrent de discontinuités aux limites périodiques. NeuroRVQ introduit une perte sensible au cercle unitaire :
L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
+ λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²
Nombre de couches RVQ : Les expériences montrent que l'utilisation de 8 couches Vi ∈ R^(8192×128) réalise les meilleures performances de reconstruction
Représentation de phase : La représentation sinusoïdale-cosinusoïdale améliore significativement la stabilité d'entraînement par rapport à la prédiction directe de phase
Efficacité de la conception multi-échelle : Les convolutions temporelles avec différentes tailles de noyau capturent avec succès les caractéristiques multi-fréquences des signaux EEG
Importance de la perte sensible à la phase : La contrainte du cercle unitaire assure la signification géométrique de la prédiction de phase
Efficacité des paramètres : NeuroRVQ réalise de meilleures performances avec 5,9M paramètres que NeuroGPT avec 79,5M paramètres
Les méthodes précoces s'appuyaient sur des caractéristiques manuelles telles que la densité spectrale de puissance (PSD) et l'analyse en composantes indépendantes (ICA), mais leur capacité de généralisation était limitée par la grande variabilité inter-sujets et les caractéristiques de bruit des signaux EEG.
Les modèles EEGNet, EEGInception, EEGConformer et autres ont réduit la dépendance aux caractéristiques manuelles, mais nécessitaient toujours des données soigneusement annotées et un entraînement spécifique à la tâche.
LaBraM, NeuroGPT, CBraMod et autres représentent la direction du développement des modèles fondamentaux d'EEG, mais font tous face au goulot d'étranglement de la tokenisation des signaux. NeuroRVQ résout ce problème critique en améliorant la conception du codebook.
Complexité Computationnelle : L'encodeur multi-échelle et les multiples codebooks RVQ augmentent les frais de calcul
Dépendance aux Données : Les performances dépendent toujours de la qualité et de la diversité des données de préentraînement à grande échelle
Bandes de Fréquence Fixes : La conception actuelle cible les bandes de fréquence EEG traditionnelles, pouvant ne pas s'appliquer à d'autres signaux biologiques
Innovation Technique Forte : La conception RVQ multi-échelle et la perte sensible à la phase sont des innovations importantes adaptées aux caractéristiques des signaux EEG
Expérimentation Complète : Incluant l'évaluation en et hors distribution, les études d'ablation et la validation multi-tâches
Fondations Théoriques Solides : La conception basée sur les principes du traitement du signal possède un soutien théorique fort
Valeur Pratique Élevée : Améliore significativement les performances des modèles fondamentaux d'EEG
Baselines de Comparaison Limitées : Comparaison principalement avec LaBraM, manquant de comparaisons avec plus de méthodes de codebook
Analyse des Coûts Computationnels Manquante : Pas d'analyse détaillée de la complexité computationnelle et du temps d'inférence
Validation de Généralisation Insuffisante : Validation principalement sur les tâches BCI, généralisation limitée à d'autres scénarios d'application EEG
L'article cite 68 références connexes, couvrant plusieurs domaines incluant l'analyse EEG, l'apprentissage profond et les modèles fondamentaux, fournissant une base théorique solide pour la recherche.
Évaluation Générale : Ceci est un article de haute qualité avec des contributions importantes dans le domaine du traitement des signaux EEG et des modèles fondamentaux. Grâce à une conception innovante adaptée aux caractéristiques des signaux EEG, il améliore significativement les performances des méthodes existantes, fournissant une impulsion importante au développement de ce domaine.