2025-11-23T22:58:17.474910

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

Barmpas, Lee, Koliousis et al.

Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.

academic

NeuroRVQ : Tokenisation EEG Multi-Échelle pour les Modèles Génératifs de Grandes Ondes Cérébrales

Informations Fondamentales

ID de l'article : 2510.13068
Titre : NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
Auteurs : Konstantinos Barmpas, Na Lee, Alexandros Koliousis, Yannis Panagakis, Dimitrios Adamos, Nikolaos Laskaris, Stefanos Zafeiriou
Classification : cs.LG cs.AI cs.HC
Date de publication : 15 octobre 2025 (prépublication)
Lien de l'article : https://arxiv.org/abs/2510.13068

Résumé

Les signaux d'électroencéphalographie (EEG) capturent l'activité neuronale à plusieurs échelles temporelles et spectrales, produisant des signaux riches mais complexes, ce qui pose des défis pour l'apprentissage de représentations. Récemment, les modèles fondamentaux d'EEG entraînés par prédiction de marqueurs de signaux masqués ont montré des promesses dans l'apprentissage de représentations généralisables, mais leurs performances sont limitées par le module de tokenisation des signaux. Les tokeniseurs neurologiques existants ne peuvent pas préserver les dynamiques haute fréquence, ce qui limite leur capacité à reconstruire les signaux EEG avec une haute fidélité. Cet article introduit NeuroRVQ, un modèle d'ondes cérébrales (LBM) extensible centré sur un tokeniseur basé sur un codebook. Ce tokeniseur intègre : (i) un module d'extraction de caractéristiques multi-échelle capturant le spectre neuronal complet ; (ii) un codebook de quantification vectorielle résiduelle hiérarchique (RVQ) pour un codage haute résolution ; (iii) une fonction de perte sensible à la phase et à l'amplitude des signaux EEG pour un entraînement efficace.

Contexte de Recherche et Motivation

Définition du Problème

Les systèmes d'interface cerveau-ordinateur (BCI) réalisent la communication directe entre le cerveau et le monde extérieur en analysant les ondes cérébrales enregistrées par les appareils EEG. Les signaux EEG peuvent représenter le spectre complet de l'expérience humaine, du sommeil et des émotions aux mouvements. Cependant, les modèles d'ondes cérébrales actuels (LBMs) font face à un goulot d'étranglement fondamental : la tokenisation des signaux.

Défis Fondamentaux

Caractéristiques multi-échelles : L'activité cérébrale se déploie sur plusieurs échelles de fréquence, incluant les bandes delta (0,5-4 Hz), thêta (4-8 Hz), alpha (8-13 Hz), bêta (13-30 Hz) et gamma (>30 Hz)
Qualité de la tokenisation : Les tokeniseurs existants ont du mal à préserver les informations structurelles complètes, en particulier les composantes haute fréquence, essentielles pour la modélisation générative robuste avec masquage
Fidélité de la Reconstruction : L'adoption directe de tokeniseurs de codebook discrets de la vision par ordinateur (comme VQ-VAE) ne peut pas réaliser une reconstruction fidèle des signaux cérébraux

Motivation de la Recherche

Les auteurs affirment que la clé pour déverrouiller la modélisation avec masquage à l'échelle fondamentale de l'EEG réside dans la conception du tokeniseur. Un tokeniseur bien conçu ne devrait pas seulement compresser les signaux neurologiques continus en marqueurs discrets, mais aussi être capable de reconstruire fidèlement la forme d'onde originale à toutes les échelles de fréquence importantes.

Contributions Fondamentales

Proposition du tokeniseur NeuroRVQ : Capture des caractéristiques de fréquence multi-échelle en appliquant des convolutions temporelles avec différentes tailles de noyau
Conception d'une structure de codebook RVQ hiérarchique : Un codebook par échelle de fréquence, utilisant 32 codebooks (paramètres 2³²) pour capturer les motifs complexes nécessaires à la reconstruction de signaux haute fidélité
Introduction d'une fonction de perte sensible à la phase et à l'amplitude : Basée sur des principes robustes du traitement du signal, capturant l'amplitude et les informations de phase enveloppée des signaux EEG via des représentations sinusoïdales et cosinusoïdales
Réalisation de performances SOTA : Précision supérieure de 15 % par rapport aux LBMs existants sur quatre tâches de classification BCI

Détails de la Méthode

Définition de la Tâche

Étant donné une série temporelle EEG multivariée X ∈ R^(C×T) (où T est le nombre de points temporels et C est le nombre d'électrodes), l'objectif est :

Tokeniser les signaux EEG continus en marqueurs neurologiques discrets
Supporter la reconstruction précise sur toutes les bandes de fréquence
Réaliser une modélisation générative robuste avec masquage

Architecture du Modèle

1. Génération de Patchs

Segmentation du signal EEG d'entrée en P patchs temporels de longueur w (correspondant à une fenêtre temporelle d'1 seconde), produisant un échantillon d'entrée segmenté x ∈ R^(P×w).

2. Encodeur Temporel Multi-Échelle

Utilisation d'un module de style inception pour extraire des caractéristiques à S échelles temporelles différentes :

Application de convolutions temporelles 1-D avec différentes tailles de noyau : K_temporal1, K_temporal2, ..., K_temporalS
Chaque branche temporelle contient : convolution 1-D → normalisation de groupe → activation GELU → pooling (répétée deux fois)
Production de S sorties : F1, F2, ..., FS, où Fi ∈ R^w

3. Encodeur Transformer

Introduction d'embeddings temporels entraînables TE et d'embeddings spatiaux SE
Ajout des caractéristiques multi-échelles aux embeddings avant passage dans les couches Transformer partagées
Production de représentations de patchs multi-échelle : p1, p2, ..., pS ∈ R^D

4. Codebook RVQ

Pour chaque branche temporelle, utilisation d'un codebook RVQ R pour la discrétisation :

R = {Vi | i = 1, ..., N}
Vi = {vj | j = 1, ..., K} ∈ R^(K×D)

Processus de quantification itérative :

z1 = arg min_{v∈V1} ||l2(p1) - l2(v)||
pi+1 = pi - zi
p̂ = Σ(i=1 to N) zi

5. Décodeur du Tokeniseur

Reconstruction du signal original basée sur les marqueurs de codebook appris, utilisant le spectre de Fourier comme cible de reconstruction, incluant trois têtes de prédiction :

log(1 + Â) : amplitude logarithmique
sin φ̂ : composante sinusoïdale de la phase
cos φ̂ : composante cosinusoïdale de la phase

Points d'Innovation Technique

1. Perte de Phase Sensible au Cercle Unitaire

Les méthodes traditionnelles appliquant directement l'erreur quadratique moyenne (MSE) à la phase souffrent de discontinuités aux limites périodiques. NeuroRVQ introduit une perte sensible au cercle unitaire :

L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
             + λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²

2. Objectif d'Entraînement Intégré

LT = ||log(1 + Âi) - log(1 + Ai)||²₂ + L_unit-loss + ||X̂i - Xi||²₂ + LQ

Où LQ est la perte de quantification.

Configuration Expérimentale

Ensembles de Données

Utilisation de 13 grands ensembles de données EEG (environ 235 heures), incluant :

Ensembles de données publics : BCI Competition IV-1, Grasp and Lift, Physionet MI et 12 autres
Ensemble de données auto-collecté : environ 235 heures de données d'imagerie motrice (29 canaux)
Tous les données rééchantillonnées à 200 Hz

Métriques d'Évaluation

Qualité de reconstruction : Erreur quadratique moyenne (MSE) sur les bandes de fréquence
Tâches en aval : Précision équilibrée, utilisant une validation croisée sans sujet en 10 plis

Méthodes de Comparaison

Comparaison de tokeniseurs : LaBraM
Comparaison de modèles fondamentaux : NeuroGPT, CBraMod, LaBraM, EEGPT, BIOT

Détails d'Implémentation

Entraînement du tokeniseur : 100 epochs, S=4 branches temporelles, 4 codebooks RVQ, chacun contenant 8 codebooks unitaires Vi ∈ R^(8192×128)
Entraînement du modèle fondamental : 50 epochs, λ_circle = 0,4
Matériel : NVIDIA DGX, 4 GPU NVIDIA Tesla V100

Résultats Expérimentaux

Résultats Principaux

1. Performance de Reconstruction du Tokeniseur

Évaluation en Distribution (Tableau 1) :

Bande de Fréquence	Signal Brut	Delta	Thêta	Alpha	Bêta	Gamma
LaBraM	1,071	1,561	0,184	0,099	0,122	0,020
NeuroRVQ	0,016	0,006	0,002	0,002	0,005	0,002

NeuroRVQ réalise une erreur de reconstruction d'ordre de grandeur inférieure sur toutes les bandes de fréquence.

Évaluation Hors Distribution :

Sur les tâches de mémoire et de motricité, NeuroRVQ surpasse systématiquement les deux versions de LaBraM
Démontre une capacité de généralisation supérieure

2. Performance des Tâches en Aval

Modèle	Moteur	Mémoire	Sommeil	Yeux	Moyenne	Paramètres
NeuroGPT	0,682±0,083	0,597±0,029	0,674±0,033	0,827±0,036	0,695±0,045	79,5M
CBraMod	0,614±0,104	0,574±0,038	0,635±0,041	0,839±0,041	0,666±0,056	4,9M
LaBraM	0,630±0,076	0,526±0,026	0,652±0,037	0,799±0,047	0,652±0,047	5,8M
NeuroRVQ	0,700±0,073	0,574±0,027	0,728±0,028	0,869±0,026	0,717±0,038	5,9M

NeuroRVQ atteint les meilleures ou quasi-meilleures performances sur toutes les tâches, avec une performance moyenne optimale.

Études d'Ablation

Nombre de couches RVQ : Les expériences montrent que l'utilisation de 8 couches Vi ∈ R^(8192×128) réalise les meilleures performances de reconstruction
Représentation de phase : La représentation sinusoïdale-cosinusoïdale améliore significativement la stabilité d'entraînement par rapport à la prédiction directe de phase

Découvertes Expérimentales

Efficacité de la conception multi-échelle : Les convolutions temporelles avec différentes tailles de noyau capturent avec succès les caractéristiques multi-fréquences des signaux EEG
Importance de la perte sensible à la phase : La contrainte du cercle unitaire assure la signification géométrique de la prédiction de phase
Efficacité des paramètres : NeuroRVQ réalise de meilleures performances avec 5,9M paramètres que NeuroGPT avec 79,5M paramètres

Travaux Connexes

Méthodes Traditionnelles d'Analyse EEG

Les méthodes précoces s'appuyaient sur des caractéristiques manuelles telles que la densité spectrale de puissance (PSD) et l'analyse en composantes indépendantes (ICA), mais leur capacité de généralisation était limitée par la grande variabilité inter-sujets et les caractéristiques de bruit des signaux EEG.

Ère de l'Apprentissage Profond

Les modèles EEGNet, EEGInception, EEGConformer et autres ont réduit la dépendance aux caractéristiques manuelles, mais nécessitaient toujours des données soigneusement annotées et un entraînement spécifique à la tâche.

Modèles Fondamentaux

LaBraM, NeuroGPT, CBraMod et autres représentent la direction du développement des modèles fondamentaux d'EEG, mais font tous face au goulot d'étranglement de la tokenisation des signaux. NeuroRVQ résout ce problème critique en améliorant la conception du codebook.

Conclusion et Discussion

Conclusions Principales

Le tokeniseur NeuroRVQ réalise des performances SOTA de reconstruction de signaux EEG
L'extraction de caractéristiques multi-échelle et la conception RVQ hiérarchique capturent efficacement les motifs complexes des signaux EEG
L'entraînement sensible à la phase et à l'amplitude améliore significativement la qualité de la tokenisation
Atteint les meilleures performances sur plusieurs tâches BCI en aval

Limitations

Complexité Computationnelle : L'encodeur multi-échelle et les multiples codebooks RVQ augmentent les frais de calcul
Dépendance aux Données : Les performances dépendent toujours de la qualité et de la diversité des données de préentraînement à grande échelle
Bandes de Fréquence Fixes : La conception actuelle cible les bandes de fréquence EEG traditionnelles, pouvant ne pas s'appliquer à d'autres signaux biologiques

Directions Futures

Intégration d'Inférence Causale : Combinaison avec des stratégies de masquage spatio-temporel plus ciblées
Extension Multimodale : Extension des principes à d'autres signaux biologiques
Optimisation Architecturale : Exploration de l'intégration d'architectures LBM à plus grande échelle

Évaluation Approfondie

Points Forts

Innovation Technique Forte : La conception RVQ multi-échelle et la perte sensible à la phase sont des innovations importantes adaptées aux caractéristiques des signaux EEG
Expérimentation Complète : Incluant l'évaluation en et hors distribution, les études d'ablation et la validation multi-tâches
Fondations Théoriques Solides : La conception basée sur les principes du traitement du signal possède un soutien théorique fort
Valeur Pratique Élevée : Améliore significativement les performances des modèles fondamentaux d'EEG

Insuffisances

Baselines de Comparaison Limitées : Comparaison principalement avec LaBraM, manquant de comparaisons avec plus de méthodes de codebook
Analyse des Coûts Computationnels Manquante : Pas d'analyse détaillée de la complexité computationnelle et du temps d'inférence
Validation de Généralisation Insuffisante : Validation principalement sur les tâches BCI, généralisation limitée à d'autres scénarios d'application EEG

Impact

Contribution Académique : Fournit une solution importante de tokenisation pour les modèles fondamentaux d'EEG
Valeur Pratique : Peut être directement appliquée à l'amélioration des systèmes BCI existants
Reproductibilité : Fournit des détails d'implémentation détaillés et des paramètres d'hypertuning

Scénarios d'Application

Applications nécessitant une reconstruction de signaux EEG haute fidélité
Préentraînement et ajustement fin de données EEG à grande échelle
Développement de systèmes BCI multi-tâches
Recherche sur les modèles fondamentaux de signaux biologiques

Références

L'article cite 68 références connexes, couvrant plusieurs domaines incluant l'analyse EEG, l'apprentissage profond et les modèles fondamentaux, fournissant une base théorique solide pour la recherche.

Évaluation Générale : Ceci est un article de haute qualité avec des contributions importantes dans le domaine du traitement des signaux EEG et des modèles fondamentaux. Grâce à une conception innovante adaptée aux caractéristiques des signaux EEG, il améliore significativement les performances des méthodes existantes, fournissant une impulsion importante au développement de ce domaine.