2025-11-23T22:58:17.474910

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

Barmpas, Lee, Koliousis et al.

Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.

academic

NeuroRVQ: सामान्यीकृत बड़े ब्रेनवेव मॉडल के लिए बहु-स्तरीय EEG टोकनीकरण

मूल जानकारी

पेपर ID: 2510.13068
शीर्षक: NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
लेखक: Konstantinos Barmpas, Na Lee, Alexandros Koliousis, Yannis Panagakis, Dimitrios Adamos, Nikolaos Laskaris, Stefanos Zafeiriou
वर्गीकरण: cs.LG cs.AI cs.HC
प्रकाशन तिथि: 15 अक्टूबर 2025 (प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13068

सारांश

इलेक्ट्रोएन्सेफलोग्राफी (EEG) संकेत कई समय और आवृत्ति स्तरों पर तंत्रिका गतिविधि को कैप्चर करते हैं, जिससे समृद्ध लेकिन जटिल संकेत उत्पन्न होते हैं जो प्रतिनिधित्व सीखने के लिए चुनौतियाँ प्रस्तुत करते हैं। हाल ही में, मुखौटा संकेत टोकन की भविष्यवाणी करके प्रशिक्षित EEG आधार मॉडल सामान्यीकृत प्रतिनिधित्व सीखने में आशाजनक परिणाम दिखा रहे हैं, लेकिन उनका प्रदर्शन संकेत टोकनीकरण मॉड्यूल द्वारा सीमित है। मौजूदा तंत्रिका टोकनाइजर उच्च-आवृत्ति गतिविधि को संरक्षित नहीं कर सकते, जो उच्च निष्ठा EEG संकेत पुनर्निर्माण की उनकी क्षमता को सीमित करता है। यह पेपर NeuroRVQ प्रस्तुत करता है, जो कोडबुक-आधारित टोकनाइजर पर केंद्रित एक स्केलेबल बड़े ब्रेनवेव मॉडल (LBM) है। यह टोकनाइजर निम्नलिखित को एकीकृत करता है: (i) संपूर्ण आवृत्ति तंत्रिका स्पेक्ट्रम को कैप्चर करने वाला बहु-स्तरीय विशेषता निष्कर्षण मॉड्यूल; (ii) उच्च-रिज़ॉल्यूशन एन्कोडिंग के लिए पदानुक्रमित अवशिष्ट वेक्टर क्वांटाइजेशन (RVQ) कोडबुक; (iii) कुशल प्रशिक्षण के लिए EEG संकेत चरण और आयाम-जागरूक हानि फ़ंक्शन।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

ब्रेन-कंप्यूटर इंटरफेस (BCI) सिस्टम EEG उपकरणों द्वारा रिकॉर्ड किए गए ब्रेनवेव का विश्लेषण करके मस्तिष्क और बाहरी दुनिया के बीच सीधा संचार सक्षम करते हैं। EEG संकेत मानव अनुभव के पूर्ण स्पेक्ट्रम को प्रतिनिधित्व कर सकते हैं, नींद और भावनाओं से लेकर गति तक। हालांकि, मौजूदा बड़े ब्रेनवेव मॉडल (LBMs) एक मौलिक बाधा का सामना करते हैं — संकेत टोकनीकरण।

मुख्य चुनौतियाँ

बहु-स्तरीय विशेषताएँ: मस्तिष्क की गतिविधि कई आवृत्ति स्तरों पर विकसित होती है, जिसमें डेल्टा (0.5-4Hz), थीटा (4-8Hz), अल्फा (8-13Hz), बीटा (13-30Hz) और गामा (>30Hz) बैंड शामिल हैं
टोकनीकरण गुणवत्ता: मौजूदा टोकनाइजर संपूर्ण संरचनात्मक जानकारी को संरक्षित करने में कठिनाई का सामना करते हैं, विशेष रूप से उच्च-आवृत्ति घटक, जो मजबूत मुखौटा मॉडलिंग के लिए महत्वपूर्ण है
पुनर्निर्माण निष्ठा: कंप्यूटर दृष्टि से असतत कोडबुक टोकनाइजर (जैसे VQ-VAE) को सीधे अपनाना मस्तिष्क संकेत के विश्वस्त पुनर्निर्माण को प्राप्त नहीं कर सकता

अनुसंधान प्रेरणा

लेखकों का मानना है कि EEG आधार-स्तर मुखौटा मॉडलिंग को अनलॉक करने की कुंजी टोकनाइजर डिजाइन में निहित है। एक अच्छी तरह से डिज़ाइन किया गया टोकनाइजर न केवल निरंतर तंत्रिका संकेत को असतत टोकन में संपीड़ित करना चाहिए, बल्कि सभी महत्वपूर्ण आवृत्ति स्तरों पर मूल तरंग को विश्वस्ततापूर्वक पुनर्निर्माण करने में सक्षम होना चाहिए।

मुख्य योगदान

NeuroRVQ टोकनाइजर प्रस्तावित किया: विभिन्न कर्नेल आकारों के साथ अस्थायी कनवल्शन लागू करके बहु-स्तरीय आवृत्ति विशेषताओं को कैप्चर करता है
पदानुक्रमित RVQ कोडबुक संरचना डिज़ाइन की: प्रत्येक आवृत्ति स्तर के लिए एक कोडबुक, 32 कोडबुक (2³² पैरामीटर) का उपयोग करके उच्च-निष्ठा संकेत पुनर्निर्माण के लिए आवश्यक जटिल पैटर्न को कैप्चर करता है
चरण और आयाम-जागरूक हानि फ़ंक्शन प्रस्तुत किया: मजबूत संकेत प्रसंस्करण सिद्धांतों पर आधारित, साइन और कोसाइन प्रतिनिधित्व के माध्यम से EEG संकेत के आयाम और लपेटे गए चरण जानकारी को कैप्चर करता है
SOTA प्रदर्शन प्राप्त किया: चार BCI वर्गीकरण कार्यों पर मौजूदा LBMs से 15% अधिक सटीकता

विधि विवरण

कार्य परिभाषा

बहुभिन्नरूपी EEG समय श्रृंखला X ∈ R^(C×T) दिया गया है (जहाँ T समय बिंदुओं की संख्या है, C इलेक्ट्रोड की संख्या है), लक्ष्य है:

निरंतर EEG संकेत को असतत तंत्रिका टोकन में टोकनाइज करना
सभी आवृत्ति बैंड में सटीक पुनर्निर्माण का समर्थन करना
मजबूत सामान्यीकृत मुखौटा मॉडलिंग प्राप्त करना

मॉडल आर्किटेक्चर

1. पैच जनरेशन

इनपुट EEG संकेत को P लंबाई w के अस्थायी पैच में विभाजित करें (1 सेकंड के समय विंडो के अनुरूप), विभाजित इनपुट नमूना x ∈ R^(P×w) प्राप्त करें।

2. बहु-स्तरीय अस्थायी एन्कोडर

S विभिन्न अस्थायी स्तरों की विशेषताओं को निकालने के लिए inception-शैली मॉड्यूल का उपयोग करें:

विभिन्न कर्नेल आकारों के साथ 1-D अस्थायी कनवल्शन लागू करें: K_temporal1, K_temporal2, ..., K_temporalS
प्रत्येक अस्थायी शाखा में शामिल है: 1-D कनवल्शन → समूह सामान्यीकरण → GELU सक्रियण → पूलिंग (दो बार दोहराया गया)
S आउटपुट उत्पन्न करें: F1, F2, ..., FS, जहाँ Fi ∈ R^w

3. Transformer एन्कोडर

प्रशिक्षण योग्य अस्थायी एम्बेडिंग TE और स्थानिक एम्बेडिंग SE का परिचय दें
बहु-स्तरीय विशेषताओं को एम्बेडिंग के साथ जोड़ें और साझा Transformer परत के माध्यम से पास करें
बहु-स्तरीय पैच प्रतिनिधित्व उत्पन्न करें: p1, p2, ..., pS ∈ R^D

4. RVQ कोडबुक

प्रत्येक अस्थायी शाखा के लिए, असतत करने के लिए RVQ कोडबुक R का उपयोग करें:

R = {Vi | i = 1, ..., N}
Vi = {vj | j = 1, ..., K} ∈ R^(K×D)

पुनरावृत्तिमूलक क्वांटाइजेशन प्रक्रिया:

z1 = arg min_{v∈V1} ||l2(p1) - l2(v)||
pi+1 = pi - zi
p̂ = Σ(i=1 to N) zi

5. टोकनाइजर डिकोडर

सीखी गई कोडबुक टोकन के आधार पर मूल संकेत को पुनर्निर्माण करें, पुनर्निर्माण लक्ष्य के रूप में फूरियर आवृत्ति स्पेक्ट्रम का उपयोग करें, तीन भविष्यवाणी सिर शामिल हैं:

log(1 + Â): लॉग आयाम
sin φ̂: चरण साइन घटक
cos φ̂: चरण कोसाइन घटक

तकनीकी नवाचार

1. यूनिट सर्कल-जागरूक चरण हानि

पारंपरिक विधियाँ सीधे चरण पर MSE लागू करती हैं जिससे आवधिक सीमा असंतुलन समस्या होती है। NeuroRVQ यूनिट सर्कल-जागरूक हानि प्रस्तुत करता है:

L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
             + λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²

2. व्यापक प्रशिक्षण उद्देश्य

LT = ||log(1 + Âi) - log(1 + Ai)||²₂ + L_unit-loss + ||X̂i - Xi||²₂ + LQ

जहाँ LQ क्वांटाइजेशन हानि है।

प्रायोगिक सेटअप

डेटासेट

13 बड़े EEG डेटासेट का उपयोग करें (लगभग 235 घंटे), जिसमें शामिल हैं:

सार्वजनिक डेटासेट: BCI Competition IV-1, Grasp and Lift, Physionet MI आदि 12
स्व-संग्रहित डेटासेट: लगभग 235 घंटे की गति कल्पना डेटा (29 चैनल)
सभी डेटा 200Hz पर पुनः नमूना किए गए

मूल्यांकन मेट्रिक्स

पुनर्निर्माण गुणवत्ता: आवृत्ति बैंड में माध्य वर्ग त्रुटि (MSE)
डाउनस्ट्रीम कार्य: संतुलित सटीकता, 10-गुना विषय-स्वतंत्र क्रॉस-सत्यापन का उपयोग करके

तुलना विधियाँ

टोकनाइजर तुलना: LaBraM
आधार मॉडल तुलना: NeuroGPT, CBraMod, LaBraM, EEGPT, BIOT

कार्यान्वयन विवरण

टोकनाइजर प्रशिक्षण: 100 युग, S=4 अस्थायी शाखाएँ, 4 RVQ कोडबुक, प्रत्येक में 8 एकल कोडबुक Vi ∈ R^(8192×128)
आधार मॉडल प्रशिक्षण: 50 युग, λ_circle = 0.4
हार्डवेयर: NVIDIA DGX, 4 NVIDIA Tesla V100 GPU

प्रायोगिक परिणाम

मुख्य परिणाम

1. टोकनाइजर पुनर्निर्माण प्रदर्शन

वितरण-भीतर मूल्यांकन (तालिका 1):

आवृत्ति बैंड	कच्चा संकेत	डेल्टा	थीटा	अल्फा	बीटा	गामा
LaBraM	1.071	1.561	0.184	0.099	0.122	0.020
NeuroRVQ	0.016	0.006	0.002	0.002	0.005	0.002

NeuroRVQ सभी आवृत्ति बैंड पर परिमाण क्रम से कम पुनर्निर्माण त्रुटि प्राप्त करता है।

वितरण-बाहर मूल्यांकन:

स्मृति कार्य और गति कार्य पर, NeuroRVQ लगातार LaBraM के दोनों संस्करणों से बेहतर है
उत्कृष्ट सामान्यीकरण क्षमता प्रदर्शित करता है

2. डाउनस्ट्रीम कार्य प्रदर्शन

मॉडल	गति	स्मृति	नींद	आँखें	माध्य	पैरामीटर
NeuroGPT	0.682±0.083	0.597±0.029	0.674±0.033	0.827±0.036	0.695±0.045	79.5M
CBraMod	0.614±0.104	0.574±0.038	0.635±0.041	0.839±0.041	0.666±0.056	4.9M
LaBraM	0.630±0.076	0.526±0.026	0.652±0.037	0.799±0.047	0.652±0.047	5.8M
NeuroRVQ	0.700±0.073	0.574±0.027	0.728±0.028	0.869±0.026	0.717±0.038	5.9M

NeuroRVQ सभी कार्यों पर सर्वश्रेष्ठ या दूसरे सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है, औसत प्रदर्शन सर्वोत्तम है।

विलोपन प्रयोग

RVQ परतें: प्रयोग दर्शाते हैं कि 8 परतें Vi ∈ R^(8192×128) का उपयोग सर्वश्रेष्ठ पुनर्निर्माण प्रदर्शन प्राप्त करता है
चरण प्रतिनिधित्व: साइन-कोसाइन प्रतिनिधित्व सीधी चरण भविष्यवाणी की तुलना में प्रशिक्षण स्थिरता में महत्वपूर्ण सुधार करता है

प्रायोगिक निष्कर्ष

बहु-स्तरीय डिजाइन की प्रभावशीलता: विभिन्न कर्नेल आकारों के साथ अस्थायी कनवल्शन ने EEG संकेत की बहु-आवृत्ति विशेषताओं को सफलतापूर्वक कैप्चर किया
चरण-जागरूक हानि का महत्व: यूनिट सर्कल बाधा चरण भविष्यवाणी की ज्यामितीय सार्थकता सुनिश्चित करती है
पैरामीटर दक्षता: NeuroRVQ 5.9M पैरामीटर के साथ 79.5M पैरामीटर NeuroGPT से बेहतर प्रदर्शन प्राप्त करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

NeuroRVQ टोकनाइजर EEG संकेत पुनर्निर्माण में SOTA प्रदर्शन प्राप्त करता है
बहु-स्तरीय विशेषता निष्कर्षण और पदानुक्रमित RVQ डिजाइन EEG संकेत के जटिल पैटर्न को प्रभावी ढंग से कैप्चर करते हैं
चरण और आयाम-जागरूक प्रशिक्षण टोकनीकरण गुणवत्ता में महत्वपूर्ण सुधार करता है
कई डाउनस्ट्रीम BCI कार्यों पर सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है

सीमाएँ

कम्प्यूटेशनल जटिलता: बहु-स्तरीय एन्कोडर और कई RVQ कोडबुक कम्प्यूटेशनल ओवरहेड बढ़ाते हैं
डेटा निर्भरता: प्रदर्शन अभी भी बड़े पैमाने पर प्रशिक्षण डेटा की गुणवत्ता और विविधता पर निर्भर है
आवृत्ति बैंड निश्चित: वर्तमान डिजाइन पारंपरिक EEG आवृत्ति बैंड के लिए है, अन्य जैविक संकेतों पर लागू नहीं हो सकता

भविष्य की दिशाएँ

कारणात्मक अनुमान एकीकरण: अधिक लक्षित स्पेस-टाइम मुखौटा रणनीतियों के साथ संयोजन
बहु-मोडल विस्तार: सिद्धांतों को अन्य जैविक संकेतों तक विस्तारित करना
आर्किटेक्चर अनुकूलन: बड़े पैमाने पर LBM आर्किटेक्चर एकीकरण की खोज

गहन मूल्यांकन

शक्तियाँ

मजबूत तकनीकी नवाचार: बहु-स्तरीय RVQ डिजाइन और चरण-जागरूक हानि EEG संकेत विशेषताओं के लिए महत्वपूर्ण नवाचार हैं
व्यापक प्रयोग: वितरण-भीतर और बाहर मूल्यांकन, विलोपन प्रयोग और बहु-कार्य सत्यापन शामिल
ठोस सैद्धांतिक आधार: संकेत प्रसंस्करण सिद्धांतों पर आधारित डिजाइन में मजबूत सैद्धांतिक समर्थन है
उच्च व्यावहारिक मूल्य: EEG आधार मॉडल के प्रदर्शन में महत्वपूर्ण सुधार

कमियाँ

सीमित तुलना आधार: मुख्य रूप से LaBraM के साथ तुलना, अधिक कोडबुक विधियों के साथ तुलना की कमी
कम्प्यूटेशनल लागत विश्लेषण अनुपस्थित: विस्तृत कम्प्यूटेशनल जटिलता और अनुमान समय विश्लेषण प्रदान नहीं किया गया
अपर्याप्त सामान्यीकरण सत्यापन: मुख्य रूप से BCI कार्यों पर सत्यापित, अन्य EEG अनुप्रयोग परिदृश्य सत्यापन सीमित

प्रभाव

शैक्षणिक योगदान: EEG आधार मॉडल के लिए महत्वपूर्ण टोकनीकरण समाधान प्रदान करता है
व्यावहारिक मूल्य: मौजूदा BCI सिस्टम सुधार में सीधे लागू किया जा सकता है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और हाइपरपैरामीटर सेटिंग प्रदान करता है

लागू परिदृश्य

उच्च-निष्ठा EEG संकेत पुनर्निर्माण की आवश्यकता वाले अनुप्रयोग
बड़े पैमाने पर EEG डेटा का प्रशिक्षण और सूक्ष्म-ट्यूनिंग
बहु-कार्य BCI सिस्टम विकास
जैविक संकेत आधार मॉडल अनुसंधान

संदर्भ

पेपर में 68 संबंधित संदर्भों का हवाला दिया गया है, जो EEG विश्लेषण, गहन शिक्षा, आधार मॉडल आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है।

समग्र मूल्यांकन: यह EEG संकेत प्रसंस्करण और आधार मॉडल क्षेत्र में महत्वपूर्ण योगदान वाला एक उच्च-गुणवत्ता वाला पेपर है। EEG संकेत विशेषताओं के लिए अभिनव डिजाइन के माध्यम से, यह मौजूदा विधियों के प्रदर्शन में महत्वपूर्ण सुधार करता है और इस क्षेत्र के विकास के लिए महत्वपूर्ण प्रेरणा प्रदान करता है।