2025-11-23T22:58:17.474910

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

Barmpas, Lee, Koliousis et al.

Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.

academic

NeuroRVQ: 생성형 대규모 뇌파 모델을 위한 다중 스케일 EEG 토큰화

기본 정보

논문 ID: 2510.13068
제목: NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
저자: Konstantinos Barmpas, Na Lee, Alexandros Koliousis, Yannis Panagakis, Dimitrios Adamos, Nikolaos Laskaris, Stefanos Zafeiriou
분류: cs.LG cs.AI cs.HC
발표 시간: 2025년 10월 15일 (프리프린트)
논문 링크: https://arxiv.org/abs/2510.13068

초록

뇌전도(EEG) 신호는 여러 시간 및 주파수 스케일에서 신경 활동을 포착하여 풍부하지만 복잡한 신호를 생성하며, 이는 표현 학습에 어려움을 야기합니다. 최근 마스크된 신호 토큰 예측을 통해 훈련된 EEG 기초 모델은 일반화 가능한 표현 학습에서 유망함을 보였으나, 그 성능은 신호 토큰화 모듈에 의해 제한됩니다. 기존 신경 토큰화기는 고주파 동역학을 보존하지 못하여 EEG 신호의 고충실도 재구성 능력을 제한합니다. 본 논문은 코드북 기반 토큰화기를 중심으로 하는 확장 가능한 대규모 뇌파 모델(LBM)인 NeuroRVQ를 제시합니다. 이 토큰화기는 다음을 통합합니다: (i) 완전한 주파수 신경 스펙트럼을 포착하는 다중 스케일 특징 추출 모듈; (ii) 고해상도 인코딩을 위한 계층적 잔차 벡터 양자화(RVQ) 코드북; (iii) 효율적인 훈련을 위한 EEG 신호 위상 및 진폭 인식 손실 함수.

연구 배경 및 동기

문제 정의

뇌-컴퓨터 인터페이스(BCI) 시스템은 EEG 장치로 기록된 뇌파를 분석하여 뇌와 외부 세계 간의 직접 통신을 구현합니다. EEG 신호는 수면과 감정에서 운동에 이르기까지 인간 경험의 완전한 스펙트럼을 나타낼 수 있습니다. 그러나 기존 대규모 뇌파 모델(LBM)은 근본적인 병목—신호 토큰화—에 직면해 있습니다.

핵심 과제

다중 스케일 특성: 뇌 활동은 델타(0.5-4Hz), 세타(4-8Hz), 알파(8-13Hz), 베타(13-30Hz) 및 감마(>30Hz) 대역을 포함한 여러 주파수 스케일에서 전개됩니다
토큰화 품질: 기존 토큰화기는 완전한 구조 정보, 특히 강건한 생성 마스크 모델링에 중요한 고주파 성분을 보존하기 어렵습니다
재구성 충실도: 컴퓨터 비전의 이산 코드북 토큰화기(예: VQ-VAE)를 직접 적용하면 뇌 신호의 충실한 재구성을 달성할 수 없습니다

연구 동기

저자들은 EEG 기초 규모 마스크 모델링을 해제하는 핵심이 토큰화기 설계에 있다고 주장합니다. 잘 설계된 토큰화기는 연속 신경 신호를 이산 토큰으로 압축할 뿐만 아니라 모든 중요 주파수 스케일에서 원본 파형을 충실하게 재구성할 수 있어야 합니다.

핵심 기여

NeuroRVQ 토큰화기 제시: 다양한 커널 크기의 시간 합성곱을 적용하여 다중 스케일 주파수 특징 포착
계층적 RVQ 코드북 구조 설계: 각 주파수 스케일당 하나의 코드북, 32개 코드북(2³² 매개변수)을 사용하여 고충실도 신호 재구성에 필요한 복잡한 패턴 포착
위상 및 진폭 인식 손실 함수 도입: 강력한 신호 처리 원리에 기반하여 사인 및 코사인 표현을 통해 EEG 신호의 진폭 및 래핑된 위상 정보 포착
최첨단 성능 달성: 네 가지 BCI 분류 작업에서 기존 LBM보다 15% 높은 정확도

방법론 상세 설명

작업 정의

다변량 EEG 시계열 X ∈ R^(C×T) (T는 시간점 수, C는 전극 수)가 주어졌을 때, 목표는:

연속 EEG 신호를 이산 신경 토큰으로 토큰화
모든 주파수 대역에 걸친 정확한 재구성 지원
강건한 생성 마스크 모델링 구현

모델 아키텍처

1. 패치 생성

입력 EEG 신호를 길이 w의 P개 시간 패치로 분할(1초 시간 윈도우에 해당), 분할된 입력 샘플 x ∈ R^(P×w) 획득.

2. 다중 스케일 시간 인코더

Inception 스타일 모듈을 사용하여 S개의 서로 다른 시간 스케일 특징 추출:

서로 다른 커널 크기의 1-D 시간 합성곱 적용: K_temporal1, K_temporal2, ..., K_temporalS
각 시간 분기 포함: 1-D 합성곱 → 그룹 정규화 → GELU 활성화 → 풀링(2회 반복)
S개 출력 생성: F1, F2, ..., FS, 여기서 Fi ∈ R^w

3. Transformer 인코더

학습 가능한 시간 임베딩 TE 및 공간 임베딩 SE 도입
다중 스케일 특징을 임베딩과 더한 후 공유 Transformer 계층을 통과
다중 스케일 패치 표현 생성: p1, p2, ..., pS ∈ R^D

4. RVQ 코드북

각 시간 분기에 대해 RVQ 코드북 R을 사용한 이산화:

R = {Vi | i = 1, ..., N}
Vi = {vj | j = 1, ..., K} ∈ R^(K×D)

반복 양자화 프로세스:

z1 = arg min_{v∈V1} ||l2(p1) - l2(v)||
pi+1 = pi - zi
p̂ = Σ(i=1 to N) zi

5. 토큰화기 디코더

학습된 코드북 토큰을 기반으로 원본 신호 재구성, 푸리에 스펙트럼을 재구성 목표로 사용, 세 가지 예측 헤드 포함:

log(1 + Â): 로그 진폭
sin φ̂: 위상 사인 성분
cos φ̂: 위상 코사인 성분

기술 혁신 포인트

1. 단위원 인식 위상 손실

기존 방법은 위상에 직접 MSE를 적용하면 주기성 경계 불연속 문제가 발생합니다. NeuroRVQ는 단위원 인식 손실을 도입합니다:

L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
             + λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²

2. 종합 훈련 목표

LT = ||log(1 + Âi) - log(1 + Ai)||²₂ + L_unit-loss + ||X̂i - Xi||²₂ + LQ

여기서 LQ는 양자화 손실입니다.

실험 설정

데이터셋

13개의 대규모 EEG 데이터셋(약 235시간) 사용, 포함:

공개 데이터셋: BCI Competition IV-1, Grasp and Lift, Physionet MI 등 12개
자체 수집 데이터셋: 약 235시간의 운동 상상 데이터(29채널)
모든 데이터를 200Hz로 리샘플링

평가 지표

재구성 품질: 주파수 대역 전체의 평균 제곱 오차(MSE)
다운스트림 작업: 균형 정확도, 10-폴드 피험자 무관 교차 검증 사용

비교 방법

토큰화기 비교: LaBraM
기초 모델 비교: NeuroGPT, CBraMod, LaBraM, EEGPT, BIOT

구현 세부사항

토큰화기 훈련: 100 에포크, S=4 시간 분기, 4개 RVQ 코드북, 각각 8개 단일 코드북 Vi ∈ R^(8192×128) 포함
기초 모델 훈련: 50 에포크, λ_circle = 0.4
하드웨어: NVIDIA DGX, 4개 NVIDIA Tesla V100 GPU

실험 결과

주요 결과

1. 토큰화기 재구성 성능

분포 내 평가(표 1):

주파수 대역	원본 신호	델타	세타	알파	베타	감마
LaBraM	1.071	1.561	0.184	0.099	0.122	0.020
NeuroRVQ	0.016	0.006	0.002	0.002	0.005	0.002

NeuroRVQ는 모든 주파수 대역에서 수 자리 더 낮은 재구성 오류를 달성했습니다.

분포 외 평가:

기억 작업 및 운동 작업에서 NeuroRVQ는 LaBraM의 두 버전을 지속적으로 능가
우수한 일반화 능력 입증

2. 다운스트림 작업 성능

모델	운동	기억	수면	눈	평균	매개변수
NeuroGPT	0.682±0.083	0.597±0.029	0.674±0.033	0.827±0.036	0.695±0.045	79.5M
CBraMod	0.614±0.104	0.574±0.038	0.635±0.041	0.839±0.041	0.666±0.056	4.9M
LaBraM	0.630±0.076	0.526±0.026	0.652±0.037	0.799±0.047	0.652±0.047	5.8M
NeuroRVQ	0.700±0.073	0.574±0.027	0.728±0.028	0.869±0.026	0.717±0.038	5.9M