2025-11-23T22:58:17.474910

NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models

Barmpas, Lee, Koliousis et al.
Electroencephalography (EEG) captures neural activity across multiple temporal and spectral scales, yielding signals that are rich but complex for representation learning. Recently, EEG foundation models trained to predict masked signal-tokens have shown promise for learning generalizable representations. However, their performance is hindered by their signal tokenization modules. Existing neural tokenizers fail to preserve high-frequency dynamics, limiting their ability to reconstruct EEG signals with high fidelity. We introduce NeuroRVQ, a scalable Large Brainwave Model (LBM) centered on a codebook-based tokenizer. Our tokenizer integrates: (i) multi-scale feature extraction modules that capture the full frequency neural spectrum; (ii) hierarchical residual vector quantization (RVQ) codebooks for high-resolution encoding; and, (iii) an EEG signal phase- and amplitude-aware loss function for efficient training. This design enables efficient EEG compression while supporting accurate reconstruction across all frequency bands, leading to robust generative masked modeling. Our empirical results demonstrate that NeuroRVQ achieves lower reconstruction error and outperforms existing LBMs on a variety of downstream tasks. More broadly, NeuroRVQ tokenizer establishes a strong prior for codebook-based general-purpose brainwave models, enabling advances in neural decoding, generative modeling and multimodal biosignal integration.
academic

NeuroRVQ: 생성형 대규모 뇌파 모델을 위한 다중 스케일 EEG 토큰화

기본 정보

  • 논문 ID: 2510.13068
  • 제목: NeuroRVQ: Multi-Scale EEG Tokenization for Generative Large Brainwave Models
  • 저자: Konstantinos Barmpas, Na Lee, Alexandros Koliousis, Yannis Panagakis, Dimitrios Adamos, Nikolaos Laskaris, Stefanos Zafeiriou
  • 분류: cs.LG cs.AI cs.HC
  • 발표 시간: 2025년 10월 15일 (프리프린트)
  • 논문 링크: https://arxiv.org/abs/2510.13068

초록

뇌전도(EEG) 신호는 여러 시간 및 주파수 스케일에서 신경 활동을 포착하여 풍부하지만 복잡한 신호를 생성하며, 이는 표현 학습에 어려움을 야기합니다. 최근 마스크된 신호 토큰 예측을 통해 훈련된 EEG 기초 모델은 일반화 가능한 표현 학습에서 유망함을 보였으나, 그 성능은 신호 토큰화 모듈에 의해 제한됩니다. 기존 신경 토큰화기는 고주파 동역학을 보존하지 못하여 EEG 신호의 고충실도 재구성 능력을 제한합니다. 본 논문은 코드북 기반 토큰화기를 중심으로 하는 확장 가능한 대규모 뇌파 모델(LBM)인 NeuroRVQ를 제시합니다. 이 토큰화기는 다음을 통합합니다: (i) 완전한 주파수 신경 스펙트럼을 포착하는 다중 스케일 특징 추출 모듈; (ii) 고해상도 인코딩을 위한 계층적 잔차 벡터 양자화(RVQ) 코드북; (iii) 효율적인 훈련을 위한 EEG 신호 위상 및 진폭 인식 손실 함수.

연구 배경 및 동기

문제 정의

뇌-컴퓨터 인터페이스(BCI) 시스템은 EEG 장치로 기록된 뇌파를 분석하여 뇌와 외부 세계 간의 직접 통신을 구현합니다. EEG 신호는 수면과 감정에서 운동에 이르기까지 인간 경험의 완전한 스펙트럼을 나타낼 수 있습니다. 그러나 기존 대규모 뇌파 모델(LBM)은 근본적인 병목—신호 토큰화—에 직면해 있습니다.

핵심 과제

  1. 다중 스케일 특성: 뇌 활동은 델타(0.5-4Hz), 세타(4-8Hz), 알파(8-13Hz), 베타(13-30Hz) 및 감마(>30Hz) 대역을 포함한 여러 주파수 스케일에서 전개됩니다
  2. 토큰화 품질: 기존 토큰화기는 완전한 구조 정보, 특히 강건한 생성 마스크 모델링에 중요한 고주파 성분을 보존하기 어렵습니다
  3. 재구성 충실도: 컴퓨터 비전의 이산 코드북 토큰화기(예: VQ-VAE)를 직접 적용하면 뇌 신호의 충실한 재구성을 달성할 수 없습니다

연구 동기

저자들은 EEG 기초 규모 마스크 모델링을 해제하는 핵심이 토큰화기 설계에 있다고 주장합니다. 잘 설계된 토큰화기는 연속 신경 신호를 이산 토큰으로 압축할 뿐만 아니라 모든 중요 주파수 스케일에서 원본 파형을 충실하게 재구성할 수 있어야 합니다.

핵심 기여

  1. NeuroRVQ 토큰화기 제시: 다양한 커널 크기의 시간 합성곱을 적용하여 다중 스케일 주파수 특징 포착
  2. 계층적 RVQ 코드북 구조 설계: 각 주파수 스케일당 하나의 코드북, 32개 코드북(2³² 매개변수)을 사용하여 고충실도 신호 재구성에 필요한 복잡한 패턴 포착
  3. 위상 및 진폭 인식 손실 함수 도입: 강력한 신호 처리 원리에 기반하여 사인 및 코사인 표현을 통해 EEG 신호의 진폭 및 래핑된 위상 정보 포착
  4. 최첨단 성능 달성: 네 가지 BCI 분류 작업에서 기존 LBM보다 15% 높은 정확도

방법론 상세 설명

작업 정의

다변량 EEG 시계열 X ∈ R^(C×T) (T는 시간점 수, C는 전극 수)가 주어졌을 때, 목표는:

  1. 연속 EEG 신호를 이산 신경 토큰으로 토큰화
  2. 모든 주파수 대역에 걸친 정확한 재구성 지원
  3. 강건한 생성 마스크 모델링 구현

모델 아키텍처

1. 패치 생성

입력 EEG 신호를 길이 w의 P개 시간 패치로 분할(1초 시간 윈도우에 해당), 분할된 입력 샘플 x ∈ R^(P×w) 획득.

2. 다중 스케일 시간 인코더

Inception 스타일 모듈을 사용하여 S개의 서로 다른 시간 스케일 특징 추출:

  • 서로 다른 커널 크기의 1-D 시간 합성곱 적용: K_temporal1, K_temporal2, ..., K_temporalS
  • 각 시간 분기 포함: 1-D 합성곱 → 그룹 정규화 → GELU 활성화 → 풀링(2회 반복)
  • S개 출력 생성: F1, F2, ..., FS, 여기서 Fi ∈ R^w

3. Transformer 인코더

  • 학습 가능한 시간 임베딩 TE 및 공간 임베딩 SE 도입
  • 다중 스케일 특징을 임베딩과 더한 후 공유 Transformer 계층을 통과
  • 다중 스케일 패치 표현 생성: p1, p2, ..., pS ∈ R^D

4. RVQ 코드북

각 시간 분기에 대해 RVQ 코드북 R을 사용한 이산화:

R = {Vi | i = 1, ..., N}
Vi = {vj | j = 1, ..., K} ∈ R^(K×D)

반복 양자화 프로세스:

z1 = arg min_{v∈V1} ||l2(p1) - l2(v)||
pi+1 = pi - zi
p̂ = Σ(i=1 to N) zi

5. 토큰화기 디코더

학습된 코드북 토큰을 기반으로 원본 신호 재구성, 푸리에 스펙트럼을 재구성 목표로 사용, 세 가지 예측 헤드 포함:

  • log(1 + Â): 로그 진폭
  • sin φ̂: 위상 사인 성분
  • cos φ̂: 위상 코사인 성분

기술 혁신 포인트

1. 단위원 인식 위상 손실

기존 방법은 위상에 직접 MSE를 적용하면 주기성 경계 불연속 문제가 발생합니다. NeuroRVQ는 단위원 인식 손실을 도입합니다:

L_unit-loss = 1 - Σ_i [cos φ̂i cos φi + sin φ̂i sin φi] / [√(cos²φ̂i + sin²φ̂i) √(cos²φi + sin²φi)]
             + λ_circle · Σ_i (cos²φ̂i + sin²φ̂i - 1)²

2. 종합 훈련 목표

LT = ||log(1 + Âi) - log(1 + Ai)||²₂ + L_unit-loss + ||X̂i - Xi||²₂ + LQ

여기서 LQ는 양자화 손실입니다.

실험 설정

데이터셋

13개의 대규모 EEG 데이터셋(약 235시간) 사용, 포함:

  • 공개 데이터셋: BCI Competition IV-1, Grasp and Lift, Physionet MI 등 12개
  • 자체 수집 데이터셋: 약 235시간의 운동 상상 데이터(29채널)
  • 모든 데이터를 200Hz로 리샘플링

평가 지표

  • 재구성 품질: 주파수 대역 전체의 평균 제곱 오차(MSE)
  • 다운스트림 작업: 균형 정확도, 10-폴드 피험자 무관 교차 검증 사용

비교 방법

  • 토큰화기 비교: LaBraM
  • 기초 모델 비교: NeuroGPT, CBraMod, LaBraM, EEGPT, BIOT

구현 세부사항

  • 토큰화기 훈련: 100 에포크, S=4 시간 분기, 4개 RVQ 코드북, 각각 8개 단일 코드북 Vi ∈ R^(8192×128) 포함
  • 기초 모델 훈련: 50 에포크, λ_circle = 0.4
  • 하드웨어: NVIDIA DGX, 4개 NVIDIA Tesla V100 GPU

실험 결과

주요 결과

1. 토큰화기 재구성 성능

분포 내 평가(표 1):

주파수 대역원본 신호델타세타알파베타감마
LaBraM1.0711.5610.1840.0990.1220.020
NeuroRVQ0.0160.0060.0020.0020.0050.002

NeuroRVQ는 모든 주파수 대역에서 수 자리 더 낮은 재구성 오류를 달성했습니다.

분포 외 평가:

  • 기억 작업 및 운동 작업에서 NeuroRVQ는 LaBraM의 두 버전을 지속적으로 능가
  • 우수한 일반화 능력 입증

2. 다운스트림 작업 성능

모델운동기억수면평균매개변수
NeuroGPT0.682±0.0830.597±0.0290.674±0.0330.827±0.0360.695±0.04579.5M
CBraMod0.614±0.1040.574±0.0380.635±0.0410.839±0.0410.666±0.0564.9M
LaBraM0.630±0.0760.526±0.0260.652±0.0370.799±0.0470.652±0.0475.8M
NeuroRVQ0.700±0.0730.574±0.0270.728±0.0280.869±0.0260.717±0.0385.9M

NeuroRVQ는 모든 작업에서 최고 또는 차선의 성능을 달성하며, 평균 성능이 최적입니다.

절제 실험

  • RVQ 계층 수: 실험에 따르면 8개 계층 Vi ∈ R^(8192×128)을 사용하면 최고의 재구성 성능 달성
  • 위상 표현: 사인-코사인 표현은 직접 위상 예측에 비해 훈련 안정성을 크게 개선

실험 발견

  1. 다중 스케일 설계의 효과성: 서로 다른 커널 크기의 시간 합성곱은 EEG 신호의 다중 주파수 특성을 성공적으로 포착
  2. 위상 인식 손실의 중요성: 단위원 제약은 위상 예측의 기하학적 의미 보장
  3. 매개변수 효율성: NeuroRVQ는 5.9M 매개변수로 79.5M 매개변수 NeuroGPT보다 나은 성능 달성

관련 연구

전통적 EEG 분석 방법

초기 방법은 전력 스펙트럼 밀도(PSD) 및 독립 성분 분석(ICA)과 같은 수작업 특징에 의존했으나, 피험자 간 변이성이 크고 EEG 신호 노이즈 특성으로 인해 일반화 능력이 제한됩니다.

심층 학습 시대

EEGNet, EEGInception, EEGConformer 등의 모델은 수작업 특징에 대한 의존성을 감소시켰으나, 여전히 정교하게 주석이 달린 데이터와 작업 특정 훈련이 필요합니다.

기초 모델

LaBraM, NeuroGPT, CBraMod 등은 EEG 기초 모델의 발전 방향을 나타내지만 모두 신호 토큰화의 병목에 직면합니다. NeuroRVQ는 코드북 설계 개선을 통해 이 핵심 문제를 해결합니다.

결론 및 논의

주요 결론

  1. NeuroRVQ 토큰화기는 최첨단 EEG 신호 재구성 성능 달성
  2. 다중 스케일 특징 추출 및 계층적 RVQ 설계는 EEG 신호의 복잡한 패턴을 효과적으로 포착
  3. 위상 및 진폭 인식 훈련은 토큰화 품질을 크게 개선
  4. 여러 다운스트림 BCI 작업에서 최고 성능 달성

제한사항

  1. 계산 복잡성: 다중 스케일 인코더 및 여러 RVQ 코드북은 계산 오버헤드 증가
  2. 데이터 의존성: 성능은 여전히 대규모 사전훈련 데이터의 품질 및 다양성에 의존
  3. 고정 주파수 대역: 현재 설계는 전통적 EEG 주파수 대역을 대상으로 하며, 다른 생물 신호에 적용되지 않을 수 있음

향후 방향

  1. 인과 추론 통합: 더 목표 지향적인 시공간 마스킹 전략 결합
  2. 다중 모달 확장: 원리를 다른 생물 신호로 확장
  3. 아키텍처 최적화: 더 큰 규모 LBM 아키텍처 통합 탐색

심층 평가

장점

  1. 기술 혁신성 강함: 다중 스케일 RVQ 설계 및 위상 인식 손실은 EEG 신호 특성에 대한 중요한 혁신
  2. 실험 충분함: 분포 내외 평가, 절제 실험 및 다중 작업 검증 포함
  3. 이론적 기초 견고함: 신호 처리 원리에 기반한 설계는 강력한 이론적 지원 보유
  4. 실용적 가치 높음: EEG 기초 모델의 성능을 크게 개선

부족한 점

  1. 비교 기준선 제한: 주로 LaBraM과 비교, 더 많은 코드북 방법과의 비교 부족
  2. 계산 비용 분석 누락: 상세한 계산 복잡도 및 추론 시간 분석 미제공
  3. 일반화 검증 부족: 주로 BCI 작업에서 검증, 다른 EEG 응용 시나리오 검증 제한

영향력

  1. 학술 기여: EEG 기초 모델에 중요한 토큰화 솔루션 제공
  2. 실용적 가치: 기존 BCI 시스템 개선에 직접 적용 가능
  3. 재현성: 상세한 구현 세부사항 및 하이퍼파라미터 설정 제공

적용 시나리오

  • 고충실도 EEG 신호 재구성이 필요한 응용
  • 대규모 EEG 데이터의 사전훈련 및 미세 조정
  • 다중 작업 BCI 시스템 개발
  • 생물 신호 기초 모델 연구

참고문헌

논문은 68개의 관련 문헌을 인용하며, EEG 분석, 심층 학습, 기초 모델 등 여러 분야의 중요한 연구를 포함하여 연구에 견고한 이론적 기초를 제공합니다.


종합 평가: 이는 EEG 신호 처리 및 기초 모델 분야에서 중요한 기여를 하는 고품질 논문입니다. EEG 신호 특성에 맞춘 혁신적 설계를 통해 기존 방법의 성능을 크게 개선하며, 해당 분야의 발전에 중요한 추진력을 제공합니다.