2025-11-14T10:58:11.492990

Next Semantic Scale Prediction via Hierarchical Diffusion Language Models

Zhou, Wang, Zhang et al.

In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.

academic

계층적 확산 언어 모델을 통한 다음 의미 규모 예측

기본 정보

논문 ID: 2510.08632
제목: Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
저자: Cai Zhou, Chenyu Wang, Dinghuai Zhang, Shangyuan Tong, Yifei Wang, Stephen Bates, Tommi Jaakkola
분류: cs.CL cs.LG
발표 학회: NeurIPS 2025 (제39회 신경정보처리시스템 학회)
논문 링크: https://arxiv.org/abs/2510.08632

초록

본 논문은 언어 모델링을 위한 새로운 이산 확산 모델인 계층적 확산 언어 모델(HDLM)을 소개한다. HDLM은 계층적 어휘에 기반하며, 상세한 의미를 가진 저수준 토큰이 거친 입도의 의미를 가진 고수준 토큰으로 전사적으로 매핑된다. 전향 과정에서 각 토큰은 스케줄러에 따라 독립적으로 더 추상적인 의미를 가진 고수준 조상으로 교란되며, 역향 과정에서 모델은 점진적으로 다음의 더 상세한 의미를 예측한다. HDLM은 언어 모델링을 위한 일반적인 시간 변동 다음 의미 규모 예측 과정을 제공한다. 저자들은 확산 증거 하한(ELBO)의 폐쇄형 표현식을 도출하고, HDLM이 유연하게 구현될 수 있으며 기존의 MDLM을 특수한 경우로 포함함을 보여준다.

연구 배경 및 동기

1. 해결하고자 하는 문제

기존의 이산 확산 언어 모델은 여러 근본적인 제한이 있다:

마스크 확산: 모든 마스크된 토큰이 동일한 마스크 임베딩을 가지며, 풍부한 의미가 부족함; 이미 생성된 토큰을 자체 수정할 수 없음
균등 확산: 동일한 토큰이 노이즈 단계에서는 노이즈이지만 디코딩 시에는 의미 있게 되어, 의미 불일치와 혼동을 야기함

2. 문제의 중요성

자회귀 언어 모델이 현재 최첨단 방법이지만, 그 다음 토큰 예측 방식은 근본적으로 이전에 생성된 토큰을 수정할 수 있는 능력을 제한한다. 확산 모델은 점진적 노이즈 제거 및 세련화 능력으로 주목받고 있지만, 기존의 이산 확산 방법은 언어 모델링에서 여전히 상당한 제한이 있다.

3. 기존 방법의 한계

MDLM 및 MD4: 마스크된 토큰이 풍부한 의미를 부족하여 자체 수정 불가능
균등 이산 확산: 성능이 낮고 의미 불일치 발생
GIDD: 마스크와 균등 노이즈를 통합했지만, 노이즈 토큰이 여전히 풍부한 의미를 부족하여 자체 수정 능력 제한

4. 연구 동기

저자들은 의미 계층 구조를 도입하여 확산 모델의 장점을 극대화하고, 임의의 순서 생성과 점진적 자체 세련화를 실현하려고 제안했으며, 이는 시각 자회귀 모델(VAR)의 다음 규모 예측과 유사하다.

핵심 기여

HDLM 프레임워크 제안: 시간 변동 다음 의미 규모 예측을 통해 구현되는 일반적이고 유연한 이산 확산 언어 모델링 프레임워크
엄격한 이론적 기초 수립: 연속 시간 마르코프 연쇄(CTMC) 프레임워크에 기반하여 계층적 이산 확산의 폐쇄형 ELBO 도출
호환성 증명: 이론적으로 MDLM이 HDLM의 특수한 경우임을 증명하여 프레임워크의 일반성 입증
실용적 기술 제안: 이론적 통찰에 기반하여 개선된 훈련 및 샘플링 기술 제안
성능 향상 달성: 텍스트 생성 실험에서 기준선보다 지속적으로 낮은 검증 및 생성 혼란도 달성

방법 상세 설명

작업 정의

HDLM의 작업은 노이즈 입력이 주어졌을 때, 계층적 의미 구조를 통해 점진적으로 더 상세한 토큰을 예측하여 원본 어휘를 복원하는 것이다. 입력은 다양한 수준의 노이즈 토큰이고, 출력은 단어 수준의 예측 분포이다.

모델 아키텍처

1. 계층적 어휘 설계

어휘 계층: 깨끗한 단어 토큰 x에서 클러스터 토큰 c를 거쳐 마스크 토큰 m으로의 계층 구조: x → c → m
매핑 관계: 전사 함수 c = Γx를 통해 저수준 토큰을 고수준 토큰으로 매핑하며, 여기서 Γ ∈ R^{|C|×|V|}

2. 전향 과정

전향 과정의 주변 분포는 다음과 같다:

q_t(z_t|x) = Cat(z_t; α_t x + β_{t,c} c(x) + β_{t,m} m)

여기서 β_{t,c} + β_{t,m} = β_t := 1 - α_t

3. CTMC 프레임워크

시간 비제차 생성 행렬은 다음과 같다:

Q_t = [α'_t/α_t I_{|V|}    -α'_t/α_t Γ^T    0]
      [0    (α'_t+β'_{t,c})/β_{t,c} I_{|C|}    -(α'_t+β'_{t,c})/β_{t,c} Ξ^T]
      [0    0    0]

4. 역향 과정

표준 역향 과정을 채택한다:

p_θ(z_s|z_t) = q_{t|s}(z_t|z_s) q_s(z_s|x_θ)/q_t(z_t|x_θ)

기술 혁신점

1. 의미 계층 구조

점진적 의미: 중간 계층은 부분적으로 디코딩된 토큰으로 볼 수 있으며, 단일 마스크 토큰보다 더 풍부한 의미를 제공함
유연한 디코딩: 거친 입도 의미의 불확실성은 더 큰 디코딩 유연성을 허용함

2. 폐쇄형 ELBO 도출

도출된 훈련 손실은 두 개의 교차 엔트로피 손실의 가중 조합이다:

L(x,x_θ,t) = E_{t,z_t}[δ_{z_t,c} w_{t,c} CE(x, (x_θ ⊙ (Γ^T Γx))/(x_θ^T Γ^T Γx)) + δ_{z_t,m} w_{t,m} CE(Γx, Γx_θ)]

3. 확률적 교란 메커니즘

교란 확률 ξ < 1을 도입하여 단어 토큰이 확률 1-ξ로 잘못된 클러스터로 전환되도록 하여 모델의 자체 수정 능력을 향상시킨다.

실험 설정

데이터셋

주요 데이터셋: OpenWebText (OWT), 131B 훈련 토큰 포함
추가 데이터셋: LM1B (33B 토큰) 보충 검증용
문맥 길이: 512 토큰, 문장 패킹 미사용

평가 지표

검증 혼란도(Valid. PPL): OWT 검증 세트의 혼란도
생성 혼란도(Gen. PPL): GPT2-large를 참조 모델로 사용하여 생성 샘플 평가
하위 작업: ARC, BoolQ, PIQA, OpenBookQA, WinoGrande 등

비교 방법

자회귀 모델: GPT-2, Llama-110M
이산 확산 모델: SEDD, MDLM, GIDD+

구현 세부사항

모델 아키텍처: DiT 아키텍처, Small (170M 매개변수) 및 Base (425M 매개변수)
최적화기: Adam (β=(0.9,0.99)), 학습률 5×10^{-4}
훈련 단계: 500k 단계, 배치 크기 512
가중치 클리핑: 손실 가중치 w_{t,m}, w_{t,c}를 2.0 또는 10.0으로 클리핑하여 최적화 안정화

실험 결과

주요 결과

모델	훈련 토큰	검증 혼란도 (↓)	생성 혼란도 (↓)
MDLM-small	131B	≤27.39	163.7
GIDD+-small	131B	≤25.82	170.2
HDLM-small-64	131B	≤23.36	144.2
HDLM-small-128	131B	≤23.25	148.0
HDLM-base-128	131B	≤19.22	139.9

주요 발견:

HDLM-small은 검증 및 생성 혼란도 모두에서 다른 이산 확산 방법을 능가함
HDLM-base는 19.22 혼란도를 달성하여 자회귀 모델 성능을 초과하거나 일치함

소거 실험

1. 클러스터 수 영향

최적 클러스터 수는 약 64-128 (어휘 크기의 제곱근 정도)
n=1일 때 MDLM 성능으로 복원되어 이론 분석 검증

2. 확률적 교란 효과

ξ=0.9일 때 생성 혼란도 51% 감소 (144.2에서 69.76으로)
ξ=0.8일 때 생성 혼란도 62% 감소 (54.15로)
자체 수정 능력의 현저한 향상 증명

3. 전향 과정 스케줄

γ 값이 클수록 단일 단계 노이즈 제거 작업이 더 어렵지만, 실제 추론 성능이 더 나음
γ=3일 때 최고의 생성 혼란도 135.9 달성

하위 작업 성능

여러 이해 작업에서 HDLM-small의 평균 정확도는 39.62%로, GIDD의 38.53%를 능가하여 강한 일반화 능력을 입증한다.

결론 및 논의

주요 결론

HDLM은 "다음 의미 규모 예측" 방식을 통해 이산 확산 언어 모델링을 효과적으로 개선함
계층적 의미 구조는 전통적인 마스크보다 더 풍부한 중간 표현을 제공함
확률적 교란 메커니즘은 모델의 자체 수정 능력을 현저히 향상시킴
이론 프레임워크는 우수한 일반성과 확장성을 가짐

한계

클러스터 품질 의존성: 현재 사전 정의된 K-means 클러스터링을 사용하며, 클러스터 품질이 성능에 큰 영향을 미침
계산 복잡도: 다층 구조는 훈련 및 추론의 계산 오버헤드를 증가시킬 수 있음
하이퍼파라미터 민감성: 훈련 안정화를 위해 가중치 클리핑 등 하이퍼파라미터를 신중하게 조정해야 함

향후 방향

더 복잡한 계층 구조 학습 방법 탐색 (예: DeepSets)
여러 중간 계층의 구현 및 최적화 연구
더 큰 규모의 언어 모델로 프레임워크 확장
다중 모달 작업에서의 응용 탐색

심층 평가

장점

견고한 이론 기여: 완전한 CTMC 이론 프레임워크 및 엄격한 수학적 도출 제공
강한 방법 혁신성: 의미 계층 구조를 이산 확산 언어 모델에 처음 도입
충분한 실험 설계: 포괄적인 소거 연구 및 비교 실험 포함
높은 실용 가치: 제안된 기술을 기존 확산 모델 프레임워크에 직접 적용 가능

부족한 점

규모 제한: 실험이 주로 중소 규모 모델에서 수행되어 대규모 검증 부족
단순한 클러스터링 방법: 현재의 의미 클러스터링 방법이 상대적으로 기초적이어서 성능 상한을 제한할 수 있음
생성 품질 평가: 주로 혼란도 지표에 의존하며, 인간 평가 및 다양성 분석 부족

영향력

학술 기여: 이산 확산 언어 모델링을 위한 새로운 연구 방향 제공
실용 가치: 방법이 단순하고 구현하기 쉬워 실제 응용에서 보급될 가능성 높음
재현성: 저자들이 완전한 코드 구현 및 상세한 실험 설정 제공

적용 시나리오

텍스트 생성 작업: 특히 점진적 세련화가 필요한 생성 시나리오에 적합
제어 가능한 텍스트 생성: 계층 구조가 다양한 입도의 제어 구현을 용이하게 함
텍스트 편집 및 수정: 자체 수정 능력으로 텍스트 수정 작업에 적합

참고문헌

논문은 확산 모델, 언어 모델링 및 이산 상태 공간 모델링 분야의 중요한 연구를 인용하며, D3PM, MDLM, GIDD 등 핵심 기초 연구뿐만 아니라 GPT 시리즈, BERT 등 고전적인 언어 모델을 포함한다.