Next Semantic Scale Prediction via Hierarchical Diffusion Language Models
Zhou, Wang, Zhang et al.
In this paper we introduce Hierarchical Diffusion Language Models (HDLM) -- a novel family of discrete diffusion models for language modeling. HDLM builds on a hierarchical vocabulary where low-level tokens with detailed semantics are surjectively mapped to high-level tokens with coarse-grained meanings. In the forward process, each token is independently perturbed to its higher-level ancestor with more abstract semantics according to the scheduler, while in the reverse process the model progressively predicts the next, more detailed semantics. Taken together, HDLM provides a general time-varying next semantic scale prediction process for language modeling. We derive closed-form expressions for the diffusion Evidence Lower Bound (ELBO), and show that HDLM can be implemented in a flexible manner while including the existing MDLM as a special case. We also propose practical training techniques based on the insights. Extensive text generation experiments validate the effectiveness of HDLM, which demonstrates consistently lower validation and generative perplexity than baselines.
본 논문은 언어 모델링을 위한 새로운 이산 확산 모델인 계층적 확산 언어 모델(HDLM)을 소개한다. HDLM은 계층적 어휘에 기반하며, 상세한 의미를 가진 저수준 토큰이 거친 입도의 의미를 가진 고수준 토큰으로 전사적으로 매핑된다. 전향 과정에서 각 토큰은 스케줄러에 따라 독립적으로 더 추상적인 의미를 가진 고수준 조상으로 교란되며, 역향 과정에서 모델은 점진적으로 다음의 더 상세한 의미를 예측한다. HDLM은 언어 모델링을 위한 일반적인 시간 변동 다음 의미 규모 예측 과정을 제공한다. 저자들은 확산 증거 하한(ELBO)의 폐쇄형 표현식을 도출하고, HDLM이 유연하게 구현될 수 있으며 기존의 MDLM을 특수한 경우로 포함함을 보여준다.
자회귀 언어 모델이 현재 최첨단 방법이지만, 그 다음 토큰 예측 방식은 근본적으로 이전에 생성된 토큰을 수정할 수 있는 능력을 제한한다. 확산 모델은 점진적 노이즈 제거 및 세련화 능력으로 주목받고 있지만, 기존의 이산 확산 방법은 언어 모델링에서 여전히 상당한 제한이 있다.