2025-11-16T12:07:12.311543

Chunk-Distilled Language Modeling

Li, Livescu, Zhou

We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.

academic

チャンク蒸留言語モデリング

基本情報

論文ID: 2501.00343
タイトル: Chunk-Distilled Language Modeling
著者: Yanhong Li (シカゴ大学 & TTIC)、Karen Livescu (シカゴのトヨタ工業技術研究所)、Jiawei Zhou (TTIC & ストーニーブルック大学)
分類: cs.CL cs.AI
発表日: 2024年12月31日 (arXivプレプリント)
論文リンク: https://arxiv.org/abs/2501.00343

要約

本論文は、チャンク蒸留言語モデリング(Chunk-Distilled Language Modeling, CD-LM)を提案している。これは現在の大規模言語モデル(LLM)の2つの中核的課題に対処するテキスト生成手法である：トークンレベル生成の非効率性と新しいデータおよび知識への適応の困難性である。本手法は深層ネットワークベースのLLMと単純な検索モジュールを組み合わせ、単一のデコーディングステップで複数トークンのテキストチャンクを生成することを可能にする。その検索フレームワークは、モデル固有またはドメイン固有のデータストアの柔軟な構築をサポートし、既存モデルの内部知識を活用することも、人間がアノテーションした語料の専門家の洞察を組み込むこともできる。この適応性により、追加の訓練を必要とせずに言語モデル分布に対する制御を強化することが可能になる。

研究背景と動機

核心的問題

生成効率の問題：現在のLLMは自己回帰型Transformerアーキテクチャに基づいており、テキストをトークン単位で逐次生成するため、推論効率が制限されている
知識適応の困難性：事前学習後のモデルパラメータ更新には、高コストのデータと計算リソースが必要であり、新しい知識を動的に統合することが困難である

問題の重要性

既存のソリューションには制限がある：推測デコーディング(speculative decoding)は速度を向上させることができるが、固定されたモデル分布を保持する；検索増強生成(RAG)は適応性を改善することができるが、通常は効率上の利益がない
効率と性能の問題を同時に解決する統一的なソリューションが必要である

重要な洞察

論文は、LLMが類似した文脈で繰り返しテキストチャンクを生成することを観察している。これらのチャンクはトークンシーケンス上で高い確率プラトーを示し、モデルが特定の複数トークン組み合わせに対して強い記憶性を持つことを示唆している。

中核的貢献

CD-LMフレームワークの提案：生成効率とモデリング性能を同時に向上させる最初の検索増強言語モデリング手法
柔軟なチャンク抽出メカニズムの設計：3つの応用シナリオ（知識蒸留、自己蒸留、専門家蒸留）をサポート
効率的な検索アーキテクチャの構築：トライ構造ベースのデータストアと文脈マッチングメカニズム
確率計算アルゴリズムの導出：完全なシーケンス確率計算動的計画法アルゴリズムの提供
包括的な実験検証：複数のタスクにおいて効率と性能の双方の向上を実証

方法の詳細

タスク定義

前置シーケンス $x_{<n}$ が与えられたとき、CD-LMは各生成ステップで以下を選択する：

検索されたテキストチャンク $c_n$ を受け入れる（複数のトークン生成ステップをスキップ）
チャンクを拒否し、基本LMを使用して単一トークンを生成する

モデルアーキテクチャ

1. 確率生成モデル

CD-LMは二項確率変数 $z_n$ を導入し、位置 $n$ で検索チャンクを使用するかどうかを制御する：

$p(z_n = 1) = q_n$

生成プロセスは以下の通りである：

$z_n = 1$ の場合：チャンク $c_n$ を受け入れ、長さは $\tau_n$
$z_n = 0$ の場合：基本LMを使用して単一トークンを生成

2. チャンクデータストアの構築

データストア $D = \{(r_i, s_i)\}_{i=1}^{|D|}$ 、ここで：

$r_i = (u_i, v_i)$ ： $u_i$ は前置文脈、 $v_i$ はエントリトークン
$s_i$ ：テキストチャンク
トライ構造 $\{T_{w_1}, T_{w_2}, ..., T_{w_{|V|}}\}$ を使用して保存。各 $T_w$ はトークン $w$ で始まるすべてのチャンクを保存

3. 適応的チャンク検索

チャンク提案モデル $G(x_{<n}) \rightarrow (c_n, q_n)$ ：

$\begin{align} (u^*, c_n) &= \arg\max_{(u,s) \in T_{x_{n-1}}} \{\text{sim}(f_\theta(x_{<n-1}), f_\theta(u))\} \\ q_n &= g_\phi(\text{sim}(f_\theta(x_{<n-1}), f_\theta(u^*))) \end{align}$

ここで $\text{sim}(\cdot, \cdot)$ はコサイン類似度、 $g_\phi(\cdot)$ は類似度から受け入れ確率への写像関数である。

技術的革新点

ハード決定メカニズム：kNN-LMのソフト混合とは異なり、CD-LMは複数トークンチャンクに対してハード決定を行う
エントリトークン制約：前のトークンをエントリポイントとして使用し、検索空間を制限して検索効率を向上させる
訓練不要な設計：フレームワーク全体は追加訓練を必要とせず、任意の既製LMと組み合わせて使用できる
3つの蒸留モード：
- KCD-LM：より強力なモデルから知識を蒸留
- SCD-LM：自己記憶により効率を向上
- ECD-LM：専門家がアノテーションした知識を統合