2025-11-16T12:07:12.311543

Chunk-Distilled Language Modeling

Li, Livescu, Zhou

We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.

academic

Chunk-Distilled Language Modeling

Основная информация

ID статьи: 2501.00343
Название: Chunk-Distilled Language Modeling
Авторы: Yanhong Li (University of Chicago & TTIC), Karen Livescu (Toyota Technological Institute at Chicago), Jiawei Zhou (TTIC & Stony Brook University)
Классификация: cs.CL cs.AI
Дата публикации: 31 декабря 2024 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.00343

Аннотация

В данной работе предлагается метод моделирования языка с дистилляцией блоков (Chunk-Distilled Language Modeling, CD-LM) — подход к генерации текста, решающий две ключевые проблемы современных больших языковых моделей: неэффективность генерации на уровне токенов и сложность адаптации к новым данным и знаниям. Метод объединяет глубокую нейросетевую LLM с простым модулем поиска, позволяя генерировать многотокенные блоки текста за один шаг декодирования. Фреймворк поиска поддерживает гибкое построение хранилищ данных, специфичных для модели или предметной области, позволяя использовать как внутренние знания существующих моделей, так и экспертные знания из аннотированных корпусов. Такая адаптивность обеспечивает усиленный контроль над распределением языковой модели без необходимости дополнительного обучения.

Исследовательский контекст и мотивация

Основные проблемы

Проблема эффективности генерации: Современные LLM основаны на авторегрессивной архитектуре Transformer, генерирующей текст последовательно, токен за токеном, что ограничивает эффективность вывода
Сложность адаптации знаний: Обновление параметров модели после предварительного обучения требует дорогостоящих данных и вычислительных ресурсов, затрудняя динамическое включение новых знаний

Важность проблемы

Существующие решения имеют ограничения: спекулятивное декодирование (speculative decoding) повышает скорость, но сохраняет фиксированное распределение модели; поиск с дополнением генерации (RAG) улучшает адаптивность, но обычно не дает выигрыша в эффективности
Требуется единое решение, одновременно решающее проблемы эффективности и производительности

Ключевые наблюдения

Авторы заметили, что LLM часто генерируют повторяющиеся текстовые блоки в похожих контекстах. Эти блоки демонстрируют высокие плато вероятности в последовательностях токенов, указывая на сильную память модели относительно определенных многотокенных комбинаций.

Основные вклады

Предложение фреймворка CD-LM: Первый метод поиска-дополненного моделирования языка, одновременно повышающий эффективность генерации и производительность моделирования
Разработка гибкого механизма извлечения блоков: Поддержка трех сценариев применения (дистилляция знаний, самодистилляция, дистилляция экспертов)
Построение эффективной архитектуры поиска: Хранилище данных на основе структуры trie и механизм контекстного сопоставления
Вывод алгоритма вычисления вероятностей: Полный алгоритм динамического программирования для вычисления вероятностей последовательностей
Комплексная экспериментальная проверка: Демонстрация двойного повышения эффективности и производительности на множестве задач

Подробное описание метода

Определение задачи

Для заданной префиксной последовательности $x_{<n}$ CD-LM на каждом шаге генерации выбирает:

Принять извлеченный текстовый блок $c_n$ (пропустить несколько шагов генерации токенов)
Отклонить блок и использовать базовую LM для генерации одного токена

Архитектура модели

1. Вероятностная модель генерации

CD-LM вводит бинарную случайную переменную $z_n$ , контролирующую использование извлеченного блока в позиции $n$ :

$p(z_n = 1) = q_n$

Процесс генерации:

Если $z_n = 1$ : принять блок $c_n$ длины $\tau_n$
Если $z_n = 0$ : использовать базовую LM для генерации одного токена

2. Построение хранилища блоков данных

Хранилище данных $D = \{(r_i, s_i)\}_{i=1}^{|D|}$ , где:

$r_i = (u_i, v_i)$ : $u_i$ — контекст предшествования, $v_i$ — токен входа
$s_i$ — текстовый блок
Использование структуры trie $\{T_{w_1}, T_{w_2}, ..., T_{w_{|V|}}\}$ для хранения, где каждый $T_w$ хранит все блоки, начинающиеся с токена $w$

3. Адаптивный поиск блоков

Модель предложения блоков $G(x_{<n}) \rightarrow (c_n, q_n)$ :