2025-11-16T12:07:12.311543

Chunk-Distilled Language Modeling

Li, Livescu, Zhou
We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.
academic

Chunk-Distilled Language Modeling

Основная информация

  • ID статьи: 2501.00343
  • Название: Chunk-Distilled Language Modeling
  • Авторы: Yanhong Li (University of Chicago & TTIC), Karen Livescu (Toyota Technological Institute at Chicago), Jiawei Zhou (TTIC & Stony Brook University)
  • Классификация: cs.CL cs.AI
  • Дата публикации: 31 декабря 2024 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2501.00343

Аннотация

В данной работе предлагается метод моделирования языка с дистилляцией блоков (Chunk-Distilled Language Modeling, CD-LM) — подход к генерации текста, решающий две ключевые проблемы современных больших языковых моделей: неэффективность генерации на уровне токенов и сложность адаптации к новым данным и знаниям. Метод объединяет глубокую нейросетевую LLM с простым модулем поиска, позволяя генерировать многотокенные блоки текста за один шаг декодирования. Фреймворк поиска поддерживает гибкое построение хранилищ данных, специфичных для модели или предметной области, позволяя использовать как внутренние знания существующих моделей, так и экспертные знания из аннотированных корпусов. Такая адаптивность обеспечивает усиленный контроль над распределением языковой модели без необходимости дополнительного обучения.

Исследовательский контекст и мотивация

Основные проблемы

  1. Проблема эффективности генерации: Современные LLM основаны на авторегрессивной архитектуре Transformer, генерирующей текст последовательно, токен за токеном, что ограничивает эффективность вывода
  2. Сложность адаптации знаний: Обновление параметров модели после предварительного обучения требует дорогостоящих данных и вычислительных ресурсов, затрудняя динамическое включение новых знаний

Важность проблемы

  • Существующие решения имеют ограничения: спекулятивное декодирование (speculative decoding) повышает скорость, но сохраняет фиксированное распределение модели; поиск с дополнением генерации (RAG) улучшает адаптивность, но обычно не дает выигрыша в эффективности
  • Требуется единое решение, одновременно решающее проблемы эффективности и производительности

Ключевые наблюдения

Авторы заметили, что LLM часто генерируют повторяющиеся текстовые блоки в похожих контекстах. Эти блоки демонстрируют высокие плато вероятности в последовательностях токенов, указывая на сильную память модели относительно определенных многотокенных комбинаций.

Основные вклады

  1. Предложение фреймворка CD-LM: Первый метод поиска-дополненного моделирования языка, одновременно повышающий эффективность генерации и производительность моделирования
  2. Разработка гибкого механизма извлечения блоков: Поддержка трех сценариев применения (дистилляция знаний, самодистилляция, дистилляция экспертов)
  3. Построение эффективной архитектуры поиска: Хранилище данных на основе структуры trie и механизм контекстного сопоставления
  4. Вывод алгоритма вычисления вероятностей: Полный алгоритм динамического программирования для вычисления вероятностей последовательностей
  5. Комплексная экспериментальная проверка: Демонстрация двойного повышения эффективности и производительности на множестве задач

Подробное описание метода

Определение задачи

Для заданной префиксной последовательности x<nx_{<n} CD-LM на каждом шаге генерации выбирает:

  • Принять извлеченный текстовый блок cnc_n (пропустить несколько шагов генерации токенов)
  • Отклонить блок и использовать базовую LM для генерации одного токена

Архитектура модели

1. Вероятностная модель генерации

CD-LM вводит бинарную случайную переменную znz_n, контролирующую использование извлеченного блока в позиции nn:

p(zn=1)=qnp(z_n = 1) = q_n

Процесс генерации:

  • Если zn=1z_n = 1: принять блок cnc_n длины τn\tau_n
  • Если zn=0z_n = 0: использовать базовую LM для генерации одного токена

2. Построение хранилища блоков данных

Хранилище данных D={(ri,si)}i=1DD = \{(r_i, s_i)\}_{i=1}^{|D|}, где:

  • ri=(ui,vi)r_i = (u_i, v_i): uiu_i — контекст предшествования, viv_i — токен входа
  • sis_i — текстовый блок
  • Использование структуры trie {Tw1,Tw2,...,TwV}\{T_{w_1}, T_{w_2}, ..., T_{w_{|V|}}\} для хранения, где каждый TwT_w хранит все блоки, начинающиеся с токена ww

3. Адаптивный поиск блоков

Модель предложения блоков G(x<n)(cn,qn)G(x_{<n}) \rightarrow (c_n, q_n):

(u^*, c_n) &= \arg\max_{(u,s) \in T_{x_{n-1}}} \{\text{sim}(f_\theta(x_{<n-1}), f_\theta(u))\} \\ q_n &= g_\phi(\text{sim}(f_\theta(x_{<n-1}), f_\theta(u^*))) \end{align}$$ где $\text{sim}(\cdot, \cdot)$ — косинусное сходство, $g_\phi(\cdot)$ — функция отображения сходства в вероятность принятия. ### Технические инновации 1. **Механизм жесткого решения**: В отличие от мягкого смешивания в kNN-LM, CD-LM принимает жесткие решения для многотокенных блоков 2. **Ограничение токеном входа**: Использование предыдущего токена в качестве точки входа ограничивает пространство поиска, повышая эффективность поиска 3. **Дизайн без обучения**: Весь фреймворк не требует дополнительного обучения и совместим с любой готовой LM 4. **Три режима дистилляции**: - **KCD-LM**: Дистилляция знаний из более мощной модели - **SCD-LM**: Самоулучшение памяти для повышения эффективности - **ECD-LM**: Включение аннотированных экспертных знаний ## Экспериментальная установка ### Наборы данных 1. **Моделирование языка**: WikiText-103, GitHub Code (Dockerfile) 2. **Адаптация к предметной области**: Medical Instruction Dataset, Pile-of-Law (Federal Register) 3. **Тестирование эффективности**: MT-Bench-80, MT-Bench-10 4. **Внедрение знаний**: страница Википедии Алана Тьюринга, синтетические данные PII ### Метрики оценки - **Производительность**: Перплексия (PPL), оценка MAUVE, ROUGE-L, BLEURT - **Эффективность**: Сбережение времени токенов (TTS), сбережение прямого прохода (FPS) - **Качество**: Оценка LLM-as-a-judge, оценка человеческой беглости ### Методы сравнения - kNN-LM, RETOMATON (непараметрические методы) - REST (метод спекулятивного декодирования) - Базовые модели с прямой тонкой настройкой ### Детали реализации - Порог извлечения блоков $\gamma \in [0.3, 0.9]$ - Порог сходства $\eta$ оптимизируется на валидационном наборе - Длина контекста: 64 токена - Использование кусочно-линейной функции в качестве $g_\phi$ ## Результаты экспериментов ### Основные результаты #### 1. Дистилляция знаний (KCD-LM) В эксперименте дистилляции GPT-2 small (137M) → GPT-2 XL (1.5B): | Набор данных | Базовая LM | KCD-LM | Улучшение | |--------|---------|---------|------| | WikiText | 34.83 | 22.90 | 34.2% | | Medical | 51.68 | 24.95 | 51.7% | | Law | 11.41 | 8.24 | 27.8% | | Code | 106.44 | 50.77 | 52.3% | #### 2. Эффективность самодистилляции (SCD-LM) Повышение эффективности на MT-Bench-80: | Модель | Улучшение TTS | Улучшение FPS | |------|---------|---------| | GPT-2-XL | 19.59% | 43.33% | | LLaMA-2 | 14.89% | 32.32% | | Mistral | 11.75% | 24.52% | #### 3. Дистилляция экспертов (ECD-LM) Улучшение покрытия сущностей в вопросах о знаниях Алана Тьюринга: | Модель | Улучшение среднего числа сущностей | Улучшение уникальных сущностей | |------|----------------|--------------| | GPT2-XL | 46.8% | 42.2% | | LLaMA-2 | 13.5% | 17.7% | | Mistral | 18.5% | 11.9% | ### Абляционные исследования 1. **Влияние порога извлечения блоков**: Более низкие пороги (0.3-0.4) показывают лучшие результаты на большинстве задач 2. **Размер хранилища данных**: CD-LM требует только 30-40% объема памяти kNN-LM 3. **Частота поиска**: Каждый поиск просматривает только 0.0003-0.01% хранилища данных ### Анализ примеров Примеры генерации показывают, что CD-LM способен: - Естественно интегрировать извлеченные текстовые блоки - Контролировать частоту использования блоков через пороги сходства - Сохранять связность и беглость генерируемого текста ## Связанные работы ### Непараметрическое моделирование языка - kNN-LM: Поиск на каждой позиции токена, большие вычислительные затраты - NPM: Полностью непараметрический, отсутствуют параметризованные знания ### Спекулятивное декодирование - REST: Поиск последовательностей черновиков токенов, требует проверки LLM - Традиционное спекулятивное декодирование: Только повышение скорости, без улучшения производительности ### Поиск-дополненная генерация - Классификация по гранулярности: уровень документа, уровень фразы, уровень токена - CD-LM относится к уровню фразы, но с преимуществами жесткого решения и эффективности ## Заключение и обсуждение ### Основные выводы 1. CD-LM успешно достигает двойного повышения эффективности и производительности 2. Дизайн без обучения облегчает развертывание на существующих LM 3. Три режима дистилляции поддерживают разнообразные сценарии применения 4. Значительно превосходит существующие методы на множестве задач ### Ограничения 1. **Затраты на поиск**: Хотя более эффективно, чем kNN-LM, все еще существует задержка поиска 2. **Зависимость от качества блоков**: Производительность во многом зависит от качества извлечения блоков 3. **Адаптивность к предметной области**: Требует построения специализированного хранилища данных для конкретных областей 4. **Требования к памяти**: Крупномасштабное хранилище данных все еще требует значительной памяти ### Будущие направления 1. **Оптимизация поиска**: Квантизация, обрезка хранилища данных, альтернативные стратегии поиска 2. **Динамическое извлечение блоков**: Механизм идентификации блоков в реальном времени 3. **Расширение на мультимодальность**: Расширение на изображения, аудио и другие модальности 4. **Обучаемые компоненты**: Введение обучаемых параметров для дальнейшей оптимизации производительности ## Глубокая оценка ### Преимущества 1. **Высокая инновационность**: Первый метод поиска-дополненного подхода, одновременно решающий проблемы эффективности и производительности 2. **Теоретическая полнота**: Полный фреймворк вероятностного моделирования и вычислений 3. **Комплексные эксперименты**: Охватывают множество задач, моделей и аспектов оценки 4. **Высокая практичность**: Дизайн без обучения облегчает практическое развертывание 5. **Ясное изложение**: Точное техническое описание, подробная установка экспериментов ### Недостатки 1. **Эффективность поиска**: По сравнению с чистыми параметрическими методами все еще имеет дополнительные затраты 2. **Чувствительность к гиперпараметрам**: Множество пороговых параметров требуют тщательной настройки 3. **Обработка длинных текстов**: Недостаточная оценка эффектов на генерацию длинных последовательностей 4. **Теоретический анализ**: Отсутствуют теоретические гарантии сходимости и сложности ### Влияние 1. **Научная ценность**: Предлагает новую парадигму для поиск-дополненного моделирования языка 2. **Практическая ценность**: Имеет важный потенциал применения в сценариях с ограниченными ресурсами 3. **Воспроизводимость**: Обещание открыть исходный код и данные облегчает воспроизведение 4. **Вдохновляющее значение**: Предоставляет важные идеи для будущих связанных исследований ### Применимые сценарии 1. **Среды с ограниченными ресурсами**: Когда малые модели нуждаются в производительности, близкой к большим моделям 2. **Адаптация к предметной области**: При необходимости быстрой адаптации к знаниям конкретной области 3. **Системы реального времени**: Приложения с высокими требованиями к скорости вывода 4. **Динамическое обновление знаний**: Сценарии, требующие динамического включения новых знаний ## Библиография Статья цитирует важные работы в областях поиск-дополненной генерации, спекулятивного декодирования и непараметрического моделирования языка, предоставляя прочную теоретическую основу и базы для сравнения для разработки CD-LM. --- **Общая оценка**: Это высококачественная исследовательская работа, предлагающая инновационный фреймворк CD-LM, демонстрирующий отличные результаты в теоретическом моделировании, технической реализации и экспериментальной проверке. Метод имеет важное значение для решения проблем эффективности и адаптивности LLM и обещает оказать значительное влияние на практические приложения.