2025-11-16T12:07:12.311543

Chunk-Distilled Language Modeling

Li, Livescu, Zhou
We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.
academic

Modelado de Lenguaje Destilado por Fragmentos

Información Básica

  • ID del Artículo: 2501.00343
  • Título: Chunk-Distilled Language Modeling
  • Autores: Yanhong Li (University of Chicago & TTIC), Karen Livescu (Toyota Technological Institute at Chicago), Jiawei Zhou (TTIC & Stony Brook University)
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: 31 de diciembre de 2024 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2501.00343

Resumen

Este artículo propone el Modelado de Lenguaje Destilado por Fragmentos (Chunk-Distilled Language Modeling, CD-LM), un método de generación de texto que aborda dos desafíos fundamentales de los modelos de lenguaje grandes actuales: la ineficiencia de la generación a nivel de token y la dificultad para adaptarse a nuevos datos y conocimientos. El método combina un LLM basado en redes profundas con un módulo de recuperación simple, permitiendo la generación de fragmentos de múltiples tokens en un único paso de decodificación. Su marco de recuperación admite la construcción flexible de almacenes de datos específicos del modelo o dominio, aprovechando tanto el conocimiento interno de modelos existentes como la incorporación de perspectivas expertas de corpus anotados manualmente. Esta adaptabilidad permite mejorar el control sobre la distribución del modelo de lenguaje sin necesidad de entrenamiento adicional.

Contexto de Investigación y Motivación

Problemas Fundamentales

  1. Problema de Eficiencia de Generación: Los LLM actuales basados en arquitectura Transformer autoregresiva generan texto de manera serial, token por token, limitando la eficiencia de inferencia
  2. Dificultad de Adaptación de Conocimiento: La actualización de parámetros del modelo después del preentrenamiento requiere recursos de datos y computacionales costosos, dificultando la integración dinámica de nuevo conocimiento

Importancia del Problema

  • Las soluciones existentes presentan limitaciones: la decodificación especulativa (speculative decoding) mejora la velocidad pero mantiene una distribución de modelo fija; la generación aumentada por recuperación (RAG) mejora la adaptabilidad pero generalmente sin beneficios de eficiencia
  • Se requiere una solución unificada que aborde simultáneamente los problemas de eficiencia y rendimiento

Perspectiva Clave

El artículo observa que los LLM generan frecuentemente fragmentos de texto repetidos en contextos similares, fragmentos que exhiben mesetas de alta probabilidad en secuencias de tokens, indicando una fuerte memorización del modelo de ciertas combinaciones de múltiples tokens.

Contribuciones Principales

  1. Propuesta del Marco CD-LM: Primer método de modelado de lenguaje aumentado por recuperación que mejora simultáneamente la eficiencia de generación y el rendimiento de modelado
  2. Diseño de Mecanismo Flexible de Extracción de Fragmentos: Admite tres escenarios de aplicación (destilación de conocimiento, autodestilación, destilación de expertos)
  3. Construcción de Arquitectura de Recuperación Eficiente: Almacenamiento de datos basado en estructura trie y mecanismo de coincidencia contextual
  4. Derivación de Algoritmo de Cálculo Probabilístico: Proporciona algoritmo completo de programación dinámica para cálculo de probabilidad de secuencia
  5. Verificación Experimental Exhaustiva: Demuestra mejora dual en eficiencia y rendimiento en múltiples tareas

Explicación Detallada del Método

Definición de Tarea

Dado una secuencia de prefijo x<nx_{<n}, CD-LM selecciona en cada paso de generación:

  • Aceptar el fragmento de texto recuperado cnc_n (omitiendo múltiples pasos de generación de tokens)
  • Rechazar el fragmento y usar el LM base para generar un token individual

Arquitectura del Modelo

1. Modelo de Generación Probabilística

CD-LM introduce una variable aleatoria binaria znz_n que controla si se utiliza un fragmento recuperado en la posición nn:

p(zn=1)=qnp(z_n = 1) = q_n

El proceso de generación es:

  • Si zn=1z_n = 1: aceptar fragmento cnc_n, con longitud τn\tau_n
  • Si zn=0z_n = 0: usar el LM base para generar un token individual

2. Construcción de Almacenamiento de Datos de Fragmentos

Almacén de datos D={(ri,si)}i=1DD = \{(r_i, s_i)\}_{i=1}^{|D|}, donde:

  • ri=(ui,vi)r_i = (u_i, v_i): uiu_i es el contexto precedente, viv_i es el token de entrada
  • sis_i: fragmento de texto
  • Se utiliza estructura trie {Tw1,Tw2,...,TwV}\{T_{w_1}, T_{w_2}, ..., T_{w_{|V|}}\} para almacenamiento, donde cada TwT_w almacena todos los fragmentos que comienzan con el token ww

3. Recuperación de Fragmentos Adaptativa

Modelo de propuesta de fragmento G(x<n)(cn,qn)G(x_{<n}) \rightarrow (c_n, q_n):

undefined