We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.
- ID del Artículo: 2501.00343
- Título: Chunk-Distilled Language Modeling
- Autores: Yanhong Li (University of Chicago & TTIC), Karen Livescu (Toyota Technological Institute at Chicago), Jiawei Zhou (TTIC & Stony Brook University)
- Clasificación: cs.CL cs.AI
- Fecha de Publicación: 31 de diciembre de 2024 (preimpresión arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2501.00343
Este artículo propone el Modelado de Lenguaje Destilado por Fragmentos (Chunk-Distilled Language Modeling, CD-LM), un método de generación de texto que aborda dos desafíos fundamentales de los modelos de lenguaje grandes actuales: la ineficiencia de la generación a nivel de token y la dificultad para adaptarse a nuevos datos y conocimientos. El método combina un LLM basado en redes profundas con un módulo de recuperación simple, permitiendo la generación de fragmentos de múltiples tokens en un único paso de decodificación. Su marco de recuperación admite la construcción flexible de almacenes de datos específicos del modelo o dominio, aprovechando tanto el conocimiento interno de modelos existentes como la incorporación de perspectivas expertas de corpus anotados manualmente. Esta adaptabilidad permite mejorar el control sobre la distribución del modelo de lenguaje sin necesidad de entrenamiento adicional.
- Problema de Eficiencia de Generación: Los LLM actuales basados en arquitectura Transformer autoregresiva generan texto de manera serial, token por token, limitando la eficiencia de inferencia
- Dificultad de Adaptación de Conocimiento: La actualización de parámetros del modelo después del preentrenamiento requiere recursos de datos y computacionales costosos, dificultando la integración dinámica de nuevo conocimiento
- Las soluciones existentes presentan limitaciones: la decodificación especulativa (speculative decoding) mejora la velocidad pero mantiene una distribución de modelo fija; la generación aumentada por recuperación (RAG) mejora la adaptabilidad pero generalmente sin beneficios de eficiencia
- Se requiere una solución unificada que aborde simultáneamente los problemas de eficiencia y rendimiento
El artículo observa que los LLM generan frecuentemente fragmentos de texto repetidos en contextos similares, fragmentos que exhiben mesetas de alta probabilidad en secuencias de tokens, indicando una fuerte memorización del modelo de ciertas combinaciones de múltiples tokens.
- Propuesta del Marco CD-LM: Primer método de modelado de lenguaje aumentado por recuperación que mejora simultáneamente la eficiencia de generación y el rendimiento de modelado
- Diseño de Mecanismo Flexible de Extracción de Fragmentos: Admite tres escenarios de aplicación (destilación de conocimiento, autodestilación, destilación de expertos)
- Construcción de Arquitectura de Recuperación Eficiente: Almacenamiento de datos basado en estructura trie y mecanismo de coincidencia contextual
- Derivación de Algoritmo de Cálculo Probabilístico: Proporciona algoritmo completo de programación dinámica para cálculo de probabilidad de secuencia
- Verificación Experimental Exhaustiva: Demuestra mejora dual en eficiencia y rendimiento en múltiples tareas
Dado una secuencia de prefijo x<n, CD-LM selecciona en cada paso de generación:
- Aceptar el fragmento de texto recuperado cn (omitiendo múltiples pasos de generación de tokens)
- Rechazar el fragmento y usar el LM base para generar un token individual
CD-LM introduce una variable aleatoria binaria zn que controla si se utiliza un fragmento recuperado en la posición n:
p(zn=1)=qn
El proceso de generación es:
- Si zn=1: aceptar fragmento cn, con longitud τn
- Si zn=0: usar el LM base para generar un token individual
Almacén de datos D={(ri,si)}i=1∣D∣, donde:
- ri=(ui,vi): ui es el contexto precedente, vi es el token de entrada
- si: fragmento de texto
- Se utiliza estructura trie {Tw1,Tw2,...,Tw∣V∣} para almacenamiento, donde cada Tw almacena todos los fragmentos que comienzan con el token w
Modelo de propuesta de fragmento G(x<n)→(cn,qn):
undefined