2025-11-16T12:07:12.311543

Chunk-Distilled Language Modeling

Li, Livescu, Zhou
We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.
academic

Modélisation du Langage Distillée par Chunks

Informations Fondamentales

  • ID de l'article: 2501.00343
  • Titre: Chunk-Distilled Language Modeling
  • Auteurs: Yanhong Li (University of Chicago & TTIC), Karen Livescu (Toyota Technological Institute at Chicago), Jiawei Zhou (TTIC & Stony Brook University)
  • Classification: cs.CL cs.AI
  • Date de publication: 31 décembre 2024 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2501.00343

Résumé

Cet article propose la modélisation du langage distillée par chunks (Chunk-Distilled Language Modeling, CD-LM), une méthode de génération de texte abordant deux défis fondamentaux des grands modèles de langage actuels : l'inefficacité de la génération au niveau des tokens et la difficulté d'adaptation aux nouvelles données et connaissances. Cette méthode combine un modèle de langage basé sur un réseau profond avec un module de récupération simple, permettant la génération de chunks multi-tokens en une seule étape de décodage. Son cadre de récupération supporte la construction flexible de magasins de données spécifiques au modèle ou au domaine, exploitant à la fois les connaissances internes des modèles existants et les perspectives d'experts provenant de corpus annotés manuellement. Cette adaptabilité permet d'améliorer le contrôle de la distribution du modèle de langage sans nécessiter d'entraînement supplémentaire.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

  1. Problème d'efficacité de génération: Les modèles de langage actuels basés sur l'architecture Transformer autorégressif génèrent le texte de manière sérielle, token par token, limitant l'efficacité de l'inférence
  2. Difficulté d'adaptation des connaissances: La mise à jour des paramètres du modèle après l'entraînement préalable nécessite des ressources de données et de calcul coûteuses, rendant difficile l'intégration dynamique de nouvelles connaissances

Importance du Problème

  • Les solutions existantes présentent des limitations : le décodage spéculatif améliore la vitesse mais maintient une distribution de modèle fixe ; la génération augmentée par récupération (RAG) améliore l'adaptabilité mais n'offre généralement pas de gains d'efficacité
  • Une solution unifiée abordant simultanément l'efficacité et la performance est nécessaire

Intuitions Clés

L'article observe que les modèles de langage génèrent fréquemment des chunks de texte répétitifs dans des contextes similaires, ces chunks présentant des plateaux de probabilité élevée sur les séquences de tokens, indiquant une forte mémorisation du modèle pour certaines combinaisons multi-tokens.

Contributions Principales

  1. Proposition du cadre CD-LM: Première méthode de modélisation du langage augmentée par récupération améliorant simultanément l'efficacité de génération et la performance de modélisation
  2. Conception d'un mécanisme flexible d'extraction de chunks: Support de trois scénarios d'application (distillation de connaissances, auto-distillation, distillation d'experts)
  3. Construction d'une architecture de récupération efficace: Stockage de données basé sur la structure trie et mécanisme d'appariement contextuel
  4. Dérivation d'algorithmes de calcul probabiliste: Fourniture d'un algorithme complet de programmation dynamique pour le calcul de probabilité de séquence
  5. Vérification expérimentale complète: Démonstration d'améliorations doubles en efficacité et performance sur plusieurs tâches

Détails de la Méthode

Définition de la Tâche

Étant donné une séquence de préfixe x<nx_{<n}, CD-LM choisit à chaque étape de génération :

  • Accepter le chunk de texte récupéré cnc_n (en sautant plusieurs étapes de génération de tokens)
  • Rejeter le chunk et utiliser le modèle de langage de base pour générer un token unique

Architecture du Modèle

1. Modèle de Génération Probabiliste

CD-LM introduit une variable aléatoire binaire znz_n contrôlant l'utilisation d'un chunk de récupération à la position nn :

p(zn=1)=qnp(z_n = 1) = q_n

Le processus de génération est :

  • Si zn=1z_n = 1 : accepter le chunk cnc_n de longueur τn\tau_n
  • Si zn=0z_n = 0 : utiliser le modèle de langage de base pour générer un token unique

2. Construction du Stockage de Données de Chunks

Magasin de données D={(ri,si)}i=1DD = \{(r_i, s_i)\}_{i=1}^{|D|}, où :

  • ri=(ui,vi)r_i = (u_i, v_i) : uiu_i est le contexte de préfixe, viv_i est le token d'entrée
  • sis_i : le chunk de texte
  • Utilisation d'une structure trie {Tw1,Tw2,...,TwV}\{T_{w_1}, T_{w_2}, ..., T_{w_{|V|}}\} pour le stockage, chaque TwT_w stockant tous les chunks commençant par le token ww

3. Récupération de Chunks Adaptative

Modèle de proposition de chunks G(x<n)(cn,qn)G(x_{<n}) \rightarrow (c_n, q_n) :

undefined