2025-11-16T12:07:12.311543

Chunk-Distilled Language Modeling

Li, Livescu, Zhou
We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.
academic

Modélisation du Langage Distillée par Chunks

Informations Fondamentales

  • ID de l'article: 2501.00343
  • Titre: Chunk-Distilled Language Modeling
  • Auteurs: Yanhong Li (University of Chicago & TTIC), Karen Livescu (Toyota Technological Institute at Chicago), Jiawei Zhou (TTIC & Stony Brook University)
  • Classification: cs.CL cs.AI
  • Date de publication: 31 décembre 2024 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2501.00343

Résumé

Cet article propose la modélisation du langage distillée par chunks (Chunk-Distilled Language Modeling, CD-LM), une méthode de génération de texte abordant deux défis fondamentaux des grands modèles de langage actuels : l'inefficacité de la génération au niveau des tokens et la difficulté d'adaptation aux nouvelles données et connaissances. Cette méthode combine un modèle de langage basé sur un réseau profond avec un module de récupération simple, permettant la génération de chunks multi-tokens en une seule étape de décodage. Son cadre de récupération supporte la construction flexible de magasins de données spécifiques au modèle ou au domaine, exploitant à la fois les connaissances internes des modèles existants et les perspectives d'experts provenant de corpus annotés manuellement. Cette adaptabilité permet d'améliorer le contrôle de la distribution du modèle de langage sans nécessiter d'entraînement supplémentaire.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

  1. Problème d'efficacité de génération: Les modèles de langage actuels basés sur l'architecture Transformer autorégressif génèrent le texte de manière sérielle, token par token, limitant l'efficacité de l'inférence
  2. Difficulté d'adaptation des connaissances: La mise à jour des paramètres du modèle après l'entraînement préalable nécessite des ressources de données et de calcul coûteuses, rendant difficile l'intégration dynamique de nouvelles connaissances

Importance du Problème

  • Les solutions existantes présentent des limitations : le décodage spéculatif améliore la vitesse mais maintient une distribution de modèle fixe ; la génération augmentée par récupération (RAG) améliore l'adaptabilité mais n'offre généralement pas de gains d'efficacité
  • Une solution unifiée abordant simultanément l'efficacité et la performance est nécessaire

Intuitions Clés

L'article observe que les modèles de langage génèrent fréquemment des chunks de texte répétitifs dans des contextes similaires, ces chunks présentant des plateaux de probabilité élevée sur les séquences de tokens, indiquant une forte mémorisation du modèle pour certaines combinaisons multi-tokens.

Contributions Principales

  1. Proposition du cadre CD-LM: Première méthode de modélisation du langage augmentée par récupération améliorant simultanément l'efficacité de génération et la performance de modélisation
  2. Conception d'un mécanisme flexible d'extraction de chunks: Support de trois scénarios d'application (distillation de connaissances, auto-distillation, distillation d'experts)
  3. Construction d'une architecture de récupération efficace: Stockage de données basé sur la structure trie et mécanisme d'appariement contextuel
  4. Dérivation d'algorithmes de calcul probabiliste: Fourniture d'un algorithme complet de programmation dynamique pour le calcul de probabilité de séquence
  5. Vérification expérimentale complète: Démonstration d'améliorations doubles en efficacité et performance sur plusieurs tâches

Détails de la Méthode

Définition de la Tâche

Étant donné une séquence de préfixe x<nx_{<n}, CD-LM choisit à chaque étape de génération :

  • Accepter le chunk de texte récupéré cnc_n (en sautant plusieurs étapes de génération de tokens)
  • Rejeter le chunk et utiliser le modèle de langage de base pour générer un token unique

Architecture du Modèle

1. Modèle de Génération Probabiliste

CD-LM introduit une variable aléatoire binaire znz_n contrôlant l'utilisation d'un chunk de récupération à la position nn :

p(zn=1)=qnp(z_n = 1) = q_n

Le processus de génération est :

  • Si zn=1z_n = 1 : accepter le chunk cnc_n de longueur τn\tau_n
  • Si zn=0z_n = 0 : utiliser le modèle de langage de base pour générer un token unique

2. Construction du Stockage de Données de Chunks

Magasin de données D={(ri,si)}i=1DD = \{(r_i, s_i)\}_{i=1}^{|D|}, où :

  • ri=(ui,vi)r_i = (u_i, v_i) : uiu_i est le contexte de préfixe, viv_i est le token d'entrée
  • sis_i : le chunk de texte
  • Utilisation d'une structure trie {Tw1,Tw2,...,TwV}\{T_{w_1}, T_{w_2}, ..., T_{w_{|V|}}\} pour le stockage, chaque TwT_w stockant tous les chunks commençant par le token ww

3. Récupération de Chunks Adaptative

Modèle de proposition de chunks G(x<n)(cn,qn)G(x_{<n}) \rightarrow (c_n, q_n) :

\begin{align} (u^*, c_n) &= \arg\max_{(u,s) \in T_{x_{n-1}}} \{\text{sim}(f_\theta(x_{<n-1}), f_\theta(u))\} \\ q_n &= g_\phi(\text{sim}(f_\theta(x_{<n-1}), f_\theta(u^*))) \end{align}

sim(,)\text{sim}(\cdot, \cdot) est la similarité cosinus et gϕ()g_\phi(\cdot) est la fonction de mappage de similarité à probabilité d'acceptation.

Points d'Innovation Technique

  1. Mécanisme de Décision Dure: Contrairement au mélange souple de kNN-LM, CD-LM prend des décisions dures sur les chunks multi-tokens
  2. Contrainte de Token d'Entrée: Utilisation du token précédent comme point d'entrée pour limiter l'espace de recherche, améliorant l'efficacité de récupération
  3. Conception sans Entraînement: L'ensemble du cadre ne nécessite pas d'entraînement supplémentaire et peut fonctionner avec n'importe quel modèle de langage prêt à l'emploi
  4. Trois Modes de Distillation:
    • KCD-LM: Distillation de connaissances à partir d'un modèle plus puissant
    • SCD-LM: Auto-amélioration de la mémorisation pour l'efficacité
    • ECD-LM: Intégration de connaissances annotées par des experts

Configuration Expérimentale

Ensembles de Données

  1. Modélisation du langage: WikiText-103, GitHub Code (Dockerfile)
  2. Adaptation de domaine: Medical Instruction Dataset, Pile-of-Law (Federal Register)
  3. Tests d'efficacité: MT-Bench-80, MT-Bench-10
  4. Injection de connaissances: Page Wikipedia d'Alan Turing, données PII synthétiques

Métriques d'Évaluation

  • Performance: Perplexité (PPL), score MAUVE, ROUGE-L, BLEURT
  • Efficacité: Économies de temps de tokens (TTS), économies de propagation avant (FPS)
  • Qualité: Évaluation LLM-as-a-judge, évaluation de fluidité humaine

Méthodes de Comparaison

  • kNN-LM, RETOMATON (méthodes non-paramétriques)
  • REST (méthode de décodage spéculatif)
  • Modèles de base entraînés directement par fine-tuning

Détails d'Implémentation

  • Seuil d'extraction de chunks γ[0.3,0.9]\gamma \in [0.3, 0.9]
  • Seuil de similarité η\eta optimisé sur l'ensemble de validation
  • Longueur de contexte : 64 tokens
  • Utilisation d'une fonction linéaire par segments comme gϕg_\phi

Résultats Expérimentaux

Résultats Principaux

1. Distillation de Connaissances (KCD-LM)

Dans l'expérience de distillation GPT-2 small (137M) → GPT-2 XL (1.5B) :

Ensemble de DonnéesModèle de BaseKCD-LMAmélioration
WikiText34.8322.9034.2%
Medical51.6824.9551.7%
Law11.418.2427.8%
Code106.4450.7752.3%

2. Efficacité d'Auto-Distillation (SCD-LM)

Améliorations d'efficacité sur MT-Bench-80 :

ModèleAmélioration TTSAmélioration FPS
GPT-2-XL19.59%43.33%
LLaMA-214.89%32.32%
Mistral11.75%24.52%

3. Distillation d'Experts (ECD-LM)

Amélioration de la couverture d'entités dans les questions-réponses sur Alan Turing :

ModèleAmélioration du Nombre Moyen d'EntitésAmélioration d'Entités Uniques
GPT2-XL46.8%42.2%
LLaMA-213.5%17.7%
Mistral18.5%11.9%

Études d'Ablation

  1. Impact du Seuil d'Extraction de Chunks: Les seuils plus bas (0.3-0.4) donnent les meilleurs résultats sur la plupart des tâches
  2. Taille du Magasin de Données: CD-LM nécessite seulement 30-40% de l'espace de stockage de kNN-LM
  3. Fréquence de Récupération: Chaque récupération ne recherche que 0.0003-0.01% du magasin de données

Analyses de Cas

Les exemples de génération montrent que CD-LM peut :

  • Intégrer naturellement les chunks de texte récupérés
  • Contrôler la fréquence d'utilisation des chunks via le seuil de similarité
  • Maintenir la cohérence et la fluidité du texte généré

Travaux Connexes

Modélisation du Langage Non-Paramétrique

  • kNN-LM: Récupération à chaque position de token, coût computationnel élevé
  • NPM: Entièrement non-paramétrique, manquant de connaissances paramétriques

Décodage Spéculatif

  • REST: Récupération de séquences de tokens brouillons, mais nécessite une vérification par LLM
  • Décodage spéculatif traditionnel: Améliore uniquement la vitesse, sans amélioration de performance

Génération Augmentée par Récupération

  • Classification par granularité: Niveau document, phrase, token
  • CD-LM au niveau phrase, mais avec avantages de décision dure et d'efficacité

Conclusion et Discussion

Conclusions Principales

  1. CD-LM réalise avec succès des améliorations doubles en efficacité et performance
  2. La conception sans entraînement facilite le déploiement sur les modèles de langage existants
  3. Les trois modes de distillation supportent des scénarios d'application diversifiés
  4. Surpasse significativement les méthodes existantes sur plusieurs tâches

Limitations

  1. Surcharge de Récupération: Bien que plus efficace que kNN-LM, il existe toujours une latence de récupération
  2. Dépendance à la Qualité des Chunks: La performance dépend largement de la qualité de l'extraction de chunks
  3. Adaptabilité de Domaine: Nécessite la construction de magasins de données spécialisés pour des domaines spécifiques
  4. Besoins en Mémoire: Les magasins de données à grande échelle nécessitent toujours une mémoire considérable

Directions Futures

  1. Optimisation de Récupération: Quantification, élagage de magasin de données, stratégies de recherche alternatives
  2. Extraction de Chunks Dynamique: Mécanismes d'identification de chunks adaptatifs en temps réel
  3. Extension Multimodale: Extension aux modalités image, audio, etc.
  4. Composants Entraînables: Introduction de paramètres apprenables pour optimiser davantage la performance

Évaluation Approfondie

Points Forts

  1. Innovation Forte: Première méthode augmentée par récupération abordant simultanément efficacité et performance
  2. Théorie Complète: Fourniture d'un cadre complet de modélisation probabiliste et de calcul
  3. Expériences Complètes: Couverture de plusieurs tâches, modèles et dimensions d'évaluation
  4. Praticité Élevée: La conception sans entraînement facilite le déploiement pratique
  5. Rédaction Claire: Description technique précise et configuration expérimentale détaillée

Insuffisances

  1. Efficacité de Récupération: Surcharge supplémentaire par rapport aux méthodes purement paramétriques
  2. Sensibilité aux Hyperparamètres: Plusieurs paramètres de seuil nécessitent un ajustement minutieux
  3. Traitement de Texte Long: Évaluation insuffisante de l'effet sur la génération de séquences longues
  4. Analyse Théorique: Absence de garanties théoriques de convergence et de complexité

Impact

  1. Valeur Académique: Fournit un nouveau paradigme pour la modélisation du langage augmentée par récupération
  2. Valeur Pratique: Potentiel d'application important dans les scénarios à ressources limitées
  3. Reproductibilité: Engagement d'open-sourcer le code et les données pour faciliter la reproduction
  4. Inspirant: Fournit des idées importantes pour les recherches futures connexes

Scénarios d'Application

  1. Environnements à Ressources Limitées: Quand les petits modèles ont besoin de performance proche des grands modèles
  2. Adaptation de Domaine: Quand une adaptation rapide aux connaissances de domaine spécifique est nécessaire
  3. Systèmes Temps Réel: Applications avec exigences élevées de vitesse d'inférence
  4. Mise à Jour de Connaissances: Scénarios nécessitant l'intégration dynamique de nouvelles connaissances

Références

L'article cite des travaux importants dans les domaines de la génération augmentée par récupération, du décodage spéculatif et de la modélisation du langage non-paramétrique, fournissant une base théorique solide et des points de comparaison pour la conception de CD-LM.


Évaluation Globale: Ceci est un article de recherche de haute qualité proposant le cadre innovant CD-LM, démontrant une excellence dans la modélisation théorique, l'implémentation technique et la vérification expérimentale. Cette méthode possède une valeur importante pour résoudre les problèmes d'efficacité et d'adaptabilité des modèles de langage, avec un potentiel d'impact significatif dans les applications pratiques.