2025-11-16T12:07:12.311543

Chunk-Distilled Language Modeling

Li, Livescu, Zhou

We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.

academic

Modélisation du Langage Distillée par Chunks

Informations Fondamentales

ID de l'article: 2501.00343
Titre: Chunk-Distilled Language Modeling
Auteurs: Yanhong Li (University of Chicago & TTIC), Karen Livescu (Toyota Technological Institute at Chicago), Jiawei Zhou (TTIC & Stony Brook University)
Classification: cs.CL cs.AI
Date de publication: 31 décembre 2024 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2501.00343

Résumé

Cet article propose la modélisation du langage distillée par chunks (Chunk-Distilled Language Modeling, CD-LM), une méthode de génération de texte abordant deux défis fondamentaux des grands modèles de langage actuels : l'inefficacité de la génération au niveau des tokens et la difficulté d'adaptation aux nouvelles données et connaissances. Cette méthode combine un modèle de langage basé sur un réseau profond avec un module de récupération simple, permettant la génération de chunks multi-tokens en une seule étape de décodage. Son cadre de récupération supporte la construction flexible de magasins de données spécifiques au modèle ou au domaine, exploitant à la fois les connaissances internes des modèles existants et les perspectives d'experts provenant de corpus annotés manuellement. Cette adaptabilité permet d'améliorer le contrôle de la distribution du modèle de langage sans nécessiter d'entraînement supplémentaire.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

Problème d'efficacité de génération: Les modèles de langage actuels basés sur l'architecture Transformer autorégressif génèrent le texte de manière sérielle, token par token, limitant l'efficacité de l'inférence
Difficulté d'adaptation des connaissances: La mise à jour des paramètres du modèle après l'entraînement préalable nécessite des ressources de données et de calcul coûteuses, rendant difficile l'intégration dynamique de nouvelles connaissances

Importance du Problème

Les solutions existantes présentent des limitations : le décodage spéculatif améliore la vitesse mais maintient une distribution de modèle fixe ; la génération augmentée par récupération (RAG) améliore l'adaptabilité mais n'offre généralement pas de gains d'efficacité
Une solution unifiée abordant simultanément l'efficacité et la performance est nécessaire

Intuitions Clés

L'article observe que les modèles de langage génèrent fréquemment des chunks de texte répétitifs dans des contextes similaires, ces chunks présentant des plateaux de probabilité élevée sur les séquences de tokens, indiquant une forte mémorisation du modèle pour certaines combinaisons multi-tokens.

Contributions Principales

Proposition du cadre CD-LM: Première méthode de modélisation du langage augmentée par récupération améliorant simultanément l'efficacité de génération et la performance de modélisation
Conception d'un mécanisme flexible d'extraction de chunks: Support de trois scénarios d'application (distillation de connaissances, auto-distillation, distillation d'experts)
Construction d'une architecture de récupération efficace: Stockage de données basé sur la structure trie et mécanisme d'appariement contextuel
Dérivation d'algorithmes de calcul probabiliste: Fourniture d'un algorithme complet de programmation dynamique pour le calcul de probabilité de séquence
Vérification expérimentale complète: Démonstration d'améliorations doubles en efficacité et performance sur plusieurs tâches

Détails de la Méthode

Définition de la Tâche

Étant donné une séquence de préfixe $x_{<n}$ , CD-LM choisit à chaque étape de génération :

Accepter le chunk de texte récupéré $c_n$ (en sautant plusieurs étapes de génération de tokens)
Rejeter le chunk et utiliser le modèle de langage de base pour générer un token unique

Architecture du Modèle

1. Modèle de Génération Probabiliste

CD-LM introduit une variable aléatoire binaire $z_n$ contrôlant l'utilisation d'un chunk de récupération à la position $n$ :

$p(z_n = 1) = q_n$

Le processus de génération est :

Si $z_n = 1$ : accepter le chunk $c_n$ de longueur $\tau_n$
Si $z_n = 0$ : utiliser le modèle de langage de base pour générer un token unique

2. Construction du Stockage de Données de Chunks

Magasin de données $D = \{(r_i, s_i)\}_{i=1}^{|D|}$ , où :

$r_i = (u_i, v_i)$ : $u_i$ est le contexte de préfixe, $v_i$ est le token d'entrée
$s_i$ : le chunk de texte
Utilisation d'une structure trie $\{T_{w_1}, T_{w_2}, ..., T_{w_{|V|}}\}$ pour le stockage, chaque $T_w$ stockant tous les chunks commençant par le token $w$

3. Récupération de Chunks Adaptative

Modèle de proposition de chunks $G(x_{<n}) \rightarrow (c_n, q_n)$ :

$\begin{align} (u^*, c_n) &= \arg\max_{(u,s) \in T_{x_{n-1}}} \{\text{sim}(f_\theta(x_{<n-1}), f_\theta(u))\} \\ q_n &= g_\phi(\text{sim}(f_\theta(x_{<n-1}), f_\theta(u^*))) \end{align}$

où $\text{sim}(\cdot, \cdot)$ est la similarité cosinus et $g_\phi(\cdot)$ est la fonction de mappage de similarité à probabilité d'acceptation.

Points d'Innovation Technique

Mécanisme de Décision Dure: Contrairement au mélange souple de kNN-LM, CD-LM prend des décisions dures sur les chunks multi-tokens
Contrainte de Token d'Entrée: Utilisation du token précédent comme point d'entrée pour limiter l'espace de recherche, améliorant l'efficacité de récupération
Conception sans Entraînement: L'ensemble du cadre ne nécessite pas d'entraînement supplémentaire et peut fonctionner avec n'importe quel modèle de langage prêt à l'emploi
Trois Modes de Distillation:
- KCD-LM: Distillation de connaissances à partir d'un modèle plus puissant
- SCD-LM: Auto-amélioration de la mémorisation pour l'efficacité
- ECD-LM: Intégration de connaissances annotées par des experts

Configuration Expérimentale

Ensembles de Données

Modélisation du langage: WikiText-103, GitHub Code (Dockerfile)
Adaptation de domaine: Medical Instruction Dataset, Pile-of-Law (Federal Register)
Tests d'efficacité: MT-Bench-80, MT-Bench-10
Injection de connaissances: Page Wikipedia d'Alan Turing, données PII synthétiques

Métriques d'Évaluation

Performance: Perplexité (PPL), score MAUVE, ROUGE-L, BLEURT
Efficacité: Économies de temps de tokens (TTS), économies de propagation avant (FPS)
Qualité: Évaluation LLM-as-a-judge, évaluation de fluidité humaine

Méthodes de Comparaison

kNN-LM, RETOMATON (méthodes non-paramétriques)
REST (méthode de décodage spéculatif)
Modèles de base entraînés directement par fine-tuning

Détails d'Implémentation

Seuil d'extraction de chunks $\gamma \in [0.3, 0.9]$
Seuil de similarité $\eta$ optimisé sur l'ensemble de validation
Longueur de contexte : 64 tokens
Utilisation d'une fonction linéaire par segments comme $g_\phi$

Résultats Expérimentaux

Résultats Principaux

1. Distillation de Connaissances (KCD-LM)

Dans l'expérience de distillation GPT-2 small (137M) → GPT-2 XL (1.5B) :

Ensemble de Données	Modèle de Base	KCD-LM	Amélioration
WikiText	34.83	22.90	34.2%
Medical	51.68	24.95	51.7%
Law	11.41	8.24	27.8%
Code	106.44	50.77	52.3%

2. Efficacité d'Auto-Distillation (SCD-LM)

Améliorations d'efficacité sur MT-Bench-80 :

Modèle	Amélioration TTS	Amélioration FPS
GPT-2-XL	19.59%	43.33%
LLaMA-2	14.89%	32.32%
Mistral	11.75%	24.52%

3. Distillation d'Experts (ECD-LM)

Amélioration de la couverture d'entités dans les questions-réponses sur Alan Turing :

Modèle	Amélioration du Nombre Moyen d'Entités	Amélioration d'Entités Uniques
GPT2-XL	46.8%	42.2%
LLaMA-2	13.5%	17.7%
Mistral	18.5%	11.9%

Études d'Ablation

Impact du Seuil d'Extraction de Chunks: Les seuils plus bas (0.3-0.4) donnent les meilleurs résultats sur la plupart des tâches
Taille du Magasin de Données: CD-LM nécessite seulement 30-40% de l'espace de stockage de kNN-LM
Fréquence de Récupération: Chaque récupération ne recherche que 0.0003-0.01% du magasin de données

Analyses de Cas

Les exemples de génération montrent que CD-LM peut :

Intégrer naturellement les chunks de texte récupérés
Contrôler la fréquence d'utilisation des chunks via le seuil de similarité
Maintenir la cohérence et la fluidité du texte généré

Travaux Connexes

Modélisation du Langage Non-Paramétrique

kNN-LM: Récupération à chaque position de token, coût computationnel élevé
NPM: Entièrement non-paramétrique, manquant de connaissances paramétriques

Décodage Spéculatif

REST: Récupération de séquences de tokens brouillons, mais nécessite une vérification par LLM
Décodage spéculatif traditionnel: Améliore uniquement la vitesse, sans amélioration de performance

Génération Augmentée par Récupération

Classification par granularité: Niveau document, phrase, token
CD-LM au niveau phrase, mais avec avantages de décision dure et d'efficacité

Conclusion et Discussion

Conclusions Principales

CD-LM réalise avec succès des améliorations doubles en efficacité et performance
La conception sans entraînement facilite le déploiement sur les modèles de langage existants
Les trois modes de distillation supportent des scénarios d'application diversifiés
Surpasse significativement les méthodes existantes sur plusieurs tâches

Limitations

Surcharge de Récupération: Bien que plus efficace que kNN-LM, il existe toujours une latence de récupération
Dépendance à la Qualité des Chunks: La performance dépend largement de la qualité de l'extraction de chunks
Adaptabilité de Domaine: Nécessite la construction de magasins de données spécialisés pour des domaines spécifiques
Besoins en Mémoire: Les magasins de données à grande échelle nécessitent toujours une mémoire considérable

Directions Futures

Optimisation de Récupération: Quantification, élagage de magasin de données, stratégies de recherche alternatives
Extraction de Chunks Dynamique: Mécanismes d'identification de chunks adaptatifs en temps réel
Extension Multimodale: Extension aux modalités image, audio, etc.
Composants Entraînables: Introduction de paramètres apprenables pour optimiser davantage la performance

Évaluation Approfondie

Points Forts

Innovation Forte: Première méthode augmentée par récupération abordant simultanément efficacité et performance
Théorie Complète: Fourniture d'un cadre complet de modélisation probabiliste et de calcul
Expériences Complètes: Couverture de plusieurs tâches, modèles et dimensions d'évaluation
Praticité Élevée: La conception sans entraînement facilite le déploiement pratique
Rédaction Claire: Description technique précise et configuration expérimentale détaillée

Insuffisances

Efficacité de Récupération: Surcharge supplémentaire par rapport aux méthodes purement paramétriques
Sensibilité aux Hyperparamètres: Plusieurs paramètres de seuil nécessitent un ajustement minutieux
Traitement de Texte Long: Évaluation insuffisante de l'effet sur la génération de séquences longues
Analyse Théorique: Absence de garanties théoriques de convergence et de complexité

Impact

Valeur Académique: Fournit un nouveau paradigme pour la modélisation du langage augmentée par récupération
Valeur Pratique: Potentiel d'application important dans les scénarios à ressources limitées
Reproductibilité: Engagement d'open-sourcer le code et les données pour faciliter la reproduction
Inspirant: Fournit des idées importantes pour les recherches futures connexes

Scénarios d'Application

Environnements à Ressources Limitées: Quand les petits modèles ont besoin de performance proche des grands modèles
Adaptation de Domaine: Quand une adaptation rapide aux connaissances de domaine spécifique est nécessaire
Systèmes Temps Réel: Applications avec exigences élevées de vitesse d'inférence
Mise à Jour de Connaissances: Scénarios nécessitant l'intégration dynamique de nouvelles connaissances

Références

L'article cite des travaux importants dans les domaines de la génération augmentée par récupération, du décodage spéculatif et de la modélisation du langage non-paramétrique, fournissant une base théorique solide et des points de comparaison pour la conception de CD-LM.

Évaluation Globale: Ceci est un article de recherche de haute qualité proposant le cadre innovant CD-LM, démontrant une excellence dans la modélisation théorique, l'implémentation technique et la vérification expérimentale. Cette méthode possède une valeur importante pour résoudre les problèmes d'efficacité et d'adaptabilité des modèles de langage, avec un potentiel d'impact significatif dans les applications pratiques.