We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.
- ID de l'article: 2501.00343
- Titre: Chunk-Distilled Language Modeling
- Auteurs: Yanhong Li (University of Chicago & TTIC), Karen Livescu (Toyota Technological Institute at Chicago), Jiawei Zhou (TTIC & Stony Brook University)
- Classification: cs.CL cs.AI
- Date de publication: 31 décembre 2024 (prépublication arXiv)
- Lien de l'article: https://arxiv.org/abs/2501.00343
Cet article propose la modélisation du langage distillée par chunks (Chunk-Distilled Language Modeling, CD-LM), une méthode de génération de texte abordant deux défis fondamentaux des grands modèles de langage actuels : l'inefficacité de la génération au niveau des tokens et la difficulté d'adaptation aux nouvelles données et connaissances. Cette méthode combine un modèle de langage basé sur un réseau profond avec un module de récupération simple, permettant la génération de chunks multi-tokens en une seule étape de décodage. Son cadre de récupération supporte la construction flexible de magasins de données spécifiques au modèle ou au domaine, exploitant à la fois les connaissances internes des modèles existants et les perspectives d'experts provenant de corpus annotés manuellement. Cette adaptabilité permet d'améliorer le contrôle de la distribution du modèle de langage sans nécessiter d'entraînement supplémentaire.
- Problème d'efficacité de génération: Les modèles de langage actuels basés sur l'architecture Transformer autorégressif génèrent le texte de manière sérielle, token par token, limitant l'efficacité de l'inférence
- Difficulté d'adaptation des connaissances: La mise à jour des paramètres du modèle après l'entraînement préalable nécessite des ressources de données et de calcul coûteuses, rendant difficile l'intégration dynamique de nouvelles connaissances
- Les solutions existantes présentent des limitations : le décodage spéculatif améliore la vitesse mais maintient une distribution de modèle fixe ; la génération augmentée par récupération (RAG) améliore l'adaptabilité mais n'offre généralement pas de gains d'efficacité
- Une solution unifiée abordant simultanément l'efficacité et la performance est nécessaire
L'article observe que les modèles de langage génèrent fréquemment des chunks de texte répétitifs dans des contextes similaires, ces chunks présentant des plateaux de probabilité élevée sur les séquences de tokens, indiquant une forte mémorisation du modèle pour certaines combinaisons multi-tokens.
- Proposition du cadre CD-LM: Première méthode de modélisation du langage augmentée par récupération améliorant simultanément l'efficacité de génération et la performance de modélisation
- Conception d'un mécanisme flexible d'extraction de chunks: Support de trois scénarios d'application (distillation de connaissances, auto-distillation, distillation d'experts)
- Construction d'une architecture de récupération efficace: Stockage de données basé sur la structure trie et mécanisme d'appariement contextuel
- Dérivation d'algorithmes de calcul probabiliste: Fourniture d'un algorithme complet de programmation dynamique pour le calcul de probabilité de séquence
- Vérification expérimentale complète: Démonstration d'améliorations doubles en efficacité et performance sur plusieurs tâches
Étant donné une séquence de préfixe x<n, CD-LM choisit à chaque étape de génération :
- Accepter le chunk de texte récupéré cn (en sautant plusieurs étapes de génération de tokens)
- Rejeter le chunk et utiliser le modèle de langage de base pour générer un token unique
CD-LM introduit une variable aléatoire binaire zn contrôlant l'utilisation d'un chunk de récupération à la position n :
p(zn=1)=qn
Le processus de génération est :
- Si zn=1 : accepter le chunk cn de longueur τn
- Si zn=0 : utiliser le modèle de langage de base pour générer un token unique
Magasin de données D={(ri,si)}i=1∣D∣, où :
- ri=(ui,vi) : ui est le contexte de préfixe, vi est le token d'entrée
- si : le chunk de texte
- Utilisation d'une structure trie {Tw1,Tw2,...,Tw∣V∣} pour le stockage, chaque Tw stockant tous les chunks commençant par le token w
Modèle de proposition de chunks G(x<n)→(cn,qn) :
\begin{align}
(u^*, c_n) &= \arg\max_{(u,s) \in T_{x_{n-1}}} \{\text{sim}(f_\theta(x_{<n-1}), f_\theta(u))\} \\
q_n &= g_\phi(\text{sim}(f_\theta(x_{<n-1}), f_\theta(u^*)))
\end{align}
où sim(⋅,⋅) est la similarité cosinus et gϕ(⋅) est la fonction de mappage de similarité à probabilité d'acceptation.
- Mécanisme de Décision Dure: Contrairement au mélange souple de kNN-LM, CD-LM prend des décisions dures sur les chunks multi-tokens
- Contrainte de Token d'Entrée: Utilisation du token précédent comme point d'entrée pour limiter l'espace de recherche, améliorant l'efficacité de récupération
- Conception sans Entraînement: L'ensemble du cadre ne nécessite pas d'entraînement supplémentaire et peut fonctionner avec n'importe quel modèle de langage prêt à l'emploi
- Trois Modes de Distillation:
- KCD-LM: Distillation de connaissances à partir d'un modèle plus puissant
- SCD-LM: Auto-amélioration de la mémorisation pour l'efficacité
- ECD-LM: Intégration de connaissances annotées par des experts
- Modélisation du langage: WikiText-103, GitHub Code (Dockerfile)
- Adaptation de domaine: Medical Instruction Dataset, Pile-of-Law (Federal Register)
- Tests d'efficacité: MT-Bench-80, MT-Bench-10
- Injection de connaissances: Page Wikipedia d'Alan Turing, données PII synthétiques
- Performance: Perplexité (PPL), score MAUVE, ROUGE-L, BLEURT
- Efficacité: Économies de temps de tokens (TTS), économies de propagation avant (FPS)
- Qualité: Évaluation LLM-as-a-judge, évaluation de fluidité humaine
- kNN-LM, RETOMATON (méthodes non-paramétriques)
- REST (méthode de décodage spéculatif)
- Modèles de base entraînés directement par fine-tuning
- Seuil d'extraction de chunks γ∈[0.3,0.9]
- Seuil de similarité η optimisé sur l'ensemble de validation
- Longueur de contexte : 64 tokens
- Utilisation d'une fonction linéaire par segments comme gϕ
Dans l'expérience de distillation GPT-2 small (137M) → GPT-2 XL (1.5B) :
| Ensemble de Données | Modèle de Base | KCD-LM | Amélioration |
|---|
| WikiText | 34.83 | 22.90 | 34.2% |
| Medical | 51.68 | 24.95 | 51.7% |
| Law | 11.41 | 8.24 | 27.8% |
| Code | 106.44 | 50.77 | 52.3% |
Améliorations d'efficacité sur MT-Bench-80 :
| Modèle | Amélioration TTS | Amélioration FPS |
|---|
| GPT-2-XL | 19.59% | 43.33% |
| LLaMA-2 | 14.89% | 32.32% |
| Mistral | 11.75% | 24.52% |
Amélioration de la couverture d'entités dans les questions-réponses sur Alan Turing :
| Modèle | Amélioration du Nombre Moyen d'Entités | Amélioration d'Entités Uniques |
|---|
| GPT2-XL | 46.8% | 42.2% |
| LLaMA-2 | 13.5% | 17.7% |
| Mistral | 18.5% | 11.9% |
- Impact du Seuil d'Extraction de Chunks: Les seuils plus bas (0.3-0.4) donnent les meilleurs résultats sur la plupart des tâches
- Taille du Magasin de Données: CD-LM nécessite seulement 30-40% de l'espace de stockage de kNN-LM
- Fréquence de Récupération: Chaque récupération ne recherche que 0.0003-0.01% du magasin de données
Les exemples de génération montrent que CD-LM peut :
- Intégrer naturellement les chunks de texte récupérés
- Contrôler la fréquence d'utilisation des chunks via le seuil de similarité
- Maintenir la cohérence et la fluidité du texte généré
- kNN-LM: Récupération à chaque position de token, coût computationnel élevé
- NPM: Entièrement non-paramétrique, manquant de connaissances paramétriques
- REST: Récupération de séquences de tokens brouillons, mais nécessite une vérification par LLM
- Décodage spéculatif traditionnel: Améliore uniquement la vitesse, sans amélioration de performance
- Classification par granularité: Niveau document, phrase, token
- CD-LM au niveau phrase, mais avec avantages de décision dure et d'efficacité
- CD-LM réalise avec succès des améliorations doubles en efficacité et performance
- La conception sans entraînement facilite le déploiement sur les modèles de langage existants
- Les trois modes de distillation supportent des scénarios d'application diversifiés
- Surpasse significativement les méthodes existantes sur plusieurs tâches
- Surcharge de Récupération: Bien que plus efficace que kNN-LM, il existe toujours une latence de récupération
- Dépendance à la Qualité des Chunks: La performance dépend largement de la qualité de l'extraction de chunks
- Adaptabilité de Domaine: Nécessite la construction de magasins de données spécialisés pour des domaines spécifiques
- Besoins en Mémoire: Les magasins de données à grande échelle nécessitent toujours une mémoire considérable
- Optimisation de Récupération: Quantification, élagage de magasin de données, stratégies de recherche alternatives
- Extraction de Chunks Dynamique: Mécanismes d'identification de chunks adaptatifs en temps réel
- Extension Multimodale: Extension aux modalités image, audio, etc.
- Composants Entraînables: Introduction de paramètres apprenables pour optimiser davantage la performance
- Innovation Forte: Première méthode augmentée par récupération abordant simultanément efficacité et performance
- Théorie Complète: Fourniture d'un cadre complet de modélisation probabiliste et de calcul
- Expériences Complètes: Couverture de plusieurs tâches, modèles et dimensions d'évaluation
- Praticité Élevée: La conception sans entraînement facilite le déploiement pratique
- Rédaction Claire: Description technique précise et configuration expérimentale détaillée
- Efficacité de Récupération: Surcharge supplémentaire par rapport aux méthodes purement paramétriques
- Sensibilité aux Hyperparamètres: Plusieurs paramètres de seuil nécessitent un ajustement minutieux
- Traitement de Texte Long: Évaluation insuffisante de l'effet sur la génération de séquences longues
- Analyse Théorique: Absence de garanties théoriques de convergence et de complexité
- Valeur Académique: Fournit un nouveau paradigme pour la modélisation du langage augmentée par récupération
- Valeur Pratique: Potentiel d'application important dans les scénarios à ressources limitées
- Reproductibilité: Engagement d'open-sourcer le code et les données pour faciliter la reproduction
- Inspirant: Fournit des idées importantes pour les recherches futures connexes
- Environnements à Ressources Limitées: Quand les petits modèles ont besoin de performance proche des grands modèles
- Adaptation de Domaine: Quand une adaptation rapide aux connaissances de domaine spécifique est nécessaire
- Systèmes Temps Réel: Applications avec exigences élevées de vitesse d'inférence
- Mise à Jour de Connaissances: Scénarios nécessitant l'intégration dynamique de nouvelles connaissances
L'article cite des travaux importants dans les domaines de la génération augmentée par récupération, du décodage spéculatif et de la modélisation du langage non-paramétrique, fournissant une base théorique solide et des points de comparaison pour la conception de CD-LM.
Évaluation Globale: Ceci est un article de recherche de haute qualité proposant le cadre innovant CD-LM, démontrant une excellence dans la modélisation théorique, l'implémentation technique et la vérification expérimentale. Cette méthode possède une valeur importante pour résoudre les problèmes d'efficacité et d'adaptabilité des modèles de langage, avec un potentiel d'impact significatif dans les applications pratiques.