We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.
- ID de l'article: 2501.00343
- Titre: Chunk-Distilled Language Modeling
- Auteurs: Yanhong Li (University of Chicago & TTIC), Karen Livescu (Toyota Technological Institute at Chicago), Jiawei Zhou (TTIC & Stony Brook University)
- Classification: cs.CL cs.AI
- Date de publication: 31 décembre 2024 (prépublication arXiv)
- Lien de l'article: https://arxiv.org/abs/2501.00343
Cet article propose la modélisation du langage distillée par chunks (Chunk-Distilled Language Modeling, CD-LM), une méthode de génération de texte abordant deux défis fondamentaux des grands modèles de langage actuels : l'inefficacité de la génération au niveau des tokens et la difficulté d'adaptation aux nouvelles données et connaissances. Cette méthode combine un modèle de langage basé sur un réseau profond avec un module de récupération simple, permettant la génération de chunks multi-tokens en une seule étape de décodage. Son cadre de récupération supporte la construction flexible de magasins de données spécifiques au modèle ou au domaine, exploitant à la fois les connaissances internes des modèles existants et les perspectives d'experts provenant de corpus annotés manuellement. Cette adaptabilité permet d'améliorer le contrôle de la distribution du modèle de langage sans nécessiter d'entraînement supplémentaire.
- Problème d'efficacité de génération: Les modèles de langage actuels basés sur l'architecture Transformer autorégressif génèrent le texte de manière sérielle, token par token, limitant l'efficacité de l'inférence
- Difficulté d'adaptation des connaissances: La mise à jour des paramètres du modèle après l'entraînement préalable nécessite des ressources de données et de calcul coûteuses, rendant difficile l'intégration dynamique de nouvelles connaissances
- Les solutions existantes présentent des limitations : le décodage spéculatif améliore la vitesse mais maintient une distribution de modèle fixe ; la génération augmentée par récupération (RAG) améliore l'adaptabilité mais n'offre généralement pas de gains d'efficacité
- Une solution unifiée abordant simultanément l'efficacité et la performance est nécessaire
L'article observe que les modèles de langage génèrent fréquemment des chunks de texte répétitifs dans des contextes similaires, ces chunks présentant des plateaux de probabilité élevée sur les séquences de tokens, indiquant une forte mémorisation du modèle pour certaines combinaisons multi-tokens.
- Proposition du cadre CD-LM: Première méthode de modélisation du langage augmentée par récupération améliorant simultanément l'efficacité de génération et la performance de modélisation
- Conception d'un mécanisme flexible d'extraction de chunks: Support de trois scénarios d'application (distillation de connaissances, auto-distillation, distillation d'experts)
- Construction d'une architecture de récupération efficace: Stockage de données basé sur la structure trie et mécanisme d'appariement contextuel
- Dérivation d'algorithmes de calcul probabiliste: Fourniture d'un algorithme complet de programmation dynamique pour le calcul de probabilité de séquence
- Vérification expérimentale complète: Démonstration d'améliorations doubles en efficacité et performance sur plusieurs tâches
Étant donné une séquence de préfixe x<n, CD-LM choisit à chaque étape de génération :
- Accepter le chunk de texte récupéré cn (en sautant plusieurs étapes de génération de tokens)
- Rejeter le chunk et utiliser le modèle de langage de base pour générer un token unique
CD-LM introduit une variable aléatoire binaire zn contrôlant l'utilisation d'un chunk de récupération à la position n :
p(zn=1)=qn
Le processus de génération est :
- Si zn=1 : accepter le chunk cn de longueur τn
- Si zn=0 : utiliser le modèle de langage de base pour générer un token unique
Magasin de données D={(ri,si)}i=1∣D∣, où :
- ri=(ui,vi) : ui est le contexte de préfixe, vi est le token d'entrée
- si : le chunk de texte
- Utilisation d'une structure trie {Tw1,Tw2,...,Tw∣V∣} pour le stockage, chaque Tw stockant tous les chunks commençant par le token w
Modèle de proposition de chunks G(x<n)→(cn,qn) :
undefined