We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.
- Paper-ID: 2501.00343
- Titel: Chunk-Distilled Language Modeling
- Autoren: Yanhong Li (University of Chicago & TTIC), Karen Livescu (Toyota Technological Institute at Chicago), Jiawei Zhou (TTIC & Stony Brook University)
- Klassifizierung: cs.CL cs.AI
- Veröffentlichungsdatum: 31. Dezember 2024 (arXiv Preprint)
- Paper-Link: https://arxiv.org/abs/2501.00343
Dieses Papier stellt Chunk-Distilled Language Modeling (CD-LM) vor, eine Textgenerierungsmethode zur Bewältigung zweier grundlegender Herausforderungen aktueller großer Sprachmodelle: der Ineffizienz der Token-Level-Generierung und der Schwierigkeit, sich an neue Daten und Wissen anzupassen. Die Methode kombiniert tiefe neuronale Netzwerk-basierte LLMs mit einem einfachen Abrufmodul, das die Generierung mehrerer Token-Blöcke in einem einzelnen Dekodierungsschritt ermöglicht. Sein Abrufrahmen unterstützt die flexible Konstruktion modell- oder domänenspezifischer Datenspeicher und kann sowohl das interne Wissen bestehender Modelle nutzen als auch Erkenntnisse aus manuell annotierten Korpora einbeziehen. Diese Anpassungsfähigkeit ermöglicht eine verbesserte Kontrolle über die Sprachmodellverteilung ohne zusätzliches Training.
- Generierungseffizienzproblem: Aktuelle LLMs basieren auf der autoregressiven Transformer-Architektur und generieren Text sequenziell Token für Token, was die Inferenzeffizienz einschränkt
- Schwierigkeit der Wissensanpassung: Die Aktualisierung von Modellparametern nach dem Vortraining erfordert teure Daten und Rechenressourcen, wodurch die dynamische Integration neuen Wissens erschwert wird
- Bestehende Lösungen haben Einschränkungen: Spekulatives Dekodieren (speculative decoding) kann zwar die Geschwindigkeit verbessern, behält aber die feste Modellverteilung bei; Abruf-verstärkte Generierung (RAG) kann die Anpassungsfähigkeit verbessern, bietet aber normalerweise keine Effizienzgewinne
- Es ist eine einheitliche Lösung erforderlich, die sowohl Effizienz als auch Leistung adressiert
Das Papier beobachtet, dass LLMs in ähnlichen Kontexten häufig wiederholte Textblöcke generieren, die in Token-Sequenzen hohe Wahrscheinlichkeitsplateaus aufweisen und darauf hindeuten, dass das Modell eine starke Erinnerung an bestimmte Multi-Token-Kombinationen hat.
- Vorstellung des CD-LM-Rahmens: Erste Abruf-verstärkte Sprachmodellierungsmethode, die sowohl die Generierungseffizienz als auch die Modellierungsleistung verbessert
- Entwurf eines flexiblen Chunk-Extraktionsmechanismus: Unterstützt drei Anwendungsszenarien (Wissensdestillation, Selbstdestillation, Expertendestillation)
- Konstruktion einer effizienten Abrufarchitektur: Auf Trie-Struktur basierende Datenspeicherung und Kontextabgleichsmechanismus
- Ableitung von Wahrscheinlichkeitsberechnungsalgorithmen: Bereitstellung eines vollständigen Algorithmus zur Sequenzwahrscheinlichkeitsberechnung mittels dynamischer Programmierung
- Umfassende experimentelle Validierung: Demonstration doppelter Verbesserungen in Effizienz und Leistung über mehrere Aufgaben hinweg
Gegeben eine Präfixsequenz x<n wählt CD-LM bei jedem Generierungsschritt:
- Akzeptanz des abgerufenen Textblocks cn (Überspringen mehrerer Token-Generierungsschritte)
- Ablehnung des Blocks und Verwendung des Basis-LM zur Generierung eines einzelnen Tokens
CD-LM führt eine binäre Zufallsvariable zn ein, die steuert, ob an Position n ein Abrufblock verwendet wird:
p(zn=1)=qn
Der Generierungsprozess ist:
- Wenn zn=1: Block cn mit Länge τn akzeptieren
- Wenn zn=0: Basis-LM zur Generierung eines einzelnen Tokens verwenden
Datenspeicher D={(ri,si)}i=1∣D∣, wobei:
- ri=(ui,vi): ui ist der vorausgehende Kontext, vi ist das Eingangstoken
- si: Textblock
- Speicherung mit Trie-Struktur {Tw1,Tw2,...,Tw∣V∣}, wobei jedes Tw alle Blöcke speichert, die mit Token w beginnen
Blockvorschlagsmodell G(x<n)→(cn,qn):
\begin{align}
(u^*, c_n) &= \arg\max_{(u,s) \in T_{x_{n-1}}} \{\text{sim}(f_\theta(x_{<n-1}), f_\theta(u))\} \\
q_n &= g_\phi(\text{sim}(f_\theta(x_{<n-1}), f_\theta(u^*)))
\end{align}
wobei sim(⋅,⋅) die Kosinusähnlichkeit ist und gϕ(⋅) eine Abbildungsfunktion von Ähnlichkeit zu Akzeptanzwahrscheinlichkeit ist.
- Hartes Entscheidungsmechanismus: Im Gegensatz zur weichen Vermischung von kNN-LM trifft CD-LM harte Entscheidungen für Multi-Token-Blöcke
- Eingangstoken-Beschränkung: Verwendung des vorherigen Tokens als Einstiegspunkt zur Einschränkung des Suchraums und Verbesserung der Abrufeffizienz
- Trainingsfreies Design: Der gesamte Rahmen erfordert kein zusätzliches Training und kann mit jedem vorgefertigten LM kombiniert werden
- Drei Destillationsmodi:
- KCD-LM: Wissensdestillation von stärkeren Modellen
- SCD-LM: Selbsterinnerungsverbesserung der Effizienz
- ECD-LM: Integration von Expertenwissen mit Anmerkungen
- Sprachmodellierung: WikiText-103, GitHub Code (Dockerfile)
- Domänenanpassung: Medical Instruction Dataset, Pile-of-Law (Federal Register)
- Effizienztest: MT-Bench-80, MT-Bench-10
- Wissenseinspeisung: Alan Turing Wikipedia-Seite, synthetische PII-Daten
- Leistung: Perplexität (PPL), MAUVE-Score, ROUGE-L, BLEURT
- Effizienz: Token-Zeit-Ersparnis (TTS), Vorwärtsdurchlauf-Ersparnis (FPS)
- Qualität: LLM-as-a-Judge-Bewertung, menschliche Flüssigkeitsbewertung
- kNN-LM, RETOMATON (nicht-parametrische Methoden)
- REST (spekulatives Dekodierungsverfahren)
- Direkt abgestimmte Basismodelle
- Chunk-Extraktionsschwelle γ∈[0,3,0,9]
- Ähnlichkeitsschwelle η durch Validierungssatz optimiert
- Kontextlänge: 64 Tokens
- Verwendung stückweise linearer Funktionen als gϕ
Im Destillationsexperiment GPT-2 small (137M) → GPT-2 XL (1,5B):
| Datensatz | Basis-LM | KCD-LM | Verbesserung |
|---|
| WikiText | 34,83 | 22,90 | 34,2% |
| Medical | 51,68 | 24,95 | 51,7% |
| Law | 11,41 | 8,24 | 27,8% |
| Code | 106,44 | 50,77 | 52,3% |
Effizienzverbesserung auf MT-Bench-80:
| Modell | TTS-Verbesserung | FPS-Verbesserung |
|---|
| GPT-2-XL | 19,59% | 43,33% |
| LLaMA-2 | 14,89% | 32,32% |
| Mistral | 11,75% | 24,52% |
Verbesserung der Entitätsabdeckung in Alan Turing-Wissensfragen:
| Modell | Durchschnittliche Entitätsverbesserung | Einzigartige Entitätsverbesserung |
|---|
| GPT2-XL | 46,8% | 42,2% |
| LLaMA-2 | 13,5% | 17,7% |
| Mistral | 18,5% | 11,9% |
- Auswirkung der Chunk-Extraktionsschwelle: Niedrigere Schwellen (0,3-0,4) zeigen die beste Leistung bei den meisten Aufgaben
- Datenspeichergröße: CD-LM benötigt nur 30-40% des Speicherplatzes von kNN-LM
- Abrufrequenz: Jeder Abruf durchsucht nur 0,0003-0,01% des Datenspeichers
Generierungsbeispiele zeigen, dass CD-LM in der Lage ist:
- Abgerufene Textblöcke natürlich zu integrieren
- Blocknutzungshäufigkeit durch Ähnlichkeitsschwellen zu steuern
- Kohärenz und Flüssigkeit des generierten Textes zu bewahren
- kNN-LM: Abruf bei jeder Token-Position, hohe Rechenkosten
- NPM: Vollständig nicht-parametrisch, fehlende parametrisierte Kenntnisse
- REST: Abruf von Draft-Token-Sequenzen, erfordert aber LLM-Verifizierung
- Traditionelles spekulatives Dekodieren: Nur Geschwindigkeitssteigerung, keine Leistungsverbesserung
- Nach Granularität klassifiziert: Dokument-Ebene, Phrase-Ebene, Token-Ebene
- CD-LM gehört zur Phrase-Ebene, bietet aber harte Entscheidungen und Effizienzvorteile
- CD-LM erreicht erfolgreich doppelte Verbesserungen in Effizienz und Leistung
- Das trainingsfreie Design ermöglicht eine einfache Bereitstellung auf bestehenden LMs
- Drei Destillationsmodi unterstützen vielfältige Anwendungsszenarien
- Signifikante Überlegenheit gegenüber bestehenden Methoden über mehrere Aufgaben hinweg
- Abrufoverhead: Obwohl effizienter als kNN-LM, besteht immer noch Abrufverzögerung
- Abhängigkeit von Chunk-Qualität: Die Leistung hängt stark von der Qualität der Chunk-Extraktion ab
- Domänenanpassungsfähigkeit: Erfordert spezialisierte Datenspeicher für bestimmte Domänen
- Speicheranforderungen: Großflächige Datenspeicher erfordern immer noch erheblichen Speicher
- Abrufoptimierung: Quantisierung, Datenspeicher-Pruning, alternative Suchstrategien
- Dynamische Chunk-Extraktion: Echtzeit-adaptive Chunk-Erkennungsmechanismen
- Multimodale Erweiterung: Erweiterung auf Bilder, Audio und andere Modalitäten
- Trainierbare Komponenten: Einführung lernbarer Parameter zur weiteren Leistungsoptimierung
- Starke Innovativität: Erste Abruf-verstärkte Methode, die gleichzeitig Effizienz- und Leistungsprobleme adressiert
- Theoretische Vollständigkeit: Bereitstellung eines vollständigen probabilistischen Modellierungs- und Berechnungsrahmens
- Umfassende Experimente: Abdeckung mehrerer Aufgaben, Modelle und Bewertungsdimensionen
- Hohe Praktikabilität: Trainingsfreies Design ermöglicht praktische Bereitstellung
- Klare Darstellung: Genaue technische Beschreibung, detaillierte experimentelle Einrichtung
- Abrufeffizienz: Immer noch zusätzliche Kosten im Vergleich zu reinen parametrischen Methoden
- Überparameter-Sensitivität: Mehrere Schwellenparameter erfordern sorgfältige Abstimmung
- Langtext-Verarbeitung: Unzureichende Bewertung der Leistung bei der Generierung langer Sequenzen
- Theoretische Analyse: Fehlende theoretische Garantien für Konvergenz und Komplexität
- Akademischer Wert: Bietet neues Paradigma für Abruf-verstärkte Sprachmodellierung
- Praktischer Wert: Wichtiges Anwendungspotenzial in ressourcenbeschränkten Szenarien
- Reproduzierbarkeit: Zusage zur Veröffentlichung von Code und Daten für einfache Reproduktion
- Inspirationskraft: Bietet wichtige Ideen für zukünftige verwandte Forschung
- Ressourcenbeschränkte Umgebungen: Wenn kleine Modelle die Leistung großer Modelle erreichen müssen
- Domänenanpassung: Bei Bedarf, sich schnell an domänenspezifisches Wissen anzupassen
- Echtzeitsysteme: Anwendungen mit hohen Anforderungen an Inferenzgeschwindigkeit
- Wissensaktualisierung: Szenarien, die dynamische Integration neuen Wissens erfordern
Das Papier zitiert wichtige Arbeiten in den Bereichen Abruf-verstärkte Generierung, spekulatives Dekodieren und nicht-parametrische Sprachmodellierung und bietet damit eine solide theoretische Grundlage und Vergleichsmaßstäbe für das CD-LM-Design.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das den innovativen CD-LM-Rahmen vorstellt und sich in theoretischer Modellierung, technischer Implementierung und experimenteller Validierung auszeichnet. Diese Methode hat wichtigen Wert bei der Lösung von LLM-Effizienz- und Anpassungsproblemen und wird voraussichtlich erhebliche Auswirkungen auf praktische Anwendungen haben.