We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.
- معرّف الورقة: 2501.00343
- العنوان: Chunk-Distilled Language Modeling (نمذجة اللغة المقطرة حسب الأجزاء)
- المؤلفون: Yanhong Li (جامعة شيكاغو و TTIC)، Karen Livescu (معهد تويوتا التكنولوجي بشيكاغو)، Jiawei Zhou (TTIC وجامعة ستوني بروك)
- التصنيف: cs.CL cs.AI
- تاريخ النشر: 31 ديسمبر 2024 (نسخة أولية على arXiv)
- رابط الورقة: https://arxiv.org/abs/2501.00343
تقترح هذه الورقة نمذجة اللغة المقطرة حسب الأجزاء (CD-LM)، وهي طريقة توليد نصوص تعالج تحديين أساسيين في نماذج اللغة الكبيرة الحالية: عدم كفاءة التوليد على مستوى الرموز والصعوبة في التكيف مع البيانات والمعرفة الجديدة. تجمع الطريقة بين نماذج اللغة الكبيرة القائمة على الشبكات العميقة وموديول استرجاع بسيط، مما يسمح بتوليد أجزاء نصية متعددة الرموز في خطوة فك تشفير واحدة. يدعم إطار الاسترجاع بناء مرن لمستودعات البيانات الخاصة بالنموذج أو المجال، حيث يمكن الاستفادة من المعرفة الداخلية للنماذج الموجودة أو دمج رؤى الخبراء من المدونات المشروحة يدويًا. يسمح هذا التكيف بتعزيز التحكم في توزيع نموذج اللغة دون الحاجة إلى تدريب إضافي.
- مشكلة كفاءة التوليد: تعتمد نماذج اللغة الكبيرة الحالية على بنية محول الانحدار الذاتي، مما يولد النص بشكل متسلسل رمز تلو الآخر، مما يحد من كفاءة الاستدلال
- صعوبة التكيف مع المعرفة: يتطلب تحديث معاملات النموذج بعد التدريب المسبق موارد بيانات وحسابية باهظة، مما يجعل من الصعب دمج المعرفة الجديدة بشكل ديناميكي
- الحلول الموجودة لها قيود: فك التشفير التكهني يمكن أن يحسن السرعة لكنه يحافظ على توزيع نموذج ثابت؛ التوليد المعزز بالاسترجاع يمكن أن يحسن التكيف لكنه عادة لا يوفر فوائد الكفاءة
- هناك حاجة إلى حل موحد يعالج مشاكل الكفاءة والأداء في نفس الوقت
تلاحظ الورقة أن نماذج اللغة الكبيرة غالبًا ما تولد أجزاءً نصية متكررة في السياقات المتشابهة، وتظهر هذه الأجزاء فترات احتمالية عالية على تسلسل الرموز، مما يشير إلى أن النموذج يتمتع بذاكرة قوية لبعض التركيبات متعددة الرموز.
- اقتراح إطار CD-LM: أول طريقة نمذجة لغة معززة بالاسترجاع تحسن كفاءة التوليد والأداء النمذجي في نفس الوقت
- تصميم آلية استخراج أجزاء مرنة: تدعم ثلاث حالات استخدام (تقطير المعرفة، التقطير الذاتي، تقطير الخبراء)
- بناء بنية استرجاع فعالة: تخزين البيانات القائم على هيكل trie وآليات مطابقة السياق
- اشتقاق خوارزمية حساب الاحتمالية: توفير خوارزمية برمجة ديناميكية كاملة لحساب احتمالية التسلسل
- التحقق التجريبي الشامل: عرض التحسن المزدوج في الكفاءة والأداء عبر مهام متعددة
بالنظر إلى تسلسل البادئة x<n، يختار CD-LM في كل خطوة توليد:
- قبول جزء النص المسترجع cn (تخطي خطوات توليد رموز متعددة)
- رفض الجزء واستخدام نموذج اللغة الأساسي لتوليد رمز واحد
يقدم CD-LM متغيرًا عشوائيًا ثنائيًا zn يتحكم في ما إذا كان يتم استخدام جزء مسترجع في الموضع n:
p(zn=1)=qn
عملية التوليد هي:
- إذا كان zn=1: قبول الجزء cn بطول τn
- إذا كان zn=0: استخدام نموذج اللغة الأساسي لتوليد رمز واحد
مستودع البيانات D={(ri,si)}i=1∣D∣، حيث:
- ri=(ui,vi): ui هو السياق السابق، vi هو رمز الدخول
- si: الجزء النصي
- استخدام هيكل trie {Tw1,Tw2,...,Tw∣V∣} للتخزين، حيث يخزن كل Tw جميع الأجزاء التي تبدأ برمز w
نموذج اقتراح الأجزاء G(x<n)→(cn,qn):
\begin{align}
(u^*, c_n) &= \arg\max_{(u,s) \in T_{x_{n-1}}} \{\text{sim}(f_\theta(x_{<n-1}), f_\theta(u))\} \\
q_n &= g_\phi(\text{sim}(f_\theta(x_{<n-1}), f_\theta(u^*)))
\end{align}
حيث sim(⋅,⋅) هي تشابه جيب التمام، و gϕ(⋅) هي دالة التعيين من التشابه إلى احتمالية القبول.
- آلية القرار الصارم: بخلاف kNN-LM الذي يستخدم المزج الناعم، يتخذ CD-LM قرارات صارمة للأجزاء متعددة الرموز
- قيد رمز الدخول: استخدام الرمز السابق كنقطة دخول لتقييد مساحة البحث وتحسين كفاءة الاسترجاع
- تصميم بدون تدريب: الإطار بأكمله لا يتطلب تدريبًا إضافيًا ويمكن استخدامه مع أي نموذج لغة جاهز
- ثلاث أنماط تقطير:
- KCD-LM: تقطير المعرفة من نموذج أقوى
- SCD-LM: تحسين الكفاءة من خلال الذاكرة الذاتية
- ECD-LM: دمج المعرفة المشروحة من الخبراء
- نمذجة اللغة: WikiText-103، GitHub Code (Dockerfile)
- التكيف مع المجال: Medical Instruction Dataset، Pile-of-Law (Federal Register)
- اختبار الكفاءة: MT-Bench-80، MT-Bench-10
- حقن المعرفة: صفحة Alan Turing على ويكيبيديا، بيانات PII اصطناعية
- الأداء: الارتباك (PPL)، درجة MAUVE، ROUGE-L، BLEURT
- الكفاءة: توفير وقت الرموز (TTS)، توفير الانتشار الأمامي (FPS)
- الجودة: تقييم LLM كحكم، تقييم الطلاقة البشرية
- kNN-LM، RETOMATON (طرق غير معاملية)
- REST (طريقة فك التشفير التكهني)
- النموذج الأساسي المضبوط مباشرة
- عتبة استخراج الأجزاء γ∈[0.3,0.9]
- عتبة التشابه η معايرة من خلال مجموعة التحقق
- طول السياق: 64 رمز
- استخدام دالة خطية متقطعة كـ gϕ
في تجربة التقطير من GPT-2 small (137M) → GPT-2 XL (1.5B):
| مجموعة البيانات | نموذج اللغة الأساسي | KCD-LM | التحسن |
|---|
| WikiText | 34.83 | 22.90 | 34.2% |
| Medical | 51.68 | 24.95 | 51.7% |
| Law | 11.41 | 8.24 | 27.8% |
| Code | 106.44 | 50.77 | 52.3% |
تحسن الكفاءة على MT-Bench-80:
| النموذج | تحسن TTS | تحسن FPS |
|---|
| GPT-2-XL | 19.59% | 43.33% |
| LLaMA-2 | 14.89% | 32.32% |
| Mistral | 11.75% | 24.52% |
تحسن تغطية الكيانات في الإجابة على أسئلة معرفة Alan Turing:
| النموذج | تحسن متوسط الكيانات | تحسن الكيانات الفريدة |
|---|
| GPT2-XL | 46.8% | 42.2% |
| LLaMA-2 | 13.5% | 17.7% |
| Mistral | 18.5% | 11.9% |
- تأثير عتبة استخراج الأجزاء: تحقق العتبات المنخفضة (0.3-0.4) أفضل النتائج في معظم المهام
- حجم مستودع البيانات: يتطلب CD-LM فقط 30-40% من مساحة التخزين المطلوبة لـ kNN-LM
- تكرار الاسترجاع: يبحث كل استرجاع فقط عن 0.0003-0.01% من مستودع البيانات
تظهر أمثلة التوليد أن CD-LM قادر على:
- دمج الأجزاء المسترجعة بشكل طبيعي
- التحكم في تكرار استخدام الأجزاء من خلال عتبة التشابه
- الحفاظ على التماسك والطلاقة في النص المولد
- kNN-LM: استرجاع في كل موضع رمز، تكلفة حسابية كبيرة
- NPM: غير معاملي تماما، يفتقر إلى المعرفة المعاملية
- REST: استرجاع تسلسلات رموز مسودة، لكن يتطلب التحقق من نموذج اللغة الكبيرة
- فك التشفير التكهني التقليدي: يحسن السرعة فقط، لا يحسن الأداء
- تصنيف حسب الحبيبية: على مستوى المستند أو العبارة أو الرمز
- ينتمي CD-LM إلى مستوى العبارة، لكن مع مزايا القرار الصارم والكفاءة
- يحقق CD-LM بنجاح التحسن المزدوج في الكفاءة والأداء
- التصميم بدون تدريب يجعل النشر سهلاً على نماذج اللغة الموجودة
- تدعم أنماط التقطير الثلاثة حالات استخدام متنوعة
- يتفوق بشكل كبير على الطرق الموجودة عبر مهام متعددة
- تكلفة الاسترجاع: على الرغم من أنها أكثر كفاءة من kNN-LM، إلا أن هناك تأخير استرجاع
- الاعتماد على جودة الأجزاء: يعتمد الأداء إلى حد كبير على جودة استخراج الأجزاء
- التكيف مع المجال: يتطلب بناء مستودع بيانات متخصص لمجال معين
- متطلبات الذاكرة: لا يزال مستودع البيانات الكبير يتطلب ذاكرة كبيرة
- تحسين الاسترجاع: التكمية، تقليم مستودع البيانات، استراتيجيات بحث بديلة
- استخراج الأجزاء الديناميكي: آليات تحديد الأجزاء التي تتكيف في الوقت الفعلي
- التوسع متعدد الأنماط: التوسع إلى الصور والصوت وغيرها
- المكونات القابلة للتدريب: إدخال معاملات قابلة للتعلم لتحسين الأداء بشكل أكبر
- الابتكار القوي: أول طريقة معززة بالاسترجاع تعالج مشاكل الكفاءة والأداء في نفس الوقت
- الاكتمال النظري: توفير إطار نمذجة احتمالية وحساب كامل
- التجارب الشاملة: تغطي مهام وموديلات وأبعاد تقييم متعددة
- الفائدة العملية: التصميم بدون تدريب يسهل النشر الفعلي
- الكتابة الواضحة: الوصف التقني دقيق وإعداد التجارب مفصل
- كفاءة الاسترجاع: لا تزال هناك تكاليف إضافية مقارنة بالطرق المعاملية البحتة
- حساسية المعاملات الفائقة: معاملات عتبة متعددة تتطلب معايرة دقيقة
- معالجة النصوص الطويلة: التقييم غير كافٍ لتأثير التوليد للتسلسلات الطويلة
- التحليل النظري: يفتقر إلى الضمانات النظرية للتقارب والتعقيد
- القيمة الأكاديمية: توفير نموذج جديد لنمذجة اللغة المعززة بالاسترجاع
- القيمة العملية: إمكانية تطبيق مهمة في السيناريوهات ذات الموارد المحدودة
- قابلية التكرار: الالتزام بفتح الكود والبيانات لتسهيل التكرار
- الإلهام: توفير أفكار مهمة للبحث المستقبلي ذي الصلة
- البيئات ذات الموارد المحدودة: عندما تحتاج النماذج الصغيرة إلى أداء قريب من النماذج الكبيرة
- التكيف مع المجال: عند الحاجة إلى التكيف السريع مع معرفة مجال معين
- الأنظمة في الوقت الفعلي: التطبيقات التي لها متطلبات عالية لسرعة الاستدلال
- تحديث المعرفة: السيناريوهات التي تتطلب دمج معرفة جديدة بشكل ديناميكي
تستشهد الورقة بأعمال مهمة في مجالات التوليد المعزز بالاسترجاع وفك التشفير التكهني ونمذجة اللغة غير المعاملية، مما يوفر أساسًا نظريًا قويًا ومعايير مقارنة لتصميم CD-LM.
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح إطار CD-LM مبتكرًا، مع أداء ممتازة في النمذجة النظرية والتنفيذ التقني والتحقق التجريبي. تتمتع الطريقة بقيمة مهمة في حل مشاكل الكفاءة والتكيف في نماذج اللغة الكبيرة، وتتوقع أن تحدث تأثيرًا كبيرًا في التطبيقات العملية.