2025-11-16T12:07:12.311543

Chunk-Distilled Language Modeling

Li, Livescu, Zhou

We introduce Chunk-Distilled Language Modeling (CD-LM), an approach to text generation that addresses two challenges in current large language models (LLMs): the inefficiency of token-level generation, and the difficulty of adapting to new data and knowledge. Our method combines deep network-based LLMs with a straightforward retrieval module, which allows the generation of multi-token text chunks at a single decoding step. Our retrieval framework enables flexible construction of model- or domain-specific datastores, either leveraging the internal knowledge of existing models, or incorporating expert insights from human-annotated corpora. This adaptability allows for enhanced control over the language model's distribution without necessitating additional training. We present the CD-LM formulation along with performance metrics demonstrating its ability to improve language model performance and efficiency across a diverse set of downstream tasks. Code and data will be made publicly available.

academic

نمذجة اللغة المقطرة حسب الأجزاء

المعلومات الأساسية

معرّف الورقة: 2501.00343
العنوان: Chunk-Distilled Language Modeling (نمذجة اللغة المقطرة حسب الأجزاء)
المؤلفون: Yanhong Li (جامعة شيكاغو و TTIC)، Karen Livescu (معهد تويوتا التكنولوجي بشيكاغو)، Jiawei Zhou (TTIC وجامعة ستوني بروك)
التصنيف: cs.CL cs.AI
تاريخ النشر: 31 ديسمبر 2024 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2501.00343

الملخص

تقترح هذه الورقة نمذجة اللغة المقطرة حسب الأجزاء (CD-LM)، وهي طريقة توليد نصوص تعالج تحديين أساسيين في نماذج اللغة الكبيرة الحالية: عدم كفاءة التوليد على مستوى الرموز والصعوبة في التكيف مع البيانات والمعرفة الجديدة. تجمع الطريقة بين نماذج اللغة الكبيرة القائمة على الشبكات العميقة وموديول استرجاع بسيط، مما يسمح بتوليد أجزاء نصية متعددة الرموز في خطوة فك تشفير واحدة. يدعم إطار الاسترجاع بناء مرن لمستودعات البيانات الخاصة بالنموذج أو المجال، حيث يمكن الاستفادة من المعرفة الداخلية للنماذج الموجودة أو دمج رؤى الخبراء من المدونات المشروحة يدويًا. يسمح هذا التكيف بتعزيز التحكم في توزيع نموذج اللغة دون الحاجة إلى تدريب إضافي.

السياق البحثي والدافع

المشاكل الأساسية

مشكلة كفاءة التوليد: تعتمد نماذج اللغة الكبيرة الحالية على بنية محول الانحدار الذاتي، مما يولد النص بشكل متسلسل رمز تلو الآخر، مما يحد من كفاءة الاستدلال
صعوبة التكيف مع المعرفة: يتطلب تحديث معاملات النموذج بعد التدريب المسبق موارد بيانات وحسابية باهظة، مما يجعل من الصعب دمج المعرفة الجديدة بشكل ديناميكي

أهمية المشكلة

الحلول الموجودة لها قيود: فك التشفير التكهني يمكن أن يحسن السرعة لكنه يحافظ على توزيع نموذج ثابت؛ التوليد المعزز بالاسترجاع يمكن أن يحسن التكيف لكنه عادة لا يوفر فوائد الكفاءة
هناك حاجة إلى حل موحد يعالج مشاكل الكفاءة والأداء في نفس الوقت

الرؤى الرئيسية

تلاحظ الورقة أن نماذج اللغة الكبيرة غالبًا ما تولد أجزاءً نصية متكررة في السياقات المتشابهة، وتظهر هذه الأجزاء فترات احتمالية عالية على تسلسل الرموز، مما يشير إلى أن النموذج يتمتع بذاكرة قوية لبعض التركيبات متعددة الرموز.

المساهمات الأساسية

اقتراح إطار CD-LM: أول طريقة نمذجة لغة معززة بالاسترجاع تحسن كفاءة التوليد والأداء النمذجي في نفس الوقت
تصميم آلية استخراج أجزاء مرنة: تدعم ثلاث حالات استخدام (تقطير المعرفة، التقطير الذاتي، تقطير الخبراء)
بناء بنية استرجاع فعالة: تخزين البيانات القائم على هيكل trie وآليات مطابقة السياق
اشتقاق خوارزمية حساب الاحتمالية: توفير خوارزمية برمجة ديناميكية كاملة لحساب احتمالية التسلسل
التحقق التجريبي الشامل: عرض التحسن المزدوج في الكفاءة والأداء عبر مهام متعددة

شرح الطريقة

تعريف المهمة

بالنظر إلى تسلسل البادئة $x_{<n}$ ، يختار CD-LM في كل خطوة توليد:

قبول جزء النص المسترجع $c_n$ (تخطي خطوات توليد رموز متعددة)
رفض الجزء واستخدام نموذج اللغة الأساسي لتوليد رمز واحد

معمارية النموذج

1. نموذج التوليد الاحتمالي

يقدم CD-LM متغيرًا عشوائيًا ثنائيًا $z_n$ يتحكم في ما إذا كان يتم استخدام جزء مسترجع في الموضع $n$ :

$p(z_n = 1) = q_n$

عملية التوليد هي:

إذا كان $z_n = 1$ : قبول الجزء $c_n$ بطول $\tau_n$
إذا كان $z_n = 0$ : استخدام نموذج اللغة الأساسي لتوليد رمز واحد

2. بناء مستودع بيانات الأجزاء

مستودع البيانات $D = \{(r_i, s_i)\}_{i=1}^{|D|}$ ، حيث:

$r_i = (u_i, v_i)$ : $u_i$ هو السياق السابق، $v_i$ هو رمز الدخول
$s_i$ : الجزء النصي
استخدام هيكل trie $\{T_{w_1}, T_{w_2}, ..., T_{w_{|V|}}\}$ للتخزين، حيث يخزن كل $T_w$ جميع الأجزاء التي تبدأ برمز $w$

3. استرجاع الأجزاء التكيفي

نموذج اقتراح الأجزاء $G(x_{<n}) \rightarrow (c_n, q_n)$ :

$\begin{align} (u^*, c_n) &= \arg\max_{(u,s) \in T_{x_{n-1}}} \{\text{sim}(f_\theta(x_{<n-1}), f_\theta(u))\} \\ q_n &= g_\phi(\text{sim}(f_\theta(x_{<n-1}), f_\theta(u^*))) \end{align}$

حيث $\text{sim}(\cdot, \cdot)$ هي تشابه جيب التمام، و $g_\phi(\cdot)$ هي دالة التعيين من التشابه إلى احتمالية القبول.

نقاط الابتكار التقني

آلية القرار الصارم: بخلاف kNN-LM الذي يستخدم المزج الناعم، يتخذ CD-LM قرارات صارمة للأجزاء متعددة الرموز
قيد رمز الدخول: استخدام الرمز السابق كنقطة دخول لتقييد مساحة البحث وتحسين كفاءة الاسترجاع
تصميم بدون تدريب: الإطار بأكمله لا يتطلب تدريبًا إضافيًا ويمكن استخدامه مع أي نموذج لغة جاهز
ثلاث أنماط تقطير:
- KCD-LM: تقطير المعرفة من نموذج أقوى
- SCD-LM: تحسين الكفاءة من خلال الذاكرة الذاتية
- ECD-LM: دمج المعرفة المشروحة من الخبراء

إعداد التجارب

مجموعات البيانات

نمذجة اللغة: WikiText-103، GitHub Code (Dockerfile)
التكيف مع المجال: Medical Instruction Dataset، Pile-of-Law (Federal Register)
اختبار الكفاءة: MT-Bench-80، MT-Bench-10
حقن المعرفة: صفحة Alan Turing على ويكيبيديا، بيانات PII اصطناعية

مؤشرات التقييم

الأداء: الارتباك (PPL)، درجة MAUVE، ROUGE-L، BLEURT
الكفاءة: توفير وقت الرموز (TTS)، توفير الانتشار الأمامي (FPS)
الجودة: تقييم LLM كحكم، تقييم الطلاقة البشرية

طرق المقارنة

kNN-LM، RETOMATON (طرق غير معاملية)
REST (طريقة فك التشفير التكهني)
النموذج الأساسي المضبوط مباشرة

تفاصيل التنفيذ

عتبة استخراج الأجزاء $\gamma \in [0.3, 0.9]$
عتبة التشابه $\eta$ معايرة من خلال مجموعة التحقق
طول السياق: 64 رمز
استخدام دالة خطية متقطعة كـ $g_\phi$

نتائج التجارب

النتائج الرئيسية

1. تقطير المعرفة (KCD-LM)

في تجربة التقطير من GPT-2 small (137M) → GPT-2 XL (1.5B):

مجموعة البيانات	نموذج اللغة الأساسي	KCD-LM	التحسن
WikiText	34.83	22.90	34.2%
Medical	51.68	24.95	51.7%
Law	11.41	8.24	27.8%
Code	106.44	50.77	52.3%

2. كفاءة التقطير الذاتي (SCD-LM)

تحسن الكفاءة على MT-Bench-80:

النموذج	تحسن TTS	تحسن FPS
GPT-2-XL	19.59%	43.33%
LLaMA-2	14.89%	32.32%
Mistral	11.75%	24.52%

3. تقطير الخبراء (ECD-LM)

تحسن تغطية الكيانات في الإجابة على أسئلة معرفة Alan Turing:

النموذج	تحسن متوسط الكيانات	تحسن الكيانات الفريدة
GPT2-XL	46.8%	42.2%
LLaMA-2	13.5%	17.7%
Mistral	18.5%	11.9%

التجارب الاستئصالية

تأثير عتبة استخراج الأجزاء: تحقق العتبات المنخفضة (0.3-0.4) أفضل النتائج في معظم المهام
حجم مستودع البيانات: يتطلب CD-LM فقط 30-40% من مساحة التخزين المطلوبة لـ kNN-LM
تكرار الاسترجاع: يبحث كل استرجاع فقط عن 0.0003-0.01% من مستودع البيانات

تحليل الحالات

تظهر أمثلة التوليد أن CD-LM قادر على:

دمج الأجزاء المسترجعة بشكل طبيعي
التحكم في تكرار استخدام الأجزاء من خلال عتبة التشابه
الحفاظ على التماسك والطلاقة في النص المولد

الأعمال ذات الصلة

نمذجة اللغة غير المعاملية

kNN-LM: استرجاع في كل موضع رمز، تكلفة حسابية كبيرة
NPM: غير معاملي تماما، يفتقر إلى المعرفة المعاملية

فك التشفير التكهني

REST: استرجاع تسلسلات رموز مسودة، لكن يتطلب التحقق من نموذج اللغة الكبيرة
فك التشفير التكهني التقليدي: يحسن السرعة فقط، لا يحسن الأداء

التوليد المعزز بالاسترجاع

تصنيف حسب الحبيبية: على مستوى المستند أو العبارة أو الرمز
ينتمي CD-LM إلى مستوى العبارة، لكن مع مزايا القرار الصارم والكفاءة

الخلاصة والنقاش

الاستنتاجات الرئيسية

يحقق CD-LM بنجاح التحسن المزدوج في الكفاءة والأداء
التصميم بدون تدريب يجعل النشر سهلاً على نماذج اللغة الموجودة
تدعم أنماط التقطير الثلاثة حالات استخدام متنوعة
يتفوق بشكل كبير على الطرق الموجودة عبر مهام متعددة

القيود

تكلفة الاسترجاع: على الرغم من أنها أكثر كفاءة من kNN-LM، إلا أن هناك تأخير استرجاع
الاعتماد على جودة الأجزاء: يعتمد الأداء إلى حد كبير على جودة استخراج الأجزاء
التكيف مع المجال: يتطلب بناء مستودع بيانات متخصص لمجال معين
متطلبات الذاكرة: لا يزال مستودع البيانات الكبير يتطلب ذاكرة كبيرة

الاتجاهات المستقبلية

تحسين الاسترجاع: التكمية، تقليم مستودع البيانات، استراتيجيات بحث بديلة
استخراج الأجزاء الديناميكي: آليات تحديد الأجزاء التي تتكيف في الوقت الفعلي
التوسع متعدد الأنماط: التوسع إلى الصور والصوت وغيرها
المكونات القابلة للتدريب: إدخال معاملات قابلة للتعلم لتحسين الأداء بشكل أكبر

التقييم المتعمق

المزايا

الابتكار القوي: أول طريقة معززة بالاسترجاع تعالج مشاكل الكفاءة والأداء في نفس الوقت
الاكتمال النظري: توفير إطار نمذجة احتمالية وحساب كامل
التجارب الشاملة: تغطي مهام وموديلات وأبعاد تقييم متعددة
الفائدة العملية: التصميم بدون تدريب يسهل النشر الفعلي
الكتابة الواضحة: الوصف التقني دقيق وإعداد التجارب مفصل

أوجه القصور

كفاءة الاسترجاع: لا تزال هناك تكاليف إضافية مقارنة بالطرق المعاملية البحتة
حساسية المعاملات الفائقة: معاملات عتبة متعددة تتطلب معايرة دقيقة
معالجة النصوص الطويلة: التقييم غير كافٍ لتأثير التوليد للتسلسلات الطويلة
التحليل النظري: يفتقر إلى الضمانات النظرية للتقارب والتعقيد

التأثير

القيمة الأكاديمية: توفير نموذج جديد لنمذجة اللغة المعززة بالاسترجاع
القيمة العملية: إمكانية تطبيق مهمة في السيناريوهات ذات الموارد المحدودة
قابلية التكرار: الالتزام بفتح الكود والبيانات لتسهيل التكرار
الإلهام: توفير أفكار مهمة للبحث المستقبلي ذي الصلة

حالات الاستخدام

البيئات ذات الموارد المحدودة: عندما تحتاج النماذج الصغيرة إلى أداء قريب من النماذج الكبيرة
التكيف مع المجال: عند الحاجة إلى التكيف السريع مع معرفة مجال معين
الأنظمة في الوقت الفعلي: التطبيقات التي لها متطلبات عالية لسرعة الاستدلال
تحديث المعرفة: السيناريوهات التي تتطلب دمج معرفة جديدة بشكل ديناميكي

المراجع

تستشهد الورقة بأعمال مهمة في مجالات التوليد المعزز بالاسترجاع وفك التشفير التكهني ونمذجة اللغة غير المعاملية، مما يوفر أساسًا نظريًا قويًا ومعايير مقارنة لتصميم CD-LM.

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح إطار CD-LM مبتكرًا، مع أداء ممتازة في النمذجة النظرية والتنفيذ التقني والتحقق التجريبي. تتمتع الطريقة بقيمة مهمة في حل مشاكل الكفاءة والتكيف في نماذج اللغة الكبيرة، وتتوقع أن تحدث تأثيرًا كبيرًا في التطبيقات العملية.