2025-11-12T10:46:10.127053

Transmuting prompts into weights

Mazzawi, Dherin, Munn et al.
A growing body of research has demonstrated that the behavior of large language models can be effectively controlled at inference time by directly modifying their internal states, either through vector additions to their activations or through updates to their weight matrices. These techniques, while powerful, are often guided by empirical heuristics, such as deriving steering vectors from the average activations of contrastive prompts. This work provides a theoretical foundation for these interventions, explaining how they emerge from the fundamental computations of the transformer architecture. Building on the recent finding that a prompt's influence can be mathematically mapped to implicit weight updates (Dherin et al., 2025), we generalize this theory to deep, multi-block transformers. We show how the information contained in any chunk of a user prompt is represented and composed internally through weight vectors and weight matrices. We then derive a principled method for condensing this information into token-independent thought vectors and thought matrices. These constructs provide a theoretical explanation for existing vector- and matrix-based model editing techniques and offer a direct, computationally-grounded method for transmuting textual input into reusable weight updates.
academic

تحويل الأوامس إلى أوزان

المعلومات الأساسية

  • معرّف الورقة: 2510.08734
  • العنوان: تحويل الأوامس إلى أوزان
  • المؤلفون: Hanna Mazzawi, Benoit Dherin, Michael Munn, Michael Wunder, Javier Gonzalvo (Google Research)
  • التصنيف: cs.LG (التعلم الآلي)
  • تاريخ النشر: 9 أكتوبر 2025 (نسخة arXiv التمهيدية)
  • رابط الورقة: https://arxiv.org/abs/2510.08734

الملخص

توفر هذه الورقة أساساً نظرياً لتقنيات التحكم في وقت الاستدلال لنماذج اللغة الكبيرة. تُظهر الأبحاث الحالية أنه يمكن التحكم الفعال في سلوك نماذج اللغة الكبيرة من خلال تعديل الحالات الداخلية للنموذج مباشرة (إضافة متجهات للتفعيلات أو تحديث مصفوفات الأوزان). ومع ذلك، تستند هذه التقنيات عادة إلى أساليب استكشافية تجريبية وتفتقر إلى الدعم النظري. تعمم هذه الورقة النظرية بناءً على اكتشاف أن تأثير الأوامس يمكن تعيينه رياضياً كتحديث وزن ضمني، وتوسع هذا إلى محولات متعددة الكتل عميقة. تُظهر الورقة كيف يمكن لأي كتلة معلومات في أمر المستخدم أن تُمثل وتُدمج داخلياً من خلال متجهات الأوزان ومصفوفات الأوزان، وتشتق طريقة أساسية لضغط هذه المعلومات إلى "متجهات الأفكار" و"مصفوفات الأفكار" المستقلة عن الرموز.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية التي يسعى هذا البحث إلى حلها هي: لماذا تكون تقنيات التدخل في النموذج الحالية (مثل توجيه التفعيل وتحرير النموذج) فعالة في التحكم في سلوك النموذج المعقد؟ ما هي المبادئ الرياضية الكامنة وراء هذه التقنيات؟

الأهمية

  1. الفجوة النظرية: على الرغم من أن تقنيات توجيه المتجهات وتحرير المصفوفات فعالة جداً في الممارسة العملية، إلا أنها تفتقر إلى شرح نظري قائم على بنية المحول
  2. قيود الطرق الحالية: تستند الطرق الموجودة بشكل أساسي على الاستكشافات التجريبية، مثل بناء متجهات التوجيه من خلال متوسط التفعيلات للأوامس المتناقضة
  3. الحاجة إلى إطار عمل موحد: هناك حاجة إلى إطار نظري موحد يشرح كيفية تحويل التعليمات النصية إلى تغييرات محددة في الأوزان أو التفعيلات

قيود الطرق الموجودة

  1. طرق توجيه التفعيل: قد لا يكون استخدام إضافة المتجهات وحدها كافياً للتعبير عن التأثير الكامل للتعليمات
  2. طرق تحرير النموذج: تفتقر إلى استراتيجيات مشتقة من المبادئ الأولى لضغط معلومات الأوامس العامة إلى تحديثات أوزان قابلة لإعادة الاستخدام
  3. عدم كفاية الشرح النظري: ينقص نجاح التقنيات الموجودة شرح نظري قائم على آليات حساب المحول

المساهمات الأساسية

  1. التوسع النظري: توسيع نظرية رقعة الرموز لكتلة محول واحدة إلى بنية محول متعددة الكتل العميقة
  2. إطار عمل رقعة الأفكار: اقتراح طريقة لتجميع الرقع اللحظية المعتمدة على الرموز إلى تحديثات أوزان قابلة لإعادة الاستخدام
  3. التوحيد النظري: توفير شرح نظري موحد لتقنيات توجيه المتجهات وتحرير المصفوفات الموجودة
  4. طريقة عملية: توفير طريقة حسابية لتحويل الأوامس النصية مباشرة إلى تحديثات الأوزان

شرح الطريقة

تعريف المهمة

بالنظر إلى أمر يحتوي على كتلة تعليمات I والمحتوى اللاحق C = I, x₁, ..., xₙ، الهدف هو إيجاد تحديث وزن معادل بحيث يكون إخراج النموذج بعد إزالة التعليمات I مساوياً لإخراج الأمر الكامل الأصلي.

نظرية رقعة الرموز

التوسع أحادي الكتلة

بناءً على عمل Dherin وآخرين، يمكن نسخ إخراج كتلة محول واحدة بشكل مثالي من خلال رقعة الرموز التالية:

δₓ(I) = A(C, x) - A(C\I, x)                    (3)
∆ₓ(I) = δₓ(I)aₓᵀ / ||aₓ||²                    (4)

حيث aₓ = A(C\I, x) هو إخراج الانتباه للرمز x بدون السياق I.

التوسع متعدد الكتل

بالنسبة للمحول العميق متعدد الكتل، يجب تطبيق رقع الرموز بشكل متكرر على كل طبقة:

x⁽²⁾ = T⁽²⁾_patched ∘ T⁽¹⁾_patched (C⁽⁰⁾\I⁽⁰⁾, x⁽⁰⁾)

تستخدم رقعة كل طبقة التفعيلات المحولة من الطبقة السابقة.

اشتقاق رقعة الأفكار

تقريب متجه الفكرة

من خلال تقليل مجموع الأخطاء المربعة لجميع متجهات الرموز، يتم الحصول على التقريب الأمثل لمتجه الفكرة:

δ(I) = (1/n) Σᵢ₌₁ⁿ δᵢ

تقريب مصفوفة الفكرة

النظرية 3.1: بالنظر إلى n متجهاً a₁,...,aₙ، مشكلة التقليل:

∆(I) = argminₘ Σᵢ₌₁ⁿ ||Maᵢ - ∆ᵢaᵢ||²        (7)

لها حل فريد إذا وفقط إذا كان المعامل Z = Σᵢ₌₁ⁿ aᵢaᵢᵀ قابلاً للعكس:

∆(I) = (Σᵢ₌₁ⁿ δᵢaᵢᵀ) Z⁻¹                    (8)

التقريب العملي

بافتراض أن المتجهات aᵢ موزعة بشكل كروي، Z يقترب من مضاعف مصفوفة الهوية، نحصل على الصيغة العملية:

∆(I) = λ Σᵢ₌₁ⁿ δᵢaᵢᵀ

نقاط الابتكار التقني

  1. الأساس النظري: أول شرح نظري قائم على بنية المحول للتقنيات التجريبية للتحكم في النموذج
  2. إطار عمل موحد: توحيد توجيه المتجهات وتحرير المصفوفات في آلية تحديث وزن واحدة
  3. الدقة الرياضية: توفير اشتقاقات رياضية صارمة وإثباتات نظرية
  4. العملية: يمكن تطبيق الطريقة مباشرة على النماذج الفعلية دون الحاجة إلى الانتشار العكسي

إعداد التجارب

مجموعات البيانات

  1. مهام حسابية: مجموعة بيانات اصطناعية لجمع وضرب الأرقام ثلاثية الأرقام
  2. الترجمة الآلية: استخدام مجموعة بيانات الترجمة الإنجليزية-الفرنسية "mntn/en-fr"

النماذج

تستخدم جميع التجارب نموذج Gemma 3.0 بحجم 1B

مقاييس التقييم

  • المهام الحسابية: الدقة (الهدف ≥80%)
  • الترجمة الآلية: استخدام Gemini 2.5-Flash-lite لتقييم جودة الترجمة

تفاصيل التنفيذ

  • الطبقات المستهدفة: الطبقات 10-20
  • المعاملات الفائقة: يتم تحديد c₁ و c₂ من خلال الضبط
  • تحسينات الاستقرار: تحديث الرتبة الأولى من خلال تطبيع نطاق متجه الانتباه

نتائج التجارب

النتائج الرئيسية

المهام الحسابية

  • الجمع: تحقيق دقة 100% باستخدام أقل من 300 رمز توضيحي
  • الضرب: تحقيق دقة 80%، مما يثبت فعالية الطريقة في المهام الأكثر تعقيداً
  • ملاحظات السلوك: ينتج النموذج المرقع استدلالاً متسلسلاً أكثر تفصيلاً

الترجمة الآلية

  • النموذج المرقع: تحقيق دقة 60% بدون تعليمات
  • نموذج الأساس: تحقيق دقة 72% مع التعليمات
  • فجوة الأداء: وجود فجوة أداء بنسبة 12%، لكن يثبت جدوى الطريقة

الاكتشافات الرئيسية

  1. حساسية المعاملات الفائقة: الطريقة حساسة جداً للمعامل الفائق c₁
    • c₁ منخفض جداً: يكرر النموذج الإدخال ببساطة
    • c₁ مرتفع جداً: يصبح الإخراج متكراراً وغير مستقر
  2. حالات أفضل من الأساس: في بعض المسائل الحسابية، يتفوق النموذج المرقع حتى على نموذج الأساس مع التعليمات
  3. الخلط اللغوي: في مهام الترجمة، قد يختار النموذج أحياناً لغة الهدف الخاطئة بشكل افتراضي

تحليل الحالات

حالة ناجحة (الجمع):

  • الاستعلام: 2 9 2
  • إخراج النموذج المرقع: "Okay, let's calculate the sum of 2 + 9 + 2: 2 + 9 + 2 = 13 So, the answer is 13."

حالة تصحيح الخطأ (الضرب):

  • خطأ نموذج الأساس: 0 * 8 * 6 = 48
  • صحة النموذج المرقع: 0 * 8 * 6 = 0

الأعمال ذات الصلة

طرق توجيه التفعيل

  • متجهات التوجيه: توجيه سلوك النموذج من خلال إضافة متجهات مصممة بعناية إلى التدفق المتبقي
  • الطرق المتناقضة: بناء متجهات باستخدام الفرق في التفعيلات بين أوامس إيجابية وسلبية
  • متجهات الوظائف: التقاط تمثيلات متجهة لمهام محددة

طرق تحرير النموذج

  • ROME: استخدام تحرير المصفوفات بالرتبة الأولى لتعديل الارتباطات الواقعية
  • MEND: تعلم تحديثات منخفضة الرتبة لمصفوفات الأوزان التغذية الأمامية
  • التحكم الأمني: إزالة الاتجاهات غير الآمنة من خلال التحرير

مساهمة هذه الورقة

توفير إطار عمل نظري موحد من المبادئ الأولى يشرح لماذا تكون كلا فئتي الطرق فعالة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. التوحيد النظري: توحيد ناجح للتقنيات التجريبية للتحكم في النموذج في إطار نظري قائم على حساب المحول
  2. فعالية الطريقة: تثبت التجارب جدوى طريقة رقعة الأفكار في المهام الحسابية والترجمة
  3. الشرح النظري: توفير أساس رياضي للطرق الاستكشافية الموجودة، مثل كون متوسط التفعيلات المتناقضة اختياراً صحيحاً للتقريب بالمربعات الصغرى

القيود

  1. فجوة الأداء: وجود خسارة في الأداء مقارنة بالأوامس المباشرة
  2. حساسية المعاملات الفائقة: الطريقة حساسة جداً لاختيار المعاملات الفائقة وتتطلب ضبطاً دقيقاً
  3. تعقيد المهام: يتطلب التحقق من الأداء على مهام أكثر تعقيداً
  4. التعقيد الحسابي: حساب Z⁻¹ أكثر صعوبة في الحالة العامة

الاتجاهات المستقبلية

  1. أدوات التحليل: استخدام الإطار كأداة تحليل لفهم أفضل لتمثيلات المهام والاستدلال في نماذج اللغة الكبيرة
  2. تحسين الأداء: البحث عن طرق لتقليل فجوة الأداء وتقليل حساسية المعاملات الفائقة
  3. توسيع التطبيقات: استكشاف التطبيقات على مهام أكثر تعقيداً
  4. تعميق النظرية: تحسين الإطار النظري بشكل أكبر للتعامل مع حالات أكثر عمومية

التقييم المتعمق

المزايا

  1. مساهمة نظرية كبيرة: أول أساس نظري صارم لتقنيات التحكم في النموذج، ملء فجوة نظرية مهمة
  2. الدقة الرياضية: توفير اشتقاقات رياضية كاملة وإثباتات نظرية، إطار نظري متين
  3. قوة التوحيد: توحيد ناجح لطريقتين تبدوان مختلفتين (توجيه المتجهات وتحرير المصفوفات)
  4. القيمة العملية: يمكن تطبيق الطريقة مباشرة، توفير أفكار جديدة للتطبيقات العملية

أوجه القصور

  1. نطاق التجارب محدود: التحقق فقط على نموذج بمعاملات 1B، افتقار إلى تجارب على نماذج كبيرة الحجم
  2. نطاق المهام ضيق: مهام التجارب نسبياً بسيطة، الأداء على مهام NLP المعقدة غير معروف
  3. خسارة الأداء: انخفاض واضح في الأداء مقارنة بـ prompting المباشر
  4. التحديات الهندسية: قد تحد حساسية المعاملات الفائقة من التطبيق العملي

التأثير

  1. القيمة الأكاديمية: توفير أساس نظري مهم لفهم آليات المحول والبحث في التحكم في النموذج
  2. الآفاق العملية: توفير مسار تقني جديد لنشر النموذج والتحكم فيه
  3. الإلهام البحثي: قد يحفز المزيد من أبحاث طرق التحكم في النموذج القائمة على النظرية

السيناريوهات المطبقة

  1. تحليل النموذج: فهم التمثيلات الداخلية وآليات الحساب للنموذج
  2. النشر خفيف الوزن: تحقيق تخصص النموذج في بيئات الموارد المحدودة
  3. التحكم الأمني: توفير إرشادات نظرية لأمان النموذج والمحاذاة
  4. أدوات البحث والتطوير: أداة تحليل لتطوير النموذج وتصحيح الأخطاء

المراجع

تشمل المراجع الرئيسية:

  1. Dherin et al. (2025) - نظرية التعلم الديناميكي الضمني لكتلة محول واحدة
  2. Turner et al. (2025) - هندسة التفعيل لتوجيه نماذج اللغة
  3. Meng et al. (2022) - تحديد موقع وتحرير الارتباطات الواقعية في GPT
  4. Todd et al. (2024) - متجهات الوظائف في نماذج اللغة الكبيرة

التقييم الشامل: هذه ورقة ذات قيمة نظرية مهمة، حيث نجحت في توفير أساس نظري صارم للتقنيات التجريبية للتحكم في النموذج. على الرغم من وجود مجال للتحسن في التحقق التجريبي، فإن مساهمتها النظرية مهمة لفهم وتطوير تقنيات التحكم في نماذج المحول.