A growing body of research has demonstrated that the behavior of large language models can be effectively controlled at inference time by directly modifying their internal states, either through vector additions to their activations or through updates to their weight matrices. These techniques, while powerful, are often guided by empirical heuristics, such as deriving steering vectors from the average activations of contrastive prompts. This work provides a theoretical foundation for these interventions, explaining how they emerge from the fundamental computations of the transformer architecture. Building on the recent finding that a prompt's influence can be mathematically mapped to implicit weight updates (Dherin et al., 2025), we generalize this theory to deep, multi-block transformers. We show how the information contained in any chunk of a user prompt is represented and composed internally through weight vectors and weight matrices. We then derive a principled method for condensing this information into token-independent thought vectors and thought matrices. These constructs provide a theoretical explanation for existing vector- and matrix-based model editing techniques and offer a direct, computationally-grounded method for transmuting textual input into reusable weight updates.
توفر هذه الورقة أساساً نظرياً لتقنيات التحكم في وقت الاستدلال لنماذج اللغة الكبيرة. تُظهر الأبحاث الحالية أنه يمكن التحكم الفعال في سلوك نماذج اللغة الكبيرة من خلال تعديل الحالات الداخلية للنموذج مباشرة (إضافة متجهات للتفعيلات أو تحديث مصفوفات الأوزان). ومع ذلك، تستند هذه التقنيات عادة إلى أساليب استكشافية تجريبية وتفتقر إلى الدعم النظري. تعمم هذه الورقة النظرية بناءً على اكتشاف أن تأثير الأوامس يمكن تعيينه رياضياً كتحديث وزن ضمني، وتوسع هذا إلى محولات متعددة الكتل عميقة. تُظهر الورقة كيف يمكن لأي كتلة معلومات في أمر المستخدم أن تُمثل وتُدمج داخلياً من خلال متجهات الأوزان ومصفوفات الأوزان، وتشتق طريقة أساسية لضغط هذه المعلومات إلى "متجهات الأفكار" و"مصفوفات الأفكار" المستقلة عن الرموز.
المشكلة الأساسية التي يسعى هذا البحث إلى حلها هي: لماذا تكون تقنيات التدخل في النموذج الحالية (مثل توجيه التفعيل وتحرير النموذج) فعالة في التحكم في سلوك النموذج المعقد؟ ما هي المبادئ الرياضية الكامنة وراء هذه التقنيات؟
الفجوة النظرية: على الرغم من أن تقنيات توجيه المتجهات وتحرير المصفوفات فعالة جداً في الممارسة العملية، إلا أنها تفتقر إلى شرح نظري قائم على بنية المحول
قيود الطرق الحالية: تستند الطرق الموجودة بشكل أساسي على الاستكشافات التجريبية، مثل بناء متجهات التوجيه من خلال متوسط التفعيلات للأوامس المتناقضة
الحاجة إلى إطار عمل موحد: هناك حاجة إلى إطار نظري موحد يشرح كيفية تحويل التعليمات النصية إلى تغييرات محددة في الأوزان أو التفعيلات
بالنظر إلى أمر يحتوي على كتلة تعليمات I والمحتوى اللاحق C = I, x₁, ..., xₙ، الهدف هو إيجاد تحديث وزن معادل بحيث يكون إخراج النموذج بعد إزالة التعليمات I مساوياً لإخراج الأمر الكامل الأصلي.
Dherin et al. (2025) - نظرية التعلم الديناميكي الضمني لكتلة محول واحدة
Turner et al. (2025) - هندسة التفعيل لتوجيه نماذج اللغة
Meng et al. (2022) - تحديد موقع وتحرير الارتباطات الواقعية في GPT
Todd et al. (2024) - متجهات الوظائف في نماذج اللغة الكبيرة
التقييم الشامل: هذه ورقة ذات قيمة نظرية مهمة، حيث نجحت في توفير أساس نظري صارم للتقنيات التجريبية للتحكم في النموذج. على الرغم من وجود مجال للتحسن في التحقق التجريبي، فإن مساهمتها النظرية مهمة لفهم وتطوير تقنيات التحكم في نماذج المحول.