2025-11-18T03:04:13.779328

Interpreting the Latent Structure of Operator Precedence in Language Models

Yugeswardeenoo, Nukala, Blondin et al.

Large Language Models (LLMs) have demonstrated impressive reasoning capabilities but continue to struggle with arithmetic tasks. Prior works largely focus on outputs or prompting strategies, leaving the open question of the internal structure through which models do arithmetic computation. In this work, we investigate whether LLMs encode operator precedence in their internal representations via the open-source instruction-tuned LLaMA 3.2-3B model. We constructed a dataset of arithmetic expressions with three operands and two operators, varying the order and placement of parentheses. Using this dataset, we trace whether intermediate results appear in the residual stream of the instruction-tuned LLaMA 3.2-3B model. We apply interpretability techniques such as logit lens, linear classification probes, and UMAP geometric visualization. Our results show that intermediate computations are present in the residual stream, particularly after MLP blocks. We also find that the model linearly encodes precedence in each operator's embeddings post attention layer. We introduce partial embedding swap, a technique that modifies operator precedence by exchanging high-impact embedding dimensions between operators.

academic

تفسير البنية الكامنة لأولويات المعاملات في نماذج اللغة

المعلومات الأساسية

معرّف الورقة: 2510.13908
العنوان: تفسير البنية الكامنة لأولويات المعاملات في نماذج اللغة
المؤلفون: Dharunish Yugeswardeenoo, Harshil Nukala, Cole Blondin, Sean O'Brien, Vasu Sharma, Kevin Zhu
التصنيف: cs.CL (اللسانيات الحاسوبية)
وقت النشر/المؤتمر: COLM 2025
رابط الورقة: https://arxiv.org/abs/2510.13908

الملخص

تُظهر نماذج اللغة الكبيرة (LLMs) تفوقاً في القدرات الاستدلالية، لكنها تواجه صعوبات في المهام الحسابية. ركزت الأبحاث السابقة على المخرجات أو استراتيجيات الإدخال، متجاهلة البنية الداخلية لكيفية إجراء النماذج للحسابات. تستكشف هذه الدراسة، من خلال نموذج LLaMA 3.2-3B المُضبوط على التعليمات مفتوح المصدر، ما إذا كانت نماذج اللغة الكبيرة تُرمّز أولويات المعاملات في تمثيلاتها الداخلية. تُنشئ الدراسة مجموعة بيانات لتعبيرات حسابية تحتوي على ثلاث معاملات ومعاملين، مع تغيير ترتيب العمليات وموضع الأقواس. باستخدام هذه المجموعة، تتتبع ما إذا كانت النتائج الوسيطة تظهر في التدفق المتبقي للنموذج، وتطبق تقنيات قابلية التفسير مثل عدسة اللوجيت والمصنفات الخطية والتصور الهندسي بـ UMAP. تُظهر النتائج أن الحسابات الوسيطة موجودة في التدفق المتبقي، خاصة بعد كتل MLP. تكتشف الدراسة أيضاً أن النموذج يُرمّز معلومات الأولوية خطياً في تضمينات المعاملات بعد طبقات الانتباه. تقدم الورقة تقنية تبديل التضمين الجزئي، التي تعدّل أولويات المعاملات من خلال تبديل الأبعاد عالية التأثير بين المعاملات.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية التي يعالجها هذا البحث هي: هل تُرمّز نماذج اللغة الكبيرة، وكيف تُرمّز، قواعد أولويات المعاملات في تمثيلاتها الداخلية عند معالجة التعبيرات الحسابية؟ بشكل محدد، عندما يواجه النموذج تعبيراً مثل "1 + 1 × 2"، هل يحسب الضرب أولاً وفقاً لقواعد الأولويات الرياضية، أم أنه يعالجها ببساطة من اليسار إلى اليمين؟

الأهمية

الأهمية النظرية: فهم آليات الاستدلال الحسابي الداخلي في نماذج اللغة الكبيرة له قيمة مهمة لأبحاث قابلية تفسير التعلم الآلي
القيمة العملية: تحسين أداء النموذج في مهام الاستدلال الرياضي، خاصة للنماذج الأصغر حجماً
المساهمة المنهجية: توفير أدوات تقنية جديدة لتحليل التمثيلات الداخلية للشبكات العصبية

قيود الطرق الموجودة

تركز معظم الأبحاث على الإدخالات الطبيعية والنتائج النهائية
نقص التحليل المتعمق لمعالجة أولويات المعاملات والخطوات الحسابية الوسيطة
فهم غير كافٍ لبنية الحسابات الحسابية الداخلية للنموذج

دافع البحث

استكشاف كيفية معالجة نماذج اللغة الكبيرة للتعبيرات الحسابية داخلياً من خلال طرق قابلية التفسير الآلية، مع التركيز الخاص على آليات معالجة ترتيب العمليات.

المساهمات الأساسية

بناء مجموعة بيانات تعبيرات حسابية منهجية: تحتوي على تعبيرات بثلاث معاملات ومعاملين، تختبر بشكل منهجي أولويات النحو والدلالة
اكتشاف أدلة على وجود الحسابات الوسيطة: من خلال تقنية عدسة اللوجيت، اكتشاف أن النموذج يُجري حسابات وسيطة في الشبكة العميقة
الكشف عن الترميز الخطي لأولويات المعاملات: إثبات أن النموذج يُرمّز معلومات أولويات المعاملات خطياً بعد طبقات الانتباه
اقتراح تقنية تبديل التضمين الجزئي: طريقة جديدة لتعديل أولويات المعاملات من خلال تبديل الأبعاد عالية التأثير
توفير تحليل التصور الهندسي: عرض البنية التنظيمية لتمثيلات المعاملات من خلال UMAP

شرح الطريقة

تعريف المهمة

الإدخال: تعبيرات حسابية تحتوي على ثلاث معاملات ومعاملين، مثل "a o1 b o2 c" الإخراج: نتيجة حساب النموذج للتعبير القيود:

المعاملات a, b, c ∈ {1, 2, ..., 9}
أزواج المعاملات (o1, o2) من مجموعة الأولويات المختلطة: {(+, *), (-, *), (+, /), (-, /)}
جميع نتائج الحسابات أعداد صحيحة موجبة

بناء مجموعة البيانات

لكل مجموعة من المعاملات والمعاملات، يتم إنشاء ستة متغيرات هيكلية:

القوس الأيسر: (a o1 b) o2 c
القوس الأيمن: a o1 (b o2 c)
القوس الأيسر المقلوب: (a o2 b) o1 c
القوس الأيمن المقلوب: a o2 (b o1 c)
بدون أقواس (الترتيب الطبيعي): a o1 b o2 c
بدون أقواس (مقلوب): a o2 b o1 c

إجمالي 8547 موجهة تم إنشاؤها، أجاب النموذج بشكل صحيح على 4401 منها.

الطرق التقنية الرئيسية

1. تحليل عدسة اللوجيت

الهدف: تتبع ما إذا كانت الحسابات الوسيطة تظهر في التدفق المتبقي
الطريقة: إسقاط التدفق المتبقي في كل طبقة من خلال مصفوفة عدم التضمين للحصول على اللوجيتات
التحليل: فحص ما إذا كانت أفضل 10 رموز تحتوي على النتائج الوسيطة المتوقعة

2. تقنية المصنف الخطي

مصنف الحساب الوسيط: تدريب مصنف خطي للتنبؤ مباشرة بالقيم الوسيطة من تفعيلات النموذج
مصنف الأولوية: استخدام مصنف الانحدار اللوجستي للتنبؤ بترتيب حساب المعاملات (الأول أو الثاني)

3. تبديل التضمين الجزئي

خطوات الخوارزمية:

تحديد الأبعاد المؤثرة: تبديل كل بُعد من التمثيلات المخفية لمعاملات "+" و"*" بشكل فردي
قياس تأثير الاضطراب: إذا أدى التبديل إلى تغيير تنبؤ النموذج من إجابة صحيحة (مثل 23) إلى إجابة خاطئة (مثل 35)، فإن هذا البُعد يُرمّز معلومات الأولوية
الترتيب والاختيار: ترتيب الأبعاد حسب التأثير، تحديد أصغر مجموعة فرعية من الأبعاد المطلوبة لتغيير التنبؤ

4. التصور الهندسي بـ UMAP

إسقاط متجهات التفعيل لرموز المعاملات إلى فضاء منخفض الأبعاد
تنسيق الوسم: [الموضع][المعامل]الأولوية، مثل "1m2" يشير إلى رمز الضرب في الموضع 1 لكن أولوية الحساب 2

إعداد التجربة

اختيار النموذج

استخدام نموذج LLaMA 3.2-3B المُضبوط على التعليمات مفتوح المصدر، الذي يحتوي على بنية محول بـ 28 طبقة.

إحصائيات مجموعة البيانات

إجمالي الموجهات: 8547
الإجابات الصحيحة للنموذج: 4401 (51.5%)
استخدام فقط العينات التي يمكن للنموذج التنبؤ بها بشكل صحيح للتحليل

مقاييس التقييم

معدل كشف الحساب الوسيط: نسبة ظهور النتائج الوسيطة في أفضل اللوجيتات
دقة المصنف الخطي: درجات R² ودقة التصنيف
معدل نجاح تبديل الأولوية: نسبة الحالات التي تم فيها تغيير تنبؤ النموذج بنجاح

نتائج التجربة

النتائج الرئيسية

1. وجود الحسابات الوسيطة

معدل الكشف: من بين 4401 موجهة، تم كشف الحسابات الوسيطة 2799 مرة (63.6%) في أفضل اللوجيتات
الطبقات المكتشفة: بشكل أساسي في الطبقات 16-27، مع ذروة في الطبقات 18-19
المكون الرئيسي: كتل MLP هي المكون الرئيسي لإدخال اللوجيتات الوسيطة، وليس كتل الانتباه

2. أدلة الترميز الخطي

يمكن للمصنف الخطي التنبؤ بدقة عالية بالحسابات الوسيطة بعد الطبقة 0 (درجات R² عالية)
يحقق مصنف أولوية الانتباه دقة 100% على مجموعة الاختبار
يعزز آلية الانتباه بشكل كبير من قابلية فك تشفير أولويات المعاملات خطياً

3. نتائج تبديل التضمين الجزئي

نجح في تعديل تنبؤ أفضل لوجيت للنموذج من خلال تبديل أبعاد محددة في حالات متعددة
يثبت التوطين الخطي والمتناثر لمعلومات أولويات المعاملات في أبعاد التضمين المحددة

4. تحليل البنية الهندسية

يُظهر التصور بـ UMAP:

فصل واضح لتضمينات المعاملات قبل وبعد الانتباه
تجميع المعاملات ذات الموضع والأولوية نفسها معاً
ترميز آلية الانتباه لمعلومات أولويات المعاملات

النتائج الكمية

المقياس	القيمة
معدل كشف الحساب الوسيط	63.6% (2799/4401)
دقة مصنف الأولوية	100%
نطاق الطبقات المكتشفة الرئيسية	16-27
طبقة ذروة الكشف	18-19

الأعمال ذات الصلة

أبحاث الاستدلال الحسابي

أشار Mirzadeh et al. (2024) و Bubeck et al. (2023) إلى الصعوبات المستمرة في نماذج اللغة الكبيرة في المهام الحسابية
استكشف Lewkowycz et al. (2022) استراتيجيات الإدخال مثل استدلال سلسلة الأفكار
قيّم Boye & Moell (2025) الحسابات الحسابية عبر نماذج متعددة، واكتشف عدم اتساق متكرر

قابلية التفسير الآلية

درس Zhang et al. (2024) البنية الداخلية لنماذج اللغة الكبيرة في المهام الحسابية
اعتمد Stolfo et al. (2023) على إطار الوساطة السببية لتتبع مساهمات المكونات الداخلية في التنبؤ الحسابي
اقترح Nainani et al. (2024) مفهوم "الدوائر" لشرح سلوك النموذج الخاص بالمهام

الطرق التقنية

اقترح nostalgebraist (2020) تقنية عدسة اللوجيت
طور Alain & Bengio (2018) طريقة المصنف الخطي
طور McInnes et al. (2020) تقنية تقليل الأبعاد UMAP

الخلاصة والنقاش

الاستنتاجات الرئيسية

الحسابات الوسيطة موجودة فعلاً: يُجري نموذج LLaMA 3.2-3B حسابات وسيطة داخلية، وتصبح هذه المعلومات قابلة لفك التشفير خطياً في الشبكة العميقة
ترميز الأولوية خطياً: يتم ترميز معلومات أولويات المعاملات خطياً في أبعاد التضمين المحددة بعد طبقات الانتباه
الدور الرئيسي لـ MLP: كتل MLP وليس كتل الانتباه مسؤولة عن إنتاج نتائج الحسابات الوسيطة
البنية التنظيمية الهندسية: ينظم النموذج تمثيلات المعاملات وفقاً لموضع المعامل وأولوية الحساب

القيود

قيود حجم النموذج: تم إجراء التجارب فقط على نموذج LLaMA بـ 3 مليارات معامل، قد لا تنطبق النتائج على نماذج أكبر حجماً
تعقيد المهمة: تم النظر فقط في تعبيرات بسيطة بثلاث معاملات ومعاملين
أنواع المعاملات: تشمل فقط العمليات الحسابية الأساسية، لم تغطِ عمليات رياضية أكثر تعقيداً
قيود معدل النجاح: يمكن للنموذج الإجابة بشكل صحيح على حوالي 51.5% فقط من المسائل الحسابية

الاتجاهات المستقبلية

التوسع إلى نماذج لغة أكبر حجماً
دراسة تعبيرات رياضية أكثر تعقيداً وأنواع عمليات مختلفة
استكشاف التمثيلات الداخلية لمفاهيم رياضية أخرى (مثل الدوال والمعادلات)
تطوير طرق تحسين النموذج بناءً على هذه الاكتشافات

التقييم المتعمق

المميزات

الابتكار المنهجي: تبديل التضمين الجزئي هو تقنية تدخل جديدة وفعالة
شمولية التجربة: دمج طرق قابلية تفسير متعددة (عدسة اللوجيت، المصنفات الخطية، UMAP، تجارب التدخل)
أهمية الاكتشافات: أول إثبات منهجي لآلية ترميز أولويات المعاملات في نماذج اللغة الكبيرة
الصرامة التقنية: تصميم تجريبي معقول، استخدام فقط العينات التي يجيب عليها النموذج بشكل صحيح للتحليل

أوجه القصور

قيود الحجم: تقتصر التجارب على نموذج بـ 3 مليارات معامل، القابلية للتعميم تحتاج إلى التحقق
تبسيط المهمة: التعبيرات الحسابية نسبياً بسيطة، التعقيد في التطبيقات الفعلية لم يتم النظر فيه بشكل كافٍ
العمق النظري: نقص التفسير النظري لسبب ظهور هذه الآليات
الجدوى العملية: على الرغم من توفير رؤى مهمة، كيفية استخدام هذه الاكتشافات لتحسين أداء النموذج لا تزال غير واضحة

التأثير

القيمة الأكاديمية: مساهمة مهمة في فهم الآليات الخاصة باستدلال نماذج اللغة الكبيرة الحسابي
الأهمية المنهجية: يمكن تطبيق تقنية تبديل التضمين الجزئي على تحليل مهام أخرى
الإمكانات العملية: توفير اتجاهات لتطوير نماذج أفضل لقدرات الاستدلال الحسابي للنماذج الصغيرة
قابلية التكرار: استخدام نماذج مفتوحة المصدر، التجارب نسبياً سهلة التكرار

السيناريوهات القابلة للتطبيق

تحليل النموذج: مناسب لتحليل الآليات الداخلية لنماذج لغة أخرى
التطبيقات التعليمية: مساعدة في فهم كيفية معالجة الذكاء الاصطناعي للمفاهيم الرياضية
تحسين النموذج: توفير إرشادات لتطوير نماذج بقدرات استدلال حسابي أفضل
مرجع البحث: توفير مرجع منهجي لتحليل الآليات في مهام معرفية أخرى

المراجع

تستشهد هذه الورقة بأدبيات مهمة في مجالات قابلية التفسير الآلية والاستدلال الحسابي وتحليل الشبكات العصبية، بما في ذلك:

nostalgebraist (2020) - تقنية عدسة اللوجيت
Alain & Bengio (2018) - طريقة المصنف الخطي
Zhang et al. (2024) - البنية الداخلية لاستدلال نماذج اللغة الكبيرة الحسابي
Stolfo et al. (2023) - إطار تحليل الوساطة السببية
McInnes et al. (2020) - تقنية تقليل الأبعاد UMAP

يوفر هذا البحث رؤى مهمة لفهم آليات الاستدلال الحسابي الداخلي في نماذج اللغة الكبيرة، خاصة فيما يتعلق بمعالجة أولويات المعاملات. على الرغم من وجود بعض القيود، فإن ابتكار الطريقة وأهمية الاكتشافات تجعلها مساهمة قيمة في مجال قابلية التفسير الآلية.