In natural language processing, current methods for understanding Transformers are successful at identifying intermediate predictions during a model's inference. However, these approaches function as limited diagnostic checkpoints, lacking a mathematical framework for mechanistically modeling how each layer facilitates transitions between these evolving states. This interpretability gap and past successes of interdisciplinary outlooks inspire us to turn to physics in search of a descriptive mathematical framework for Transformers. We observe that language models are intrinsically probabilistic, an attribute that is echoed in the core postulates of quantum mechanics. This parallel inspires us to translate insights from this discipline to that of natural language processing. Towards this objective, we propose QLENS a novel attempt to develop a physics-based perspective on the Transformer generation process. Under QLENS, a Transformer is studied by converting its latent activations into a state vector in a Hilbert space derived from the model's output units. This state subsequently evolves through hidden layers - reformulated as unitary operators and analogously defined Hamiltonians - during inference. The model's final probability distribution is obtained by applying the Born rule to the end state using a specific measurement operator. To demonstrate QLENS's potential, we conduct a proof-of-concept by probing a toy Transformer to investigate the influence of individual layers in a model's prediction trajectory. We present our work as a foundation for cross-domain insights to be leveraged towards a broader understanding of Transformers.
- معرّف الورقة: 2510.11963
- العنوان: QLENS: نحو منظور كمي لمحولات اللغة
- المؤلفون: Aditya Gupta (مدرسة Issaquah الثانوية)، Kirandeep Kaur، Vinayak Gupta (جامعة واشنطن)
- التصنيف: cs.LG (التعلم الآلي)
- تاريخ النشر: 13 أكتوبر 2025 (نسخة أولية)
- رابط الورقة: https://arxiv.org/abs/2510.11963
تقترح هذه الورقة إطار عمل QLENS، وهو نهج جديد قائم على مبادئ الميكانيكا الكمية لفهم نماذج المحولات. بينما تستطيع طرق قابلية تفسير المحولات التقليدية (مثل Logit Lens) تحديد التنبؤات الوسيطة أثناء الاستدلال، إلا أنها تفتقر إلى إطار عمل رياضي لنمذجة آلية كيفية تسهيل الطبقات للانتقالات بين الحالات. لاحظ المؤلفون أن نماذج اللغة احتمالية بطبيعتها، وهذا يتوافق مع الافتراضات الأساسية للميكانيكا الكمية. يحول QLENS التنشيطات الكامنة للمحول إلى متجهات حالة في فضاء هيلبرت، ويصف تطور الطبقات المخفية من خلال عوامل أحادية معاد تعريفها وهاميلتونيان، وأخيراً يحصل على التوزيعات الاحتمالية من خلال قاعدة بورن وعوامل القياس.
تعمل طرق قابلية تفسير المحول الحالية (مثل Logit Lens و Tuned Lens) بشكل أساسي كنقاط فحص تشخيصية، قادرة على تحديد حالات التنبؤ الوسيطة أثناء الاستدلال، لكنها تفتقر إلى إطار عمل رياضي يصف كيفية تسهيل الطبقات للانتقالات بين الحالات. يحد هذا الفجوة في قابلية التفسير من فهمنا العميق لآليات عمل المحول الداخلية.
يعتبر فهم الآليات الداخلية للمحول ضروريًا لـ:
- ضمان موثوقية النموذج خارج مقاييس الأداء
- تحليل مسارات التنبؤ وعمليات اتخاذ القرار في النموذج
- توفير إرشادات نظرية لتحسين النموذج
- تعزيز قابلية التفسير والشفافية في أنظمة الذكاء الاصطناعي
- Logit Lens: يعاني من مشاكل التحيز وعدم الاستقرار عبر عائلات النماذج المختلفة
- Tuned Lens: على الرغم من تحسن مشاكل التحيز، إلا أنه لا يزال يفتقر إلى نموذج رياضي يصف الانتقالات بين الطبقات
- طرق أخرى: تقتصر في الغالب على تحليل سلوكيات محددة، وغير قادرة على توفير إطار نظري شامل
استلهم المؤلفون من حالات النجاح متعددة التخصصات، ولاحظوا أن الطبيعة الاحتمالية لنماذج اللغة تتشابه بشكل كبير مع الافتراضات الأساسية للميكانيكا الكمية، لذلك اقترحوا تطبيق الإطار الرياضي للميكانيكا الكمية على تحليل المحولات.
- الابتكار النظري: إنشاء تشابه مفاهيمي بين الميكانيكا الكمية والمحولات، واكتشاف الافتراضات الكمية المقابلة في مجال معالجة اللغات الطبيعية
- اقتراح الإطار: تقديم إطار عمل QLENS الذي يوفر تشبيهًا كميًا شاملاً لعملية الاستدلال في المحولات
- التحقق التجريبي: من خلال إثبات المفهوم على محول تصنيف المشاعر البسيط، يوضح إمكانات QLENS في التفسير على مستوى الطبقات
- التحليل النظري: تحليل نقدي لمزايا وقيود QLENS، مما يضع أساسًا للاستكشاف الإضافي في هذا المجال
يهدف QLENS إلى توفير إطار عمل رياضي مستوحى من الميكانيكا الكمية لعملية الاستدلال في المحول، ويشمل بشكل محدد:
- الإدخال: نموذج محول مدرب مسبقًا وتسلسل إدخال
- الإخراج: متجهات الحالة لكل طبقة والعوامل الأحادية والهاميلتونيان والرؤى المقابلة لقابلية التفسير
- القيود: الحفاظ على التوافق مع مدخلات ومخرجات المحول الأصلي
تحويل فضاء الإخراج للمحول إلى أساس هيلبرت متعامد ومعياري C={∣c1⟩,∣c2⟩,...,∣cN⟩}، حيث يتوافق كل متجه أساس مع وحدة إخراج واحدة.
ضمان التمييز بين حالات الإخراج المختلفة:
⟨ci∣cj⟩={0,1,عندما i=jعندما i=j
تعريف متجه حالة النموذج ∣Ψℓ⟩، الذي يحقق:
P(ci)=∣⟨ci∣Ψℓ⟩∣2
حيث P(ci) هي احتمالية وحدة الإخراج ci.
نمذجة طبقات المحول كعوامل أحادية:
∣Ψℓ⟩=Uℓ∣Ψℓ−1⟩
توليد العوامل الأحادية من خلال هاميلتونيان Hℓ:
Uℓ=exp(−iαHℓ)
واستخلاص النظرية 1: يتم تحديد تغيير متجه الحالة بالكامل من خلال القيم الذاتية والمتجهات الذاتية للهاميلتونيان.
تعريف عامل القياس M لاستخراج التوزيع الاحتمالي النهائي، حيث تكون عناصر المصفوفة:
mkj=jδkj
- التمثيل الكمي للتوزيع الاحتمالي: تعيين مخرجات الاحتمالية للمحول إلى متجهات حالة كمية
- نمذجة التحويلات بين الطبقات بعوامل أحادية: وصف تطور الحالة بين الطبقات باستخدام عوامل أحادية، مع الحفاظ على حفظ الاحتمالية
- المنظور الثنائي للهاميلتونيان: توفير منظور إضافي يتوافق مع الاتصالات المتبقية
- الدمج مع Tuned Lens: الاستفادة من Tuned Lens لاستخراج التوزيعات الاحتمالية الوسيطة كأساس لمتجهات الحالة
- مصدر البيانات: مجموعة بيانات Sentihood، تحتوي على 5212 جملة تقييم معلقة لمناطق لندن
- المعالجة المسبقة:
- إزالة الحالات متعددة المواقع والجوانب
- الاحتفاظ بـ 1,864 حالة (1,329 إيجابية، 535 سلبية)
- موازنة إلى نسبة 1:1، بما يصل إلى 1,070 حالة نهائية
- تقسيم 80:20 لمجموعات التدريب والاختبار
- النموذج الأساسي: محول بسيط بكتلة فك تشفير واحدة
- التضمين: رمز GPT-2 ومصفوفة التضمين (768 بُعد مضغوط إلى 12 بُعد)
- الانتباه: طبقة انتباه 4 رؤوس
- الشبكة الأمامية: تفعيل ReLU، بُعد وسيط 48
- التدريب: 12 دورة، خسارة الإنتروبيا الثنائية المتقاطعة، دقة الاختبار 79.44%
- تشابه العامل الأحادي: تشابه جيب التمام Frobenius
- تشابه الهاميلتونيان: التشابه الثنائي للهاميلتونيان بين الطبقات
- الدلالة الإحصائية: اختبار التبديل ثنائي العينة (p < 0.0001)
- استخدام تحويل Householder لتقييد شكل العامل الأحادي
- تدريب عدستين متحيزتين (عدسة التضمين وعدسة الانتباه)
- 1000 محاكاة تبديل لإجراء الاختبار الإحصائي
| الطبقة | متوسط تشابه العامل الأحادي | قيمة p | متوسط تشابه الهاميلتونيان | قيمة p | متوسط ∥ΔΨ⟩∥ |
|---|
| الانتباه متعدد الرؤوس | 0.8398 | 0.0001 | 0.9193 | 0.0001 | (−0.1001,−0.0385) |
| الشبكة العصبية الأمامية | 0.4901 | 0.0001 | 0.7445 | 0.0001 | (−0.0009,0.0003) |
- تجميع متجهات Householder: تشكيل مجموعتين مركزتين، مما يشير إلى أن طبقة الانتباه تستخدم فقط مساحة محدودة من تحديثات الاحتمالية
- الاتجاه المتحيز: يُظهر متوسط تغيير متجه الحالة تفضيلاً للمشاعر الإيجابية
- التأثير: ينتج عنه تأثير كبير على التنبؤ النهائي
- تشتت أكبر: توزيع متجهات Householder أوسع، مما يشير إلى أن طبقة الشبكة العصبية الأمامية يمكنها تحقيق تحديثات احتمالية أكثر تنوعًا
- دور الضبط الدقيق: يتركز تغيير متجه الحالة بالقرب من الأصل، مما يؤدي بشكل أساسي إلى تعديلات دقيقة
- تأثير أصغر: المساهمة في التنبؤ النهائي أصغر نسبيًا
يُظهر تشابه العامل الأحادي والهاميلتونيان لجميع الطبقات بشكل كبير أعلى من خط الأساس العشوائي (p < 0.0001)، مما يشير إلى أن كل طبقة تحافظ على أنماط تحويل متسقة عبر مدخلات مختلفة.
- طرق الاستشعار: دراسات الاستشعار الخطي من قبل Jawahar وآخرين تُظهر أن الطبقات المختلفة متخصصة في معالجة ميزات لغوية مختلفة
- تفسير التنشيط: دراسات تفعيل الخلايا العصبية والهياكل المعجمية من قبل Dalvi وآخرين
- قابلية التفسير الآلية: طرق المشفر الذاتي المتناثر واكتشاف الدوائس من قبل Bricken وآخرين
- الطرق الكلاسيكية: شبكات Hopfield وآلات Boltzmann وغيرها
- التطبيقات الحديثة: تطبيق الديناميكا الحرارية والميكانيكا الكلاسيكية على ديناميكا تدريب نماذج اللغة الكبيرة
- التعلم الآلي الكمي: يركز بشكل أساسي على نماذج QML و ML4QM، وهو يختلف عن قابلية التفسير المستوحاة من الكم في هذه الورقة
- نجح QLENS في إنشاء تشابه رياضي بين المحولات والميكانيكا الكمية
- يمكن لهذا الإطار تحديد مساهمة كل طبقة في التوزيع الاحتمالي للإخراج النهائي
- تُظهر طبقات الانتباه والشبكات العصبية الأمامية أنماط تحويل وتأثير مختلفة
- توفر البنية الرياضية للميكانيكا الكمية أداة نظرية جديدة لتحليل المحولات
- معالجة اللاخطية: الميكانيكا الكمية خطية بطبيعتها، بينما تأتي قدرة المحول إلى حد كبير من المكونات غير الخطية
- مستوى التجريد: يتوقف التحليل الحالي عند مستوى مدخلات ومخرجات الطبقة، دون نمذجة عميقة للعمليات داخل الطبقة
- نطاق التجارب: يقتصر إثبات المفهوم على نماذج لعبة بسيطة، والقابلية للتعميم تحتاج إلى التحقق
- اختيار العامل: قد يحد اختيار تحويل Householder من اكتمال التحليل
- التوسع إلى نماذج واسعة النطاق: تطبيق QLENS على محولات كبيرة مدربة مسبقًا
- معالجة اللاخطية: استكشاف القنوات الكمية ومعادلات شرودنجر غير الخطية للتعامل مع وظائف التفعيل
- توسيع المفاهيم الكمية: دمج المزيد من المفاهيم الكمية مثل التشابك والمبدأ عدم التحديد
- مقاييس تقييم جديدة: تطوير مقاييس تقييم المحول بناءً على نظرية المعلومات الكمية
- ابتكار قوي: أول تطبيق منهجي لإطار الميكانيكا الكمية على قابلية تفسير المحول
- صرامة رياضية: إنشاء نظام تشابه رياضي كامل، بما في ذلك ستة افتراضات والنظريات المقابلة
- دعم تجريبي: التحقق من جدوى وفعالية الإطار من خلال تجارب محددة
- منظور متعدد التخصصات: توفير أداة نظرية جديدة لبحث قابلية تفسير الذكاء الاصطناعي
- قيود التجارب: التحقق فقط على نماذج لعبة بسيطة، وافتقار التجارب واسعة النطاق
- فجوات نظرية: معالجة المكونات غير الخطية لا تزال مسألة مفتوحة
- الجدوى العملية المعلقة: المزايا العملية مقارنة بالطرق الموجودة غير واضحة
- التعقيد الحسابي: لم تتم مناقشة كفاءة التطبيق على نطاق واسع
- المساهمة النظرية: توفير إطار رياضي جديد تماماً لفهم المحولات
- القيمة المنهجية: توضيح إمكانية الطرق متعددة التخصصات في بحث الذكاء الاصطناعي
- الإلهام: قد تلهم المزيد من أبحاث قابلية التفسير المستوحاة من الفيزياء
- القيود: في المرحلة الحالية، يعتبر أكثر إثبات مفهوم، والقيمة التطبيقية محدودة
- البحث النظري: مناسب لتحليل نظري لآليات المحول الداخلية
- الأغراض التعليمية: توفير إطار مفاهيمي جديد لفهم المحولات
- تطوير الطرق: توفير أساس لتطوير أدوات قابلية تفسير جديدة
- التعاون متعدد التخصصات: تعزيز البحث المتقاطع بين الذكاء الاصطناعي والفيزياء
تستشهد هذه الورقة بـ 54 مرجعًا ذا صلة، تغطي أساسيات الميكانيكا الكمية ومعمارية المحولات وطرق قابلية التفسير والتعلم الآلي المستوحى من الفيزياء وغيرها من المجالات المهمة، مما يوفر أساسًا نظريًا قويًا للبحث متعدد التخصصات.
التقييم الشامل: هذه ورقة بحثية مبتكرة وملهمة متعددة التخصصات. على الرغم من وجود قيود في التطبيق العملي، إلا أنها تفتح اتجاهًا نظريًا جديدًا تماماً لبحث قابلية تفسير المحولات. يعترف المؤلفون بصراحة بأوجه القصور في الطريقة الحالية ويشيرون إلى اتجاهات البحث المستقبلية، مما يعكس موقفًا أكاديميًا جيدًا.