2025-11-21T07:40:15.798625

Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions

Deas, McKeown

We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.

academic

الانطباعات الاصطناعية: تقييم سلوك نماذج اللغة الكبيرة من خلال عدسة الانطباعات الشخصية

المعلومات الأساسية

معرّف الورقة: 2510.08915
العنوان: الانطباعات الاصطناعية: تقييم سلوك نماذج اللغة الكبيرة من خلال عدسة الانطباعات الشخصية
المؤلفون: نيكولاس ديس، كاثلين ماكيون (جامعة كولومبيا)
التصنيف: cs.CL (علم اللغة الحسابي)
تاريخ النشر: 10 أكتوبر 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2510.08915

الملخص

تقدم هذه الورقة وتدرس مفهوم "الانطباعات الاصطناعية" (artificial impressions) - الأنماط في التمثيلات الداخلية لنماذج اللغة الكبيرة (LLMs) التي تشبه الانطباعات والصور النمطية التي يكونها الإنسان بناءً على اللغة. استخدم الباحثون مسابير خطية مدربة على المحفزات المولدة للتنبؤ بالانطباعات وفقاً لنموذج محتوى الصور النمطية ثنائي الأبعاد (Stereotype Content Model, SCM). من خلال هذه المسابير، تمت دراسة العلاقة بين الانطباعات والسلوك النموذجي النهائي وخصائص المحفزات التي قد تؤثر على هذه الانطباعات. أظهرت الدراسة أن نماذج اللغة الكبيرة تبلغ عن عدم اتساق في الانطباعات عند الاستفسار المباشر، لكن الانطباعات يمكن فك تشفيرها بشكل أكثر اتساقاً من تمثيلاتها المخفية خطياً. علاوة على ذلك، يمكن للانطباعات الاصطناعية للمحفزات التنبؤ بجودة استجابة النموذج واستخدام لغة التحفظ.

السياق البحثي والدافع

تعريف المشكلة

يكون البشر انطباعات أولية سريعة عن الآخرين أثناء التفاعل، وتؤثر هذه الانطباعات بشكل دائم على المواقف والسلوك. وبالمثل، تتعرض نماذج اللغة الكبيرة أثناء التدريب لكميات ضخمة من النصوص من مؤلفين مختلفين، وقد تكون قادرة أيضاً على تكوين "انطباعات" مشابهة بناءً على الخصائص اللغوية.

أهمية البحث

الانحياز والعدالة: فهم كيفية تكوين نماذج اللغة الكبيرة للانطباعات بناءً على الخصائص اللغوية أمر حاسم لتحديد وتخفيف الانحياز
التنبؤ بسلوك النموذج: قد تؤثر الانطباعات الاصطناعية على الأداء النهائي للنموذج، مثل جودة الاستجابة واستخدام اللغة
التأثيرات الاجتماعية اللغوية: قد تثير اللهجات المختلفة والمتغيرات اللغوية انطباعات مختلفة، مما يؤثر على تجربة المستخدمين من المجموعات المهمشة

قيود الطرق الموجودة

الاستفسار المباشر من نماذج اللغة الكبيرة عن الانطباعات يحتوي على عدم اتساق وانحياز إيجابي
غياب طريقة منهجية لتحديد وتحليل الانطباعات الداخلية لنماذج اللغة الكبيرة
فهم محدود لكيفية تأثير الانطباعات على السلوك النهائي

المساهمات الأساسية

اقتراح مفهوم "الانطباعات الاصطناعية": أول دراسة منهجية للانطباعات الداخلية التي تكونها نماذج اللغة الكبيرة بناءً على المحفزات
تطوير طريقة المسابير الخطية: استخدام إطار عمل SCM لتدريب مسابير لفك تشفير الانطباعات من الحالات المخفية
إنشاء ارتباطات الانطباع-السلوك: إثبات أن الانطباعات الاصطناعية يمكنها التنبؤ بجودة الاستجابة واستخدام لغة التحفظ
تحديد العوامل المؤثرة: تحليل خصائص المحتوى والأسلوب واللهجة على تشكيل انطباعات نماذج اللغة الكبيرة
الكشف عن انحياز اللهجة: اكتشاف أن نماذج اللغة الكبيرة تحتفظ بانطباعات أكثر سلبية تجاه اللغة الأمريكية الأفريقية (AAL)

شرح الطريقة

تعريف المهمة

بالنظر إلى محفز المستخدم، الهدف هو:

استخراج درجات الانطباع بناءً على SCM من التمثيلات المخفية لنموذج اللغة الكبيرة
تحليل العلاقة بين الانطباعات وسلوك النموذج
تحديد خصائص المحفزات التي تؤثر على تشكيل الانطباعات

نموذج محتوى الصور النمطية (SCM)

يتضمن SCM بعدين:

الدفء (Warmth): الإدراك المتعلق بنوايا الهدف (مثل الودية والعدوانية)
الكفاءة (Competence): قدرة الهدف على تنفيذ نواياه بنجاح (مثل الذكاء والقوة)

سير عملية توليد البيانات

1. توليد البيانات الاصطناعية

الخطوة 1: مفردات الخصائص → مواصفات الانطباع (مثل "ودود وتفصيلي")
الخطوة 2: توليد محفزات المستخدم الاصطناعية بناءً على مواصفات الانطباع
الخطوة 3: استخراج التمثيلات المخفية لنموذج اللغة الكبيرة
الخطوة 4: بناء بيانات تدريب المسبار (أزواج التمثيل-التسمية)

2. تدريب المسبار

استخدام تفعيلات الشبكة العصبية متعددة الطبقات (MLP) كميزات إدخال
تدريب مسابير منفصلة للدفء والكفاءة
استخدام التحقق المتقاطع بـ 5 طيات لتقييم الأداء
استخدام نسب بيانات تدريب مختلفة (100%، 10%، 1%)

نقاط الابتكار التقني

التوجيه بالنظرية النفسية: تطبيق إطار عمل SCM من علم النفس على تحليل نماذج اللغة الكبيرة
مقارنة المسبار مقابل المحفز: مقارنة منهجية بين طريقة المسبار والاستفسار المباشر من حيث الموثوقية
التحليل متعدد الطبقات: تحليل توزيع معلومات الانطباع عبر طبقات النموذج المختلفة
التحقق من التنبؤ بالسلوك: التحقق من فعالية الانطباعات من خلال المهام النهائية

إعداد التجارب

النماذج

Llama-3.1 (8B): 32 طبقة، بُعد مخفي 4096
Llama-3.2 (1B): 16 طبقة، بُعد مخفي 2048
OLMo-2 (7B): 32 طبقة، بُعد مخفي 4096

مجموعات البيانات

البيانات الاصطناعية

بناءً على 131 خاصية دفء و 104 خصائص كفاءة
توليد 10 عينات لكل مواصفات انطباع (درجة الحرارة = 0.9)
إجمالي 274,830 محفز/نموذج

البيانات الحقيقية

LMSysChat: عينة من 2000 محفز من الجولة الأولى من مليون محادثة حقيقية
TwitterAAE: 400 تغريدة (200 AAL، 200 WME)
مجموعة بيانات Counterparts: مدونة متوازية تتحكم في المتغيرات الأخرى

مقاييس التقييم

أداء المسبار: درجة F1، الدقة
الاتساق الذاتي: توافق الانطباعات المبلغ عنها مع الخصائص المقدمة
التقييم البشري: مقياس Likert بـ 4 نقاط، Krippendorff's α = 0.71

نتائج التجارب

الاكتشافات الرئيسية

الاكتشاف 1: قيود طريقة الاستفسار المباشر

الانطباعات التي يبلغ عنها نموذج اللغة الكبيرة تميل عادة نحو الخصائص الإيجابية (الدفء/الكفاءة)، خاصة في السياقات بصيغة المتكلم:

اتساق الدفء بصيغة المتكلم لـ Llama-3.1 (8B) فقط 51.67%
تحسن طفيف في السياقات بصيغة الغائب لكن لا يزال محدوداً (أقصى 80.77%)

الاكتشاف 2: اتساق الانطباع بين الإنسان والنموذج

اتساق التعليقات البشرية مع الخصائص الأصلية:

Cohen's κ الإجمالي = 0.68، Spearman r = 0.68
يتحقق من فعالية مفردات الخصائص وتسميات SCM

الاكتشاف 3: فعالية طريقة المسبار

نجح المسبار الخطي في فك تشفير الانطباعات من التمثيلات المخفية:

درجة F1 لمسبار الدفء: 75-90%
درجة F1 لمسبار الكفاءة: 75-85%
تصل الأداء إلى ذروتها في الطبقات الوسطى للنموذج

الاكتشاف 4: تأثير تفضيل الدفء

يؤدي النموذج بشكل أفضل في بُعد الدفء:

أداء مسبار الدفء أعلى باستمرار من مسبار الكفاءة
يحاكي "تأثير أولوية الدفء" في تشكيل الانطباعات البشرية

تجارب ارتباط الانطباع-السلوك

التنبؤ بجودة الاستجابة

استخدام الانحدار اللوجستي الترتيبي لتحليل تأثير الانطباع على جودة الاستجابة:

النموذج	معامل الدفء	معامل الكفاءة
Llama-3.2-1B	1.07**	0.90**
Llama-3.1-8B	0.49*	0.39*
OLMo-2-7B	0.76**	0.35*

الاكتشاف 5: انطباعات الدفء والكفاءة تتنبأ بشكل كبير بجودة الاستجابة

تحليل لغة التحفظ

استخدام الانحدار ذي الحدين السالب لتحليل تأثير الانطباع على استخدام لغة التحفظ:

النموذج	معامل الدفء	معامل الكفاءة
Llama-3.2-1B	-0.46*	-1.06**
Llama-3.1-8B	-0.14	-1.18**
OLMo-2-7B	0.40**	-0.69**

الاكتشاف 6: انطباعات الكفاءة المنخفضة تتنبأ بشكل كبير باستخدام المزيد من لغة التحفظ

تحليل العوامل المؤثرة

خصائص المحتوى والأسلوب

يكشف التحليل باستخدام LIWC و IDP عن:

خصائص الدفء العالي:

مفردات استكشافية ("wondering"، "might"، "seem")
مفردات الاختلاف ("would"، "could"، "hope")
تجسد الأدب والمسافة النفسية

خصائص الدفء المنخفض:

كلمات استفهامية ("what"، "how")
مفردات السببية ("because"، "effect")

خصائص الكفاءة العالية:

مفردات البصيرة ("rethink"، "know"، "informed")
البنية اللغوية الرسمية

خصائص الكفاءة المنخفضة:

علامات غير رسمية ("yeah"، "sure"، الرموز التعبيرية)
اللغة الشبكية ("aight"، "gonna")

تحليل انحياز اللهجة

الاكتشاف 8: يحتفظ النموذج بانطباعات أكثر سلبية تجاه نصوص AAL

ارتباط الدفء AAL مقابل WME: r = -0.32 (p ≤ 0.001)
ارتباط الكفاءة AAL مقابل WME: r = -0.52 (p ≤ 0.001)
تحقق المدونة المتوازية من الاتجاهات المماثلة

الأعمال ذات الصلة

خصائص المحفزات وسلوك نماذج اللغة الكبيرة

الخصائص البراغماتية: تأثير الأدب والتحفيز العاطفي على الأداء
الخصائص الاجتماعية اللغوية: تأثير المتغيرات اللغوية على المحاذاة الثقافية والعاطفة
دراسات اللهجة: الانحياز والاختلافات في الأداء للهجات مثل AAL في نماذج اللغة الكبيرة

الصور النمطية ونماذج اللغة الكبيرة

الانحياز في التوليد: الصور النمطية والانحيازات الاجتماعية في مخرجات النموذج
محتوى الصور النمطية: تحليل الصور النمطية في نماذج اللغة الكبيرة باستخدام أطر عمل مثل SCM
انعكاس المواقف الاجتماعية: نماذج اللغة الكبيرة كانعكاس للانحيازات الاجتماعية

الخلاصة والنقاش

الاستنتاجات الرئيسية

فعالية الطريقة: المسابير الخطية تستخرج انطباعات نماذج اللغة الكبيرة بشكل أكثر موثوقية من الاستفسار المباشر
قوة التنبؤ بالسلوك: الانطباعات الاصطناعية يمكنها التنبؤ بجودة الاستجابة وأنماط استخدام اللغة
تحديد الانحياز: اكتشاف منهجي للانحيازات ضد لهجات وجماعات معينة
تأثير تفضيل الدفء: تظهر نماذج اللغة الكبيرة تأثير أولوية الدفء المشابه للبشر

القيود

قيود النطاق: التركيز فقط على الرسائل الأولى من المحادثات باللغة الإنجليزية
حجم النموذج: محدود بالنماذج مفتوحة المصدر التي تقل عن 8 مليارات معامل
الإطار النظري: استخدام SCM فقط، لم يتم استكشاف نماذج صور نمطية أخرى
الاختلافات الثقافية: عدم الأخذ في الاعتبار الاختلافات عبر الثقافات في تشكيل الانطباعات

الاعتبارات الأخلاقية

مخاطر الإنسنة: الحاجة إلى الحذر من الإفراط في إنسنة نماذج اللغة الكبيرة
تضخيم الانحياز: قد تسبب الانحيازات المحددة ضررًا للمجموعات المهمشة
حدود التطبيق: الحاجة إلى توضيح السياقات التي يكون فيها السلوك المختلف معقولاً

الاتجاهات المستقبلية

المحادثات متعددة الجولات: دراسة تطور الانطباعات أثناء المحادثة
البحث عبر الثقافات: استكشاف تشكيل الانطباعات في خلفيات ثقافية مختلفة
استراتيجيات التخفيف: تطوير طرق تقنية لتقليل الانحيازات الضارة
التوسع النظري: تطبيق نماذج تشكيل انطباعات أكثر تعقيداً

التقييم المتعمق

المميزات

قوة الابتكار: أول تطبيق منهجي لنظرية الانطباعات النفسية على تحليل نماذج اللغة الكبيرة
صرامة الطريقة: دمج توليد البيانات الاصطناعية وتقنية المسابير والتقييم البشري
القيمة العملية العالية: توفير أدوات جديدة لفهم وتخفيف انحياز نماذج اللغة الكبيرة
التجارب الشاملة: التحقق الشامل عبر نماذج متعددة ومهام متعددة
الأهمية الاجتماعية: الكشف عن مشاكل عدالة مهمة

أوجه القصور

القيود النظرية: قد لا يتمكن SCM من التقاط جميع أبعاد الانطباع ذات الصلة
انحياز البيانات: قد لا تعكس البيانات الاصطناعية بالكامل سيناريوهات الاستخدام الحقيقية
العلاقات السببية: قد تكون العلاقة بين الانطباع والسلوك مرتبطة بمتغيرات مربكة
القابلية للتعميم: عدم معرفة قابلية النتائج للتعميم على نماذج أكبر وأنماط تدريب مختلفة

التأثير

المساهمة الأكاديمية: توفير إطار نظري وطريقة جديدة لبحث انحياز نماذج اللغة الكبيرة
القيمة العملية: يمكن استخدامها لتقييم النموذج والكشف عن الانحياز
الأهمية السياسية: توفير أساس علمي لصنع سياسات عدالة الذكاء الاصطناعي
التأثير عبر التخصصات: ربط مجالات علم النفس واللغويات الاجتماعية وسلامة الذكاء الاصطناعي

السيناريوهات القابلة للتطبيق

تقييم النموذج: الكشف عن الانحيازات المحتملة أثناء عملية تطوير النموذج
تدقيق التطبيق: تقييم أداء العدالة للنماذج المنشورة
أداة البحث: توفير إطار تحليلي للأبحاث ذات الصلة
الأغراض التعليمية: المساعدة في فهم التأثيرات الاجتماعية لأنظمة الذكاء الاصطناعي

المراجع

تستشهد هذه الورقة بأعمال مهمة من مجالات متعددة بما فيها علم النفس واللغويات الاجتماعية وعلم اللغة الحسابي، وخاصة:

نموذج محتوى الصور النمطية لـ Fiske et al. (2002)
مجموعة بيانات دراسة اللهجة لـ Blodgett et al. (2016)
الأبحاث الحديثة حول انحياز نماذج اللغة الكبيرة والعدالة

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة ذات مساهمات مهمة في الابتكار الطريقة وتصميم التجارب والأهمية الاجتماعية. من خلال تقديم مفهوم "الانطباعات الاصطناعية"، توفر منظوراً جديداً لفهم سلوك نماذج اللغة الكبيرة، وتتمتع بقيمة مهمة في دفع أبحاث عدالة الذكاء الاصطناعي.