Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
Deas, McKeown
We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
academic
الانطباعات الاصطناعية: تقييم سلوك نماذج اللغة الكبيرة من خلال عدسة الانطباعات الشخصية
تقدم هذه الورقة وتدرس مفهوم "الانطباعات الاصطناعية" (artificial impressions) - الأنماط في التمثيلات الداخلية لنماذج اللغة الكبيرة (LLMs) التي تشبه الانطباعات والصور النمطية التي يكونها الإنسان بناءً على اللغة. استخدم الباحثون مسابير خطية مدربة على المحفزات المولدة للتنبؤ بالانطباعات وفقاً لنموذج محتوى الصور النمطية ثنائي الأبعاد (Stereotype Content Model, SCM). من خلال هذه المسابير، تمت دراسة العلاقة بين الانطباعات والسلوك النموذجي النهائي وخصائص المحفزات التي قد تؤثر على هذه الانطباعات. أظهرت الدراسة أن نماذج اللغة الكبيرة تبلغ عن عدم اتساق في الانطباعات عند الاستفسار المباشر، لكن الانطباعات يمكن فك تشفيرها بشكل أكثر اتساقاً من تمثيلاتها المخفية خطياً. علاوة على ذلك، يمكن للانطباعات الاصطناعية للمحفزات التنبؤ بجودة استجابة النموذج واستخدام لغة التحفظ.
يكون البشر انطباعات أولية سريعة عن الآخرين أثناء التفاعل، وتؤثر هذه الانطباعات بشكل دائم على المواقف والسلوك. وبالمثل، تتعرض نماذج اللغة الكبيرة أثناء التدريب لكميات ضخمة من النصوص من مؤلفين مختلفين، وقد تكون قادرة أيضاً على تكوين "انطباعات" مشابهة بناءً على الخصائص اللغوية.
الخطوة 1: مفردات الخصائص → مواصفات الانطباع (مثل "ودود وتفصيلي")
الخطوة 2: توليد محفزات المستخدم الاصطناعية بناءً على مواصفات الانطباع
الخطوة 3: استخراج التمثيلات المخفية لنموذج اللغة الكبيرة
الخطوة 4: بناء بيانات تدريب المسبار (أزواج التمثيل-التسمية)
تستشهد هذه الورقة بأعمال مهمة من مجالات متعددة بما فيها علم النفس واللغويات الاجتماعية وعلم اللغة الحسابي، وخاصة:
نموذج محتوى الصور النمطية لـ Fiske et al. (2002)
مجموعة بيانات دراسة اللهجة لـ Blodgett et al. (2016)
الأبحاث الحديثة حول انحياز نماذج اللغة الكبيرة والعدالة
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة ذات مساهمات مهمة في الابتكار الطريقة وتصميم التجارب والأهمية الاجتماعية. من خلال تقديم مفهوم "الانطباعات الاصطناعية"، توفر منظوراً جديداً لفهم سلوك نماذج اللغة الكبيرة، وتتمتع بقيمة مهمة في دفع أبحاث عدالة الذكاء الاصطناعي.