2025-11-21T07:40:15.798625

Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions

Deas, McKeown
We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
academic

Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions

基本信息

  • 论文ID: 2510.08915
  • 标题: Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
  • 作者: Nicholas Deas, Kathleen McKeown (Columbia University)
  • 分类: cs.CL (Computational Linguistics)
  • 发表时间: 2025年10月10日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.08915

摘要

本文引入并研究了"人工印象"(artificial impressions)概念——大语言模型(LLMs)内部表示中的模式,这些模式类似于人类基于语言形成的印象和刻板印象。研究者使用线性探针对生成的提示进行训练,根据二维刻板印象内容模型(Stereotype Content Model, SCM)预测印象。通过这些探针,研究了印象与下游模型行为以及可能影响这些印象的提示特征之间的关系。研究发现,LLMs在被提示时报告印象不一致,但印象可以从其隐藏表示中更一致地线性解码。此外,提示的人工印象能够预测模型响应的质量和对冲语言的使用。

研究背景与动机

问题定义

人类在交互中会快速形成对他人的初始印象,这些印象对态度和行为产生持久影响。类似地,大语言模型在训练过程中接触了大量不同作者的文本,可能也会基于语言特征形成类似的"印象"。

研究重要性

  1. 偏见和公平性:理解LLMs如何基于语言特征形成印象对于识别和缓解偏见至关重要
  2. 模型行为预测:人工印象可能影响模型的下游表现,如响应质量和语言使用
  3. 社会语言学影响:不同方言和语言变体可能触发不同的印象,影响边缘化群体的使用体验

现有方法局限性

  • 直接提示LLMs报告印象存在不一致性和积极偏向
  • 缺乏系统性方法来量化和分析LLMs的内在印象
  • 对印象如何影响下游行为的理解有限

核心贡献

  1. 提出"人工印象"概念:首次系统性研究LLMs基于提示形成的内在印象
  2. 开发线性探针方法:使用SCM框架训练探针从隐藏状态中解码印象
  3. 建立印象-行为关联:证明人工印象能预测响应质量和对冲语言使用
  4. 识别影响因素:分析内容、风格和方言特征对LLM印象的影响
  5. 揭示方言偏见:发现LLMs对非洲裔美国人语言(AAL)持更负面印象

方法详解

任务定义

给定用户提示,目标是:

  1. 从LLM隐藏表示中提取基于SCM的印象评分
  2. 分析印象与模型行为的关系
  3. 识别影响印象形成的提示特征

刻板印象内容模型(SCM)

SCM包含两个维度:

  • 温暖度(Warmth):感知目标的意图(如友好性、战斗性)
  • 能力(Competence):目标成功执行意图的能力(如智能、权力)

数据生成流程

1. 合成数据生成

步骤1:特征词汇 → 印象规格(如"友好且细致")
步骤2:基于印象规格生成合成用户提示
步骤3:提取LLM隐藏表示
步骤4:构建探针训练数据(表示-标签对)

2. 探针训练

  • 使用多层感知机(MLP)激活作为输入特征
  • 训练独立的温暖度和能力探针
  • 采用5折交叉验证评估性能
  • 使用不同训练数据比例(100%, 10%, 1%)

技术创新点

  1. 心理学理论指导:将心理学的SCM框架应用于LLM分析
  2. 探针vs提示对比:系统比较探针方法与直接提示的可靠性
  3. 多层分析:分析不同模型层中印象信息的分布
  4. 行为预测验证:通过下游任务验证印象的有效性

实验设置

模型

  • Llama-3.1 (8B): 32层,4096隐藏维度
  • Llama-3.2 (1B): 16层,2048隐藏维度
  • OLMo-2 (7B): 32层,4096隐藏维度

数据集

合成数据

  • 基于131个温暖度特征和104个能力特征
  • 每个印象规格生成10个样本(温度=0.9)
  • 总计274,830个提示/模型

真实数据

  • LMSysChat: 从100万真实对话中采样2000个首轮提示
  • TwitterAAE: 400条推文(200条AAL,200条WME)
  • Counterparts数据集: 控制其他变量的平行语料

评价指标

  • 探针性能: F1分数、准确率
  • 自一致性: 报告印象与提供特征的匹配度
  • 人类评估: 4点Likert量表,Krippendorff's α = 0.71

实验结果

主要发现

Finding 1: 提示方法的局限性

LLM报告的印象通常偏向积极特征(温暖/能力),特别是在第一人称情境中:

  • Llama-3.1 (8B)第一人称温暖度自一致性仅51.67%
  • 第三人称情境有所改善但仍然有限(最高80.77%)

Finding 2: 人类-模型印象一致性

人类注释与原始特征的一致性:

  • 总体Cohen's κ = 0.68, Spearman r = 0.68
  • 验证了特征词汇和SCM标签的有效性

Finding 3: 探针方法的有效性

线性探针成功从隐藏表示中解码印象:

  • 温暖度探针F1分数:75-90%
  • 能力探针F1分数:75-85%
  • 性能在模型中间层达到峰值

Finding 4: 温暖度优势效应

模型在温暖度维度表现更好:

  • 温暖度探针性能consistently高于能力探针
  • 模仿人类印象形成的"温暖度优先效应"

印象-行为关联实验

响应质量预测

使用有序逻辑回归分析印象对响应质量的影响:

模型温暖度系数能力系数
Llama-3.2-1B1.07**0.90**
Llama-3.1-8B0.49*0.39*
OLMo-2-7B0.76**0.35*

Finding 5: 温暖度和能力印象显著预测响应质量

对冲语言分析

使用负二项回归分析印象对对冲语言使用的影响:

模型温暖度系数能力系数
Llama-3.2-1B-0.46*-1.06**
Llama-3.1-8B-0.14-1.18**
OLMo-2-7B0.40**-0.69**

Finding 6: 低能力印象显著预测更多对冲语言使用

影响因素分析

内容和风格特征

使用LIWC和IDP分析发现:

高温暖度特征

  • 试探性词汇("wondering", "might", "seem")
  • 差异词汇("would", "could", "hope")
  • 体现礼貌和心理距离

低温暖度特征

  • 疑问词("what", "how")
  • 因果词汇("because", "effect")

高能力特征

  • 洞察词汇("rethink", "know", "informed")
  • 正式语言结构

低能力特征

  • 非正式标记("yeah", "sure", 表情符号)
  • 网络语言("aight", "gonna")

方言偏见分析

Finding 8: 模型对AAL文本持更负面印象

  • AAL vs WME温暖度相关性:r = -0.32 (p ≤ 0.001)
  • AAL vs WME能力相关性:r = -0.52 (p ≤ 0.001)
  • 平行语料验证了类似趋势

相关工作

提示特征与LLM行为

  • 语用特征:礼貌性、情感刺激对性能的影响
  • 社会语言学特征:语言变体对文化对齐和情感的影响
  • 方言研究:AAL等方言在LLMs中的偏见和性能差异

刻板印象与LLMs

  • 生成偏见:模型输出中的刻板印象和社会偏见
  • 刻板印象内容:使用SCM等框架分析LLM刻板印象
  • 社会态度反映:LLMs作为社会偏见的反映

结论与讨论

主要结论

  1. 方法有效性:线性探针比直接提示更可靠地提取LLM印象
  2. 行为预测力:人工印象能预测响应质量和语言使用模式
  3. 偏见识别:系统性发现了对特定方言和群体的偏见
  4. 温暖度优势:LLMs表现出类似人类的温暖度优先效应

局限性

  1. 范围限制:仅关注英语对话的首轮消息
  2. 模型规模:限于8B参数以下的开源模型
  3. 理论框架:仅使用SCM,未探索其他刻板印象模型
  4. 文化差异:未考虑跨文化的印象形成差异

伦理考量

  1. 拟人化风险:需要谨慎避免过度拟人化LLMs
  2. 偏见放大:识别的偏见可能对边缘化群体造成伤害
  3. 应用边界:需要明确哪些情境下的差异化行为是合理的

未来方向

  1. 多轮对话:研究印象在对话过程中的演变
  2. 跨文化研究:探索不同文化背景下的印象形成
  3. 缓解策略:开发减少有害偏见的技术方法
  4. 理论扩展:应用更复杂的印象形成模型

深度评价

优点

  1. 创新性强:首次系统性将心理学印象理论应用于LLM分析
  2. 方法严谨:结合合成数据生成、探针技术和人类评估
  3. 实用价值高:为理解和缓解LLM偏见提供了新工具
  4. 实验充分:多模型、多任务的全面验证
  5. 社会意义:揭示了重要的公平性问题

不足

  1. 理论局限:SCM可能无法捕获所有相关的印象维度
  2. 数据偏差:合成数据可能不完全反映真实使用场景
  3. 因果关系:印象与行为的关系可能存在混淆变量
  4. 泛化性:结果在更大模型和不同训练范式下的泛化性未知

影响力

  1. 学术贡献:为LLM偏见研究提供了新的理论框架和方法
  2. 实践价值:可用于模型评估和偏见检测
  3. 政策意义:为AI公平性政策制定提供科学依据
  4. 跨领域影响:连接了心理学、社会语言学和AI安全领域

适用场景

  1. 模型评估:在模型开发过程中检测潜在偏见
  2. 应用审计:评估部署模型的公平性表现
  3. 研究工具:为相关领域研究提供分析框架
  4. 教育用途:帮助理解AI系统的社会影响

参考文献

本文参考了心理学、社会语言学和计算语言学等多个领域的重要工作,特别是:

  • Fiske et al. (2002) 的刻板印象内容模型
  • Blodgett et al. (2016) 的方言研究数据集
  • 近期关于LLM偏见和公平性的研究

总体评价:这是一篇高质量的研究论文,在方法创新、实验设计和社会意义方面都有重要贡献。通过引入"人工印象"概念,为理解LLM行为提供了新的视角,对推动AI公平性研究具有重要价值。