We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
论文ID : 2510.08915标题 : Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions作者 : Nicholas Deas, Kathleen McKeown (Columbia University)分类 : cs.CL (Computational Linguistics)发表时间 : 2025年10月10日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.08915 本文引入并研究了"人工印象"(artificial impressions)概念——大语言模型(LLMs)内部表示中的模式,这些模式类似于人类基于语言形成的印象和刻板印象。研究者使用线性探针对生成的提示进行训练,根据二维刻板印象内容模型(Stereotype Content Model, SCM)预测印象。通过这些探针,研究了印象与下游模型行为以及可能影响这些印象的提示特征之间的关系。研究发现,LLMs在被提示时报告印象不一致,但印象可以从其隐藏表示中更一致地线性解码。此外,提示的人工印象能够预测模型响应的质量和对冲语言的使用。
人类在交互中会快速形成对他人的初始印象,这些印象对态度和行为产生持久影响。类似地,大语言模型在训练过程中接触了大量不同作者的文本,可能也会基于语言特征形成类似的"印象"。
偏见和公平性 :理解LLMs如何基于语言特征形成印象对于识别和缓解偏见至关重要模型行为预测 :人工印象可能影响模型的下游表现,如响应质量和语言使用社会语言学影响 :不同方言和语言变体可能触发不同的印象,影响边缘化群体的使用体验直接提示LLMs报告印象存在不一致性和积极偏向 缺乏系统性方法来量化和分析LLMs的内在印象 对印象如何影响下游行为的理解有限 提出"人工印象"概念 :首次系统性研究LLMs基于提示形成的内在印象开发线性探针方法 :使用SCM框架训练探针从隐藏状态中解码印象建立印象-行为关联 :证明人工印象能预测响应质量和对冲语言使用识别影响因素 :分析内容、风格和方言特征对LLM印象的影响揭示方言偏见 :发现LLMs对非洲裔美国人语言(AAL)持更负面印象给定用户提示,目标是:
从LLM隐藏表示中提取基于SCM的印象评分 分析印象与模型行为的关系 识别影响印象形成的提示特征 SCM包含两个维度:
温暖度(Warmth) :感知目标的意图(如友好性、战斗性)能力(Competence) :目标成功执行意图的能力(如智能、权力)步骤1:特征词汇 → 印象规格(如"友好且细致")
步骤2:基于印象规格生成合成用户提示
步骤3:提取LLM隐藏表示
步骤4:构建探针训练数据(表示-标签对)
使用多层感知机(MLP)激活作为输入特征 训练独立的温暖度和能力探针 采用5折交叉验证评估性能 使用不同训练数据比例(100%, 10%, 1%) 心理学理论指导 :将心理学的SCM框架应用于LLM分析探针vs提示对比 :系统比较探针方法与直接提示的可靠性多层分析 :分析不同模型层中印象信息的分布行为预测验证 :通过下游任务验证印象的有效性Llama-3.1 (8B) : 32层,4096隐藏维度Llama-3.2 (1B) : 16层,2048隐藏维度OLMo-2 (7B) : 32层,4096隐藏维度基于131个温暖度特征和104个能力特征 每个印象规格生成10个样本(温度=0.9) 总计274,830个提示/模型 LMSysChat : 从100万真实对话中采样2000个首轮提示TwitterAAE : 400条推文(200条AAL,200条WME)Counterparts数据集 : 控制其他变量的平行语料探针性能 : F1分数、准确率自一致性 : 报告印象与提供特征的匹配度人类评估 : 4点Likert量表,Krippendorff's α = 0.71LLM报告的印象通常偏向积极特征(温暖/能力),特别是在第一人称情境中:
Llama-3.1 (8B)第一人称温暖度自一致性仅51.67% 第三人称情境有所改善但仍然有限(最高80.77%) 人类注释与原始特征的一致性:
总体Cohen's κ = 0.68, Spearman r = 0.68 验证了特征词汇和SCM标签的有效性 线性探针成功从隐藏表示中解码印象:
温暖度探针F1分数:75-90% 能力探针F1分数:75-85% 性能在模型中间层达到峰值 模型在温暖度维度表现更好:
温暖度探针性能consistently高于能力探针 模仿人类印象形成的"温暖度优先效应" 使用有序逻辑回归分析印象对响应质量的影响:
模型 温暖度系数 能力系数 Llama-3.2-1B 1.07** 0.90** Llama-3.1-8B 0.49* 0.39* OLMo-2-7B 0.76** 0.35*
Finding 5 : 温暖度和能力印象显著预测响应质量
使用负二项回归分析印象对对冲语言使用的影响:
模型 温暖度系数 能力系数 Llama-3.2-1B -0.46* -1.06** Llama-3.1-8B -0.14 -1.18** OLMo-2-7B 0.40** -0.69**
Finding 6 : 低能力印象显著预测更多对冲语言使用
使用LIWC和IDP分析发现:
高温暖度特征 :
试探性词汇("wondering", "might", "seem") 差异词汇("would", "could", "hope") 体现礼貌和心理距离 低温暖度特征 :
疑问词("what", "how") 因果词汇("because", "effect") 高能力特征 :
洞察词汇("rethink", "know", "informed") 正式语言结构 低能力特征 :
非正式标记("yeah", "sure", 表情符号) 网络语言("aight", "gonna") Finding 8 : 模型对AAL文本持更负面印象
AAL vs WME温暖度相关性:r = -0.32 (p ≤ 0.001) AAL vs WME能力相关性:r = -0.52 (p ≤ 0.001) 平行语料验证了类似趋势 语用特征 :礼貌性、情感刺激对性能的影响社会语言学特征 :语言变体对文化对齐和情感的影响方言研究 :AAL等方言在LLMs中的偏见和性能差异生成偏见 :模型输出中的刻板印象和社会偏见刻板印象内容 :使用SCM等框架分析LLM刻板印象社会态度反映 :LLMs作为社会偏见的反映方法有效性 :线性探针比直接提示更可靠地提取LLM印象行为预测力 :人工印象能预测响应质量和语言使用模式偏见识别 :系统性发现了对特定方言和群体的偏见温暖度优势 :LLMs表现出类似人类的温暖度优先效应范围限制 :仅关注英语对话的首轮消息模型规模 :限于8B参数以下的开源模型理论框架 :仅使用SCM,未探索其他刻板印象模型文化差异 :未考虑跨文化的印象形成差异拟人化风险 :需要谨慎避免过度拟人化LLMs偏见放大 :识别的偏见可能对边缘化群体造成伤害应用边界 :需要明确哪些情境下的差异化行为是合理的多轮对话 :研究印象在对话过程中的演变跨文化研究 :探索不同文化背景下的印象形成缓解策略 :开发减少有害偏见的技术方法理论扩展 :应用更复杂的印象形成模型创新性强 :首次系统性将心理学印象理论应用于LLM分析方法严谨 :结合合成数据生成、探针技术和人类评估实用价值高 :为理解和缓解LLM偏见提供了新工具实验充分 :多模型、多任务的全面验证社会意义 :揭示了重要的公平性问题理论局限 :SCM可能无法捕获所有相关的印象维度数据偏差 :合成数据可能不完全反映真实使用场景因果关系 :印象与行为的关系可能存在混淆变量泛化性 :结果在更大模型和不同训练范式下的泛化性未知学术贡献 :为LLM偏见研究提供了新的理论框架和方法实践价值 :可用于模型评估和偏见检测政策意义 :为AI公平性政策制定提供科学依据跨领域影响 :连接了心理学、社会语言学和AI安全领域模型评估 :在模型开发过程中检测潜在偏见应用审计 :评估部署模型的公平性表现研究工具 :为相关领域研究提供分析框架教育用途 :帮助理解AI系统的社会影响本文参考了心理学、社会语言学和计算语言学等多个领域的重要工作,特别是:
Fiske et al. (2002) 的刻板印象内容模型 Blodgett et al. (2016) 的方言研究数据集 近期关于LLM偏见和公平性的研究 总体评价 :这是一篇高质量的研究论文,在方法创新、实验设计和社会意义方面都有重要贡献。通过引入"人工印象"概念,为理解LLM行为提供了新的视角,对推动AI公平性研究具有重要价值。