We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
論文ID : 2510.08915タイトル : Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions著者 : Nicholas Deas、Kathleen McKeown(コロンビア大学)分類 : cs.CL(計算言語学)発表日 : 2025年10月10日(arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.08915 本論文は「人工的印象」(artificial impressions)の概念を導入・研究しており、これは大規模言語モデル(LLM)の内部表現における、人間が言語に基づいて形成する印象およびステレオタイプに類似したパターンである。研究者は線形プローブを生成されたプロンプトに対して訓練し、二次元ステレオタイプ内容モデル(Stereotype Content Model、SCM)に基づいて印象を予測した。これらのプローブを通じて、印象と下流モデル行動、および印象に影響を与える可能性のあるプロンプト特性との関係を調査した。研究により、LLMはプロンプトされた際に報告する印象に矛盾があることが判明したが、印象はその隠れた表現からより一貫して線形にデコードできることが示された。さらに、プロンプトの人工的印象は、モデル応答の品質と緩和言語の使用を予測できることが明らかになった。
人間は相互作用の中で、他者に対する初期印象を迅速に形成し、これらの印象は態度と行動に持続的な影響を及ぼす。同様に、大規模言語モデルは訓練過程で多くの異なる著者のテキストに接触し、言語特性に基づいて類似の「印象」を形成する可能性がある。
偏見と公平性 :LLMが言語特性に基づいてどのように印象を形成するかを理解することは、偏見の識別と緩和に不可欠であるモデル行動予測 :人工的印象は応答品質や言語使用など、モデルの下流パフォーマンスに影響を与える可能性がある社会言語学的影響 :異なる方言と言語変種は異なる印象をトリガーし、周辺化されたグループのユーザー体験に影響を与える可能性があるLLMに直接プロンプトして印象を報告させることは、矛盾と肯定的バイアスを示す LLMの内在的印象を定量化・分析する体系的方法が不足している 印象が下流行動にどのように影響するかについての理解が限定的である 「人工的印象」概念の提案 :LLMがプロンプトに基づいて形成する内在的印象を初めて体系的に研究線形プローブ手法の開発 :SCMフレームワークを使用してプローブを訓練し、隠れた状態から印象をデコード印象と行動の関連性確立 :人工的印象が応答品質と緩和言語使用を予測できることを実証影響要因の識別 :内容、スタイル、方言特性がLLM印象に与える影響を分析方言バイアスの解明 :LLMがアフリカ系アメリカ人言語(AAL)に対してより否定的な印象を持つことを発見ユーザープロンプトが与えられた場合、目標は以下の通りである:
LLMの隠れた表現からSCMベースの印象スコアを抽出 印象とモデル行動の関係を分析 印象形成に影響するプロンプト特性を識別 SCMは2つの次元を含む:
温かさ(Warmth) :対象の意図の認識(例:友好性、好戦性)能力(Competence) :対象が意図を実行する能力(例:知性、権力)ステップ1:特性語彙 → 印象仕様(例:「友好的で細心」)
ステップ2:印象仕様に基づいて合成ユーザープロンプトを生成
ステップ3:LLMの隠れた表現を抽出
ステップ4:プローブ訓練データを構築(表現-ラベルペア)
多層パーセプトロン(MLP)活性化を入力特性として使用 温かさと能力の独立したプローブを訓練 5分割交差検証を採用してパフォーマンスを評価 異なる訓練データ比率(100%、10%、1%)を使用 心理学理論による指導 :心理学のSCMフレームワークをLLM分析に適用プローブ対プロンプト比較 :プローブ手法と直接プロンプトの信頼性を体系的に比較多層分析 :異なるモデル層における印象情報の分布を分析行動予測検証 :下流タスクを通じて印象の有効性を検証Llama-3.1 (8B) :32層、4096隠れ次元Llama-3.2 (1B) :16層、2048隠れ次元OLMo-2 (7B) :32層、4096隠れ次元131個の温かさ特性と104個の能力特性に基づく 各印象仕様につき10個のサンプルを生成(温度=0.9) 合計274,830個のプロンプト/モデル LMSysChat :100万の実際の会話から2000個の最初のラウンドプロンプトをサンプリングTwitterAAE :400ツイート(200 AAL、200 WME)Counterparts データセット :他の変数を制御した並列コーパスプローブパフォーマンス :F1スコア、精度自己一貫性 :報告された印象と提供された特性の一致度人間による評価 :4点リッカート尺度、Krippendorff's α = 0.71LLMが報告する印象は通常、肯定的な特性(温かさ/能力)に偏り、特に一人称の状況では:
Llama-3.1 (8B)一人称温かさ自己一貫性はわずか51.67% 三人称の状況は改善されたが依然限定的(最高80.77%) 人間注釈者と元の特性の一貫性:
全体Cohen's κ = 0.68、Spearman r = 0.68 特性語彙とSCMラベルの有効性を検証 線形プローブは隠れた表現から印象を正常にデコード:
温かさプローブF1スコア:75-90% 能力プローブF1スコア:75-85% パフォーマンスはモデルの中間層で最高に達する モデルは温かさ次元でより良いパフォーマンスを示す:
温かさプローブのパフォーマンスは一貫して能力プローブを上回る 人間の印象形成の「温かさ優先効果」を模倣 順序ロジスティック回帰を使用して、印象が応答品質に与える影響を分析:
モデル 温かさ係数 能力係数 Llama-3.2-1B 1.07** 0.90** Llama-3.1-8B 0.49* 0.39* OLMo-2-7B 0.76** 0.35*
発見5 :温かさと能力の印象は応答品質を有意に予測する
負の二項回帰を使用して、印象が緩和言語使用に与える影響を分析:
モデル 温かさ係数 能力係数 Llama-3.2-1B -0.46* -1.06** Llama-3.1-8B -0.14 -1.18** OLMo-2-7B 0.40** -0.69**
発見6 :低い能力印象は有意に多くの緩和言語使用を予測する
LIWCとIDPを使用した分析により以下が判明:
高温かさ特性 :
試探的語彙(「wondering」、「might」、「seem」) 差異語彙(「would」、「could」、「hope」) 礼儀正しさと心理的距離を体現 低温かさ特性 :
疑問詞(「what」、「how」) 因果語彙(「because」、「effect」) 高能力特性 :
洞察語彙(「rethink」、「know」、「informed」) 正式な言語構造 低能力特性 :
非正式マーカー(「yeah」、「sure」、絵文字) ネット言語(「aight」、「gonna」) 発見8 :モデルはAALテキストに対してより否定的な印象を持つ
AAL対WME温かさ相関:r = -0.32 (p ≤ 0.001) AAL対WME能力相関:r = -0.52 (p ≤ 0.001) 並列コーパスが類似の傾向を検証 語用論的特性 :礼儀正しさ、感情的刺激がパフォーマンスに与える影響社会言語学的特性 :言語変種が文化的配置と感情に与える影響方言研究 :LLMにおけるAALなどの方言のバイアスとパフォーマンス差生成バイアス :モデル出力におけるステレオタイプと社会的偏見ステレオタイプ内容 :SCMなどのフレームワークを使用したLLMステレオタイプ分析社会的態度の反映 :社会的偏見の反映としてのLLM手法の有効性 :線形プローブは直接プロンプトよりもLLM印象をより信頼性高く抽出する行動予測力 :人工的印象は応答品質と言語使用パターンを予測できるバイアス識別 :特定の方言とグループに対する偏見を体系的に発見温かさ優位性 :LLMは人間に類似した温かさ優先効果を示す範囲の制限 :英語会話の最初のラウンドメッセージのみに焦点モデルスケール :8Bパラメータ以下のオープンソースモデルに限定理論的フレームワーク :SCMのみを使用し、他のステレオタイプモデルを探索していない文化的差異 :ステレオタイプ形成の文化間差異を考慮していない擬人化のリスク :LLMの過度な擬人化を避ける必要があるバイアスの増幅 :識別されたバイアスは周辺化されたグループに害をもたらす可能性がある応用の境界 :どのような状況での差別的行動が合理的かを明確にする必要がある多ラウンド対話 :対話過程における印象の進化を研究文化間研究 :異なる文化背景における印象形成を探索緩和戦略 :有害なバイアスを減らすための技術的方法を開発理論的拡張 :より複雑な印象形成モデルを適用革新性が高い :心理学的印象理論をLLM分析に初めて体系的に適用方法が厳密 :合成データ生成、プローブ技術、人間による評価を組み合わせ実用価値が高い :LLMバイアスの理解と緩和のための新しいツールを提供実験が充分 :複数モデル、複数タスクの包括的検証社会的意義 :重要な公平性問題を明らかに理論的限界 :SCMはすべての関連する印象次元を捉えられない可能性があるデータバイアス :合成データは実際の使用シナリオを完全に反映しない可能性がある因果関係 :印象と行動の関係に交絡変数が存在する可能性がある汎化性 :より大規模なモデルと異なる訓練パラダイムでの結果の汎化性は不明学術的貢献 :LLMバイアス研究に新しい理論的フレームワークと方法を提供実践的価値 :モデル評価とバイアス検出に使用可能政策的意義 :AI公平性政策立案に科学的根拠を提供学際的影響 :心理学、社会言語学、AI安全分野を結合モデル評価 :モデル開発プロセスで潜在的バイアスを検出応用監査 :展開されたモデルの公平性パフォーマンスを評価研究ツール :関連分野の研究に分析フレームワークを提供教育用途 :AIシステムの社会的影響を理解するのに役立つ本論文は心理学、社会言語学、計算言語学など複数の分野の重要な研究を参照しており、特に以下が含まれる:
Fiske et al. (2002)のステレオタイプ内容モデル Blodgett et al. (2016)の方言研究データセット LLMバイアスと公平性に関する最近の研究 総合評価 :これは方法的革新性、実験設計、社会的意義の点で重要な貢献を持つ高品質な研究論文である。「人工的印象」概念の導入により、LLM行動を理解するための新しい視点を提供し、AI公平性研究の推進に重要な価値を持つ。