2025-11-21T07:40:15.798625

Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions

Deas, McKeown
We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.
academic

人工的印象:特性印象のレンズを通じた大規模言語モデルの行動評価

基本情報

  • 論文ID: 2510.08915
  • タイトル: Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
  • 著者: Nicholas Deas、Kathleen McKeown(コロンビア大学)
  • 分類: cs.CL(計算言語学)
  • 発表日: 2025年10月10日(arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.08915

要旨

本論文は「人工的印象」(artificial impressions)の概念を導入・研究しており、これは大規模言語モデル(LLM)の内部表現における、人間が言語に基づいて形成する印象およびステレオタイプに類似したパターンである。研究者は線形プローブを生成されたプロンプトに対して訓練し、二次元ステレオタイプ内容モデル(Stereotype Content Model、SCM)に基づいて印象を予測した。これらのプローブを通じて、印象と下流モデル行動、および印象に影響を与える可能性のあるプロンプト特性との関係を調査した。研究により、LLMはプロンプトされた際に報告する印象に矛盾があることが判明したが、印象はその隠れた表現からより一貫して線形にデコードできることが示された。さらに、プロンプトの人工的印象は、モデル応答の品質と緩和言語の使用を予測できることが明らかになった。

研究背景と動機

問題定義

人間は相互作用の中で、他者に対する初期印象を迅速に形成し、これらの印象は態度と行動に持続的な影響を及ぼす。同様に、大規模言語モデルは訓練過程で多くの異なる著者のテキストに接触し、言語特性に基づいて類似の「印象」を形成する可能性がある。

研究の重要性

  1. 偏見と公平性:LLMが言語特性に基づいてどのように印象を形成するかを理解することは、偏見の識別と緩和に不可欠である
  2. モデル行動予測:人工的印象は応答品質や言語使用など、モデルの下流パフォーマンスに影響を与える可能性がある
  3. 社会言語学的影響:異なる方言と言語変種は異なる印象をトリガーし、周辺化されたグループのユーザー体験に影響を与える可能性がある

既存手法の限界

  • LLMに直接プロンプトして印象を報告させることは、矛盾と肯定的バイアスを示す
  • LLMの内在的印象を定量化・分析する体系的方法が不足している
  • 印象が下流行動にどのように影響するかについての理解が限定的である

核心的貢献

  1. 「人工的印象」概念の提案:LLMがプロンプトに基づいて形成する内在的印象を初めて体系的に研究
  2. 線形プローブ手法の開発:SCMフレームワークを使用してプローブを訓練し、隠れた状態から印象をデコード
  3. 印象と行動の関連性確立:人工的印象が応答品質と緩和言語使用を予測できることを実証
  4. 影響要因の識別:内容、スタイル、方言特性がLLM印象に与える影響を分析
  5. 方言バイアスの解明:LLMがアフリカ系アメリカ人言語(AAL)に対してより否定的な印象を持つことを発見

方法論の詳細

タスク定義

ユーザープロンプトが与えられた場合、目標は以下の通りである:

  1. LLMの隠れた表現からSCMベースの印象スコアを抽出
  2. 印象とモデル行動の関係を分析
  3. 印象形成に影響するプロンプト特性を識別

ステレオタイプ内容モデル(SCM)

SCMは2つの次元を含む:

  • 温かさ(Warmth):対象の意図の認識(例:友好性、好戦性)
  • 能力(Competence):対象が意図を実行する能力(例:知性、権力)

データ生成フロー

1. 合成データ生成

ステップ1:特性語彙 → 印象仕様(例:「友好的で細心」)
ステップ2:印象仕様に基づいて合成ユーザープロンプトを生成
ステップ3:LLMの隠れた表現を抽出
ステップ4:プローブ訓練データを構築(表現-ラベルペア)

2. プローブ訓練

  • 多層パーセプトロン(MLP)活性化を入力特性として使用
  • 温かさと能力の独立したプローブを訓練
  • 5分割交差検証を採用してパフォーマンスを評価
  • 異なる訓練データ比率(100%、10%、1%)を使用

技術的革新点

  1. 心理学理論による指導:心理学のSCMフレームワークをLLM分析に適用
  2. プローブ対プロンプト比較:プローブ手法と直接プロンプトの信頼性を体系的に比較
  3. 多層分析:異なるモデル層における印象情報の分布を分析
  4. 行動予測検証:下流タスクを通じて印象の有効性を検証

実験設定

モデル

  • Llama-3.1 (8B):32層、4096隠れ次元
  • Llama-3.2 (1B):16層、2048隠れ次元
  • OLMo-2 (7B):32層、4096隠れ次元

データセット

合成データ

  • 131個の温かさ特性と104個の能力特性に基づく
  • 各印象仕様につき10個のサンプルを生成(温度=0.9)
  • 合計274,830個のプロンプト/モデル

実データ

  • LMSysChat:100万の実際の会話から2000個の最初のラウンドプロンプトをサンプリング
  • TwitterAAE:400ツイート(200 AAL、200 WME)
  • Counterparts データセット:他の変数を制御した並列コーパス

評価指標

  • プローブパフォーマンス:F1スコア、精度
  • 自己一貫性:報告された印象と提供された特性の一致度
  • 人間による評価:4点リッカート尺度、Krippendorff's α = 0.71

実験結果

主要な発見

発見1:プロンプト手法の限界

LLMが報告する印象は通常、肯定的な特性(温かさ/能力)に偏り、特に一人称の状況では:

  • Llama-3.1 (8B)一人称温かさ自己一貫性はわずか51.67%
  • 三人称の状況は改善されたが依然限定的(最高80.77%)

発見2:人間-モデル印象一貫性

人間注釈者と元の特性の一貫性:

  • 全体Cohen's κ = 0.68、Spearman r = 0.68
  • 特性語彙とSCMラベルの有効性を検証

発見3:プローブ手法の有効性

線形プローブは隠れた表現から印象を正常にデコード:

  • 温かさプローブF1スコア:75-90%
  • 能力プローブF1スコア:75-85%
  • パフォーマンスはモデルの中間層で最高に達する

発見4:温かさ優位効果

モデルは温かさ次元でより良いパフォーマンスを示す:

  • 温かさプローブのパフォーマンスは一貫して能力プローブを上回る
  • 人間の印象形成の「温かさ優先効果」を模倣

印象-行動関連実験

応答品質予測

順序ロジスティック回帰を使用して、印象が応答品質に与える影響を分析:

モデル温かさ係数能力係数
Llama-3.2-1B1.07**0.90**
Llama-3.1-8B0.49*0.39*
OLMo-2-7B0.76**0.35*

発見5:温かさと能力の印象は応答品質を有意に予測する

緩和言語分析

負の二項回帰を使用して、印象が緩和言語使用に与える影響を分析:

モデル温かさ係数能力係数
Llama-3.2-1B-0.46*-1.06**
Llama-3.1-8B-0.14-1.18**
OLMo-2-7B0.40**-0.69**

発見6:低い能力印象は有意に多くの緩和言語使用を予測する

影響要因分析

内容とスタイル特性

LIWCとIDPを使用した分析により以下が判明:

高温かさ特性

  • 試探的語彙(「wondering」、「might」、「seem」)
  • 差異語彙(「would」、「could」、「hope」)
  • 礼儀正しさと心理的距離を体現

低温かさ特性

  • 疑問詞(「what」、「how」)
  • 因果語彙(「because」、「effect」)

高能力特性

  • 洞察語彙(「rethink」、「know」、「informed」)
  • 正式な言語構造

低能力特性

  • 非正式マーカー(「yeah」、「sure」、絵文字)
  • ネット言語(「aight」、「gonna」)

方言バイアス分析

発見8:モデルはAALテキストに対してより否定的な印象を持つ

  • AAL対WME温かさ相関:r = -0.32 (p ≤ 0.001)
  • AAL対WME能力相関:r = -0.52 (p ≤ 0.001)
  • 並列コーパスが類似の傾向を検証

関連研究

プロンプト特性とLLM行動

  • 語用論的特性:礼儀正しさ、感情的刺激がパフォーマンスに与える影響
  • 社会言語学的特性:言語変種が文化的配置と感情に与える影響
  • 方言研究:LLMにおけるAALなどの方言のバイアスとパフォーマンス差

ステレオタイプとLLM

  • 生成バイアス:モデル出力におけるステレオタイプと社会的偏見
  • ステレオタイプ内容:SCMなどのフレームワークを使用したLLMステレオタイプ分析
  • 社会的態度の反映:社会的偏見の反映としてのLLM

結論と考察

主要な結論

  1. 手法の有効性:線形プローブは直接プロンプトよりもLLM印象をより信頼性高く抽出する
  2. 行動予測力:人工的印象は応答品質と言語使用パターンを予測できる
  3. バイアス識別:特定の方言とグループに対する偏見を体系的に発見
  4. 温かさ優位性:LLMは人間に類似した温かさ優先効果を示す

限界

  1. 範囲の制限:英語会話の最初のラウンドメッセージのみに焦点
  2. モデルスケール:8Bパラメータ以下のオープンソースモデルに限定
  3. 理論的フレームワーク:SCMのみを使用し、他のステレオタイプモデルを探索していない
  4. 文化的差異:ステレオタイプ形成の文化間差異を考慮していない

倫理的考慮

  1. 擬人化のリスク:LLMの過度な擬人化を避ける必要がある
  2. バイアスの増幅:識別されたバイアスは周辺化されたグループに害をもたらす可能性がある
  3. 応用の境界:どのような状況での差別的行動が合理的かを明確にする必要がある

今後の方向性

  1. 多ラウンド対話:対話過程における印象の進化を研究
  2. 文化間研究:異なる文化背景における印象形成を探索
  3. 緩和戦略:有害なバイアスを減らすための技術的方法を開発
  4. 理論的拡張:より複雑な印象形成モデルを適用

深層的評価

強み

  1. 革新性が高い:心理学的印象理論をLLM分析に初めて体系的に適用
  2. 方法が厳密:合成データ生成、プローブ技術、人間による評価を組み合わせ
  3. 実用価値が高い:LLMバイアスの理解と緩和のための新しいツールを提供
  4. 実験が充分:複数モデル、複数タスクの包括的検証
  5. 社会的意義:重要な公平性問題を明らかに

不足点

  1. 理論的限界:SCMはすべての関連する印象次元を捉えられない可能性がある
  2. データバイアス:合成データは実際の使用シナリオを完全に反映しない可能性がある
  3. 因果関係:印象と行動の関係に交絡変数が存在する可能性がある
  4. 汎化性:より大規模なモデルと異なる訓練パラダイムでの結果の汎化性は不明

影響力

  1. 学術的貢献:LLMバイアス研究に新しい理論的フレームワークと方法を提供
  2. 実践的価値:モデル評価とバイアス検出に使用可能
  3. 政策的意義:AI公平性政策立案に科学的根拠を提供
  4. 学際的影響:心理学、社会言語学、AI安全分野を結合

適用シーン

  1. モデル評価:モデル開発プロセスで潜在的バイアスを検出
  2. 応用監査:展開されたモデルの公平性パフォーマンスを評価
  3. 研究ツール:関連分野の研究に分析フレームワークを提供
  4. 教育用途:AIシステムの社会的影響を理解するのに役立つ

参考文献

本論文は心理学、社会言語学、計算言語学など複数の分野の重要な研究を参照しており、特に以下が含まれる:

  • Fiske et al. (2002)のステレオタイプ内容モデル
  • Blodgett et al. (2016)の方言研究データセット
  • LLMバイアスと公平性に関する最近の研究

総合評価:これは方法的革新性、実験設計、社会的意義の点で重要な貢献を持つ高品質な研究論文である。「人工的印象」概念の導入により、LLM行動を理解するための新しい視点を提供し、AI公平性研究の推進に重要な価値を持つ。