Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.
academic- 論文ID: 2508.21164
- タイトル: Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations
- 著者: Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush
- 分類: cs.CL, cs.AI
- 発表日時: 2025年10月9日 (arXiv v3)
- 論文リンク: https://arxiv.org/abs/2508.21164v3
本研究は、3つの主流大規模言語モデル(ChatGPT、Gemini、Claude)における自己評価および相互評価の体系的バイアスを調査しています。研究では、各モデルが4つのラベル条件下(ラベルなし、真正ラベル、2つの虚偽ラベルシナリオ)で各モデルが生成したブログ記事を評価する統制実験を設計しました。評価は全体的な選好投票と3つの次元(一貫性、情報性、簡潔性)における細粒度の品質スコアを採用し、すべてのスコアは直接比較のためにパーセンテージに正規化されています。研究は、モデルの判断に顕著な非対称性が存在することを発見しました。「Claude」ラベルは実際の著者が誰であるかに関わらずスコアを上昇させ、一方「Gemini」ラベルは体系的にスコアを低下させます。虚偽ラベルは頻繁に選好順序を逆転させ、投票結果で最大50パーセンテージポイント、品質スコアで最大12パーセンテージポイントの変化を生じさせます。
大規模言語モデルがテキスト品質評価ツールとしてますます多く配置されるにつれて、その判断の有効性は依然として十分に探索されていません。本研究は主に以下の問題に対処しています:
- LLM評価バイアス問題:LLMは出力を公正に評価できるか、それとも知覚される著者性によって影響を受けるか?
- ラベル誘導バイアス:モデル名は実際の品質とは無関係に評価結果に影響するか?
- 自己選好バイアス:モデルは自身の出力に対してより高いスコアを与える傾向があるか?
この問題の重要性は以下に体現されています:
- テキスト評価の自動化におけるLLM-as-judge パラダイムの増加する普及
- 評価バイアスはベンチマーク結果の歪みをもたらす可能性
- モデル比較と選択の公平性に影響
- AI システムの信頼性と透明性に対する課題
既存研究は主に単一タイプのバイアスまたは限定的なモデル数に焦点を当てており、以下が不足しています:
- 複数モデル、複数条件の統制的比較分析
- 選好と品質次元にわたるラベル効果を比較する定量的証拠
- 体系的なバイアス軽減提案
- 統制的多条件分析:自己および相互モデル評価バイアスの統制的で多条件の分析フレームワークを提供
- 定量的バイアス証拠:選好と品質次元にわたるラベル効果を比較する定量的証拠を提供
- バイアス軽減提案:ブラインド評価または複数モデル評価プロトコルを通じてバイアスを軽減するための提案を提供
- 二重スコアリング方法:パーセンテージ選好スコアと点数ベースの品質スコアという2つの相補的方法を採用
- ラベル非対称性の発見:「Claude」ラベルは一貫してスコアを上昇させ、「Gemini」ラベルは体系的にスコアを低下させることを発見
本研究は3段階の統制的複数モデル、複数条件設計を採用しています:
- モデル:ChatGPT-4o、Gemini 2.5 Flash、Claude Sonnet 4
- タスク:固定プロンプトテンプレートを使用して約200語のブログ記事を生成
- プロンプトテンプレート:「You are a professional blog writer. Write a concise blog post (around 200 words) for the title ''. The style should be engaging and suitable for an online audience. Return only the blog content, no extra text.」
- データ:10の異なるトピックタイトル、各モデルが各タイトルについて1つのブログを生成、合計30のブログ
4つのラベル条件:
- ラベルなし:著者帰属なし
- 真正ラベル:正しい帰属
- 虚偽ラベルシナリオ1:ChatGPTはGeminiとしてラベル、GeminiはClaudeとしてラベル、ClaudeはChatGPTとしてラベル
- 虚偽ラベルシナリオ2:ChatGPTはClaudeとしてラベル、GeminiはChatGPTとしてラベル、ClaudeはGeminiとしてラベル
- パーセンテージ選好スコア:各出力が「最良」として選択される頻度を測定
- 点数ベースの品質スコア:一貫性、情報性、簡潔性の3つの次元で0~10点のスコア、パーセンテージに変換
- 条件内分析:条件内での比較
- 条件間分析:条件間での変化を追跡
- 指標特定分析:各基準に対するバイアスの影響を検査
- 規模:30のブログ記事(3つのモデル × 10のタイトル)
- トピック:多様なトピックをカバー、複雑性は類似
- 長さ:約200語、オンライン視聴者に適切
- 全体的選好投票:「最良選択」頻度のパーセンテージ形式
- 品質次元スコア:
- 一貫性(Coherence):記事の論理構造と流暢性
- 情報性(Informativeness):コンテンツの情報価値と深さ
- 簡潔性(Conciseness):表現の効率性と洗練度
- ラベルなし条件をベースライン
- 真正ラベル条件
- 2つの虚偽ラベルシナリオ
- 3つのモデルすべてが軽微な自己選好を示す
- ChatGPTが自身の出力を選択する頻度:50%
- Gemini:45.3%
- Claude:46.7%
- Geminiは相互モデル評価で一貫して過小評価(7%-12%)
- Claude自己選好の強化:自己評価スコアが46.7%から60%に上昇
- Gemini深刻な自己貶低:
- Claudeからの評価:0%
- ChatGPTからの評価:1.34%
- 自己評価:11.32%
- ChatGPT適度な自己選好:44.66%、ただしGeminiに厳しい罰
シナリオ1の結果:
- Claudeとしてラベル付けされたコンテンツに対するGeminiの選好が11.32%から51.35%に上昇
- ChatGPTとしてラベル付けされたコンテンツに対するClaudeの選好が54.15%に達する
- 虚偽の「自身」ラベルの下で情報性スコアが8~10パーセンテージポイント増加
シナリオ2の結果:
- 「Claude」ラベルが最高の単一項目スコアを生成:GeminiがChatGPT-as-Claudeに60.7%のスコアを付与
- 「Gemini」ラベルが再びスコアを低下:Claude-as-Geminiが真正ラベルの下の60%から18.48%に低下
- 選好投票の変化:最大50パーセンテージポイントの変動
- 品質スコアの変化:最大12パーセンテージポイントの変化
- 最も敏感な次元:情報性スコアがラベルに最も敏感
- 最も安定した次元:簡潔性スコアは相対的に安定
- Claude:真正ラベルの下で最強の自己選好(+13点)、Geminiとして誤ってラベル付けされた場合に厳しく罰する(-28点)
- Gemini:真正ラベルの下で厳しい自己評価、しかし「Claude」ラベルコンテンツに大幅な加点を与える(最大+21点)
- ChatGPT:条件間でGeminiラベルコンテンツに一貫して罰を与える
- Panicksseryら:LLMが自身の出力を選好し、測定可能な自己認識能力を持つことを証明
- Wataokaら:LLM-as-judgeにおける自己選好バイアスを研究
- Wangら:応答位置に基づく体系的バイアスが順序を操作できることを証明
- Chenら:自己選好が真の優越性を反映するか信号バイアスを反映するかを調査
- 暗黙的および明示的評価ダイナミクスの不一致
- 深層学習システムにおける構造的バイアス問題
- ラベル身元はコンテンツ品質より優先:知覚されるモデル身元は実際のコンテンツ品質とは無関係に判断を大きく歪める可能性
- 非対称ラベル効果:「Claude」ラベルは一貫してスコアを上昇させ、「Gemini」ラベルは体系的にスコアを低下させる
- 評価レベルの差異:高レベルの「最良選択」判断は詳細な品質評価よりもバイアスの影響を受けやすい
- 次元感度の差異:情報性はラベルの影響を最も受けやすい次元、簡潔性は相対的に安定
- モデル範囲の制限:3つのモデルのみを研究、一般化可能性は検証待ち
- タスク領域の単一性:ブログ執筆タスクのみを使用
- 評価次元の限定:3つの品質次元のみを考慮
- バイアス源の不明:バイアスの訓練データまたはアライメントプログラム源を深く探索していない
- ブラインド評価プロトコル:モデル名に基づくアンカリングを防ぐためにモデル身元を隠す
- 複数モデルコンセンサス:複数モデルまたはコンセンサスベースの評価システムを使用
- 評価タイプの分離:選好判断と詳細な品質スコアを分離
- バイアス認識調整:バイアス認識スコア調整メカニズムを開発
- 実験設計の厳密性:統制的な複数条件、複数モデル設計が結果の信頼性を確保
- 方法の革新性:二重スコアリングシステム(選好+品質)が包括的な視点を提供
- 発見の重要性:LLM評価における体系的バイアスを明らかにし、AI評価分野に重要な影響
- 定量分析の充実:詳細な数値証拠と統計分析を提供
- 実用価値の高さ:LLM評価改善のための具体的提案を提供
- サンプルサイズの限定:30のブログ記事のサンプルサイズは相対的に小さい
- タスクの単一性:ブログ執筆のみに限定、タスク多様性検証が不足
- バイアスメカニズムの不明:非対称バイアスの根本原因を深く探索していない
- 長期効果の未知:時間経過に伴うバイアスパターンの変化を考慮していない
- 学術的貢献:LLM評価バイアス研究に重要な実証的証拠を提供
- 実践的価値:LLMベンチマークと評価プロトコル設計に直接影響
- 政策的意義:AI システムの公平性と透明性政策に科学的根拠を提供
- 再現可能性:方法記述が明確で、再現と拡張が容易
- LLMベンチマーク:既存評価フレームワークの公平性を改善
- 自動化評価システム:無バイアステキスト品質評価ツールを設計
- モデル比較研究:モデルパフォーマンス比較の客観性を確保
- AI倫理研究:AI システムバイアス検出と軽減方法を提供
- モデル範囲の拡張:より多くのLLMを含めてより広範なバイアスパターン研究を実施
- 複数タスク検証:異なるタイプのタスクでラベル効果の一般化可能性を検証
- バイアス源の探索:訓練データ、アライメントプログラムがバイアス形成に与える影響を深く研究
- 軽減戦略の開発:より効果的なバイアス軽減技術を設計・テスト
- 動的バイアス研究:時間経過とモデル更新に伴うバイアスパターンの変化を研究
総括:本研究は厳密な実験設計を通じてLLM評価における深刻なラベル誘導バイアスを明らかにし、AI評価の公平性と信頼性を改善するための重要な科学的根拠を提供しています。研究発見は重要な学術的価値を持つだけでなく、実際のAIシステム配置と評価に対して直接的な指導的意義を有しています。