2025-11-20T05:37:14.741052

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

Saraf, Boroujeni, Beaudry et al.
Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.
academic

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

基本信息

  • 论文ID: 2508.21164
  • 标题: Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations
  • 作者: Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush
  • 分类: cs.CL, cs.AI
  • 发表时间: 2025年10月9日 (arXiv v3)
  • 论文链接: https://arxiv.org/abs/2508.21164v3

摘要

本研究调查了三个主流大语言模型(ChatGPT、Gemini和Claude)在自我评估和交叉评估中的系统性偏见。研究设计了一个受控实验,让每个模型在四种标签条件下(无标签、真实标签、两种虚假标签场景)评估由各模型生成的博客文章。评估采用整体偏好投票和三个维度(连贯性、信息性、简洁性)的细粒度质量评分,所有分数标准化为百分比以便直接比较。研究发现模型判断存在显著不对称性:"Claude"标签无论实际作者是谁都会提升分数,而"Gemini"标签则系统性地降低分数。虚假标签经常逆转偏好排序,在投票结果中产生高达50个百分点的变化,在质量评分中产生高达12个百分点的变化。

研究背景与动机

核心问题

随着大语言模型越来越多地被部署为文本质量评估工具,其判断的有效性仍然缺乏充分探索。本研究主要解决以下问题:

  1. LLM评估偏见问题:LLM能否公正地评估输出,还是会被感知的作者身份影响?
  2. 标签诱导偏见:模型名称是否会影响评估结果,而与实际质量无关?
  3. 自我偏好偏见:模型是否倾向于给自己的输出更高评分?

重要性

这个问题的重要性体现在:

  • LLM-as-judge范式在自动化文本评估中日益普及
  • 评估偏见可能导致基准测试结果失真
  • 影响模型比较和选择的公平性
  • 对AI系统的可靠性和透明度构成挑战

现有研究局限

现有研究主要关注单一类型的偏见或有限的模型数量,缺乏:

  1. 多模型、多条件的受控对比分析
  2. 定量证据比较标签效应在偏好和质量维度上的差异
  3. 系统性的偏见缓解建议

核心贡献

  1. 受控多条件分析:提供了自我和交叉模型评估偏见的受控、多条件分析框架
  2. 定量偏见证据:提供了比较标签效应在偏好和质量维度上的定量证据
  3. 偏见缓解建议:为通过盲评或多模型评估协议缓解偏见提供了建议
  4. 双重评分方法:采用百分比偏好评分和基于点数的质量评分两种互补方法
  5. 标签不对称性发现:发现"Claude"标签一致性提升分数,"Gemini"标签系统性降低分数

方法详解

实验设计

本研究采用三阶段的受控多模型、多条件设计:

阶段1:博客生成

  • 模型:ChatGPT-4o、Gemini 2.5 Flash、Claude Sonnet 4
  • 任务:使用固定提示模板生成约200字的博客文章
  • 提示模板:"You are a professional blog writer. Write a concise blog post (around 200 words) for the title ''. The style should be engaging and suitable for an online audience. Return only the blog content, no extra text."
  • 数据:10个不同主题标题,每个模型每个标题生成一篇博客,共30篇博客

阶段2:标签条件设置

四种标签条件:

  1. 无标签:无作者归属
  2. 真实标签:正确归属
  3. 虚假标签场景1:ChatGPT标记为Gemini,Gemini标记为Claude,Claude标记为ChatGPT
  4. 虚假标签场景2:ChatGPT标记为Claude,Gemini标记为ChatGPT,Claude标记为Gemini

阶段3:双重评分系统

  1. 百分比偏好评分:测量每个输出被选为"最佳"的频率
  2. 基于点数的质量评分:在连贯性、信息性、简洁性三个维度上0-10分评分,转换为百分比

分析层次

  • 条件内分析:条件内比较
  • 跨条件分析:追踪跨条件变化
  • 指标特定分析:检查偏见对各标准的影响

实验设置

数据集特征

  • 规模:30篇博客文章(3个模型 × 10个标题)
  • 主题:涵盖多样化主题,复杂度相似
  • 长度:约200字,适合在线受众

评价指标

  1. 整体偏好投票:百分比形式的"最佳选择"频率
  2. 质量维度评分
    • 连贯性(Coherence):文章逻辑结构和流畅性
    • 信息性(Informativeness):内容的信息价值和深度
    • 简洁性(Conciseness):表达的效率和精炼程度

对比条件

  • 无标签条件作为基线
  • 真实标签条件
  • 两种虚假标签场景

实验结果

主要发现

无标签条件基线

  • 所有三个模型都表现出轻微的自我偏好
  • ChatGPT选择自己输出的频率:50%
  • Gemini:45.3%
  • Claude:46.7%
  • Gemini在交叉模型评分中被一致低估(7%-12%)

真实标签条件的偏见放大

  • Claude自我偏好增强:自评分数从46.7%增至60%
  • Gemini严重自我贬低
    • 来自Claude的评分:0%
    • 来自ChatGPT的评分:1.34%
    • 自我评分:11.32%
  • ChatGPT适度自我偏好:44.66%,但严重惩罚Gemini

虚假标签的强烈影响

场景1结果

  • Gemini对标记为Claude的内容偏好从11.32%升至51.35%
  • Claude对标记为ChatGPT的内容偏好达54.15%
  • 信息性评分在虚假"自己"标签下增加8-10个百分点

场景2结果

  • "Claude"标签产生最高单项得分:Gemini给ChatGPT-as-Claude打分60.7%
  • "Gemini"标签再次压低分数:Claude-as-Gemini从真实标签下的60%降至18.48%

定量偏见效应

  • 偏好投票变化:高达50个百分点的摆动
  • 质量评分变化:高达12个百分点的变化
  • 最敏感维度:信息性评分对标签最敏感
  • 最稳定维度:简洁性评分相对稳定

模型特异性行为模式

  1. Claude:真实标签下最强自我偏好(+13分),被错误标记为Gemini时严重惩罚(-28分)
  2. Gemini:真实标签下严厉自我评估,但对"Claude"标签内容给予大幅加分(高达+21分)
  3. ChatGPT:跨条件一致惩罚Gemini标签内容

相关工作

自我偏好偏见研究

  • Panickssery等人证明LLM偏好自己的输出,具有可测量的自我识别能力
  • Wataoka等人研究LLM-as-judge中的自我偏好偏见

标签诱导评估偏见

  • Wang等人证明基于回应位置的系统偏见可以操纵排序
  • Chen等人调查自我偏好是否反映真正的优越性或信号偏见

评估动态研究

  • 隐式与显式评估动态的不一致性
  • 深度学习系统中的结构性偏见问题

结论与讨论

主要结论

  1. 标签身份强于内容质量:感知的模型身份可以显著扭曲判断,独立于实际内容质量
  2. 不对称标签效应:"Claude"标签一致性提升分数,"Gemini"标签系统性降低分数
  3. 评估层次差异:高层"最佳选择"判断比详细质量评估更容易受偏见影响
  4. 维度敏感性差异:信息性是最易受标签影响的维度,简洁性相对稳定

局限性

  1. 模型范围限制:仅研究三个模型,泛化性有待验证
  2. 任务领域单一:仅使用博客写作任务
  3. 评估维度有限:仅考虑三个质量维度
  4. 偏见来源未明:未深入探讨偏见的训练数据或对齐程序来源

实践建议

  1. 盲评协议:隐藏模型身份以防止基于模型名称的锚定
  2. 多模型共识:使用多模型或基于共识的评估系统
  3. 分离评估类型:将偏好判断与详细质量评分分离
  4. 偏见感知调整:开发偏见感知的评分调整机制

深度评价

优点

  1. 实验设计严谨:受控的多条件、多模型设计确保结果可靠性
  2. 方法创新性:双重评分系统(偏好+质量)提供全面视角
  3. 发现意义重大:揭示了LLM评估中的系统性偏见,对AI评估领域具有重要影响
  4. 量化分析充分:提供详细的数值证据和统计分析
  5. 实用价值高:为改进LLM评估提供具体建议

不足

  1. 样本规模有限:30篇博客文章的样本量相对较小
  2. 任务单一性:仅限于博客写作,缺乏任务多样性验证
  3. 偏见机制未明:未深入探讨造成不对称偏见的根本原因
  4. 长期效应未知:未考虑随时间变化的偏见模式

影响力评估

  1. 学术贡献:为LLM评估偏见研究提供重要实证证据
  2. 实践价值:直接影响LLM基准测试和评估协议设计
  3. 政策意义:为AI系统公平性和透明度政策提供科学依据
  4. 可复现性:方法描述清晰,便于复现和扩展

适用场景

  1. LLM基准测试:改进现有评估框架的公平性
  2. 自动化评估系统:设计无偏见的文本质量评估工具
  3. 模型比较研究:确保模型性能比较的客观性
  4. AI伦理研究:为AI系统偏见检测和缓解提供方法

未来研究方向

  1. 扩展模型范围:包含更多LLM进行更广泛的偏见模式研究
  2. 多任务验证:在不同类型任务中验证标签效应的泛化性
  3. 偏见来源探索:深入研究训练数据、对齐程序对偏见形成的影响
  4. 缓解策略开发:设计和测试更有效的偏见缓解技术
  5. 动态偏见研究:研究偏见模式随时间和模型更新的变化

总结:本研究通过严谨的实验设计揭示了LLM评估中存在的严重标签诱导偏见,为改进AI评估的公平性和可靠性提供了重要科学依据。研究发现不仅具有重要的学术价值,更对实际的AI系统部署和评估具有直接的指导意义。