2025-11-20T05:37:14.741052

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

Saraf, Boroujeni, Beaudry et al.

Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.

academic

Количественное определение смещения, вызванного метками, в самооценке и взаимной оценке больших языковых моделей

Основная информация

ID статьи: 2508.21164
Название: Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations
Авторы: Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush
Классификация: cs.CL, cs.AI
Дата публикации: 9 октября 2025 г. (arXiv v3)
Ссылка на статью: https://arxiv.org/abs/2508.21164v3

Аннотация

В данном исследовании изучаются систематические смещения в самооценке и взаимной оценке трёх ведущих больших языковых моделей (ChatGPT, Gemini и Claude). Исследование включает контролируемый эксперимент, в котором каждая модель оценивает статьи в блоге, созданные различными моделями, в четырёх условиях маркировки (без метки, истинная метка, два сценария с ложными метками). Оценка проводится с использованием общего голосования по предпочтениям и детальных оценок качества по трём измерениям (связность, информативность, лаконичность), причём все баллы нормализованы в процентах для прямого сравнения. Исследование выявляет значительную асимметрию в суждениях моделей: метка "Claude" повышает баллы независимо от фактического автора, тогда как метка "Gemini" систематически снижает баллы. Ложные метки часто обращают вспять порядок предпочтений, вызывая изменения до 50 процентных пункта в результатах голосования и до 12 процентных пункта в оценках качества.

Предпосылки и мотивация исследования

Основные проблемы

По мере того как большие языковые модели всё чаще развёртываются в качестве инструментов оценки качества текста, достоверность их суждений остаётся недостаточно изученной. Данное исследование решает следующие проблемы:

Проблема смещения оценки LLM: Могут ли LLM справедливо оценивать выходные данные или они подвержены влиянию предполагаемого авторства?
Смещение, вызванное метками: Влияют ли названия моделей на результаты оценки независимо от фактического качества?
Смещение самопредпочтения: Склонны ли модели давать более высокие оценки собственным выходным данным?

Значимость

Значимость этой проблемы проявляется в следующем:

Парадигма LLM-as-judge становится всё более распространённой в автоматизированной оценке текста
Смещение оценки может привести к искажению результатов тестирования
Влияет на справедливость сравнения и выбора моделей
Представляет вызов для надёжности и прозрачности систем ИИ

Ограничения существующих исследований

Существующие исследования в основном сосредоточены на одном типе смещения или ограниченном количестве моделей, не хватает:

Контролируемого сравнительного анализа с несколькими моделями и условиями
Количественных доказательств сравнения эффектов меток на предпочтения и измерения качества
Систематических рекомендаций по смягчению смещения

Основные вклады

Контролируемый многоусловный анализ: Предоставляет контролируемую структуру многоусловного анализа смещения при самооценке и взаимной оценке моделей
Количественные доказательства смещения: Предоставляет количественные доказательства сравнения эффектов меток на предпочтения и измерения качества
Рекомендации по смягчению смещения: Предлагает рекомендации по смягчению смещения посредством слепой оценки или протоколов многомодельной оценки
Двойной метод оценки: Применяет два дополняющих друг друга метода: оценку предпочтений в процентах и оценку качества на основе баллов
Открытие асимметрии меток: Обнаруживает, что метка "Claude" последовательно повышает баллы, а метка "Gemini" систематически снижает баллы

Подробное описание методологии

Дизайн эксперимента

Исследование использует трёхэтапный контролируемый дизайн с несколькими моделями и условиями:

Этап 1: Генерация статей в блоге

Модели: ChatGPT-4o, Gemini 2.5 Flash, Claude Sonnet 4
Задача: Генерация статей в блоге объёмом примерно 200 слов с использованием фиксированного шаблона подсказки
Шаблон подсказки: "You are a professional blog writer. Write a concise blog post (around 200 words) for the title ''. The style should be engaging and suitable for an online audience. Return only the blog content, no extra text."
Данные: 10 различных названий тем, каждая модель генерирует одну статью на каждое название, всего 30 статей

Этап 2: Установка условий маркировки

Четыре условия маркировки:

Без метки: Без указания авторства
Истинная метка: Правильное указание авторства
Сценарий с ложной меткой 1: ChatGPT помечен как Gemini, Gemini как Claude, Claude как ChatGPT
Сценарий с ложной меткой 2: ChatGPT помечен как Claude, Gemini как ChatGPT, Claude как Gemini

Этап 3: Двойная система оценки

Оценка предпочтений в процентах: Измеряет частоту выбора каждого выходного данного как "лучшего"
Оценка качества на основе баллов: Оценка по трём измерениям (связность, информативность, лаконичность) по шкале 0-10, преобразованная в проценты

Уровни анализа

Анализ внутри условий: Сравнение внутри условий
Анализ между условиями: Отслеживание изменений между условиями
Анализ, специфичный для показателей: Проверка влияния смещения на каждый критерий

Экспериментальная установка

Характеристики набора данных

Масштаб: 30 статей в блоге (3 модели × 10 названий тем)
Тематика: Охватывает разнообразные темы с аналогичной сложностью
Длина: Примерно 200 слов, подходит для онлайн-аудитории

Показатели оценки

Общее голосование по предпочтениям: Частота выбора "лучшего" в процентах
Оценки по измерениям качества:
- Связность (Coherence): Логическая структура и плавность статьи
- Информативность (Informativeness): Информационная ценность и глубина содержания
- Лаконичность (Conciseness): Эффективность и сжатость выражения

Условия сравнения

Условие без метки как базовое
Условие с истинной меткой
Два сценария с ложными метками

Результаты эксперимента

Основные выводы

Базовое условие без метки

Все три модели проявляют лёгкое самопредпочтение
Частота выбора собственного выходного данного ChatGPT: 50%
Gemini: 45,3%
Claude: 46,7%
Gemini систематически недооценивается при взаимной оценке (7%-12%)

Усиление смещения при условии истинной метки

Усиление самопредпочтения Claude: Оценка самооценки увеличивается с 46,7% до 60%
Серьёзное самоуничижение Gemini:
- Оценка от Claude: 0%
- Оценка от ChatGPT: 1,34%
- Самооценка: 11,32%
Умеренное самопредпочтение ChatGPT: 44,66%, но серьёзное наказание Gemini

Сильное влияние ложных меток

Результаты сценария 1:

Предпочтение Gemini контенту, помеченному как Claude, увеличивается с 11,32% до 51,35%
Предпочтение Claude контенту, помеченному как ChatGPT, достигает 54,15%
Оценки информативности увеличиваются на 8-10 процентных пункта при ложной метке "собственной" модели

Результаты сценария 2:

Метка "Claude" производит наивысший единичный балл: Gemini оценивает ChatGPT-as-Claude на 60,7%
Метка "Gemini" снова снижает баллы: Claude-as-Gemini снижается с 60% при истинной метке до 18,48%

Количественные эффекты смещения

Изменение голосования по предпочтениям: Колебания до 50 процентных пункта
Изменение оценок качества: Изменения до 12 процентных пункта
Наиболее чувствительное измерение: Оценка информативности наиболее чувствительна к меткам
Наиболее стабильное измерение: Оценка лаконичности относительно стабильна

Модель-специфичные поведенческие паттерны

Claude: Самое сильное самопредпочтение при истинной метке (+13 пункта), серьёзное наказание при ошибочной метке Gemini (-28 пункта)
Gemini: Строгая самооценка при истинной метке, но значительное повышение баллов для контента с меткой "Claude" (до +21 пункта)
ChatGPT: Последовательное наказание контента с меткой Gemini во всех условиях

Связанные работы

Исследования смещения самопредпочтения

Panickssery и др. доказали, что LLM предпочитают собственные выходные данные с измеримой способностью к самоидентификации
Wataoka и др. исследовали смещение самопредпочтения в LLM-as-judge

Исследования смещения оценки, вызванного метками

Wang и др. доказали, что систематическое смещение на основе позиции ответа может манипулировать рейтингом
Chen и др. исследовали, отражает ли самопредпочтение истинное превосходство или сигнальное смещение

Исследования динамики оценки

Несоответствие между неявной и явной динамикой оценки
Проблемы структурного смещения в системах глубокого обучения

Заключение и обсуждение

Основные выводы

Идентичность метки превосходит качество контента: Предполагаемая идентичность модели может значительно исказить суждение независимо от фактического качества контента
Асимметричные эффекты меток: Метка "Claude" последовательно повышает баллы, метка "Gemini" систематически снижает баллы
Различия на уровнях оценки: Суждения высокого уровня "лучший выбор" более подвержены смещению, чем детальные оценки качества
Различия в чувствительности измерений: Информативность является наиболее подверженным влиянию меток измерением, лаконичность относительно стабильна

Ограничения

Ограничение диапазона моделей: Исследование охватывает только три модели, обобщаемость требует проверки
Единственная предметная область задачи: Используется только задача написания блога
Ограниченные измерения оценки: Рассматриваются только три измерения качества
Неясные источники смещения: Не проводится глубокое исследование источников смещения в данных обучения или процедурах выравнивания

Практические рекомендации

Протоколы слепой оценки: Скрывайте идентичность модели, чтобы предотвратить якорение на основе названия модели
Консенсус нескольких моделей: Используйте системы оценки на основе нескольких моделей или консенсуса
Разделение типов оценки: Разделите суждения о предпочтениях и детальные оценки качества
Корректировка с учётом смещения: Разработайте механизмы корректировки оценок с учётом смещения

Глубокая оценка

Преимущества

Строгий дизайн эксперимента: Контролируемый многоусловный и многомодельный дизайн обеспечивает надёжность результатов
Инновационность методологии: Двойная система оценки (предпочтения + качество) обеспечивает всестороннее представление
Значимость открытий: Выявляет систематическое смещение в оценке LLM, имеющее важное значение для области оценки ИИ
Достаточный количественный анализ: Предоставляет подробные численные доказательства и статистический анализ
Высокая практическая ценность: Предоставляет конкретные рекомендации по улучшению оценки LLM

Недостатки

Ограниченный размер выборки: Размер выборки из 30 статей в блоге относительно мал
Единственность задачи: Ограничивается только написанием блога, не хватает проверки разнообразия задач
Неясные механизмы смещения: Не проводится глубокое исследование коренных причин асимметричного смещения
Неизвестные долгосрочные эффекты: Не рассматриваются модели смещения, изменяющиеся со временем

Оценка влияния

Академический вклад: Предоставляет важные эмпирические доказательства для исследования смещения оценки LLM
Практическая ценность: Прямо влияет на дизайн протоколов тестирования и оценки LLM
Значение политики: Предоставляет научные основания для политики справедливости и прозрачности систем ИИ
Воспроизводимость: Методология описана ясно, что облегчает воспроизведение и расширение

Применимые сценарии

Тестирование LLM: Улучшение справедливости существующих структур оценки
Системы автоматизированной оценки: Разработка инструментов оценки качества текста без смещения
Исследование сравнения моделей: Обеспечение объективности сравнения производительности моделей
Исследование этики ИИ: Предоставление методов для обнаружения и смягчения смещения систем ИИ

Направления будущих исследований

Расширение диапазона моделей: Включение большего количества LLM для более широкого исследования паттернов смещения
Проверка на нескольких задачах: Проверка обобщаемости эффектов меток на различные типы задач
Исследование источников смещения: Глубокое исследование влияния данных обучения и процедур выравнивания на формирование смещения
Разработка стратегий смягчения: Разработка и тестирование более эффективных методов смягчения смещения
Исследование динамического смещения: Исследование изменения паттернов смещения со временем и обновлениями моделей

Резюме: Данное исследование посредством строгого дизайна эксперимента выявляет серьёзное смещение, вызванное метками, в оценке LLM, предоставляя важные научные основания для улучшения справедливости и надёжности оценки ИИ. Выводы исследования имеют не только значительную академическую ценность, но и прямое практическое значение для развёртывания и оценки реальных систем ИИ.