2025-11-20T05:37:14.741052

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

Saraf, Boroujeni, Beaudry et al.

Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.

academic

대규모 언어 모델의 자기 평가 및 상호 평가에서 라벨 유도 편향 정량화

기본 정보

논문 ID: 2508.21164
제목: Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations
저자: Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush
분류: cs.CL, cs.AI
발표 시간: 2025년 10월 9일 (arXiv v3)
논문 링크: https://arxiv.org/abs/2508.21164v3

초록

본 연구는 세 가지 주류 대규모 언어 모델(ChatGPT, Gemini, Claude)의 자기 평가 및 상호 평가에서의 체계적 편향을 조사합니다. 연구는 각 모델이 네 가지 라벨 조건(라벨 없음, 실제 라벨, 두 가지 거짓 라벨 시나리오) 하에서 각 모델이 생성한 블로그 기사를 평가하도록 하는 통제된 실험을 설계했습니다. 평가는 전체 선호도 투표와 세 가지 차원(일관성, 정보성, 간결성)의 세분화된 품질 점수를 사용하며, 모든 점수는 직접 비교를 위해 백분율로 정규화됩니다. 연구는 모델 판단에 상당한 비대칭성이 존재함을 발견했습니다: "Claude" 라벨은 실제 작성자가 누구든 점수를 상향 조정하는 반면, "Gemini" 라벨은 체계적으로 점수를 하향 조정합니다. 거짓 라벨은 투표 결과에서 최대 50 백분 포인트, 품질 평가에서 최대 12 백분 포인트의 변화를 초래하면서 선호도 순서를 자주 역전시킵니다.

연구 배경 및 동기

핵심 문제

대규모 언어 모델이 텍스트 품질 평가 도구로 점점 더 많이 배포됨에 따라, 그 판단의 유효성은 여전히 충분히 탐구되지 않았습니다. 본 연구는 주로 다음 문제들을 해결합니다:

LLM 평가 편향 문제: LLM이 출력을 공정하게 평가할 수 있는가, 아니면 인지된 저자 신원의 영향을 받는가?
라벨 유도 편향: 모델 이름이 실제 품질과 무관하게 평가 결과에 영향을 미치는가?
자기 선호 편향: 모델이 자신의 출력에 더 높은 점수를 부여하는 경향이 있는가?

중요성

이 문제의 중요성은 다음과 같이 나타납니다:

LLM-as-judge 패러다임이 자동화된 텍스트 평가에서 점점 더 널리 사용됨
평가 편향은 벤치마크 테스트 결과 왜곡을 초래할 수 있음
모델 비교 및 선택의 공정성에 영향
AI 시스템의 신뢰성과 투명성에 대한 도전

기존 연구의 한계

기존 연구는 주로 단일 유형의 편향이나 제한된 수의 모델에 초점을 맞추고 있으며, 다음이 부족합니다:

다중 모델, 다중 조건의 통제된 비교 분석
선호도 및 품질 차원에서 라벨 효과를 비교하는 정량적 증거
체계적인 편향 완화 제안

핵심 기여

통제된 다중 조건 분석: 자기 및 교차 모델 평가 편향에 대한 통제된 다중 조건 분석 프레임워크 제공
정량적 편향 증거: 선호도 및 품질 차원에서 라벨 효과를 비교하는 정량적 증거 제공
편향 완화 제안: 맹검 평가 또는 다중 모델 평가 프로토콜을 통한 편향 완화를 위한 제안 제공
이중 평가 방법: 백분율 선호도 평가 및 포인트 기반 품질 평가의 두 가지 상호 보완적 방법 채택
라벨 비대칭성 발견: "Claude" 라벨은 일관되게 점수를 상향 조정하고, "Gemini" 라벨은 체계적으로 점수를 하향 조정함을 발견

방법론 상세 설명

실험 설계

본 연구는 3단계의 통제된 다중 모델, 다중 조건 설계를 채택합니다:

단계 1: 블로그 생성

모델: ChatGPT-4o, Gemini 2.5 Flash, Claude Sonnet 4
작업: 고정된 프롬프트 템플릿을 사용하여 약 200단어의 블로그 기사 생성
프롬프트 템플릿: "You are a professional blog writer. Write a concise blog post (around 200 words) for the title ''. The style should be engaging and suitable for an online audience. Return only the blog content, no extra text."
데이터: 10개의 서로 다른 주제 제목, 각 모델이 각 제목당 하나의 블로그를 생성하여 총 30개의 블로그

단계 2: 라벨 조건 설정

네 가지 라벨 조건:

라벨 없음: 저자 귀속 없음
실제 라벨: 올바른 귀속
거짓 라벨 시나리오 1: ChatGPT는 Gemini로, Gemini는 Claude로, Claude는 ChatGPT로 표시
거짓 라벨 시나리오 2: ChatGPT는 Claude로, Gemini는 ChatGPT로, Claude는 Gemini로 표시

단계 3: 이중 평가 시스템

백분율 선호도 평가: 각 출력이 "최고"로 선택되는 빈도 측정
포인트 기반 품질 평가: 일관성, 정보성, 간결성의 세 가지 차원에서 0-10점 평가, 백분율로 변환

분석 수준

조건 내 분석: 조건 내 비교
조건 간 분석: 조건 간 변화 추적
지표별 분석: 각 기준에 대한 편향의 영향 검토

실험 설정

데이터셋 특성

규모: 30개의 블로그 기사 (3개 모델 × 10개 제목)
주제: 다양한 주제를 포함하며 복잡도가 유사함
길이: 약 200단어, 온라인 청중에 적합

평가 지표

전체 선호도 투표: 백분율 형식의 "최고 선택" 빈도
품질 차원 평가:
- 일관성(Coherence): 기사의 논리적 구조 및 유창성
- 정보성(Informativeness): 콘텐츠의 정보 가치 및 깊이
- 간결성(Conciseness): 표현의 효율성 및 정련도

비교 조건

라벨 없음 조건을 기준선으로
실제 라벨 조건
두 가지 거짓 라벨 시나리오

실험 결과

주요 발견

라벨 없음 조건 기준선

세 모델 모두 경미한 자기 선호를 나타냄
ChatGPT가 자신의 출력을 선택하는 빈도: 50%
Gemini: 45.3%
Claude: 46.7%
Gemini는 교차 모델 평가에서 일관되게 과소평가됨 (7%-12%)

실제 라벨 조건의 편향 증폭

Claude 자기 선호 증강: 자기 평가 점수가 46.7%에서 60%로 증가
Gemini 심각한 자기 평가절하:
- Claude의 평가: 0%
- ChatGPT의 평가: 1.34%
- 자기 평가: 11.32%
ChatGPT 적당한 자기 선호: 44.66%, 하지만 Gemini에 대한 심각한 페널티

거짓 라벨의 강력한 영향

시나리오 1 결과:

Gemini가 Claude로 표시된 콘텐츠에 대한 선호도가 11.32%에서 51.35%로 증가
Claude가 ChatGPT로 표시된 콘텐츠에 대한 선호도가 54.15%에 도달
거짓 "자신" 라벨 하에서 정보성 평가가 8-10 백분 포인트 증가

시나리오 2 결과:

"Claude" 라벨이 최고 단일 점수 생성: Gemini가 ChatGPT-as-Claude에 60.7% 점수 부여
"Gemini" 라벨이 다시 점수를 하향 조정: Claude-as-Gemini가 실제 라벨 하의 60%에서 18.48%로 감소

정량적 편향 효과

선호도 투표 변화: 최대 50 백분 포인트의 변동
품질 평가 변화: 최대 12 백분 포인트의 변화
가장 민감한 차원: 정보성 평가가 라벨에 가장 민감함
가장 안정적인 차원: 간결성 평가가 상대적으로 안정적

모델별 행동 패턴

Claude: 실제 라벨 하에서 가장 강한 자기 선호 (+13점), Gemini로 잘못 표시될 때 심각한 페널티 (-28점)
Gemini: 실제 라벨 하에서 엄격한 자기 평가, 하지만 "Claude" 라벨 콘텐츠에 대해 상당한 가산점 (최대 +21점)
ChatGPT: 조건 간 일관되게 Gemini 라벨 콘텐츠에 페널티

결론 및 논의

주요 결론

라벨 신원이 콘텐츠 품질을 능가함: 인지된 모델 신원은 실제 콘텐츠 품질과 무관하게 판단을 크게 왜곡할 수 있음
비대칭적 라벨 효과: "Claude" 라벨은 일관되게 점수를 상향 조정하고, "Gemini" 라벨은 체계적으로 점수를 하향 조정
평가 수준의 차이: 상위 수준의 "최고 선택" 판단이 상세한 품질 평가보다 편향의 영향을 더 많이 받음
차원별 민감도 차이: 정보성이 라벨의 영향을 가장 많이 받는 차원이고, 간결성은 상대적으로 안정적

한계

모델 범위 제한: 세 가지 모델만 연구하여 일반화 가능성 검증 필요
작업 영역 단일성: 블로그 작성 작업만 사용
평가 차원 제한: 세 가지 품질 차원만 고려
편향 출처 미명확: 편향의 훈련 데이터 또는 정렬 프로그램 출처에 대해 깊이 있게 탐구하지 않음

실무 제안

맹검 평가 프로토콜: 모델 이름에 기반한 고정관념을 방지하기 위해 모델 신원 숨김
다중 모델 합의: 다중 모델 또는 합의 기반 평가 시스템 사용
평가 유형 분리: 선호도 판단과 상세한 품질 평가 분리
편향 인식 조정: 편향 인식 점수 조정 메커니즘 개발

심층 평가

장점

엄격한 실험 설계: 통제된 다중 조건, 다중 모델 설계는 결과의 신뢰성 보장
방법론 혁신성: 이중 평가 시스템 (선호도 + 품질)은 포괄적인 관점 제공
발견의 중요성: LLM 평가의 체계적 편향을 드러내며 AI 평가 분야에 중요한 영향
충분한 정량 분석: 상세한 수치 증거 및 통계 분석 제공
높은 실용 가치: LLM 평가 개선을 위한 구체적 제안 제공

부족한 점

제한된 샘플 규모: 30개 블로그 기사의 샘플 크기가 상대적으로 작음
작업 단일성: 블로그 작성에만 제한되어 작업 다양성 검증 부족
편향 메커니즘 미명확: 비대칭적 편향의 근본 원인에 대해 깊이 있게 탐구하지 않음
장기 효과 미지수: 시간 경과에 따른 편향 패턴 변화 미고려

영향력 평가

학술적 기여: LLM 평가 편향 연구에 중요한 실증 증거 제공
실무 가치: LLM 벤치마크 및 평가 프로토콜 설계에 직접적 영향
정책적 의의: AI 시스템 공정성 및 투명성 정책에 과학적 근거 제공
재현 가능성: 명확한 방법 설명으로 재현 및 확장 용이

적용 시나리오

LLM 벤치마크: 기존 평가 프레임워크의 공정성 개선
자동화 평가 시스템: 편향 없는 텍스트 품질 평가 도구 설계
모델 비교 연구: 모델 성능 비교의 객관성 보장
AI 윤리 연구: AI 시스템 편향 탐지 및 완화를 위한 방법 제공

향후 연구 방향

모델 범위 확장: 더 광범위한 편향 패턴 연구를 위해 더 많은 LLM 포함
다중 작업 검증: 다양한 작업 유형에서 라벨 효과의 일반화 가능성 검증
편향 출처 탐구: 훈련 데이터, 정렬 프로그램이 편향 형성에 미치는 영향 깊이 있게 연구
완화 전략 개발: 더 효과적인 편향 완화 기술 설계 및 테스트
동적 편향 연구: 시간 경과 및 모델 업데이트에 따른 편향 패턴 변화 연구

요약: 본 연구는 엄격한 실험 설계를 통해 LLM 평가에 존재하는 심각한 라벨 유도 편향을 드러내며, AI 평가의 공정성과 신뢰성 개선을 위한 중요한 과학적 근거를 제공합니다. 연구 발견은 중요한 학술적 가치뿐만 아니라 실제 AI 시스템 배포 및 평가에 직접적인 지도 의의를 가집니다.