2025-11-21T01:25:15.792540

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

Lai, Zheng, Cheng et al.
The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.
academic

표면을 넘어서: 내부 표현을 통한 LLM-as-a-Judge의 인간 정렬 강화

기본 정보

  • 논문 ID: 2508.03550
  • 제목: Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
  • 저자: Peng Lai, Jianjie Zheng, Sijie Cheng, Yun Chen, Peng Li, Yang Liu, Guanhua Chen
  • 분류: cs.CL (계산 언어학)
  • 발표 학회: 제39회 신경정보처리시스템 학회 (NeurIPS 2025)
  • 논문 링크: https://arxiv.org/abs/2508.03550

초록

평가 작업의 규모가 지속적으로 확대됨에 따라, 대규모 언어 모델을 사용한 자동 평가 패러다임인 "LLM-as-a-judge"가 광범위하게 채택되고 있습니다. 그러나 복잡한 프롬프팅이나 미세 조정 없이 인간 선호도와의 정렬을 개선하는 것은 여전히 도전적입니다. 기존 연구는 주로 얕은 출력에 기반한 최적화에 중점을 두었으며, 풍부한 계층 간 표현을 간과했습니다. 본 연구는 초기 발견에서 영감을 받았습니다. 중상위 계층에서 인코딩된 의미론적 및 작업 관련 표현이 최종 계층보다 인간의 판단과 더 잘 맞는 경향이 있다는 것입니다. 이에 따라 LAGER를 제안합니다. 이는 내부 표현을 활용하여 LLM-as-a-Judge 포인트별 평가와 인간 점수의 정렬을 개선하는 사후 플러그 앤 플레이 프레임워크입니다. LAGER는 계층 간 평가 토큰 로짓을 집계하고 소프트맥스 기반 분포에서 기댓값 점수를 계산하여 세밀한 판단 점수를 생성하면서, LLM 백본을 고정된 상태로 유지하고 추론 과정에 영향을 주지 않습니다.

연구 배경 및 동기

문제 정의

  1. 핵심 문제: 기존 LLM-as-a-judge 방법은 주로 최종 계층 출력에 의존하여 평가를 수행하며, 모델 내부의 풍부한 계층 간 표현 정보를 간과하여 인간의 판단과의 정렬도가 불충분합니다.
  2. 중요성:
    • LLM-as-a-judge는 모델 평가, 데이터 합성, 모델 강화 등 다양한 시나리오에서 광범위하게 적용됨
    • 평가의 정확성과 인간 선호도와의 일관성 향상은 AI 시스템의 신뢰성에 매우 중요함
    • 대규모 평가 작업은 효율적이고 정확한 자동화 평가 방법이 필요함
  3. 기존 방법의 한계:
    • 프롬프트 기반 방법은 복잡한 추론 단계가 필요하여 계산 비용 증가
    • 미세 조정 방법은 일반화 문제에 직면하여 적응성이 제한적
    • 전통적 방법은 최종 계층 출력에만 의존하여 중간 계층의 의미론적 정보 간과
  4. 연구 동기:
    • 초기 연구에서 중상위 계층(약 20-30층)이 최종 계층보다 인간 점수와의 상관성이 높은 것으로 발견됨
    • 서로 다른 계층은 서로 다른 유형의 정보를 인코딩: 하위 계층은 어휘 정보에 집중, 중상위 계층은 의미론과 전역 정보에 집중
    • 이러한 내부 표현을 활용하는 경량의 플러그 앤 플레이 방법이 필요함

핵심 기여

  1. LAGER 프레임워크 제안: 계층 간 내부 표현을 집계하여 LLM-as-a-judge와 인간 점수의 정렬을 개선하는 사후 플러그 앤 플레이 프레임워크
  2. 중간 계층의 우월성 발견: 실증 연구를 통해 중상위 계층 표현이 최종 계층보다 인간의 판단과 더 잘 맞음을 증명
  3. 현저한 성능 향상 달성: Flask, HelpSteer, BIGGen 세 가지 표준 정렬 벤치마크에서 최대 7.5%의 개선 달성
  4. 일반화 능력 증명: 지시 데이터 선택, 감정 이해 등 하위 작업에서 우수한 일반화 성능 시연
  5. 경량 솔루션 제공: 소수의 가중치 매개변수(L+1개)만 훈련하면 되며, 모델 백본 고정 유지

방법 상세 설명

작업 정의

입력: 평가 작업 설명, 사용자 지시, 평가 대상 응답, 평가 기준 출력: 세밀한 연속 점수(이산 정수 점수가 아님) 제약: LLM 백본 매개변수 고정 유지, 기존 추론 과정에 영향 없음

모델 아키텍처

1. 기본 프레임워크

디코더 모델의 경우, 전통적 방법은 최종 계층 숨겨진 상태만 사용합니다:

h^(L)_n = f^(L)_decoder ∘ ··· ∘ f^(1)_decoder ∘ f_embd(x<n)

2. LAGER 핵심 메커니즘

계층 간 로짓 집계:

ẑ = Σ(i=0 to L) w_i * ẑ_i = Σ(i=0 to L) w_i * h^(i)_n * W_unembd

후보 점수 추출:

ẑ[M] = Σ(i=0 to L) w_i * [h^(i)_n * W_unembd]_M

여기서 M = {Tokenize(s)|s ∈ S}는 후보 점수 토큰 집합

확률 분포 계산:

P(s) = exp(ẑ[s]) / Σ(s'∈S) exp(ẑ[s'])

기댓값 점수:

s* = E_s~P(s)[s] = Σ(s∈S) s × P(s)

3. 가중치 훈련 전략

두 가지 가중치 설정 제공:

  • 조정 없는 버전: 평균 집계 w_l = 1/(L+1)
  • 조정 버전: 조합 손실 함수를 사용한 가중치 훈련

손실 함수:

L_Final = α·L_CE + (1-α)·L_MAE

여기서 교차 엔트로피 손실은 이산 레이블을 처리하고, MAE 손실은 연속 점수를 처리합니다.

기술 혁신점

  1. 계층 간 정보 융합: Transformer의 모든 계층의 내부 표현을 평가에 활용하는 첫 번째 체계적 시도
  2. 기댓값 점수 메커니즘: 확률 분포를 통해 연속 점수를 계산하며, 단순 argmax 연산이 아님
  3. 플러그 앤 플레이 설계: 원본 모델 매개변수와 추론 과정을 수정하지 않으며, 기존 모델에 직접 적용 가능
  4. 경량 훈련: L+1개의 가중치 매개변수만 훈련하면 되어 훈련 비용이 극히 낮음

실험 설정

데이터셋

  1. Flask: 2,001개 항목, 12개 평가 차원 포함(간결성, 통찰력, 가독성 등)
  2. HelpSteer: 8.95k 데이터 포인트, 5개 표준 기반 평가(유용성, 정확성, 일관성 등)
  3. BiGGen Bench: 77개 작업을 포괄하는 종합 평가 벤치마크, 9가지 생성 능력 평가

평가 지표

  • 주요 지표: Spearman 상관계수(서수 데이터에 적합, 이상치에 강건)
  • 보조 지표: Pearson 상관계수

비교 방법

  1. 비훈련 기준선: GPTScore, Vanilla Score (VScore), Expectation Score (E-Score)
  2. API 모델: GPT-4o-mini
  3. 미세 조정 모델: TIGERScore-7B, Prometheus2-7B(참고용)

구현 세부사항

  • 모델: 6개의 서로 다른 규모 백본 모델(7B-70B)
  • 디코딩 전략: 탐욕 디코딩으로 안정성 보장
  • 평가 조건: 직접 평가 및 추론 평가 두 가지 설정
  • 가중치 훈련: 1000개 HelpSteer 샘플 사용, Adam 최적화기, 학습률 0.01

실험 결과

주요 결과

성능 향상 현저함:

  • LAGER는 모든 벤치마크에서 비훈련 기준선을 능가
  • 평균 Spearman 상관성 향상: 조정 없는 버전 4.5%, 조정 버전 더 높음
  • 일부 모델에서 최대 7.5%의 개선 달성

주요 발견:

  1. 모델 간 일관성: 6개의 서로 다른 규모 모델에서 모두 개선 달성
  2. API 모델과의 경쟁: 오픈소스 모델을 GPT-4o-mini 수준으로 향상
  3. 미세 조정 방법 초과: InternLM3-8B와 LLaMA3.1-8B가 동일 규모의 Prometheus2-7B 초과

절제 실험

구성 요소 중요도 순서:

  1. 기댓값 점수 > 최대 점수(+0.17 향상)
  2. 로짓 집계 > 확률 집계(+0.07 향상)
  3. 가중치 조정으로 +0.10 개선
  4. 다층 집계는 모델마다 효과 상이

규모 간 분석

규모 효과:

  • Qwen2.5 시리즈(0.5B-72B)에서 검증
  • LAGER의 개선은 모델 규모 증가에 따라 확대
  • 72B 모델에서 최고 성능 달성(Flask: 0.658 Spearman)

사례 분석

분포 정렬:

  • LAGER가 생성한 점수 분포가 인간 주석에 더 가까움
  • KL 발산이 0.312에서 0.087로 감소
  • MSE가 0.112에서 0.060으로 감소

관련 연구

텍스트 생성 평가

  • 전통적 지표: BLEU, ROUGE 등 통계 방법의 한계 명백
  • 임베딩 방법: BERTScore, BARTScore 등 참고 답변 필요
  • GPTScore: 생성 확률 기반이나 의미론적 품질 간과

LLM-as-a-Judge

  1. 포인트별 평가: 개별 응답 독립 평가
  2. 쌍 비교: 두 응답 직접 비교
  3. 목록 정렬: 여러 응답 정렬

방법 분류:

  • 프롬프트 기반: 추론 단계를 통한 판단 개선
  • 미세 조정 기반: 평가 모델 전문 훈련

결론 및 논의

주요 결론

  1. 중간 계층 우월성: 중상위 계층 표현이 최종 계층보다 인간의 판단과 더 잘 맞음
  2. 경량 효과성: 소수 매개변수 훈련만으로도 성능을 현저히 개선
  3. 추론 불필요: 명시적 추론 단계 없이도 추론 방법과 동등하거나 우수한 성능 달성
  4. 우수한 일반화: 다양한 하위 작업에서 우수한 성능 발휘

한계

  1. 오픈소스 모델 제한: 모델 내부 상태 접근 필요, 폐쇄형 API 모델에 적용 불가
  2. 계산 오버헤드: 모든 계층의 숨겨진 상태 계산에 추가 비용 필요
  3. 가중치 범용성: 모델 계열마다 가중치 재훈련 필요 가능

향후 방향

  1. 이론적 분석: 서로 다른 계층 표현의 의미론적 특성에 대한 심화 이해
  2. 효율성 최적화: 계산 오버헤드 감소 방법
  3. 적응형 가중치: 서로 다른 계층 가중치를 자동 조정하는 메커니즘

심층 평가

장점

  1. 높은 혁신성: Transformer 내부 표현을 평가에 체계적으로 활용한 첫 시도
  2. 높은 실용 가치: 플러그 앤 플레이 설계로 배포 용이
  3. 충분한 실험: 다양한 벤치마크, 다양한 모델 규모의 종합 평가
  4. 이론적 지원: 계층 간 유사성 분석 등을 통한 이론적 통찰 제공

부족한 점

  1. 적용 범위 제한: 오픈소스 모델에만 적용 가능
  2. 메커니즘 설명 부족: 중간 계층이 더 나은 이유에 대한 심화된 이론적 설명 부족
  3. 계산 비용: 매개변수는 적지만 추론 시 모든 계층 계산 필요

영향력

  1. 학술 기여: LLM 내부 표현 연구에 새로운 관점 제공
  2. 실용 가치: 오픈소스 모델 평가에 효과적인 도구 제공
  3. 재현성: 코드 공개로 실험 재현 가능

적용 시나리오

  1. 모델 평가: 기존 평가 프로세스 개선
  2. 데이터 필터링: 고품질 훈련 데이터 필터링
  3. 품질 관리: 생성 콘텐츠의 자동 품질 평가
  4. 연구 도구: LLM 내부 메커니즘 연구

참고문헌

본 논문은 다양한 관련 연구를 인용하고 있습니다:

  • LLM-as-a-judge 관련 연구(Lin & Chen, 2023; Liu et al., 2023 등)
  • 내부 표현 연구(Wang et al., 2020; Yang et al., 2022 등)
  • 평가 벤치마크 및 방법(Ye et al., 2024; Kim et al., 2024 등)

종합 평가: 이는 고품질의 연구 논문으로, LLM 내부 표현을 활용하여 자동 평가의 인간 정렬도를 현저히 개선하는 혁신적인 LAGER 프레임워크를 제안합니다. 방법은 간단하고 효과적이며, 실험은 종합적이고 충분하여 중요한 학술 가치와 실용적 의의를 가집니다. 주요 한계는 오픈소스 모델에만 적용 가능하다는 점이지만, 현재 오픈소스 LLM의 빠른 발전 배경에서 본 연구는 여전히 광범위한 응용 전망을 가집니다.