Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
Lai, Zheng, Cheng et al.
The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.
평가 작업의 규모가 지속적으로 확대됨에 따라, 대규모 언어 모델을 사용한 자동 평가 패러다임인 "LLM-as-a-judge"가 광범위하게 채택되고 있습니다. 그러나 복잡한 프롬프팅이나 미세 조정 없이 인간 선호도와의 정렬을 개선하는 것은 여전히 도전적입니다. 기존 연구는 주로 얕은 출력에 기반한 최적화에 중점을 두었으며, 풍부한 계층 간 표현을 간과했습니다. 본 연구는 초기 발견에서 영감을 받았습니다. 중상위 계층에서 인코딩된 의미론적 및 작업 관련 표현이 최종 계층보다 인간의 판단과 더 잘 맞는 경향이 있다는 것입니다. 이에 따라 LAGER를 제안합니다. 이는 내부 표현을 활용하여 LLM-as-a-Judge 포인트별 평가와 인간 점수의 정렬을 개선하는 사후 플러그 앤 플레이 프레임워크입니다. LAGER는 계층 간 평가 토큰 로짓을 집계하고 소프트맥스 기반 분포에서 기댓값 점수를 계산하여 세밀한 판단 점수를 생성하면서, LLM 백본을 고정된 상태로 유지하고 추론 과정에 영향을 주지 않습니다.
LLM-as-a-judge 관련 연구(Lin & Chen, 2023; Liu et al., 2023 등)
내부 표현 연구(Wang et al., 2020; Yang et al., 2022 등)
평가 벤치마크 및 방법(Ye et al., 2024; Kim et al., 2024 등)
종합 평가: 이는 고품질의 연구 논문으로, LLM 내부 표현을 활용하여 자동 평가의 인간 정렬도를 현저히 개선하는 혁신적인 LAGER 프레임워크를 제안합니다. 방법은 간단하고 효과적이며, 실험은 종합적이고 충분하여 중요한 학술 가치와 실용적 의의를 가집니다. 주요 한계는 오픈소스 모델에만 적용 가능하다는 점이지만, 현재 오픈소스 LLM의 빠른 발전 배경에서 본 연구는 여전히 광범위한 응용 전망을 가집니다.