2025-11-21T01:25:15.792540

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

Lai, Zheng, Cheng et al.

The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.

academic

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

基本信息

论文ID: 2508.03550
标题: Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
作者: Peng Lai, Jianjie Zheng, Sijie Cheng, Yun Chen, Peng Li, Yang Liu, Guanhua Chen
分类: cs.CL (Computational Linguistics)
发表会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
论文链接: https://arxiv.org/abs/2508.03550

摘要

随着评估任务规模的不断扩大，使用大语言模型进行自动化评估的范式"LLM-as-a-judge"得到了广泛采用。然而，在不使用复杂提示或微调的情况下提高其与人类偏好的对齐仍然具有挑战性。以往研究主要基于浅层输出进行优化，忽略了丰富的跨层表示。本研究受到初步发现的启发——中上层编码的语义和任务相关表示往往比最终层更符合人类判断，提出了LAGER，这是一个事后的即插即用框架，通过利用内部表示来改善LLM-as-a-Judge点式评估与人类评分的对齐。LAGER通过聚合跨层评分标记logits并从基于softmax的分布计算期望评分来产生细粒度判断评分，同时保持LLM主干冻结并确保不影响推理过程。

研究背景与动机

问题定义

核心问题：现有的LLM-as-a-judge方法主要依赖最终层输出进行评估，忽略了模型内部丰富的跨层表示信息，导致与人类判断的对齐度不够理想。
重要性：
- LLM-as-a-judge在模型评估、数据合成、模型增强等场景中有广泛应用
- 提高评估的准确性和与人类偏好的一致性对于AI系统的可靠性至关重要
- 大规模评估任务需要高效且准确的自动化评估方法
现有方法局限性：
- 基于提示的方法需要复杂的推理步骤，增加计算成本
- 微调方法面临泛化问题，适应性有限
- 传统方法仅依赖最终层输出，忽略了中间层的语义信息
研究动机：
- 初步研究发现中上层（约20-30层）与人类评分的相关性往往高于最终层
- 不同层编码不同类型的信息：底层关注词汇信息，中上层关注语义和全局信息
- 需要一种轻量级、即插即用的方法来利用这些内部表示

核心贡献

提出LAGER框架：一个事后的、即插即用的框架，通过聚合跨层内部表示来改善LLM-as-a-judge与人类评分的对齐
发现中间层的优势：通过实证研究证明中上层表示比最终层更符合人类判断
实现显著性能提升：在Flask、HelpSteer、BIGGen三个标准对齐基准上实现最多7.5%的改进
证明泛化能力：在指令数据选择、情感理解等下游应用中展现良好的泛化性能
提供轻量级解决方案：仅需训练少量权重参数（L+1个），保持模型主干冻结

方法详解

任务定义

输入：评估任务描述、用户指令、待评估响应、评分标准输出：细粒度的连续评分（而非离散的整数评分）约束：保持LLM主干参数冻结，不影响原有推理过程

模型架构

1. 基础框架

对于解码器模型，传统方法仅使用最终层隐藏状态：

h^(L)_n = f^(L)_decoder ∘ ··· ∘ f^(1)_decoder ∘ f_embd(x<n)

2. LAGER核心机制

跨层logits聚合：

ẑ = Σ(i=0 to L) w_i * ẑ_i = Σ(i=0 to L) w_i * h^(i)_n * W_unembd

候选评分提取：

ẑ[M] = Σ(i=0 to L) w_i * [h^(i)_n * W_unembd]_M

其中M = {Tokenize(s)|s ∈ S}为候选评分标记集合

概率分布计算：

P(s) = exp(ẑ[s]) / Σ(s'∈S) exp(ẑ[s'])

期望评分：

s* = E_s~P(s)[s] = Σ(s∈S) s × P(s)

3. 权重训练策略

提供两种权重设置：

无调优版本：平均聚合 w_l = 1/(L+1)
调优版本：使用组合损失函数训练权重

损失函数：

L_Final = α·L_CE + (1-α)·L_MAE

其中交叉熵损失处理离散标签，MAE损失处理连续评分

技术创新点

跨层信息融合：首次系统性地利用Transformer所有层的内部表示进行评估
期望评分机制：通过概率分布计算连续评分，而非简单的argmax操作
即插即用设计：不修改原模型参数和推理过程，可直接应用于现有模型
轻量级训练：仅需训练L+1个权重参数，训练成本极低

实验设置

数据集

Flask：2,001个条目，包含12个评分维度（简洁性、洞察力、可读性等）
HelpSteer：8.95k数据点，基于5个标准评估（有用性、正确性、连贯性等）
BiGGen Bench：涵盖77个任务的综合评估基准，评估9种生成能力

评价指标

主要指标：Spearman相关系数（适用于序数数据，对异常值鲁棒）
辅助指标：Pearson相关系数

对比方法

非训练基线：GPTScore、Vanilla Score (VScore)、Expectation Score (E-Score)
API模型：GPT-4o-mini
微调模型：TIGERScore-7B、Prometheus2-7B（仅作参考）

实现细节

模型：6个不同规模的主干模型（7B-70B）
解码策略：贪婪解码确保稳定性
评估条件：直接评估和推理评估两种设置
权重训练：使用1000个HelpSteer样本，Adam优化器，学习率0.01

实验结果

主要结果

性能提升显著：

LAGER在所有基准上均优于非训练基线
平均Spearman相关性提升：无调优版本4.5%，调优版本更高
在某些模型上达到7.5%的最大改进

关键发现：

跨模型一致性：在6个不同规模模型上均取得改进
与API模型竞争：使开源模型达到GPT-4o-mini水平
超越微调方法：InternLM3-8B和LLaMA3.1-8B超越同规模的Prometheus2-7B

消融实验

组件重要性排序：

期望评分 > 最大评分（提升+0.17）
Logits聚合 > 概率聚合（提升+0.07）
权重调优带来+0.10改进
多层集成对不同模型效果不同

跨规模分析

规模效应：

在Qwen2.5系列（0.5B-72B）上验证
LAGER的改进随模型规模增长而放大
在72B模型上达到最佳性能（Flask: 0.658 Spearman）

案例分析

分布对齐：

LAGER生成的评分分布更接近人类标注
KL散度从0.312降至0.087
MSE从0.112降至0.060

结论与讨论

主要结论

中间层优势：中上层表示确实比最终层更符合人类判断
轻量级有效性：仅训练少量参数即可显著改进性能
推理非必需：无需显式推理步骤即可达到或超越推理方法
良好泛化性：在多个下游任务中表现优异

局限性

开源模型限制：需要访问模型内部状态，无法应用于闭源API模型
计算开销：需要额外计算所有层的隐藏状态
权重通用性：不同模型族可能需要重新训练权重

未来方向

理论分析：深入理解不同层表示的语义特性
效率优化：减少计算开销的方法
适应性权重：自适应调整不同层权重的机制

深度评价

优点

创新性强：首次系统性利用Transformer内部表示进行评估
实用价值高：即插即用设计，易于部署
实验充分：多个基准、多种模型规模的全面评估
理论支撑：通过层间相似性分析等提供理论洞察

不足

适用范围限制：仅适用于开源模型
机制解释不足：对为什么中间层更好缺乏深入的理论解释
计算成本：虽然参数少，但推理时需要计算所有层

影响力

学术贡献：为LLM内部表示研究提供新视角
实用价值：为开源模型评估提供有效工具
可复现性：代码公开，实验可重现

适用场景

模型评估：改进现有评估流程
数据筛选：高质量训练数据筛选
质量控制：生成内容的自动质量评估
研究工具：LLM内部机制研究

参考文献

本文引用了大量相关工作，包括：

LLM-as-a-judge相关研究（Lin & Chen, 2023; Liu et al., 2023等）
内部表示研究（Wang et al., 2020; Yang et al., 2022等）
评估基准和方法（Ye et al., 2024; Kim et al., 2024等）

总体评价：这是一篇高质量的研究论文，提出了创新的LAGER框架，通过利用LLM内部表示显著改进了自动评估的人类对齐度。方法简单有效，实验全面充分，具有重要的学术价值和实用意义。主要局限在于仅适用于开源模型，但在当前开源LLM快速发展的背景下，该工作仍具有广泛的应用前景。