2025-11-21T01:25:15.792540

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

Lai, Zheng, Cheng et al.

The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.

academic

Más Allá de la Superficie: Mejorando la Alineación del LLM-as-a-Judge con Humanos a través de Representaciones Internas

Información Básica

ID del Artículo: 2508.03550
Título: Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
Autores: Peng Lai, Jianjie Zheng, Sijie Cheng, Yun Chen, Peng Li, Yang Liu, Guanhua Chen
Clasificación: cs.CL (Lingüística Computacional)
Conferencia de Publicación: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS 2025)
Enlace del Artículo: https://arxiv.org/abs/2508.03550

Resumen

Con la expansión continua de la escala de tareas de evaluación, el paradigma de "LLM-as-a-judge" para evaluación automatizada mediante modelos de lenguaje grande ha sido ampliamente adoptado. Sin embargo, mejorar su alineación con las preferencias humanas sin utilizar indicaciones complejas o ajuste fino sigue siendo desafiante. Las investigaciones anteriores se han basado principalmente en optimizaciones de salidas superficiales, ignorando las ricas representaciones entre capas. Motivado por hallazgos preliminares que demuestran que las representaciones semánticas y relacionadas con tareas codificadas en capas intermedias-superiores a menudo se alinean mejor con los juicios humanos que la capa final, este trabajo propone LAGER, un marco posterior de conexión directa que mejora la alineación de la evaluación puntual de LLM-as-a-Judge con las puntuaciones humanas mediante la utilización de representaciones internas. LAGER genera puntuaciones de juicio de grano fino agregando logits de puntuación entre capas y calculando puntuaciones esperadas a partir de distribuciones basadas en softmax, mientras mantiene congelado el tronco del LLM y asegura que no afecte el proceso de inferencia.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: Los métodos existentes de LLM-as-a-judge dependen principalmente de la salida de la capa final para la evaluación, ignorando la información de representaciones entre capas dentro del modelo, lo que resulta en una alineación subóptima con los juicios humanos.
Importancia:
- LLM-as-a-judge tiene aplicaciones generalizadas en evaluación de modelos, síntesis de datos y mejora de modelos
- Mejorar la precisión de la evaluación y la consistencia con las preferencias humanas es crucial para la confiabilidad de los sistemas de IA
- Las tareas de evaluación a gran escala requieren métodos de evaluación automatizada eficientes y precisos
Limitaciones de Métodos Existentes:
- Los métodos basados en indicaciones requieren pasos de razonamiento complejos, aumentando el costo computacional
- Los métodos de ajuste fino enfrentan problemas de generalización con adaptabilidad limitada
- Los métodos tradicionales dependen únicamente de la salida de la capa final, ignorando la información semántica de capas intermedias
Motivación de la Investigación:
- Investigaciones preliminares demuestran que capas intermedias-superiores (aproximadamente capas 20-30) frecuentemente tienen mayor correlación con puntuaciones humanas que la capa final
- Diferentes capas codifican diferentes tipos de información: capas inferiores se enfocan en información léxica, capas intermedias-superiores en información semántica y global
- Se necesita un método ligero e inmediatamente aplicable para aprovechar estas representaciones internas

Contribuciones Principales

Propuesta del Marco LAGER: Un marco posterior e inmediatamente aplicable que mejora la alineación de LLM-as-a-judge con puntuaciones humanas mediante agregación de representaciones internas entre capas
Descubrimiento de Ventajas de Capas Intermedias: Demostración empírica de que las representaciones de capas intermedias-superiores se alinean mejor con los juicios humanos que la capa final
Logro de Mejoras Significativas de Rendimiento: Implementación de mejoras de hasta 7.5% en tres puntos de referencia estándar de alineación: Flask, HelpSteer y BIGGen
Demostración de Capacidad de Generalización: Exhibición de buen rendimiento de generalización en aplicaciones descendentes como selección de datos de instrucciones y comprensión de sentimientos
Provisión de Solución Ligera: Requiere entrenamiento de solo un pequeño número de parámetros de peso (L+1), manteniendo el tronco del modelo congelado

Explicación Detallada del Método

Definición de la Tarea

Entrada: Descripción de la tarea de evaluación, instrucción del usuario, respuesta a evaluar, criterios de puntuación Salida: Puntuación continua de grano fino (en lugar de puntuación entera discreta) Restricciones: Mantener los parámetros del tronco del LLM congelados, sin afectar el proceso de inferencia existente

Arquitectura del Modelo

1. Marco Base

Para modelos decodificadores, el método tradicional utiliza solo el estado oculto de la capa final:

h^(L)_n = f^(L)_decoder ∘ ··· ∘ f^(1)_decoder ∘ f_embd(x<n)

2. Mecanismo Central de LAGER

Agregación de Logits Entre Capas:

ẑ = Σ(i=0 a L) w_i * ẑ_i = Σ(i=0 a L) w_i * h^(i)_n * W_unembd

Extracción de Puntuaciones Candidatas:

ẑ[M] = Σ(i=0 a L) w_i * [h^(i)_n * W_unembd]_M

donde M = {Tokenize(s)|s ∈ S} es el conjunto de tokens de puntuación candidatos

Cálculo de Distribución de Probabilidad:

P(s) = exp(ẑ[s]) / Σ(s'∈S) exp(ẑ[s'])

Puntuación Esperada:

s* = E_s~P(s)[s] = Σ(s∈S) s × P(s)

3. Estrategia de Entrenamiento de Pesos

Se proporcionan dos configuraciones de pesos:

Versión sin Ajuste: Agregación promediada w_l = 1/(L+1)
Versión Ajustada: Entrenamiento de pesos utilizando función de pérdida combinada

Función de Pérdida:

L_Final = α·L_CE + (1-α)·L_MAE

donde la pérdida de entropía cruzada maneja etiquetas discretas y la pérdida MAE maneja puntuaciones continuas

Puntos de Innovación Técnica

Fusión de Información Entre Capas: Utilización sistemática por primera vez de representaciones internas de todas las capas de Transformer para evaluación
Mecanismo de Puntuación Esperada: Cálculo de puntuaciones continuas mediante distribución de probabilidad, en lugar de operaciones simples de argmax
Diseño Inmediatamente Aplicable: Sin modificación de parámetros del modelo original ni proceso de inferencia, aplicable directamente a modelos existentes
Entrenamiento Ligero: Requiere entrenamiento de solo L+1 parámetros de peso, con costo de entrenamiento extremadamente bajo

Configuración Experimental

Conjuntos de Datos

Flask: 2,001 entradas, incluyendo 12 dimensiones de puntuación (concisión, perspicacia, legibilidad, etc.)
HelpSteer: 8.95k puntos de datos, evaluación basada en 5 estándares (utilidad, corrección, coherencia, etc.)
BiGGen Bench: Punto de referencia de evaluación integral que abarca 77 tareas, evaluando 9 capacidades de generación

Métricas de Evaluación

Métrica Principal: Coeficiente de Correlación de Spearman (apropiado para datos ordinales, robusto ante valores atípicos)
Métricas Auxiliares: Coeficiente de Correlación de Pearson

Métodos de Comparación

Líneas Base sin Entrenamiento: GPTScore, Vanilla Score (VScore), Expectation Score (E-Score)
Modelos API: GPT-4o-mini
Modelos Ajustados Finamente: TIGERScore-7B, Prometheus2-7B (solo como referencia)

Detalles de Implementación

Modelos: 6 modelos de tronco de diferentes tamaños (7B-70B)
Estrategia de Decodificación: Decodificación codicioso para garantizar estabilidad
Condiciones de Evaluación: Dos configuraciones: evaluación directa y evaluación con razonamiento
Entrenamiento de Pesos: Utilizando 1000 muestras de HelpSteer, optimizador Adam, tasa de aprendizaje 0.01

Resultados Experimentales

Resultados Principales

Mejoras de Rendimiento Significativas:

LAGER supera a todas las líneas base sin entrenamiento en todos los puntos de referencia
Mejora promedio de correlación de Spearman: 4.5% para versión sin ajuste, mayor para versión ajustada
Mejora máxima de 7.5% en algunos modelos

Hallazgos Clave:

Consistencia Entre Modelos: Mejoras logradas en 6 modelos de diferentes tamaños
Competencia con Modelos API: Permite que modelos de código abierto alcancen el nivel de GPT-4o-mini
Superación de Métodos Ajustados: InternLM3-8B y LLaMA3.1-8B superan a Prometheus2-7B del mismo tamaño

Experimentos de Ablación

Ordenamiento de Importancia de Componentes:

Puntuación Esperada > Puntuación Máxima (mejora +0.17)
Agregación de Logits > Agregación de Probabilidades (mejora +0.07)
Ajuste de Pesos proporciona mejora +0.10
La integración multicapa tiene efectos diferentes en diferentes modelos

Análisis Entre Escalas

Efectos de Escala:

Validación en serie Qwen2.5 (0.5B-72B)
Las mejoras de LAGER se amplifican con el aumento del tamaño del modelo
Mejor rendimiento alcanzado en modelo de 72B (Flask: 0.658 Spearman)

Análisis de Casos

Alineación de Distribución:

Las distribuciones de puntuación generadas por LAGER se alinean más cercanamente con anotaciones humanas
Divergencia KL reducida de 0.312 a 0.087
MSE reducido de 0.112 a 0.060

Trabajo Relacionado

Evaluación de Generación de Texto

Métricas Tradicionales: BLEU, ROUGE y otros métodos estadísticos con limitaciones evidentes
Métodos de Incrustación: BERTScore, BARTScore, etc., requieren respuestas de referencia
GPTScore: Basado en probabilidades de generación, pero ignora calidad semántica

LLM-as-a-Judge

Evaluación Puntual: Evaluación independiente de respuestas individuales
Comparación Pareada: Comparación directa de dos respuestas
Ordenamiento de Listas: Ordenamiento de múltiples respuestas

Clasificación de Métodos:

Basados en Indicaciones: Mejora de juicios mediante pasos de razonamiento
Basados en Ajuste Fino: Entrenamiento especializado de modelos de evaluación

Conclusiones y Discusión

Conclusiones Principales

Ventaja de Capas Intermedias: Las representaciones de capas intermedias-superiores efectivamente se alinean mejor con los juicios humanos que la capa final
Efectividad Ligera: El entrenamiento de solo un pequeño número de parámetros puede mejorar significativamente el rendimiento
Razonamiento No Necesario: Se pueden lograr o superar métodos de razonamiento sin pasos de razonamiento explícitos
Buena Generalización: Desempeño excelente en múltiples tareas descendentes

Limitaciones

Restricciones de Modelos de Código Abierto: Requiere acceso a estados internos del modelo, no aplicable a modelos API cerrados
Costo Computacional: Requiere cálculo adicional de estados ocultos de todas las capas
Universalidad de Pesos: Diferentes familias de modelos pueden requerir reentrenamiento de pesos

Direcciones Futuras

Análisis Teórico: Comprensión profunda de características semánticas de representaciones en diferentes capas
Optimización de Eficiencia: Métodos para reducir costo computacional
Pesos Adaptativos: Mecanismos para ajuste adaptativo de pesos de diferentes capas

Evaluación Profunda

Fortalezas

Innovación Fuerte: Utilización sistemática por primera vez de representaciones internas de Transformer para evaluación
Alto Valor Práctico: Diseño inmediatamente aplicable, fácil de desplegar
Experimentación Completa: Evaluación integral en múltiples puntos de referencia y tamaños de modelos
Apoyo Teórico: Proporciona perspectivas teóricas mediante análisis de similitud entre capas

Insuficiencias

Limitaciones de Rango de Aplicación: Solo aplicable a modelos de código abierto
Explicación de Mecanismo Insuficiente: Falta de explicación teórica profunda sobre por qué las capas intermedias son mejores
Costo Computacional: Aunque con pocos parámetros, la inferencia requiere cálculo de todas las capas

Impacto

Contribución Académica: Proporciona nueva perspectiva para investigación de representaciones internas de LLM
Valor Práctico: Proporciona herramienta efectiva para evaluación de modelos de código abierto
Reproducibilidad: Código público, experimentos reproducibles

Escenarios Aplicables

Evaluación de Modelos: Mejora de procesos de evaluación existentes
Filtrado de Datos: Filtrado de datos de entrenamiento de alta calidad
Control de Calidad: Evaluación automática de calidad de contenido generado
Herramienta de Investigación: Investigación de mecanismos internos de LLM

Referencias Bibliográficas

Este artículo cita ampliamente trabajos relacionados, incluyendo:

Investigación relacionada con LLM-as-a-judge (Lin & Chen, 2023; Liu et al., 2023, etc.)
Investigación de representaciones internas (Wang et al., 2020; Yang et al., 2022, etc.)
Puntos de referencia y métodos de evaluación (Ye et al., 2024; Kim et al., 2024, etc.)

Evaluación General: Este es un artículo de investigación de alta calidad que propone el marco innovador LAGER, mejorando significativamente la alineación con humanos de la evaluación automatizada mediante la utilización de representaciones internas de LLM. El método es simple y efectivo, la experimentación es completa y exhaustiva, con importante valor académico y práctico. La limitación principal radica en su aplicabilidad solo a modelos de código abierto, pero dado el rápido desarrollo actual de LLM de código abierto, este trabajo aún posee amplias perspectivas de aplicación.