Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
Lai, Zheng, Cheng et al.
The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.
academic
Más Allá de la Superficie: Mejorando la Alineación del LLM-as-a-Judge con Humanos a través de Representaciones Internas
Con la expansión continua de la escala de tareas de evaluación, el paradigma de "LLM-as-a-judge" para evaluación automatizada mediante modelos de lenguaje grande ha sido ampliamente adoptado. Sin embargo, mejorar su alineación con las preferencias humanas sin utilizar indicaciones complejas o ajuste fino sigue siendo desafiante. Las investigaciones anteriores se han basado principalmente en optimizaciones de salidas superficiales, ignorando las ricas representaciones entre capas. Motivado por hallazgos preliminares que demuestran que las representaciones semánticas y relacionadas con tareas codificadas en capas intermedias-superiores a menudo se alinean mejor con los juicios humanos que la capa final, este trabajo propone LAGER, un marco posterior de conexión directa que mejora la alineación de la evaluación puntual de LLM-as-a-Judge con las puntuaciones humanas mediante la utilización de representaciones internas. LAGER genera puntuaciones de juicio de grano fino agregando logits de puntuación entre capas y calculando puntuaciones esperadas a partir de distribuciones basadas en softmax, mientras mantiene congelado el tronco del LLM y asegura que no afecte el proceso de inferencia.
Problema Central: Los métodos existentes de LLM-as-a-judge dependen principalmente de la salida de la capa final para la evaluación, ignorando la información de representaciones entre capas dentro del modelo, lo que resulta en una alineación subóptima con los juicios humanos.
Importancia:
LLM-as-a-judge tiene aplicaciones generalizadas en evaluación de modelos, síntesis de datos y mejora de modelos
Mejorar la precisión de la evaluación y la consistencia con las preferencias humanas es crucial para la confiabilidad de los sistemas de IA
Las tareas de evaluación a gran escala requieren métodos de evaluación automatizada eficientes y precisos
Limitaciones de Métodos Existentes:
Los métodos basados en indicaciones requieren pasos de razonamiento complejos, aumentando el costo computacional
Los métodos de ajuste fino enfrentan problemas de generalización con adaptabilidad limitada
Los métodos tradicionales dependen únicamente de la salida de la capa final, ignorando la información semántica de capas intermedias
Motivación de la Investigación:
Investigaciones preliminares demuestran que capas intermedias-superiores (aproximadamente capas 20-30) frecuentemente tienen mayor correlación con puntuaciones humanas que la capa final
Diferentes capas codifican diferentes tipos de información: capas inferiores se enfocan en información léxica, capas intermedias-superiores en información semántica y global
Se necesita un método ligero e inmediatamente aplicable para aprovechar estas representaciones internas
Propuesta del Marco LAGER: Un marco posterior e inmediatamente aplicable que mejora la alineación de LLM-as-a-judge con puntuaciones humanas mediante agregación de representaciones internas entre capas
Descubrimiento de Ventajas de Capas Intermedias: Demostración empírica de que las representaciones de capas intermedias-superiores se alinean mejor con los juicios humanos que la capa final
Logro de Mejoras Significativas de Rendimiento: Implementación de mejoras de hasta 7.5% en tres puntos de referencia estándar de alineación: Flask, HelpSteer y BIGGen
Demostración de Capacidad de Generalización: Exhibición de buen rendimiento de generalización en aplicaciones descendentes como selección de datos de instrucciones y comprensión de sentimientos
Provisión de Solución Ligera: Requiere entrenamiento de solo un pequeño número de parámetros de peso (L+1), manteniendo el tronco del modelo congelado
Entrada: Descripción de la tarea de evaluación, instrucción del usuario, respuesta a evaluar, criterios de puntuación
Salida: Puntuación continua de grano fino (en lugar de puntuación entera discreta)
Restricciones: Mantener los parámetros del tronco del LLM congelados, sin afectar el proceso de inferencia existente
Fusión de Información Entre Capas: Utilización sistemática por primera vez de representaciones internas de todas las capas de Transformer para evaluación
Mecanismo de Puntuación Esperada: Cálculo de puntuaciones continuas mediante distribución de probabilidad, en lugar de operaciones simples de argmax
Diseño Inmediatamente Aplicable: Sin modificación de parámetros del modelo original ni proceso de inferencia, aplicable directamente a modelos existentes
Entrenamiento Ligero: Requiere entrenamiento de solo L+1 parámetros de peso, con costo de entrenamiento extremadamente bajo
Ventaja de Capas Intermedias: Las representaciones de capas intermedias-superiores efectivamente se alinean mejor con los juicios humanos que la capa final
Efectividad Ligera: El entrenamiento de solo un pequeño número de parámetros puede mejorar significativamente el rendimiento
Razonamiento No Necesario: Se pueden lograr o superar métodos de razonamiento sin pasos de razonamiento explícitos
Buena Generalización: Desempeño excelente en múltiples tareas descendentes
Este artículo cita ampliamente trabajos relacionados, incluyendo:
Investigación relacionada con LLM-as-a-judge (Lin & Chen, 2023; Liu et al., 2023, etc.)
Investigación de representaciones internas (Wang et al., 2020; Yang et al., 2022, etc.)
Puntos de referencia y métodos de evaluación (Ye et al., 2024; Kim et al., 2024, etc.)
Evaluación General: Este es un artículo de investigación de alta calidad que propone el marco innovador LAGER, mejorando significativamente la alineación con humanos de la evaluación automatizada mediante la utilización de representaciones internas de LLM. El método es simple y efectivo, la experimentación es completa y exhaustiva, con importante valor académico y práctico. La limitación principal radica en su aplicabilidad solo a modelos de código abierto, pero dado el rápido desarrollo actual de LLM de código abierto, este trabajo aún posee amplias perspectivas de aplicación.