Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
Lai, Zheng, Cheng et al.
The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.
academic
За поверхностью: улучшение выравнивания LLM-as-a-Judge с человеком через внутренние представления
С расширением масштабов задач оценки парадигма автоматической оценки с использованием больших языковых моделей "LLM-as-a-judge" получила широкое распространение. Однако повышение её выравнивания с предпочтениями человека без использования сложных подсказок или тонкой настройки остаётся сложной задачей. Предыдущие исследования в основном оптимизировали поверхностные выходные данные, игнорируя богатые кросс-слойные представления. Вдохновлённые предварительными находками — что семантические и связанные с задачей представления, кодируемые в средних и верхних слоях, часто лучше согласуются с человеческими суждениями, чем финальный слой — авторы предлагают LAGER, постфактум подключаемый фреймворк, который улучшает выравнивание поточечной оценки LLM-as-a-Judge с человеческими оценками путём использования внутренних представлений. LAGER создаёт детализированные оценки суждений путём агрегирования логитов маркеров оценок по слоям и вычисления ожидаемой оценки из распределений на основе softmax, сохраняя при этом основной LLM замороженным и обеспечивая отсутствие влияния на процесс вывода.
Основная проблема: существующие методы LLM-as-a-judge в основном полагаются на выходные данные финального слоя для оценки, игнорируя богатую информацию кросс-слойных представлений внутри модели, что приводит к неоптимальному выравниванию с человеческими суждениями.
Значимость:
LLM-as-a-judge широко применяется в оценке моделей, синтезе данных, улучшении моделей
Повышение точности оценки и согласованности с предпочтениями человека критично для надёжности систем ИИ
Крупномасштабные задачи оценки требуют эффективных и точных методов автоматической оценки
Ограничения существующих методов:
Методы на основе подсказок требуют сложных этапов рассуждения, увеличивая вычислительные затраты
Методы тонкой настройки сталкиваются с проблемами обобщения, имеют ограниченную адаптивность
Традиционные методы полагаются только на выходные данные финального слоя, игнорируя семантическую информацию промежуточных слоёв
Исследовательская мотивация:
Предварительные исследования показывают, что средние и верхние слои (примерно 20-30 слои) часто имеют более высокую корреляцию с человеческими оценками, чем финальный слой
Разные слои кодируют разные типы информации: нижние слои сосредоточены на лексической информации, средние и верхние — на семантике и глобальной информации
Требуется лёгкий, подключаемый метод для использования этих внутренних представлений
Предложение фреймворка LAGER: постфактум подключаемый фреймворк, который улучшает выравнивание LLM-as-a-judge с человеческими оценками путём агрегирования кросс-слойных внутренних представлений
Обнаружение преимуществ промежуточных слоёв: эмпирическое доказательство того, что представления средних и верхних слоёв лучше согласуются с человеческими суждениями, чем финальный слой
Достижение значительного улучшения производительности: до 7,5% улучшения на трёх стандартных бенчмарках выравнивания Flask, HelpSteer и BIGGen
Демонстрация способности к обобщению: хорошая производительность обобщения в приложениях выбора данных инструкций и понимания эмоций
Предоставление лёгкого решения: требуется обучение только небольшого количества параметров весов (L+1), основной модель остаётся замороженной
Входные данные: описание задачи оценки, инструкция пользователя, оцениваемый ответ, критерии оценки
Выходные данные: детализированная непрерывная оценка (а не дискретная целочисленная оценка)
Ограничения: сохранение параметров основного LLM замороженными, отсутствие влияния на исходный процесс вывода
Статья цитирует большое количество связанных работ, включая:
Исследования LLM-as-a-judge (Lin & Chen, 2023; Liu et al., 2023 и др.)
Исследования внутренних представлений (Wang et al., 2020; Yang et al., 2022 и др.)
Бенчмарки и методы оценки (Ye et al., 2024; Kim et al., 2024 и др.)
Общая оценка: это высококачественная исследовательская статья, предлагающая инновационный фреймворк LAGER, который значительно улучшает выравнивание автоматической оценки с человеком путём использования внутренних представлений LLM. Метод простой и эффективный, эксперименты полные и тщательные, работа имеет важное академическое значение и практическую ценность. Основное ограничение заключается в применимости только к открытым моделям, однако в контексте быстрого развития открытых LLM эта работа всё ещё имеет широкие перспективы применения.