2025-11-21T01:25:15.792540

Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations

Lai, Zheng, Cheng et al.
The growing scale of evaluation tasks has led to the widespread adoption of automated evaluation using LLMs, a paradigm known as "LLM-as-a-judge". However, improving its alignment with human preferences without complex prompts or fine-tuning remains challenging. Previous studies mainly optimize based on shallow outputs, overlooking rich cross-layer representations. In this work, motivated by preliminary findings that middle-to-upper layers encode semantically and task-relevant representations that are often more aligned with human judgments than the final layer, we propose LAGER, a post-hoc, plug-and-play framework for improving the alignment of LLM-as-a-Judge point-wise evaluations with human scores by leveraging internal representations. LAGER produces fine-grained judgment scores by aggregating cross-layer score-token logits and computing the expected score from a softmax-based distribution, while keeping the LLM backbone frozen and ensuring no impact on the inference process. LAGER fully leverages the complementary information across different layers, overcoming the limitations of relying solely on the final layer. We evaluate our method on the standard alignment benchmarks Flask, HelpSteer, and BIGGen using Spearman correlation, and find that LAGER achieves improvements of up to 7.5% over the best baseline across these benchmarks. Without reasoning steps, LAGER matches or outperforms reasoning-based methods. Experiments on downstream applications, such as data selection and emotional understanding, further show the generalization of LAGER.
academic

За поверхностью: улучшение выравнивания LLM-as-a-Judge с человеком через внутренние представления

Основная информация

  • ID статьи: 2508.03550
  • Название: Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations
  • Авторы: Peng Lai, Jianjie Zheng, Sijie Cheng, Yun Chen, Peng Li, Yang Liu, Guanhua Chen
  • Категория: cs.CL (Вычислительная лингвистика)
  • Конференция: 39-я конференция по системам обработки нейронной информации (NeurIPS 2025)
  • Ссылка на статью: https://arxiv.org/abs/2508.03550

Аннотация

С расширением масштабов задач оценки парадигма автоматической оценки с использованием больших языковых моделей "LLM-as-a-judge" получила широкое распространение. Однако повышение её выравнивания с предпочтениями человека без использования сложных подсказок или тонкой настройки остаётся сложной задачей. Предыдущие исследования в основном оптимизировали поверхностные выходные данные, игнорируя богатые кросс-слойные представления. Вдохновлённые предварительными находками — что семантические и связанные с задачей представления, кодируемые в средних и верхних слоях, часто лучше согласуются с человеческими суждениями, чем финальный слой — авторы предлагают LAGER, постфактум подключаемый фреймворк, который улучшает выравнивание поточечной оценки LLM-as-a-Judge с человеческими оценками путём использования внутренних представлений. LAGER создаёт детализированные оценки суждений путём агрегирования логитов маркеров оценок по слоям и вычисления ожидаемой оценки из распределений на основе softmax, сохраняя при этом основной LLM замороженным и обеспечивая отсутствие влияния на процесс вывода.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: существующие методы LLM-as-a-judge в основном полагаются на выходные данные финального слоя для оценки, игнорируя богатую информацию кросс-слойных представлений внутри модели, что приводит к неоптимальному выравниванию с человеческими суждениями.
  2. Значимость:
    • LLM-as-a-judge широко применяется в оценке моделей, синтезе данных, улучшении моделей
    • Повышение точности оценки и согласованности с предпочтениями человека критично для надёжности систем ИИ
    • Крупномасштабные задачи оценки требуют эффективных и точных методов автоматической оценки
  3. Ограничения существующих методов:
    • Методы на основе подсказок требуют сложных этапов рассуждения, увеличивая вычислительные затраты
    • Методы тонкой настройки сталкиваются с проблемами обобщения, имеют ограниченную адаптивность
    • Традиционные методы полагаются только на выходные данные финального слоя, игнорируя семантическую информацию промежуточных слоёв
  4. Исследовательская мотивация:
    • Предварительные исследования показывают, что средние и верхние слои (примерно 20-30 слои) часто имеют более высокую корреляцию с человеческими оценками, чем финальный слой
    • Разные слои кодируют разные типы информации: нижние слои сосредоточены на лексической информации, средние и верхние — на семантике и глобальной информации
    • Требуется лёгкий, подключаемый метод для использования этих внутренних представлений

Основные вклады

  1. Предложение фреймворка LAGER: постфактум подключаемый фреймворк, который улучшает выравнивание LLM-as-a-judge с человеческими оценками путём агрегирования кросс-слойных внутренних представлений
  2. Обнаружение преимуществ промежуточных слоёв: эмпирическое доказательство того, что представления средних и верхних слоёв лучше согласуются с человеческими суждениями, чем финальный слой
  3. Достижение значительного улучшения производительности: до 7,5% улучшения на трёх стандартных бенчмарках выравнивания Flask, HelpSteer и BIGGen
  4. Демонстрация способности к обобщению: хорошая производительность обобщения в приложениях выбора данных инструкций и понимания эмоций
  5. Предоставление лёгкого решения: требуется обучение только небольшого количества параметров весов (L+1), основной модель остаётся замороженной

Подробное описание метода

Определение задачи

Входные данные: описание задачи оценки, инструкция пользователя, оцениваемый ответ, критерии оценки Выходные данные: детализированная непрерывная оценка (а не дискретная целочисленная оценка) Ограничения: сохранение параметров основного LLM замороженными, отсутствие влияния на исходный процесс вывода

Архитектура модели

1. Базовый фреймворк

Для моделей декодера традиционный метод использует только скрытое состояние финального слоя:

h^(L)_n = f^(L)_decoder ∘ ··· ∘ f^(1)_decoder ∘ f_embd(x<n)

2. Основной механизм LAGER

Агрегирование логитов по слоям:

ẑ = Σ(i=0 to L) w_i * ẑ_i = Σ(i=0 to L) w_i * h^(i)_n * W_unembd

Извлечение кандидатных оценок:

ẑ[M] = Σ(i=0 to L) w_i * [h^(i)_n * W_unembd]_M

где M = {Tokenize(s)|s ∈ S} — множество маркеров кандидатных оценок

Вычисление распределения вероятностей:

P(s) = exp(ẑ[s]) / Σ(s'∈S) exp(ẑ[s'])

Ожидаемая оценка:

s* = E_s~P(s)[s] = Σ(s∈S) s × P(s)

3. Стратегия обучения весов

Предоставляются два варианта установки весов:

  • Версия без настройки: средняя агрегация w_l = 1/(L+1)
  • Версия с настройкой: обучение весов с использованием комбинированной функции потерь

Функция потерь:

L_Final = α·L_CE + (1-α)·L_MAE

где потеря кросс-энтропии обрабатывает дискретные метки, а потеря MAE — непрерывные оценки

Технические инновации

  1. Слияние информации по слоям: первое систематическое использование внутренних представлений всех слоёв Transformer для оценки
  2. Механизм ожидаемой оценки: вычисление непрерывной оценки через распределение вероятностей, а не простую операцию argmax
  3. Подключаемый дизайн: не изменяет исходные параметры модели и процесс вывода, может быть напрямую применён к существующим моделям
  4. Лёгкое обучение: требуется обучение только L+1 параметров весов, минимальные затраты на обучение

Экспериментальная установка

Наборы данных

  1. Flask: 2 001 запись, включающая 12 измерений оценки (краткость, проницательность, читаемость и т. д.)
  2. HelpSteer: 8,95k точек данных, оценка на основе 5 стандартов (полезность, правильность, связность и т. д.)
  3. BiGGen Bench: комплексный бенчмарк оценки, охватывающий 77 задач, оценка 9 способностей генерации

Метрики оценки

  • Основная метрика: коэффициент корреляции Спирмена (подходит для порядковых данных, устойчив к выбросам)
  • Вспомогательная метрика: коэффициент корреляции Пирсона

Методы сравнения

  1. Базовые линии без обучения: GPTScore, Vanilla Score (VScore), Expectation Score (E-Score)
  2. Модели API: GPT-4o-mini
  3. Модели с тонкой настройкой: TIGERScore-7B, Prometheus2-7B (только для справки)

Детали реализации

  • Модели: 6 основных моделей разных размеров (7B-70B)
  • Стратегия декодирования: жадное декодирование для обеспечения стабильности
  • Условия оценки: два параметра — прямая оценка и оценка с рассуждением
  • Обучение весов: использование 1000 образцов HelpSteer, оптимизатор Adam, скорость обучения 0,01

Результаты экспериментов

Основные результаты

Значительное улучшение производительности:

  • LAGER превосходит все базовые линии без обучения на всех бенчмарках
  • Среднее улучшение корреляции Спирмена: 4,5% для версии без настройки, выше для версии с настройкой
  • На некоторых моделях достигается максимальное улучшение 7,5%

Ключевые находки:

  1. Кросс-модельная согласованность: улучшение достигнуто на 6 моделях разных размеров
  2. Конкуренция с моделями API: открытые модели достигают уровня GPT-4o-mini
  3. Превосходство методов тонкой настройки: InternLM3-8B и LLaMA3.1-8B превосходят Prometheus2-7B того же размера

Абляционные исследования

Порядок важности компонентов:

  1. Ожидаемая оценка > максимальная оценка (улучшение +0,17)
  2. Агрегирование логитов > агрегирование вероятностей (улучшение +0,07)
  3. Настройка весов даёт улучшение +0,10
  4. Интеграция нескольких слоёв имеет различные эффекты для разных моделей

Анализ по масштабам

Эффект масштаба:

  • Проверка на серии Qwen2.5 (0,5B-72B)
  • Улучшение LAGER увеличивается с размером модели
  • Лучшая производительность достигается на модели 72B (Flask: 0,658 Спирмена)

Анализ случаев

Выравнивание распределений:

  • Распределение оценок, генерируемых LAGER, ближе к человеческой аннотации
  • Дивергенция KL снижается с 0,312 до 0,087
  • MSE снижается с 0,112 до 0,060

Связанные работы

Оценка текстовой генерации

  • Традиционные метрики: BLEU, ROUGE и другие статистические методы имеют явные ограничения
  • Методы на основе встраивания: BERTScore, BARTScore и т. д. требуют эталонные ответы
  • GPTScore: основан на вероятности генерации, но игнорирует семантическое качество

LLM-as-a-Judge

  1. Поточечная оценка: независимая оценка отдельных ответов
  2. Попарное сравнение: прямое сравнение двух ответов
  3. Ранжирование списка: ранжирование нескольких ответов

Классификация методов:

  • На основе подсказок: улучшение суждений через этапы рассуждения
  • На основе тонкой настройки: специальное обучение моделей оценки

Выводы и обсуждение

Основные выводы

  1. Преимущество промежуточных слоёв: представления средних и верхних слоёв действительно лучше согласуются с человеческими суждениями, чем финальный слой
  2. Эффективность лёгкого решения: обучение небольшого количества параметров может значительно улучшить производительность
  3. Рассуждение не требуется: можно достичь или превзойти методы с рассуждением без явных этапов рассуждения
  4. Хорошее обобщение: отличная производительность на нескольких нижестоящих задачах

Ограничения

  1. Ограничения открытых моделей: требуется доступ к внутренним состояниям модели, не может быть применён к закрытым моделям API
  2. Вычислительные затраты: требуется дополнительное вычисление скрытых состояний всех слоёв
  3. Универсальность весов: разные семейства моделей могут требовать переобучения весов

Будущие направления

  1. Теоретический анализ: глубокое понимание семантических характеристик представлений разных слоёв
  2. Оптимизация эффективности: методы снижения вычислительных затрат
  3. Адаптивные веса: механизмы адаптивной настройки весов разных слоёв

Глубокая оценка

Преимущества

  1. Высокая инновационность: первое систематическое использование внутренних представлений Transformer для оценки
  2. Высокая практическая ценность: подключаемый дизайн, легко развёртывается
  3. Полные эксперименты: комплексная оценка на нескольких бенчмарках и моделях разных размеров
  4. Теоретическая поддержка: теоретические insights через анализ сходства между слоями

Недостатки

  1. Ограничения области применения: применимо только к открытым моделям
  2. Недостаточное объяснение механизма: отсутствует глубокое теоретическое объяснение того, почему промежуточные слои лучше
  3. Вычислительные затраты: хотя параметров мало, вывод требует вычисления всех слоёв

Влияние

  1. Академический вклад: предоставляет новую перспективу для исследования внутренних представлений LLM
  2. Практическая ценность: предоставляет эффективный инструмент для оценки открытых моделей
  3. Воспроизводимость: код открыт, эксперименты воспроизводимы

Применимые сценарии

  1. Оценка моделей: улучшение существующих процессов оценки
  2. Отбор данных: отбор высококачественных обучающих данных
  3. Контроль качества: автоматическая оценка качества генерируемого контента
  4. Исследовательский инструмент: исследование внутренних механизмов LLM

Библиография

Статья цитирует большое количество связанных работ, включая:

  • Исследования LLM-as-a-judge (Lin & Chen, 2023; Liu et al., 2023 и др.)
  • Исследования внутренних представлений (Wang et al., 2020; Yang et al., 2022 и др.)
  • Бенчмарки и методы оценки (Ye et al., 2024; Kim et al., 2024 и др.)

Общая оценка: это высококачественная исследовательская статья, предлагающая инновационный фреймворк LAGER, который значительно улучшает выравнивание автоматической оценки с человеком путём использования внутренних представлений LLM. Метод простой и эффективный, эксперименты полные и тщательные, работа имеет важное академическое значение и практическую ценность. Основное ограничение заключается в применимости только к открытым моделям, однако в контексте быстрого развития открытых LLM эта работа всё ещё имеет широкие перспективы применения.