2025-11-15T10:52:11.758296

From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization

Wang, Su, Tian et al.
Improving the multi-step reasoning ability of Large Language Models (LLMs) is a critical yet challenging task. The dominant paradigm, outcome-supervised reinforcement learning (RLVR), rewards only correct final answers, often propagating flawed reasoning and suffering from sparse reward signals. While process-level reward models (PRMs) provide denser, step-by-step feedback, they lack generalizability and interpretability, requiring task-specific segmentation of the reasoning process. To this end, we propose the Dimension-level Reward Model (DRM), a new supervision framework that bridges the gap between these two approaches. DRM evaluates the quality of a reasoning process along three fundamental, complementary, and interpretable dimensions: Confidence for uncertainty calibration, Relevance for semantic alignment, and Coherence for logical consistency. Together, these dimensions capture aspects beyond final answer correctness and enable interpretable assessment without requiring ground truth answers. Experimental results show that DRM provides effective supervision signals, guides the optimization of LLMs and enhances their reasoning ability. In particular, DRM-supervised training achieves consistent gains on both in-distribution and out-of-distribution open-domain tasks, including mathematics, question answering, code execution, and puzzles. Our findings demonstrate that multidimensional supervision of the reasoning process can improve the generalized reasoning ability of LLMs beyond the training distribution.
academic

От к : Многомерный надзор над процессом рассуждения для оптимизации LLM

Основная информация

  • ID статьи: 2510.11457
  • Название: From to : Multidimensional Supervision of Reasoning Process for LLM Optimization
  • Авторы: Beining Wang, Weihang Su, Hongtao Tian, Tao Yang, Yujia Zhou, Ting Yao, Qingyao Ai, Yiqun Liu
  • Категория: cs.AI
  • Дата публикации: 13 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.11457

Аннотация

Повышение способности больших языковых моделей (LLM) к многошаговому рассуждению является ключевой, но сложной задачей. Основная парадигма — обучение с подкреплением на основе результатов (RLVR) — вознаграждает только правильные окончательные ответы, часто распространяя ошибочные рассуждения и страдая от разреженных сигналов вознаграждения. Хотя модели вознаграждения на уровне процесса (PRM) обеспечивают более плотную пошаговую обратную связь, им не хватает обобщаемости и интерпретируемости, требуя сегментации процесса рассуждения для конкретной задачи. В связи с этим авторы предлагают модель вознаграждения на уровне измерений (DRM) — новую структуру надзора, которая преодолевает разрыв между этими двумя подходами. DRM оценивает качество процесса рассуждения по трём фундаментальным, взаимодополняющим и интерпретируемым измерениям: уверенность (калибровка неопределённости), релевантность (семантическое выравнивание) и согласованность (логическая непротиворечивость). Эти измерения совместно охватывают аспекты, выходящие за рамки правильности окончательного ответа, обеспечивая интерпретируемую оценку без необходимости в истинных ответах. Экспериментальные результаты показывают, что DRM обеспечивает эффективные сигналы надзора, направляющие оптимизацию LLM и повышающие их способность к рассуждению.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, с которой сталкиваются современные LLM в задачах многошагового рассуждения, заключается в следующем: как эффективно контролировать и оптимизировать качество процесса рассуждения, сосредоточиваясь не только на правильности окончательного ответа.

Ограничения существующих методов

  1. Проблемы RLVR:
    • Двоичное вознаграждение только на основе окончательного ответа, игнорирующее качество процесса рассуждения
    • Может вознаграждать случаи "правильный ответ, но ошибочное рассуждение"
    • Когда модель слишком сильная или слишком слабая, сигнал вознаграждения стремится к константе, ограничивая руководящую роль
  2. Ограничения PRM:
    • Требует сегментации процесса рассуждения на независимые шаги, что часто является задачеспецифичным
    • Недостаточная обобщаемость, сложность адаптации к открытым задачам
    • Как чёрный ящик оценки, не обладает интерпретируемостью

Исследовательская мотивация

Авторы заметили, что высокачественный процесс рассуждения должен обладать тремя ключевыми характеристиками: определённость относительно выходных данных, основание на заданных входных данных, внутренняя логическая непротиворечивость. На основе этого наблюдения предложена многомерная структура надзора.

Основные вклады

  1. Предложение структуры DRM: Впервые разложение надзора над рассуждением на три взаимодополняющих измерения (уверенность, релевантность, согласованность), обеспечивающие плотные и интерпретируемые сигналы надзора
  2. Решение ограничений существующих методов: Избежание проблемы разреженного вознаграждения RLVR и требования задачеспецифичной сегментации PRM
  3. Достижение значительного повышения производительности: Последовательное улучшение на нескольких открытых задачах, таких как MATH500 (+8,8), 2WIKI RAG (+8,7), CRUXEVAL (+7,1)
  4. Предоставление теоретических и практических insights: Доказательство того, что многомерный надзор над рассуждением может повысить способность LLM к обобщению рассуждений за пределами обучающего распределения

Подробное описание методологии

Определение задачи

Формальное определение: для входных данных I выходные данные модели O разлагаются на процесс рассуждения R и ответ A. В открытых сценариях I содержит вопрос Q и дополнительную информацию D. Вся структура вход-выход представляется четвёркой: (Q, D, R, A).

Трёхмерная структура DRM

1. Уверенность (Confidence)

Цель: Оценить определённость модели относительно её выходных данных Реализация:

scoreConf_R = (1/|R|) * Σ log p  (среднее логарифмическое вероятность всех токенов в R)
scoreConf_A = Σ log p  (сумма логарифмических вероятностей всех токенов в A)
scoreConf = scoreConf_R + scoreConf_A

2. Релевантность (Relevance)

Цель: Оценить семантические отношения процесса рассуждения с другими компонентами Реализация: Оценка трёх типов отношений

  • Q→R: через отношение естественного языкового вывода (NLI)
  • R↔D: через меру семантической релевантности
  • R→A: через отношение NLI

3. Согласованность (Coherence)

Цель: Оценить логическую непротиворечивость и текстовое качество процесса рассуждения Реализация: Использование внешней модели вознаграждения на уровне результатов (ORM) для оценки логической непротиворечивости, беглости и общего качества текста

Расчёт комбинированного вознаграждения

R^DRM_i = Σ_D w_D * s̃core^D_i

где D ∈ {Conf, Rel, Coh}, s̃core^D_i — нормализованный балл измерения, веса определяются поиском по сетке на валидационном наборе.

Стратегии оптимизации

Внеполитическая оптимизация (DPO)

L_DPO(θ) = -E[(I,O+,O-)] [log σ(β log π_θ(O+|I)/π_ref(O+|I) - β log π_θ(O-|I)/π_ref(O-|I))]

где O+ = argmax RDRM, O- = argmin RDRM

Внутриполитическая оптимизация (GRPO)

Комбинирование преимущества DRM с исходным преимуществом GRPO:

A_i,t = Â_i,t + Â^DRM_i,t

Экспериментальная установка

Модели

  • LLaMA-3.1-8B-Instruct: Базовая модель, лишённая врождённых способностей к рассуждению
  • R1-Distil-Llama8B: Специализированная модель рассуждения
  • Qwen3-8B: Гибридная модель рассуждения

Наборы данных

Охватывают 17 открытых задач:

  • Задачи кодирования: CodeMMLU, CodeScope, Cruxeval, Execution-v2
  • Задачи предпочтения: RM-Bench, UltraFeedback
  • Математические задачи: AIME24, AMC23, GSM8K, Math500
  • Научные вопросы: MMLU-Pro, GPQA
  • Логические рассуждения: MuSR, DROP, QASC
  • Вопросы и ответы, RAG: 2WikiMultihopQA, HotpotQA и их RAG варианты

Метрики оценки

  • Математические задачи: автоматическая проверка решения MATH-VERIFY
  • Другие задачи: точное совпадение (Exact Match)

Экспериментальные результаты

Основные результаты

RQ1: Может ли DRM надёжно определить правильность окончательного ответа?

Результаты на RewardBench 2 показывают, что DRM последовательно достигает более высокой точности, чем случайная выборка:

  • LLaMA3.1-8B-Instruct: 78,57% против 67,17%
  • R1-Distil-Llama8B: 76,16% против 63,46%
  • Qwen3-8B: 85,65% против 84,87%

RQ2 и RQ3: Эффективность надзора DRM

Результаты внеполитического обучения DPO показывают, что DRM@ANY последовательно превосходит RLVR@T+F:

Область задачиНабор данныхИсходныйRLVR@T+FDRM@ANY
КодCruxeval50,452,657,5
МатематикаMath50039,643,448,4
QA-RAG2wiki RAG31,235,839,9

RQ4: Эффект комбинирования RLVR и DRM

Внутриполитическое обучение GRPO показывает, что комбинированный метод обычно демонстрирует лучшие результаты или сопоставим с лучшим одиночным методом.

Абляционные исследования

Эксперименты с одномерным надзором показывают:

  • Одиночное измерение может улучшить результаты на некоторых задачах, но может также снизить производительность на других
  • Ни одно измерение не достаточно для получения надёжного улучшения на всех задачах
  • Комбинация многомерных подходов создаёт синергетический эффект, обеспечивая более широкое последовательное улучшение

Анализ примеров

Оценка GPT-4o показывает, что надзор DRM значительно снижает количество случаев "правильный ответ, но ошибочное рассуждение", доказывая, что DRM отдаёт предпочтение экземплярам с более высоким качеством рассуждения.

Связанные работы

Обучение с подкреплением и проверяемые вознаграждения (RLVR)

RLVR эффективно повышает способность LLM к рассуждению, используя автоматически проверяемые сигналы правильности в качестве вознаграждения, но страдает от разреженного вознаграждения и игнорирования качества процесса рассуждения.

Модели вознаграждения

  • Модели вознаграждения на уровне результатов (ORM): Оценивают общее качество ответа, но могут давать высокие оценки случаям, когда правильный ответ получен через ошибочное рассуждение
  • Модели вознаграждения на уровне процесса (PRM): Оценивают процесс рассуждения, а не только окончательный ответ, но требуют задачеспецифичной сегментации шагов

Заключение и обсуждение

Основные выводы

  1. DRM обеспечивает эффективные сигналы надзора, способные направлять оптимизацию LLM и повышать их способность к рассуждению
  2. Многомерный надзор над рассуждением достигает последовательного улучшения как на задачах внутри, так и вне распределения
  3. DRM успешно решает ключевые ограничения RLVR и PRM

Ограничения

  1. Установка весов требует поиска по сетке на валидационном наборе, что может ограничить кроссдоменное обобщение
  2. Зависимость от внешних моделей для оценки релевантности и согласованности увеличивает вычислительные затраты
  3. На некоторых задачах, требующих интенсивного рассуждения или знаний, прямой RLVR может конфликтовать с оптимизацией

Будущие направления

  1. Исследование механизмов адаптивной регулировки весов
  2. Изучение более эффективных методов оценки измерений
  3. Расширение на дополнительные измерения рассуждения и типы задач

Глубокая оценка

Преимущества

  1. Высокая инновационность: Впервые предложен многомерный надзор над рассуждением, заполняющий пробел между RLVR и PRM
  2. Прочная теоретическая база: Структура разработана на основе трёх ключевых характеристик высокачественного рассуждения
  3. Полные эксперименты: Проверка на 17 различных задачах, охватывающих несколько областей
  4. Хорошая интерпретируемость: Три измерения имеют чёткое семантическое значение и интерпретируемость
  5. Высокая практическая ценность: Достижение улучшений без необходимости в задачеспецифичных данных или обучении

Недостатки

  1. Вычислительные затраты: Требует нескольких внешних моделей для оценки измерений, увеличивая затраты на вывод
  2. Чувствительность к весам: Оптимальные конфигурации весов различаются для разных моделей, что может повлиять на обобщаемость
  3. Зависимость от оценки: Оценка релевантности и согласованности зависит от качества внешних моделей
  4. Недостаточный теоретический анализ: Отсутствует теоретический анализ того, почему эти три измерения являются оптимальным выбором

Влияние

  1. Академический вклад: Предоставляет новое направление исследований и структуру для надзора над рассуждением
  2. Практическая ценность: Может быть непосредственно применена к существующим процессам обучения LLM
  3. Воспроизводимость: Код и наборы данных открыты, облегчая воспроизведение и расширение

Применимые сценарии

  1. Сценарии приложений, требующие высокого качества процесса рассуждения
  2. Открытые задачи многошагового рассуждения
  3. Сценарии, где отсутствует большое количество аннотированных данных о шагах рассуждения
  4. Приложения, требующие интерпретируемой оценки рассуждения

Библиография

Статья цитирует важные работы в смежных областях оценки рассуждения, обучения с подкреплением и моделирования вознаграждения, обеспечивая прочную теоретическую базу и сравнение с baseline.


Общая оценка: Это высокачественная исследовательская статья, предлагающая инновационную многомерную структуру надзора над рассуждением, эффективно решающая ограничения существующих методов. Экспериментальный дизайн полный, результаты убедительны, и работа имеет важное теоретическое и практическое значение для повышения способности LLM к рассуждению.