From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization
Wang, Su, Tian et al.
Improving the multi-step reasoning ability of Large Language Models (LLMs) is a critical yet challenging task. The dominant paradigm, outcome-supervised reinforcement learning (RLVR), rewards only correct final answers, often propagating flawed reasoning and suffering from sparse reward signals. While process-level reward models (PRMs) provide denser, step-by-step feedback, they lack generalizability and interpretability, requiring task-specific segmentation of the reasoning process. To this end, we propose the Dimension-level Reward Model (DRM), a new supervision framework that bridges the gap between these two approaches. DRM evaluates the quality of a reasoning process along three fundamental, complementary, and interpretable dimensions: Confidence for uncertainty calibration, Relevance for semantic alignment, and Coherence for logical consistency. Together, these dimensions capture aspects beyond final answer correctness and enable interpretable assessment without requiring ground truth answers. Experimental results show that DRM provides effective supervision signals, guides the optimization of LLMs and enhances their reasoning ability. In particular, DRM-supervised training achieves consistent gains on both in-distribution and out-of-distribution open-domain tasks, including mathematics, question answering, code execution, and puzzles. Our findings demonstrate that multidimensional supervision of the reasoning process can improve the generalized reasoning ability of LLMs beyond the training distribution.
academic
От к : Многомерный надзор над процессом рассуждения для оптимизации LLM
Повышение способности больших языковых моделей (LLM) к многошаговому рассуждению является ключевой, но сложной задачей. Основная парадигма — обучение с подкреплением на основе результатов (RLVR) — вознаграждает только правильные окончательные ответы, часто распространяя ошибочные рассуждения и страдая от разреженных сигналов вознаграждения. Хотя модели вознаграждения на уровне процесса (PRM) обеспечивают более плотную пошаговую обратную связь, им не хватает обобщаемости и интерпретируемости, требуя сегментации процесса рассуждения для конкретной задачи. В связи с этим авторы предлагают модель вознаграждения на уровне измерений (DRM) — новую структуру надзора, которая преодолевает разрыв между этими двумя подходами. DRM оценивает качество процесса рассуждения по трём фундаментальным, взаимодополняющим и интерпретируемым измерениям: уверенность (калибровка неопределённости), релевантность (семантическое выравнивание) и согласованность (логическая непротиворечивость). Эти измерения совместно охватывают аспекты, выходящие за рамки правильности окончательного ответа, обеспечивая интерпретируемую оценку без необходимости в истинных ответах. Экспериментальные результаты показывают, что DRM обеспечивает эффективные сигналы надзора, направляющие оптимизацию LLM и повышающие их способность к рассуждению.
Основная проблема, с которой сталкиваются современные LLM в задачах многошагового рассуждения, заключается в следующем: как эффективно контролировать и оптимизировать качество процесса рассуждения, сосредоточиваясь не только на правильности окончательного ответа.
Авторы заметили, что высокачественный процесс рассуждения должен обладать тремя ключевыми характеристиками: определённость относительно выходных данных, основание на заданных входных данных, внутренняя логическая непротиворечивость. На основе этого наблюдения предложена многомерная структура надзора.
Предложение структуры DRM: Впервые разложение надзора над рассуждением на три взаимодополняющих измерения (уверенность, релевантность, согласованность), обеспечивающие плотные и интерпретируемые сигналы надзора
Решение ограничений существующих методов: Избежание проблемы разреженного вознаграждения RLVR и требования задачеспецифичной сегментации PRM
Достижение значительного повышения производительности: Последовательное улучшение на нескольких открытых задачах, таких как MATH500 (+8,8), 2WIKI RAG (+8,7), CRUXEVAL (+7,1)
Предоставление теоретических и практических insights: Доказательство того, что многомерный надзор над рассуждением может повысить способность LLM к обобщению рассуждений за пределами обучающего распределения
Формальное определение: для входных данных I выходные данные модели O разлагаются на процесс рассуждения R и ответ A. В открытых сценариях I содержит вопрос Q и дополнительную информацию D. Вся структура вход-выход представляется четвёркой: (Q, D, R, A).
Цель: Оценить определённость модели относительно её выходных данных
Реализация:
scoreConf_R = (1/|R|) * Σ log p (среднее логарифмическое вероятность всех токенов в R)
scoreConf_A = Σ log p (сумма логарифмических вероятностей всех токенов в A)
scoreConf = scoreConf_R + scoreConf_A
Цель: Оценить логическую непротиворечивость и текстовое качество процесса рассуждения
Реализация: Использование внешней модели вознаграждения на уровне результатов (ORM) для оценки логической непротиворечивости, беглости и общего качества текста
Внутриполитическое обучение GRPO показывает, что комбинированный метод обычно демонстрирует лучшие результаты или сопоставим с лучшим одиночным методом.
Оценка GPT-4o показывает, что надзор DRM значительно снижает количество случаев "правильный ответ, но ошибочное рассуждение", доказывая, что DRM отдаёт предпочтение экземплярам с более высоким качеством рассуждения.
RLVR эффективно повышает способность LLM к рассуждению, используя автоматически проверяемые сигналы правильности в качестве вознаграждения, но страдает от разреженного вознаграждения и игнорирования качества процесса рассуждения.
Модели вознаграждения на уровне результатов (ORM): Оценивают общее качество ответа, но могут давать высокие оценки случаям, когда правильный ответ получен через ошибочное рассуждение
Модели вознаграждения на уровне процесса (PRM): Оценивают процесс рассуждения, а не только окончательный ответ, но требуют задачеспецифичной сегментации шагов
Статья цитирует важные работы в смежных областях оценки рассуждения, обучения с подкреплением и моделирования вознаграждения, обеспечивая прочную теоретическую базу и сравнение с baseline.
Общая оценка: Это высокачественная исследовательская статья, предлагающая инновационную многомерную структуру надзора над рассуждением, эффективно решающая ограничения существующих методов. Экспериментальный дизайн полный, результаты убедительны, и работа имеет важное теоретическое и практическое значение для повышения способности LLM к рассуждению.