2025-11-11T12:43:08.939159

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

Wang, Jiang, He et al.

Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.

academic

К иерархическим многошаговым моделям вознаграждения для улучшенного рассуждения в больших языковых моделях

Основная информация

ID статьи: 2503.13551
Название: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
Авторы: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
Классификация: cs.CL cs.AI
Дата публикации/конференция: препринт arXiv (октябрь 2025)
Ссылка на статью: https://arxiv.org/abs/2503.13551

Аннотация

Недавние исследования показывают, что большие языковые модели (LLM) могут приобретать мощные способности к рассуждению посредством контролируемой тонкой настройки или обучения с подкреплением. Однако ключевой метод — модели вознаграждения за процесс (PRM) — страдает от проблемы взлома вознаграждения, что делает её ненадёжной при выявлении оптимальных промежуточных шагов. Кроме того, аннотирование процессов рассуждения для моделирования вознаграждения обходится дорого, что затрудняет крупномасштабный сбор высококачественных данных. Для решения этих проблем в статье предлагается новый подход к моделированию вознаграждения — иерархическая модель вознаграждения (HRM), которая оценивает отдельные и последовательные шаги рассуждения на мелкозернистом и крупнозернистом уровнях. HRM хорошо справляется с оценкой согласованности многошагового рассуждения, особенно когда ошибочные шаги позже исправляются посредством самоанализа. Для дальнейшего снижения стоимости генерации обучающих данных вводится лёгкая и эффективная стратегия увеличения данных — иерархическое сжатие узлов (HNC), которое объединяет два последовательных шага рассуждения в дереве в один. Применяя HNC к траекториям рассуждения, генерируемым MCTS, мы повышаем разнообразие и надёжность обучающих данных HRM с минимальными вычислительными затратами, одновременно вводя контролируемый шум. Результаты экспериментов на наборе данных PRM800K показывают, что HRM в сочетании с HNC обеспечивает более стабильную и надёжную оценку по сравнению с PRM. Кроме того, кросс-доменная оценка на наборах данных MATH500 и GSM8K демонстрирует сильную способность к обобщению и надёжность HRM в различных задачах рассуждения.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование решает две ключевые проблемы в задачах математического рассуждения больших языковых моделей:

Проблема взлома вознаграждения: Существующие модели вознаграждения за процесс (PRM) легко подвергаются эксплуатации моделями, которые могут получать высокие баллы, используя сигналы вознаграждения, а не действительно улучшая рассуждение, что наносит ущерб надёжности в сложных задачах.
Высокие затраты на аннотирование: PRM требует дорогостоящего крупномасштабного ручного аннотирования шагов рассуждения, что ограничивает её надёжность и масштабируемость.

Значимость исследования

Математическое рассуждение является важной задачей для оценки способностей LLM к рассуждению. Существующие методы, такие как цепочка мыслей (CoT) и дерево мыслей (ToT), хотя и повышают производительность, всё ещё имеют критические ограничения:

Модели CoT не имеют механизма для обнаружения и исправления ошибок промежуточного рассуждения
Методы ToT не могут по сути проверить каждый промежуточный шаг или гарантировать получение оптимальной траектории рассуждения

Ограничения существующих методов

Модель вознаграждения за результат (ORM): Страдает от проблем отложенной обратной связи и распределения кредита, что затрудняет определение того, какие шаги рассуждения способствуют окончательному ответу
Модель вознаграждения за процесс (PRM): Хотя обеспечивает более мелкозернистый надзор, она подвержена взлому вознаграждения и имеет высокие затраты на аннотирование

Мотивация исследования

На основе вышеупомянутых проблем в статье предлагается иерархическая модель вознаграждения (HRM) для смягчения ограничений PRM. Путём объединения иерархических сигналов надзора на мелкозернистом (одношаговом) и крупнозернистом (многошаговом) уровнях во время обучения HRM может захватить локальную и глобальную согласованность в рассуждении.

Основные вклады

Предложение иерархической модели вознаграждения (HRM): Использует иерархический надзор обучающих данных на одношаговом и многошаговом уровнях для содействия согласованности многошагового рассуждения и способности к самокоррекции, с проверкой надёжности HRM на наборе данных PRM800K.
Введение иерархического сжатия узлов (HNC): Лёгкий метод увеличения данных MCTS, который значительно увеличивает разнообразие и надёжность обучающих данных HRM с минимальными вычислительными затратами.
Улучшение производительности модели политики: Дальнейшее повышение производительности рассуждения посредством тонкой настройки на высококачественных траекториях рассуждения, отфильтрованных из MCTS.
Проверка способности к обобщению: Демонстрация превосходства HRM над PRM в отношении согласованности рассуждения и способности к обобщению на наборах данных GSM8K и MATH500.

Подробное описание метода

Определение задачи

Статья сосредоточена на задачах математического рассуждения с целью оценки и улучшения производительности LLM при решении многошаговых математических задач. Входные данные — математическая задача, выходные данные — пошаговый процесс рассуждения и окончательный ответ, с ограничением на обеспечение корректности и согласованности шагов рассуждения.

Архитектура модели

Иерархическая модель вознаграждения (HRM)

Основная идея HRM заключается в использовании иерархического надзора во время обучения для оценки отдельных и последовательных шагов рассуждения:

Построение обучающих данных:

Обучающие данные PRM: $D_{PRM} = \{(s_i, R(s_i)) | 1 \leq i \leq N\}$
Обучающие данные HRM: $D_{HRM} = D_{PRM} \cup \{(s_i + s_{i+1}, R(s_i + s_{i+1})) | 1 \leq i < N\}$

где $s_i$ обозначает $i$ -й шаг рассуждения, $R(\cdot)$ — функция вознаграждения, $N$ — общее количество шагов в последовательности рассуждения.

Цели иерархического надзора:

Захват мелкозернистой и крупнозернистой согласованности
Реализация самоанализа и исправления ошибок

Фаза вывода: Хотя во время обучения используются объединённые шаги рассуждения, HRM при выводе по-прежнему оценивает пошагово, назначая вознаграждение только на основе текущего шага $s_i$ , подобно PRM.

Иерархическое сжатие узлов (HNC)

HNC — это метод увеличения данных, который повышает разнообразие обучающих данных путём объединения последовательных узлов в структуре дерева MCTS:

Основной механизм:

Случайное объединение двух последовательных узлов, каждый из которых соответствует шагу рассуждения
Удаление прямого соединения между узлами
Переориентация связей

Введение шума: Когда случайный узел удаляется, вес оставшихся дочерних узлов перераспределяется с $\frac{1}{N}$ на $\frac{1}{N-1}$ , дисперсия увеличивается с $\frac{\sigma^2}{N}$ на $\frac{\sigma^2}{N-1}$ , вводя контролируемый шум.

Технические инновации

Дизайн иерархического надзора: В отличие от PRM, который оценивает только отдельные шаги, HRM рассматривает взаимодействие между несколькими шагами, способен выявлять исправление последующими шагами ошибок на ранних этапах.
Способность к самокоррекции: В то время как традиционный PRM наказывает ошибочные отдельные шаги без учёта потенциального исправления в последующем рассуждении, HRM оценивает согласованность рассуждения между несколькими шагами.
Увеличение данных с низкими затратами: HNC достигает увеличения данных с минимальными вычислительными затратами (примерно 30 минут времени CPU), что почти незначительно по сравнению с 2457 часами GPU A100 для MCTS.

Экспериментальная установка

Наборы данных

PRM800K: Содержит вручную аннотированные траектории рассуждения, служит основой для обучения ORM, PRM и HRM
MATH500: Математические задачи уровня средней и высшей школы, используются для оценки способности к обобщению
GSM8K: Задачи прикладной математики начальной школы, содержат 1000 тестовых задач

Метрики оценки

Точность: Точность решения задач при стратегии Best-of-N
Стабильность: Степень стабильности производительности при увеличении N
Надёжность: Согласованность производительности в различных моделях политики и наборах данных

Методы сравнения

ORM (Outcome Reward Model): Оценка на основе всей цепочки рассуждения
PRM (Process Reward Model): Пошаговая оценка процесса рассуждения
HRM (Hierarchical Reward Model): Предложенная в статье иерархическая модель вознаграждения

Детали реализации

Модель вознаграждения: Тонкая настройка на основе Qwen2.5-1.5B-Math
Модель политики: Qwen2.5-72B-Math-Instruct, DeepSeek-Math-7B, Qwen2.5-7B-Math-Instruct
Конфигурация MCTS: 5-6 дочерних узлов на каждый родительский узел, максимальная глубина дерева 7
Оптимизация обучения: Использование FlashAttention, DeepSpeed и смешанной точности обучения

Результаты экспериментов

Основные результаты

Производительность Best-of-N на наборе данных PRM800K:

N	2	4	8	16	24
ORM	0.622	0.677	0.655	0.655	0.633
PRM	0.700	0.644	0.611	0.588	0.577
HRM	0.722	0.711	0.744	0.800	0.800

Ключевые находки:

HRM сохраняет стабильную производительность при увеличении N, точность стабилизируется на уровне 80%
ORM и PRM демонстрируют значительные колебания, точность снижается с ростом N
HRM показывает лучшую стабильность и надёжность

Эксперименты кросс-доменного обобщения

Результаты на наборах данных GSM8K и MATH500:

Набор данных	Метод	N=2	N=64	N=256	N=512
GSM8K	PRM	0.784	0.905	0.927	0.918
GSM8K	HRM	0.784	0.907	0.930	0.926
MATH500	PRM	0.468	0.656	0.686	0.688
MATH500	HRM	0.490	0.742	0.740	0.736

Важные наблюдения:

На сложном наборе данных MATH500 HRM значительно превосходит PRM
На относительно простом наборе GSM8K различие меньше, но HRM всё ещё немного лучше
HRM демонстрирует более сильную кросс-доменную надёжность

Абляционные эксперименты

Сравнение с различными моделями политики: HRM, обученная на автоматически аннотированных данных, генерируемых MCTS, демонстрирует лучшую стабильность, чем PRM, на нескольких моделях политики:

DeepSeek-Math-7B
Qwen2.5-72B-Math
Qwen2.5-7B-Math

Эксперименты самообучения

Дальнейшее повышение производительности модели политики достигнуто посредством контролируемой тонкой настройки с регуляризацией дивергенции Кульбака-Лейблера, что подтверждает ценность высококачественных данных рассуждения.

Связанные работы

Фреймворк RLHF

Статья основана на фреймворке обучения с подкреплением на основе обратной связи человека (RLHF), который использует модель вознаграждения для различения высококачественных и низкокачественных ответов и оптимизирует LLM с помощью PPO.

Классификация моделей вознаграждения

ORM: Назначает вознаграждение на основе всего выходного сигнала, страдает от проблем отложенной обратной связи и распределения кредита
PRM: Оценивает промежуточные шаги рассуждения, обеспечивает более мелкозернистый надзор, но подвержена взлому вознаграждения

Применение MCTS в рассуждении

MCTS предлагается как метод для автономного аннотирования траекторий рассуждения, но вычислительные затраты растут экспоненциально с глубиной и шириной дерева поиска.

Заключение и обсуждение

Основные выводы

HRM эффективно смягчает проблему взлома вознаграждения PRM, обеспечивая более стабильную и надёжную оценку посредством иерархического надзора
HNC — это эффективная стратегия увеличения данных, которая значительно повышает качество обучающих данных с минимальными затратами
HRM демонстрирует отличную способность к обобщению, постоянно превосходя PRM на нескольких наборах данных математического рассуждения

Ограничения

Ограничение объединения шагов: В настоящее время объединяются только два последовательных шага, объединение большего количества шагов приводит к резкому увеличению сложности комбинирования меток
Ограничение по доменам: Главным образом сосредоточена на математическом рассуждении, применимость к другим доменам структурированного рассуждения требует дальнейшей проверки
Вычислительные ограничения: Конфигурация MCTS ограничена доступными вычислительными ресурсами, что может повлиять на разнообразие генерируемых данных

Будущие направления

Исследование более сложных конструкций иерархической структуры
Расширение на другие задачи структурированного рассуждения
Интеграция с более эффективными алгоритмами поиска для снижения вычислительных затрат
Исследование более сложных стратегий маркировки для обработки многошагового объединения

Глубокая оценка

Преимущества

Сильная инновационность: Дизайн иерархического надзора HRM умно объединяет локальную точность и глобальную согласованность
Полные эксперименты: Проведена комплексная оценка на нескольких наборах данных и моделях политики
Высокая практическая ценность: HNC обеспечивает решение для увеличения данных с низкими затратами
Прочная теоретическая основа: Глубокий анализ проблемы взлома вознаграждения с целевым решением

Недостатки

Сложность метода: По сравнению с PRM построение обучающих данных и стратегия маркировки HRM более сложны
Масштабируемость: В настоящее время поддерживается только двухшаговое объединение, что ограничивает расширяемость метода
Специфичность для доменов: Главным образом проверена на задачах математического рассуждения, применимость к другим доменам недостаточно проверена

Влияние

Академический вклад: Предоставляет новый иерархический подход к проектированию моделей вознаграждения
Практическая ценность: Метод HNC может быть непосредственно применён к существующим процессам MCTS
Воспроизводимость: Предоставляет подробные экспериментальные установки и конфигурации гиперпараметров

Применимые сценарии

Задачи математического рассуждения: Особенно подходит для сложных математических задач, требующих многошагового рассуждения
Задачи рассуждения, требующие самокоррекции: HRM может выявлять и вознаграждать исправление ошибок в процессе рассуждения
Сценарии с ограниченными ресурсами: HNC обеспечивает решение для увеличения данных с низкими затратами

Библиография

Статья ссылается на важные работы в этой области, включая:

Lightman et al. (2023) - Let's verify step by step (набор данных PRM800K)
Cobbe et al. (2021) - Training verifiers to solve math word problems
Wei et al. (2022) - Chain-of-thought prompting
Ouyang et al. (2022) - Training language models to follow instructions with human feedback

Общая оценка: Это высококачественная исследовательская статья, предлагающая инновационные решения ключевых проблем PRM. Дизайн иерархического надзора HRM теоретически обоснован, экспериментальная проверка полна, метод HNC имеет сильную практическую ценность. Статья демонстрирует отличные результаты в технической инновации, экспериментальном дизайне и анализе результатов, предоставляя ценный вклад в повышение способности больших языковых моделей к рассуждению.