2025-11-11T12:43:08.939159

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

Wang, Jiang, He et al.
Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.
academic

대규모 언어 모델의 향상된 추론을 위한 계층적 다단계 보상 모델 연구

기본 정보

  • 논문 ID: 2503.13551
  • 제목: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
  • 저자: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
  • 분류: cs.CL cs.AI
  • 발표 시간/학회: arXiv 사전인쇄본 (2025년 10월)
  • 논문 링크: https://arxiv.org/abs/2503.13551

초록

최근 연구에 따르면 대규모 언어 모델(LLMs)은 지도 미세조정 또는 강화학습을 통해 강력한 추론 능력을 획득할 수 있습니다. 그러나 핵심 방법인 과정 보상 모델(PRM)은 보상 해킹 문제로 인해 최적의 중간 단계를 식별할 때 신뢰할 수 없습니다. 또한 보상 모델링을 위한 추론 과정 주석 비용이 높아 대규모 고품질 데이터 수집이 어렵습니다. 이러한 문제를 해결하기 위해 본 논문은 새로운 보상 모델 방법인 계층적 보상 모델(HRM)을 제안합니다. HRM은 세분화된 수준과 조잡한 수준에서 개별 및 연속 추론 단계를 평가합니다. HRM은 특히 오류 단계가 나중에 자기 반성을 통해 수정될 때 다단계 추론의 일관성을 평가하는 데 뛰어납니다. 훈련 데이터 생성 비용을 더욱 낮추기 위해 본 논문은 경량이고 효과적인 데이터 증강 전략인 계층적 노드 압축(HNC)을 도입합니다. HNC는 트리 구조의 두 개의 연속 추론 단계를 하나로 병합합니다. MCTS에서 생성된 추론 궤적에 HNC를 적용함으로써 최소한의 계산 오버헤드로 HRM 훈련 데이터의 다양성과 견고성을 향상시키면서 제어된 노이즈를 도입합니다. PRM800K 데이터셋에 대한 실험 결과는 HRM과 HNC의 조합이 PRM보다 더 안정적이고 신뢰할 수 있는 평가를 제공함을 보여줍니다. 또한 MATH500 및 GSM8K 데이터셋에 대한 교차 도메인 평가는 다양한 추론 작업에서 HRM의 강력한 일반화 능력과 견고성을 입증합니다.

연구 배경 및 동기

문제 정의

본 연구는 대규모 언어 모델의 수학 추론 작업에서 두 가지 핵심 문제를 해결합니다:

  1. 보상 해킹 문제: 기존의 과정 보상 모델(PRM)은 모델이 실제 추론 개선이 아닌 보상 신호를 활용하여 높은 점수를 얻을 수 있도록 쉽게 악용될 수 있으며, 이는 복잡한 작업에서의 신뢰성을 손상시킵니다.
  2. 높은 주석 비용: PRM은 추론 단계에 대한 비용이 많이 드는 대규모 인간 주석이 필요하여 신뢰성과 확장성을 제한합니다.

연구의 중요성

수학 추론은 LLM의 추론 능력을 평가하는 중요한 작업이며, 사슬 사고(CoT) 및 사고 트리(ToT)와 같은 기존 방법은 성능을 향상시키지만 여전히 핵심 한계가 있습니다:

  • CoT 모델은 중간 추론 오류를 감지하고 수정하는 메커니즘이 부족합니다
  • ToT 방법은 각 중간 단계를 본질적으로 검증하거나 최적의 추론 궤적 검색을 보장할 수 없습니다

기존 방법의 한계

  1. 결과 보상 모델(ORM): 지연된 피드백 및 신용 할당 문제가 있으며, 최종 답변에 기여하는 추론 단계를 결정하기 어렵습니다
  2. 과정 보상 모델(PRM): 더 세분화된 감독을 제공하지만 보상 해킹에 취약하며 주석 비용이 높습니다

연구 동기

위의 문제를 바탕으로 본 논문은 PRM의 한계를 완화하기 위해 계층적 보상 모델(HRM)을 제안합니다. 훈련 시 세분화된(단일 단계) 및 조잡한(연속 다단계) 수준의 계층적 감독 신호를 결합함으로써 HRM은 추론의 국소적 및 전역적 일관성을 포착할 수 있습니다.

핵심 기여

  1. 계층적 보상 모델(HRM) 제안: 단일 단계 및 다단계 수준에서 훈련 데이터의 계층적 감독을 활용하여 다단계 추론의 일관성과 자기 수정 능력을 촉진하며, PRM800K 데이터셋에서 HRM의 견고성을 검증합니다.
  2. 계층적 노드 압축(HNC) 도입: 최소한의 계산 비용으로 HRM 훈련 데이터의 다양성과 견고성을 크게 증가시키는 경량 MCTS 데이터 증강 방법입니다.
  3. 정책 모델 성능 향상: MCTS에서 필터링된 고품질 추론 궤적에 대한 미세조정을 통해 추론 성능을 추가로 향상시킵니다.
  4. 일반화 능력 검증: GSM8K 및 MATH500 데이터셋에서 PRM 대비 HRM의 우수한 추론 일관성과 일반화 능력을 입증합니다.

방법 상세 설명

작업 정의

본 논문은 수학 추론 작업에 중점을 두며, 목표는 다단계 수학 문제 해결에서 LLM의 성능을 평가하고 개선하는 것입니다. 입력은 수학 문제이고 출력은 단계별 추론 과정 및 최종 답변이며, 제약 조건은 추론 단계의 정확성과 일관성을 보장해야 합니다.

모델 아키텍처

계층적 보상 모델(HRM)

HRM의 핵심 개념은 훈련 시 계층적 감독을 채택하여 개별 및 연속 추론 단계를 평가하는 것입니다:

훈련 데이터 구성:

  • PRM 훈련 데이터: DPRM={(si,R(si))1iN}D_{PRM} = \{(s_i, R(s_i)) | 1 \leq i \leq N\}
  • HRM 훈련 데이터: DHRM=DPRM{(si+si+1,R(si+si+1))1i<N}D_{HRM} = D_{PRM} \cup \{(s_i + s_{i+1}, R(s_i + s_{i+1})) | 1 \leq i < N\}

여기서 sis_iii번째 추론 단계를 나타내고, R()R(\cdot)는 보상 함수이며, NN은 추론 수열의 총 단계 수입니다.

계층적 감독 목표:

  1. 세분화된 수준과 조잡한 수준의 일관성 포착
  2. 자기 반성 및 오류 수정 구현

추론 단계: 훈련 시 병합된 추론 단계를 사용하지만, HRM은 추론 시 여전히 단계별로 평가하며 현재 단계 sis_i에만 기반하여 보상을 할당하며, 이는 PRM과 유사합니다.

계층적 노드 압축(HNC)

HNC는 MCTS 트리 구조의 연속 노드를 병합하여 훈련 데이터 다양성을 증가시키는 데이터 증강 방법입니다:

핵심 메커니즘:

  1. 두 개의 연속 노드를 무작위로 병합하며, 각각은 추론 단계에 해당합니다
  2. 노드 간의 직접 연결 제거
  3. 연결 관계 재방향 지정

노이즈 도입: 무작위 노드를 제거한 후, 남은 자식 노드의 가중치는 1N\frac{1}{N}에서 1N1\frac{1}{N-1}로 재할당되며, 분산은 σ2N\frac{\sigma^2}{N}에서 σ2N1\frac{\sigma^2}{N-1}로 증가하여 제어된 노이즈를 도입합니다.

기술 혁신 포인트

  1. 계층적 감독 설계: PRM이 개별 단계만 평가하는 것과 달리 HRM은 다단계 간의 상호작용을 고려하여 후속 단계에 의한 초기 오류의 수정을 식별할 수 있습니다.
  2. 자기 수정 능력: 기존 PRM은 후속 추론의 잠재적 수정을 고려하지 않고 오류 단일 단계에 페널티를 부여하는 반면, HRM은 다단계 간의 추론 일관성을 평가합니다.
  3. 저비용 데이터 증강: HNC는 극히 낮은 계산 오버헤드(약 30분 CPU 시간)로 데이터 증강을 실현하며, MCTS의 2457 A100 GPU 시간과 비교하면 거의 무시할 수 있습니다.

실험 설정

데이터셋

  1. PRM800K: 수동으로 주석이 달린 추론 궤적을 포함하며, ORM, PRM 및 HRM 훈련의 기초로 사용됩니다
  2. MATH500: 고등학교 및 대학 수준의 수학 문제로, 일반화 능력 평가에 사용됩니다
  3. GSM8K: 초등학교 수학 응용 문제로, 1000개의 테스트 문제를 포함합니다

평가 지표

  • 정확도: Best-of-N 전략 하에서의 문제 해결 정확도
  • 안정성: N 증가에 따른 성능의 안정성 정도
  • 견고성: 다양한 정책 모델 및 데이터셋 전반의 일관된 성능

비교 방법

  • ORM (결과 보상 모델): 전체 추론 체인을 기반으로 평가
  • PRM (과정 보상 모델): 추론 과정을 단계별로 평가
  • HRM (계층적 보상 모델): 본 논문에서 제안한 계층적 보상 모델

구현 세부사항

  • 보상 모델: Qwen2.5-1.5B-Math 기반 미세조정
  • 정책 모델: Qwen2.5-72B-Math-Instruct, DeepSeek-Math-7B, Qwen2.5-7B-Math-Instruct
  • MCTS 구성: 각 부모 노드당 5-6개의 자식 노드, 최대 트리 깊이 7
  • 훈련 최적화: FlashAttention, DeepSpeed 및 혼합 정밀도 훈련 사용

실험 결과

주요 결과

PRM800K 데이터셋의 Best-of-N 성능:

N2481624
ORM0.6220.6770.6550.6550.633
PRM0.7000.6440.6110.5880.577
HRM0.7220.7110.7440.8000.800

핵심 발견:

  • HRM은 N 증가에 따라 안정적인 성능을 유지하며 정확도는 80%에서 안정적입니다
  • ORM과 PRM은 현저한 변동을 보이며 N 증가에 따라 정확도가 감소합니다
  • HRM은 최고의 안정성과 신뢰성을 보여줍니다

교차 도메인 일반화 실험

GSM8K 및 MATH500 데이터셋 결과:

데이터셋방법N=2N=64N=256N=512
GSM8KPRM0.7840.9050.9270.918
GSM8KHRM0.7840.9070.9300.926
MATH500PRM0.4680.6560.6860.688
MATH500HRM0.4900.7420.7400.736

중요한 관찰:

  • 복잡한 MATH500 데이터셋에서 HRM은 PRM을 크게 능가합니다
  • 상대적으로 간단한 GSM8K에서는 차이가 작지만 HRM이 여전히 약간 우수합니다
  • HRM은 더 강한 교차 도메인 견고성을 보여줍니다

절제 실험

다양한 정책 모델의 비교: MCTS에서 생성된 자동 주석 데이터로 훈련된 HRM은 여러 정책 모델에서 PRM보다 더 나은 안정성을 보여줍니다:

  • DeepSeek-Math-7B
  • Qwen2.5-72B-Math
  • Qwen2.5-7B-Math

자기 훈련 실험

KL 발산 정규화를 통한 지도 미세조정은 정책 모델 성능을 추가로 향상시켜 고품질 추론 데이터의 가치를 검증합니다.

관련 연구

RLHF 프레임워크

본 논문은 인간 피드백 강화학습(RLHF) 프레임워크를 기반으로 하며, 이 프레임워크는 보상 모델을 통해 고품질 및 저품질 응답을 구분하고 PPO를 사용하여 LLM을 최적화합니다.

보상 모델 분류

  1. ORM: 전체 출력을 기반으로 보상을 할당하며 지연된 피드백 및 신용 할당 문제가 있습니다
  2. PRM: 중간 추론 단계를 평가하여 더 세분화된 감독을 제공하지만 보상 해킹 문제가 있습니다

추론에서의 MCTS 적용

MCTS는 추론 궤적을 자동으로 주석하는 방법으로 제안되었지만 계산 비용은 검색 트리의 깊이와 너비에 따라 지수적으로 증가합니다.

결론 및 논의

주요 결론

  1. HRM은 PRM의 보상 해킹 문제를 효과적으로 완화합니다. 계층적 감독을 통해 더 안정적이고 신뢰할 수 있는 평가를 제공합니다
  2. HNC는 효율적인 데이터 증강 전략입니다. 극히 낮은 비용으로 훈련 데이터 품질을 크게 향상시킵니다
  3. HRM은 우수한 일반화 능력을 보여줍니다. 여러 수학 추론 데이터셋에서 지속적으로 PRM을 능가합니다

한계

  1. 병합 단계 제한: 현재는 두 개의 연속 단계만 병합하며, 더 많은 단계를 병합하면 레이블 조합 복잡성이 급격히 증가합니다
  2. 도메인 제한: 주로 수학 추론에 중점을 두며, 다른 구조화된 추론 도메인의 적용 가능성은 추가 검증이 필요합니다
  3. 계산 제약: MCTS 구성은 계산 리소스 제한을 받으며, 생성된 데이터의 다양성에 영향을 미칠 수 있습니다

향후 방향

  1. 더 복잡한 계층 구조 설계 탐색
  2. 다른 구조화된 추론 작업으로 확장
  3. 계산 비용을 낮추기 위해 더 효율적인 검색 알고리즘과 결합
  4. 다단계 병합을 처리하기 위한 더 정교한 레이블 전략 연구

심층 평가

장점

  1. 높은 혁신성: HRM의 계층적 감독 설계는 국소적 정확성과 전역적 일관성을 교묘하게 결합합니다
  2. 충분한 실험: 여러 데이터셋 및 정책 모델에서 포괄적인 평가를 수행했습니다
  3. 높은 실용 가치: HNC는 저비용 데이터 증강 솔루션을 제공합니다
  4. 견고한 이론적 기초: 보상 해킹 문제에 대한 분석이 심층적이며 솔루션이 목표 지향적입니다

부족한 점

  1. 방법 복잡성: PRM과 비교하여 HRM의 훈련 데이터 구성 및 레이블 전략이 더 복잡합니다
  2. 확장성: 현재는 두 단계 병합만 지원하여 방법의 확장성을 제한합니다
  3. 도메인 특이성: 주로 수학 추론 작업을 검증했으며 다른 도메인의 적용 가능성이 충분히 검증되지 않았습니다

영향력

  1. 학술적 기여: 보상 모델 설계에 새로운 계층화 사고를 제공합니다
  2. 실용적 가치: HNC 방법을 기존 MCTS 프로세스에 직접 적용할 수 있습니다
  3. 재현성: 상세한 실험 설정 및 하이퍼파라미터 구성을 제공합니다

적용 시나리오

  1. 수학 추론 작업: 특히 다단계 추론이 필요한 복잡한 수학 문제에 적합합니다
  2. 자기 수정이 필요한 추론 작업: HRM은 추론 과정의 오류 수정을 식별하고 보상할 수 있습니다
  3. 리소스 제약 시나리오: HNC는 저비용 데이터 증강 솔루션을 제공합니다

참고문헌

논문은 이 분야의 중요한 작업을 인용합니다:

  • Lightman et al. (2023) - Let's verify step by step (PRM800K 데이터셋)
  • Cobbe et al. (2021) - Training verifiers to solve math word problems
  • Wei et al. (2022) - Chain-of-thought prompting
  • Ouyang et al. (2022) - Training language models to follow instructions with human feedback

종합 평가: 이것은 PRM의 핵심 문제에 대한 혁신적인 솔루션을 제시하는 고품질 연구 논문입니다. HRM의 계층적 감독 설계는 이론적으로 합리적이며 실험 검증이 충분하고, HNC 방법은 매우 높은 실용 가치를 가집니다. 논문은 기술 혁신, 실험 설계 및 결과 분석 측면에서 모두 우수한 성능을 보여주며, 대규모 언어 모델의 추론 능력 향상에 가치 있는 기여를 제공합니다.