2025-11-19T10:19:14.428770

Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization

Lu, Liu, Qu et al.
Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.
academic

LLM 추론 능력 향상을 위한 비인간형 추론 경로 선호도 최적화

기본 정보

  • 논문 ID: 2510.11104
  • 제목: Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
  • 저자: Junjie Lu, Yuliang Liu, Chaofeng Qu, Wei Shen, Zhouhan Lin, Min Xu
  • 분류: cs.CL cs.AI
  • 발표 시간: 2025년 10월 13일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.11104

초록

현재 대규모 언어 모델의 추론 능력을 향상시키는 방법들은 종종 인간 추론 궤적에 대한 훈련 편향을 도입합니다. 특히 단계별 선호도 최적화에서 인간 또는 고능력 모델의 중간 단계 주석에 대한 의존성은 대체 비인간형 추론 경로의 탐색을 제한하여 달성 가능한 성능을 제약합니다. 소규모 파일럿 연구를 통해 저자들은 약 75%의 경우에서 모델의 첫 번째 오류 단계가 최저 신뢰도 지점 이후에 나타남을 관찰했습니다. 이는 오류 발생 전 최저 신뢰도 지점에서 모델을 안내하는 것이 첫 번째 명시적 오류를 찾는 것보다 더 정확한 감독을 제공함을 시사합니다. 본 논문은 신뢰도 안내 추론 경로 선호도 최적화(CGPO)를 제안하며, 이 방법은 신뢰도 신호를 활용하여 모델 추론 과정의 최대 불확실성 지점을 식별하고 자체 생성된 비인간형 추론 경로 안내를 적용하여 궤적 편향을 완화합니다.

연구 배경 및 동기

문제 정의

현재 대규모 언어 모델 추론 능력 향상 방법이 직면한 핵심 문제는 다음과 같습니다:

  1. 인간 편향의 제한: 기존 방법들은 인간 또는 강력한 모델의 추론 궤적에 과도하게 의존하여 비인간형 추론 경로의 탐색을 제한합니다
  2. 오류 위치 파악의 부정확성: 전통적 방법은 첫 번째 명시적 오류를 찾아 감독하지만, 이는 종종 최적의 개입 지점이 아닙니다
  3. 높은 주석 비용: 단계별 선호도 최적화는 많은 양의 인간 또는 강력한 모델 주석이 필요하여 실제 적용 비용이 매우 높습니다

연구 동기

저자들은 약 75%의 오류 사례에서 모델의 첫 번째 오류 단계가 신뢰도가 가장 낮은 지점 이후에 나타난다는 분석을 통해, 인간 인지가 아닌 모델 신뢰도에 기반한 추론 경로 최적화 사상을 고안했습니다.

기존 방법의 한계

  1. Step-DPO 등의 방법: 인간 또는 강력한 모델 주석에 의존하여 오류 단계를 찾으며, 비용이 높고 탐색 공간이 제한됩니다
  2. 전통적 RLHF: 주로 결과 최적화에 중점을 두며 추론 궤적의 중간 단계에 대한 관심이 부족합니다
  3. 인간 정렬 편향: 모델이 인간 추론 방식을 따르도록 강제하면 잠재적 능력이 제한될 수 있습니다

핵심 기여

  1. CGPO 방법 제안: 더 강력한 모델이나 인간 감독에 의존하지 않는 신뢰도 안내 추론 경로 선호도 최적화 방법
  2. 비인간형 추론 경로 탐색: 모델 자체의 신뢰도 신호를 활용하여 선호도 학습 데이터를 구성하고 비인간형 추론 경로를 탐색합니다
  3. 다중 영역 검증: 수학 추론 및 코드 생성 작업에서 방법의 유효성을 검증하여 방법의 일반성을 입증합니다
  4. 오픈소스 기여: 완전한 코드베이스, 데이터셋 및 훈련 모델 공개를 약속하여 재현성을 촉진합니다

방법 상세 설명

작업 정의

입력 문제 x가 주어졌을 때, 초기 정책 모델 π₀는 추론 수열 y = (y₁, y₂, ..., yₜ)을 생성하며, 여기서 yₜ ∈ V (어휘)입니다. 디코딩 시간 단계 t에서 모델 신뢰도는 다음과 같이 정의됩니다:

cₜ ≜ p(yₜ|π₀, x, y<t)

모델 아키텍처

1. 추론 단계 정의

  • 신뢰도 임계값 τ를 사용하여 추론 단계를 분할하며, τ는 데이터셋의 모든 신뢰도 값의 분포를 기반으로 결정됩니다
  • τ보다 낮은 신뢰도를 가진 토큰을 분할점으로 하여 수열 y를 단계 수열 s = (s₁, s₂, ..., sⱼ)로 재구성합니다

2. 선호도 쌍 구성 프로세스

초기 궤적 결정:

  • 가장 불확실한 단계 이전의 수열을 공유 초기 추론 궤적 sᵢₙᵢₜ으로 선택합니다

Chosen/Rejected 쌍 구성:

  • 보상 모델 R을 도입하여 주어진 (x, sᵢₙᵢₜ)의 상위-k 후보 토큰을 평가합니다
  • 최고 점수와 최저 점수 토큰을 각각 chosen 및 rejected 분기의 시작 토큰으로 선택합니다
  • π₀는 를 만나거나 신뢰도가 τ 이하인 토큰을 만날 때까지 계속 샘플링합니다

3. 훈련 목표

DPO 스타일의 목표 함수를 채택합니다:

L_CGPO(θ) = -E_{(s_init,s+,s-)~D}[log σ(β(Δ))]

여기서:

Δ = Δ_θ - Δ_ref
Δ_θ ≜ log π_θ(s+ | s_init) - log π_θ(s- | s_init)
Δ_ref ≜ log π_ref(s+ | s_init) - log π_ref(s- | s_init)

기술 혁신점

  1. 신뢰도 기반 단계 분할: 사전 정의된 앵커에서 벗어나 모델의 내재적 불확실성을 기반으로 추론 단계를 분할합니다
  2. 자체 감독 선호도 구성: 보상 모델을 활용하여 가장 불확실한 지점에서 최적/최악 토큰을 선택하며 인간 주석이 필요하지 않습니다
  3. 비인간형 추론 탐색: 모델이 인간의 인지 습관에 맞지 않지만 더 효과적일 수 있는 추론 경로를 탐색하도록 허용합니다

실험 설정

데이터셋

수학 추론 작업:

  • 훈련 데이터: Step-DPO-10k 데이터셋의 10,795개 프롬프트
  • 평가 데이터셋: GSM8K, MATH, Omni-Math
  • 모델: MetaMath-Mistral-7B, MetaMath-LLaMA-8B, Qwen2-7B-SFT 등

코드 생성 작업:

  • 훈련 데이터: LeetCodeDataset 훈련 세트의 2,641개 샘플
  • 평가 데이터셋: LiveCodeBench, LeetCodeDataset
  • 모델: Deepseek-Coder-7B-Instruct-v1.5

평가 지표

  • 수학 추론: 정확 일치 정확도 (최종 답변이 표준 답변과 완전히 일치)
  • 코드 생성: 통과율 (생성된 코드가 샌드박스 환경에서 모든 테스트 케이스를 통과)

비교 방법

  • Base Model: 원본 기본 모델
  • Step-DPO: 인간 주석 기반 단계별 선호도 최적화 방법

구현 세부사항

  • 신뢰도 임계값: 데이터셋 신뢰도 분포의 2% 백분위수
  • 상위-k 후보: k=8
  • 훈련 구성: β=0.3-0.4, 학습률 5e-7, 배치 크기 128, 4-8 에포크 훈련

실험 결과

주요 결과

수학 추론 작업 성능:

  • GSM8K: CGPO는 모든 모델에서 Step-DPO를 능가하며, MetaMath-Llama-8B에서 가장 두드러진 향상을 보입니다 (+4.3% vs base)
  • MATH: MetaMath-Llama-8B 및 Qwen2-7B-SFT에서 Step-DPO를 능가합니다
  • 핵심 발견: Step-DPO 성능이 저하되는 경우에도 (예: MetaMath-Mistral-7B) CGPO는 여전히 향상을 가져옵니다

코드 생성 작업 성능:

  • LiveCodeBench: 2.1% 향상 (19.3% → 19.7%)
  • LeetCodeDataset: 4.0% 향상 (12.7% → 13.2%)

소거 실험

1. 확장성 분석

훈련 데이터 규모 증가 (10k → 80k)를 통해 방법의 확장성을 검증합니다:

  • MetaMath-Llama-8B는 GSM8K에서 85.3%에서 86.4%로 향상
  • Qwen2-7B-SFT는 GSM8K에서 88.6%에서 89.5%로 향상
  • CGPO가 우수한 데이터 확장성을 가짐을 나타냅니다

2. 보상 모델 영향

ASPRM과 Math-Shepherd 두 가지 보상 모델을 비교합니다:

  • ASPRM이 더 나은 성능을 보이지만, 더 약한 Math-Shepherd를 사용해도 여전히 향상됩니다
  • 세밀한 토큰 수준 평가의 중요성을 입증합니다

3. 신뢰도 임계값 분석

  • 임계값 증가는 일반적으로 성능 향상을 가져오지만, 과도하게 높으면 수열이 너무 짧아집니다
  • 다양한 모델의 최적 임계값이 다르므로 맞춤형 조정이 필요합니다

일반화 능력 검증

Omni-Math (올림피아드 수준 수학 문제)에서의 성능:

  • CGPO는 4/5개 모델에서 Step-DPO를 능가합니다
  • 방법이 우수한 분포 외 일반화 능력을 가짐을 입증합니다

사례 분석

200개 오류 샘플 분석을 통해 핵심 가정을 검증합니다:

  • MetaMath-Llama-8B: 78%의 오류가 최저 신뢰도 지점 이후에 발생
  • Qwen2-7B-SFT: 72%의 오류가 최저 신뢰도 지점 이후에 발생
  • 신뢰도 기반 조기 개입 설계 이념을 지원합니다

관련 연구

선호도 최적화 방법

  • PPO: 복잡도가 높지만 효과가 안정적
  • DPO/SimPO: 쌍을 이룬 선호도 신호를 직접 최적화하며 계산 오버헤드가 낮음
  • 본 논문의 기여: 선호도 최적화를 추론 경로의 중간 단계로 확장

신뢰도 인식 방법

  • 직접 확률 방법: 예측 토큰의 확률 사용 (본 논문 채택)
  • 생성 일관성 방법: 답변 일관성을 통해 신뢰도 측정
  • 본 논문의 혁신: 신뢰도를 추론 경로의 단계 분할 및 최적화에 사용

추론 궤적 최적화

  • 감독 미세 조정: 주석 수열에 직접 정렬
  • RLHF: 더 높은 점수의 궤적으로 최적화
  • 본 논문의 장점: 강력한 모델 주석이 필요 없으며 비인간형 추론 경로를 탐색

결론 및 논의

주요 결론

  1. 비인간형 추론 경로의 가치: 모델은 비인간형 추론 경로 탐색을 통해 더 나은 성능을 얻을 수 있습니다
  2. 신뢰도 신호의 유효성: 모델 신뢰도는 추론 어려움 지점을 식별하는 효과적인 지표입니다
  3. 자체 감독 학습의 잠재력: 강력한 모델이나 인간 주석 없이도 효과적인 추론 능력 향상을 실현할 수 있습니다

한계

  1. 계산 자원 제한: 더 큰 모델 (예: 70B)에서 확장성을 검증하지 못했습니다
  2. 영역 한계: 주로 수학 및 코드 영역에서 검증되었으며, 상식 추론 등 영역의 적용성은 미검증입니다
  3. 보상 모델 의존성: 여전히 영역 특정 세밀한 보상 모델이 필요합니다

향후 방향

  1. 더 큰 규모 검증: 더 큰 모델과 더 많은 영역에서 방법의 유효성 검증
  2. 범용 보상 모델: 영역 간 범용 세밀한 평가 모델 개발
  3. 이론 분석: 비인간형 추론 경로가 더 효과적인 이유에 대한 이론적 기초 심화

심층 평가

장점

  1. 문제 통찰의 깊이: 기존 방법의 인간 편향 문제를 식별하고 새로운 해결 사상을 제시합니다
  2. 방법 설계의 영리함: 신뢰도 신호와 선호도 최적화를 결합하여 무감독 추론 경로 최적화를 실현합니다
  3. 충분한 실험 검증: 다중 모델, 다중 작업, 다각도 실험 검증으로 결과의 설득력이 강합니다
  4. 높은 실용 가치: 강력한 모델 주석에 대한 의존성을 줄이면서 방법의 실제 사용성을 높입니다

부족한 점

  1. 이론적 기초 부족: 비인간형 추론 경로가 더 효과적인 이유에 대한 심층 이론 설명이 부족합니다
  2. 적용 범위 제한: 주로 구조화된 추론 작업에서 검증되었으며, 개방형 작업의 적용성은 미지수입니다
  3. 신뢰도 신뢰성: 모델 신뢰도 자체가 충분히 신뢰할 수 없을 수 있으며, 특히 분포 외 데이터에서 그렇습니다
  4. 계산 오버헤드 분석: 기준 방법 대비 계산 오버헤드 변화에 대한 상세 분석이 부족합니다

영향력

  1. 학술적 가치: 추론 능력 최적화에 새로운 연구 방향을 제공하며 더 많은 관련 연구를 영감할 수 있습니다
  2. 실용적 가치: 주석 비용을 줄이면서 성능을 향상시키므로 중요한 공학 응용 가치를 가집니다
  3. 재현성: 완전한 코드와 데이터 공개를 약속하여 방법의 보급과 개선에 유리합니다

적용 시나리오

  1. 자원 제약 환경: 강력한 모델 주석을 얻을 수 없을 때의 추론 능력 향상
  2. 구조화된 추론 작업: 수학, 코드, 논리 추론 등 명확한 평가 기준이 있는 작업
  3. 모델 자체 개선: 모델 지속 학습 및 자체 최적화의 기술 구성 요소

참고문헌

논문은 추론 최적화, 선호도 학습, 신뢰도 추정 등 관련 영역의 중요한 연구를 인용하여 방법 설계에 견고한 이론적 기초를 제공합니다. 특히 Step-DPO, DPO 등 직접 관련된 선호도 최적화 방법과의 비교 분석이 주목할 만합니다.


종합 평가: 이는 대규모 언어 모델 추론 능력 최적화 영역에서 중요한 기여를 하는 논문입니다. 비인간형 추론 경로의 개념과 신뢰도 기반 최적화 전략을 도입함으로써 해당 영역에 새로운 연구 사상을 제공합니다. 이론 설명과 적용 범위 측면에서 개선의 여지가 있지만, 실용적 가치와 혁신성으로 인해 해당 영역의 중요한 진전이 됩니다.