Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
Lu, Liu, Qu et al.
Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.
현재 대규모 언어 모델의 추론 능력을 향상시키는 방법들은 종종 인간 추론 궤적에 대한 훈련 편향을 도입합니다. 특히 단계별 선호도 최적화에서 인간 또는 고능력 모델의 중간 단계 주석에 대한 의존성은 대체 비인간형 추론 경로의 탐색을 제한하여 달성 가능한 성능을 제약합니다. 소규모 파일럿 연구를 통해 저자들은 약 75%의 경우에서 모델의 첫 번째 오류 단계가 최저 신뢰도 지점 이후에 나타남을 관찰했습니다. 이는 오류 발생 전 최저 신뢰도 지점에서 모델을 안내하는 것이 첫 번째 명시적 오류를 찾는 것보다 더 정확한 감독을 제공함을 시사합니다. 본 논문은 신뢰도 안내 추론 경로 선호도 최적화(CGPO)를 제안하며, 이 방법은 신뢰도 신호를 활용하여 모델 추론 과정의 최대 불확실성 지점을 식별하고 자체 생성된 비인간형 추론 경로 안내를 적용하여 궤적 편향을 완화합니다.
논문은 추론 최적화, 선호도 학습, 신뢰도 추정 등 관련 영역의 중요한 연구를 인용하여 방법 설계에 견고한 이론적 기초를 제공합니다. 특히 Step-DPO, DPO 등 직접 관련된 선호도 최적화 방법과의 비교 분석이 주목할 만합니다.
종합 평가: 이는 대규모 언어 모델 추론 능력 최적화 영역에서 중요한 기여를 하는 논문입니다. 비인간형 추론 경로의 개념과 신뢰도 기반 최적화 전략을 도입함으로써 해당 영역에 새로운 연구 사상을 제공합니다. 이론 설명과 적용 범위 측면에서 개선의 여지가 있지만, 실용적 가치와 혁신성으로 인해 해당 영역의 중요한 진전이 됩니다.