ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
Zheng
Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.
대규모 추론 언어 모델(LRLMs)은 복잡한 추론 작업에서 탁월한 능력을 보여주지만, "과도한 사고" 현상으로 인한 심각한 계산 효율성 문제를 야기한다. 기존의 효율적인 추론 방법은 추론 품질과 추론 비용 감소 간의 균형 문제에 직면해 있다. 본 논문은 **적응형 추론 억제(ARS)**를 제안하며, 이는 적응형 결정론적 모니터링을 통해 동적으로 중복 추론 단계를 억제하면서 정확성을 유지하는 훈련 불필요 방법이다. ARS는 다중 체크포인트 결정론적 추정 메커니즘과 점진적 억제 임계값을 도입하여 정적 억제 방법 대비 우수한 효율성을 달성한다. 다양한 모델 아키텍처의 수학 추론 벤치마크에서 ARS는 토큰, 지연 시간 및 에너지 소비 측면에서 각각 최대 53%, 46.1%, 57.9%의 감소를 달성하면서 정확성을 유지하거나 향상시킨다.
OpenAI의 o1/o3 및 DeepSeek-R1과 같은 대규모 추론 모델(LRMs)은 복잡한 사고의 연쇄(CoT) 추론 메커니즘을 통해 수학, 프로그래밍 및 과학 추론 등의 복잡한 작업에서 혁명적인 진전을 이루었다. 그러나 이러한 모델은 심각한 "과도한 사고" 현상을 보이는데, 이는 모델이 이미 올바른 중간 해를 얻은 후에도 계속해서 중복 추론 단계를 생성하는 것을 의미한다.
논문은 대규모 언어 모델 추론, 사고의 연쇄, 수학 문제 해결 등 관련 분야의 중요한 작업을 포함하는 21개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공한다.
종합 평가: 이는 대규모 추론 모델의 효율성 최적화 측면에서 중요한 기여를 하는 논문이다. ARS 방법은 정교하게 설계되었으며, 실험 결과는 설득력 있고, 추론 모델의 과도한 사고 문제를 해결하기 위한 효과적인 솔루션을 제공한다. 일부 한계가 있지만, 그 혁신성과 실용적 가치는 이를 해당 분야의 중요한 진전으로 만든다.