Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.
論文ID : 2510.00071タイトル : ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models著者 : Dongqi Zheng(独立研究者)分類 : cs.AI cs.CL発表日 : 2025年10月10日(arXiv preprint)論文リンク : https://arxiv.org/abs/2510.00071v2 大規模推論言語モデル(LRLMs)は複雑な推論タスクにおいて卓越した能力を示していますが、「過度な思考」現象により顕著な計算効率の問題が生じています。既存の効率的推論手法は、推論品質と推論コスト削減のバランスに関する課題に直面しています。本論文では、**適応的推論抑制(ARS)**を提案します。これは、適応的確定性監視を通じて動的に冗長な推論ステップを抑制しながら精度を維持する、革新的な訓練不要な手法です。ARSは複数チェックポイント確定性推定メカニズムと段階的抑制閾値を導入し、静的抑制手法と比較してより優れた効率を実現します。複数のモデルアーキテクチャにおける数学推論ベンチマークで、ARSはトークン、レイテンシ、消費電力においてそれぞれ最大53%、46.1%、57.9%の削減を達成しながら、精度を維持または向上させます。
OpenAIのo1/o3やDeepSeek-R1などの大規模推論モデル(LRMs)は、複雑な思考の連鎖(CoT)推論メカニズムを通じて、数学、プログラミング、科学推論などの複雑なタスクにおいて革新的な進歩を遂げています。しかし、これらのモデルには深刻な「過度な思考」現象が存在し、モデルが正しい中間解を既に得た後も冗長な推論ステップを生成し続けます。
過度な思考現象は以下をもたらします:
計算オーバーヘッドの増加 :不要な長い推論時間リソース浪費 :トークン消費と計算コストの増加効率低下 :実際の展開と応用に影響既存のソリューションは3つのカテゴリに分類されます:
プロンプト誘導手法 :事前定義されたトークン予算内でモデル推論を誘導訓練ベース手法 :簡潔な推論を実現するためのモデル微調整デコード操作手法 :推論プロセスの動的調整これらの手法は一般的に静的閾値や適応性の欠如などの問題を抱えています。
本論文は、以下を実現できる訓練無関の適応的手法を開発することを目指しています:
モデル確定性の動的監視 段階的な抑制強度調整 推論品質を維持しながら効率を大幅に向上 ARSフレームワークの提案 :適応的確定性ガイダンスに基づく最初の推論抑制手法で、段階的閾値調整を通じた動的抑制を実現複数チェックポイントメカニズム :単一点評価の限界を克服するための複数チェックポイントでの確定性推定を確立理論的保証 :ARS性能の理論的分析と効率保証を提供包括的評価 :複数のモデルアーキテクチャと数学推論ベンチマークでの手法有効性を検証顕著な性能向上 :精度を維持しながらトークン、レイテンシ、消費電力の大幅削減を実現推論クエリqと大規模推論言語モデルπが与えられた場合、標準的な生成プロセスは出力トークンo = {o₁, o₂, ..., oₜ}を生成します。ここでoₜ ~ π(·|q, o<ₜ)です。目標は推論精度を維持しながら期待出力長ET を最小化することです:
min E[T] subject to E[L(f(o), y)] ≤ ε
ここでf(o)は出力oから最終答を抽出し、yは真の答、Lは損失関数、εは許容可能な精度低下閾値です。
ARSフレームワークは3つのコア構成要素を含みます:
生成プロセス中に複数のチェックポイント{c₁, c₂, ..., cₖ}を確立 各チェックポイントcᵢで試験的答プローブを通じてモデル確定性を推定 ヒューリスティック難度推定関数を使用: D(q) = 0.4 · min(1, |q|words/80) + 0.4 · Σcount(k,q)/(3|K|) + 0.2 · min(1, |symbols(q)|/10)
推論進行パターンに基づいて抑制閾値を動的に調整 確定性トレンドに基づいた適応的調整 3つのモード対応:FAST、MOD、DeepReflect 適応的抑制強度制御 トリガーワードセットT = {"Wait", "But", "Alternatively", ...}に基づく 高い確定性が検出されたときに反思行動を抑制 適応性 :静的抑制手法と異なり、ARSは各モデルの推論軌跡に基づいて動的に適応複数チェックポイント設計 :単一点評価の不安定性を克服段階的調整 :確定性トレンドに基づいて抑制戦略を動的に調整訓練不要特性 :追加の微調整なしに既存モデルに直接展開可能定理1(効率保証) :推論複雑度R(q) ≤ Rmaxのクエリに対して、ARSが生成する出力長TARSは以下を満たします:
E[TARS] ≤ (1 + εR) · T* + O(√log Rmax)
確率は少なくとも1-δであり、εR → 0はチェックポイント数の増加に伴い成立します。
GSM8K :小学校数学応用問題データセットMATH500 :高校および大学レベルの数学競技問題各データセットでn=200問を評価 Acc↑ :精度(高いほど良い)Lat↓ :レイテンシ(秒、低いほど良い)TPC↓ :正解あたりのトークン数(低いほど良い)JPC↓ :正解あたりのジュール数(低いほど良い)Vanilla :標準生成TALE :トークン認識長制約推論CGRS :信頼度ガイド推論抑制モデル:Qwen2.5-Math-1.5B/7B-Instruct、DeepSeek-R1-Distill-Qwen-7B ハードウェア:V100-32GB GPU 最大トークン制限:応答あたり1200トークン GSM8Kデータセット性能 :
Qwen-1.5B :精度91.0%、レイテンシ27.3%削減、トークン22.5%削減、消費電力24.5%削減Qwen-7B :精度94.5%(8%向上)、レイテンシ6.3%削減、トークン16.7%削減、消費電力14.3%削減DeepSeek-7B :精度93.0%、レイテンシ46.1%削減、トークン43.5%削減、消費電力46.6%削減MATH500データセット性能 :
より挑戦的なMATH500でも、ARSは顕著な効率向上を実現 DeepSeek-7Bモデルではトークン削減が最大53.0%に達する 可変的効率向上 :ARSはコンテキスト依存の性能改善を示し、最大トークン削減は53%に達する精度維持 :効率指向にもかかわらず、ARSはすべてのベンチマークで競争力のある精度を維持アーキテクチャ依存性能 :DeepSeek-7Bは最も一貫した改善を示し、Qwenモデルはより可変的な性能を示す複数指標改善 :トークン以外にも、レイテンシ46.1%削減と消費電力57.9%削減を実現論文はMATH500の幾何級数問題を通じてARSの有効性を示しています:
難度認識モード選択が適切な推論深度を選択 段階的確定性監視が信頼度安定化を早期に検出 適応的抑制が信頼度構築に伴い積極化 トレンドベース調整が不要な反思ループを防止 プロンプトエンジニアリング手法 :指示を通じてモデルを予算内推論に誘導モデル訓練最適化 :簡潔な推論を生成するモデル訓練デコード戦略 :推論プロセスの動的調整訓練不要設計により即座に展開可能 適応的メカニズムがより細かい品質-効率バランスを提供 複数チェックポイントメカニズムが安定性を向上 ARSは、適応的確定性監視、段階的閾値調整、動的抑制強度制御を統合することで、既存手法の主要な限界を成功裏に解決します。実験は、ARSが精度を維持または向上させながら顕著な計算効率向上を実現することを証明しています。
最大生成長制限 :1200トークンの制限は複雑な問題の精度に影響する可能性アーキテクチャ依存性 :異なるモデルアーキテクチャ間での性能差異が大きい評価範囲 :主に数学推論タスクに集中数学問題解決以外のより広範な推論パラダイムへの拡張 チェックポイント認識スケジューリング戦略の探索 特定モデル動作に対応した豊富な確定性推定メカニズムの開発 手法の革新性 :適応的推論抑制の概念を初めて提案し、技術ルートが新規理論的基礎 :理論的分析と性能保証を提供実験の充実性 :複数モデル、複数データセットでの包括的評価実用価値 :訓練不要特性により展開が容易性能の顕著性 :効率指標で大幅な向上を達成評価の限界 :主に数学推論タスクで評価され、汎化性は検証待ちベースライン比較 :比較手法が相対的に限定的で、より多くの最新手法が不足理論分析 :理論保証の証明が過度に簡潔パラメータ感度 :主要ハイパーパラメータの感度分析が不足計算オーバーヘッド :複数チェックポイントメカニズム自体の計算オーバーヘッド分析が不足学術的貢献 :推論効率最適化に新しい研究方向を提供実用価値 :大規模モデル展開に重要な意義再現性 :アルゴリズム記述が明確で再現が容易リソース制約環境 :モバイルデバイス、エッジコンピューティングなどのシーンリアルタイム応用 :迅速な応答が必要な推論タスクコスト敏感応用 :計算コスト制御が必要な商用応用数学推論タスク :現在検証された主要応用領域論文は大規模言語モデル推論、思考の連鎖、数学問題解決など関連領域の重要な研究を含む21篇の関連文献を引用しており、研究に堅実な理論的基礎を提供しています。
総合評価 :これは大規模推論モデルの効率最適化における重要な貢献を持つ論文です。ARS手法は巧妙に設計され、実験結果は説得力があり、推論モデルの過度な思考問題を解決するための効果的なソリューションを提供します。いくつかの限界がありますが、その革新性と実用価値により、この分野における重要な進歩となっています。