ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
Zheng
Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.
academic
ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
Große Reasoning-Sprachmodelle (LRLMs) zeigen außergewöhnliche Fähigkeiten bei komplexen Reasoning-Aufgaben, leiden jedoch unter erheblichen Rechnereffizienzbeschränkungen aufgrund des Phänomens des "Überdenken". Bestehende Effizienzoptimierungsmethoden für Reasoning stehen vor der Herausforderung, ein Gleichgewicht zwischen Reasoning-Qualität und Kostenreduktion zu finden. Dieses Paper präsentiert Adaptive Reasoning Suppression (ARS), eine neuartige trainingsfreie Methode, die durch adaptive deterministische Überwachung redundante Reasoning-Schritte dynamisch unterdrückt und gleichzeitig die Genauigkeit bewahrt. ARS führt einen Multi-Checkpoint-Determinismus-Schätzmechanismus und progressive Suppressionsschwellwerte ein und erreicht damit bessere Effizienz im Vergleich zu statischen Suppressionsmethoden. In mathematischen Reasoning-Benchmarks über mehrere Modellarchitekturen hinweg erreicht ARS Reduktionen von bis zu 53% bei Tokens, 46,1% bei Latenz und 57,9% bei Energieverbrauch, während gleichzeitig die Genauigkeit beibehalten oder verbessert wird.
Große Reasoning-Modelle (LRMs) wie OpenAIs o1/o3 und DeepSeek-R1 haben durch komplexe Chain-of-Thought (CoT) Reasoning-Mechanismen revolutionäre Fortschritte bei komplexen Aufgaben wie Mathematik, Programmierung und wissenschaftlichem Reasoning erzielt. Diese Modelle weisen jedoch ein ernstes "Überdenken"-Phänomen auf, bei dem das Modell nach Erreichen einer korrekten Zwischenlösung weiterhin redundante Reasoning-Schritte generiert.
ARS-Framework: Erste auf adaptivem Determinismus basierende Reasoning-Suppressionsmethode mit dynamischer Suppressionsdurchsetzung durch progressive Schwellwertanpassung
Multi-Checkpoint-Mechanismus: Etabliert mehrere Checkpoints für Determinismus-Schätzung und überwindet Einschränkungen der Einzelpunkt-Bewertung
Theoretische Garantien: Bietet theoretische Analyse und Effizienzgarantien für ARS-Leistung
Umfassende Bewertung: Validiert Methodeneffektivität über mehrere Modellarchitekturen und mathematische Reasoning-Benchmarks
Signifikante Leistungsverbesserungen: Erreicht erhebliche Reduktionen bei Tokens, Latenz und Energieverbrauch bei gleichzeitiger Genauigkeitsbeibehaltung
Gegeben eine Reasoning-Anfrage q und ein großes Reasoning-Sprachmodell π, produziert der Standard-Generierungsprozess Ausgabe-Tokens o = {o₁, o₂, ..., oₜ}, wobei oₜ ~ π(·|q, o<ₜ). Das Ziel ist die Minimierung der erwarteten Ausgabelänge ET bei Beibehaltung der Reasoning-Genauigkeit:
min E[T] subject to E[L(f(o), y)] ≤ ε
wobei f(o) die endgültige Antwort aus der Ausgabe o extrahiert, y die wahre Antwort ist, L die Verlustfunktion ist und ε der akzeptable Genauigkeitsverschlechterungsschwellwert ist.
ARS löst erfolgreich Schlüsselbeschränkungen bestehender Methoden durch Integration von adaptiver Determinismus-Überwachung, progressiver Schwellwertanpassung und dynamischer Suppressionsstärkenkontrolle. Experimente zeigen, dass ARS signifikante Verbesserungen der Recheneffizienz erreicht, während Genauigkeit beibehalten oder verbessert wird.
Das Paper zitiert 21 relevante Referenzen, die wichtige Arbeiten in den Bereichen großer Sprachmodell-Reasoning, Chain-of-Thought und mathematischer Problemlösung abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist ein Paper mit wichtigen Beiträgen zur Effizienzoptimierung großer Reasoning-Modelle. Die ARS-Methode ist elegant gestaltet, die Experimenteergebnisse überzeugend, und sie bietet eine effektive Lösung für das Überdenken-Problem in Reasoning-Modellen. Trotz einiger Einschränkungen machen ihre Innovativität und praktischer Wert sie zu einem wichtigen Fortschritt in diesem Bereich.