2025-11-10T02:49:44.009603

ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

Zheng

Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.

academic

ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

Grundlegende Informationen

Paper-ID: 2510.00071
Titel: ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
Autor: Dongqi Zheng (Independent Researcher)
Klassifizierung: cs.AI cs.CL
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv preprint)
Paper-Link: https://arxiv.org/abs/2510.00071v2

Zusammenfassung

Große Reasoning-Sprachmodelle (LRLMs) zeigen außergewöhnliche Fähigkeiten bei komplexen Reasoning-Aufgaben, leiden jedoch unter erheblichen Rechnereffizienzbeschränkungen aufgrund des Phänomens des "Überdenken". Bestehende Effizienzoptimierungsmethoden für Reasoning stehen vor der Herausforderung, ein Gleichgewicht zwischen Reasoning-Qualität und Kostenreduktion zu finden. Dieses Paper präsentiert Adaptive Reasoning Suppression (ARS), eine neuartige trainingsfreie Methode, die durch adaptive deterministische Überwachung redundante Reasoning-Schritte dynamisch unterdrückt und gleichzeitig die Genauigkeit bewahrt. ARS führt einen Multi-Checkpoint-Determinismus-Schätzmechanismus und progressive Suppressionsschwellwerte ein und erreicht damit bessere Effizienz im Vergleich zu statischen Suppressionsmethoden. In mathematischen Reasoning-Benchmarks über mehrere Modellarchitekturen hinweg erreicht ARS Reduktionen von bis zu 53% bei Tokens, 46,1% bei Latenz und 57,9% bei Energieverbrauch, während gleichzeitig die Genauigkeit beibehalten oder verbessert wird.

Forschungshintergrund und Motivation

Problembeschreibung

Große Reasoning-Modelle (LRMs) wie OpenAIs o1/o3 und DeepSeek-R1 haben durch komplexe Chain-of-Thought (CoT) Reasoning-Mechanismen revolutionäre Fortschritte bei komplexen Aufgaben wie Mathematik, Programmierung und wissenschaftlichem Reasoning erzielt. Diese Modelle weisen jedoch ein ernstes "Überdenken"-Phänomen auf, bei dem das Modell nach Erreichen einer korrekten Zwischenlösung weiterhin redundante Reasoning-Schritte generiert.

Bedeutung des Problems

Das Überdenken-Phänomen führt zu:

Übermäßiger Rechenaufwand: Unnötig lange Reasoning-Zeiten
Ressourcenverschwendung: Erhöhter Token-Verbrauch und Rechenkosten
Ineffizienz: Beeinträchtigung der praktischen Bereitstellung und Anwendung

Einschränkungen bestehender Methoden

Bestehende Lösungen lassen sich in drei Kategorien einteilen:

Prompt-gesteuerte Methoden: Führen das Modell innerhalb vordefinierter Token-Budgets
Trainingsbasierte Methoden: Fine-Tuning von Modellen für prägnantes Reasoning
Dekodierungs-Operationsmethoden: Dynamische Anpassung des Reasoning-Prozesses

Diese Methoden weisen allgemein statische Schwellwerte und mangelnde Adaptivität auf.

Forschungsmotivation

Dieses Paper zielt darauf ab, eine trainingsunabhängige adaptive Methode zu entwickeln, die:

Modell-Determinismus dynamisch überwacht
Suppressionsstärke progressiv anpasst
Effizienz erheblich verbessert, während Reasoning-Qualität bewahrt bleibt

Kernbeiträge

ARS-Framework: Erste auf adaptivem Determinismus basierende Reasoning-Suppressionsmethode mit dynamischer Suppressionsdurchsetzung durch progressive Schwellwertanpassung
Multi-Checkpoint-Mechanismus: Etabliert mehrere Checkpoints für Determinismus-Schätzung und überwindet Einschränkungen der Einzelpunkt-Bewertung
Theoretische Garantien: Bietet theoretische Analyse und Effizienzgarantien für ARS-Leistung
Umfassende Bewertung: Validiert Methodeneffektivität über mehrere Modellarchitekturen und mathematische Reasoning-Benchmarks
Signifikante Leistungsverbesserungen: Erreicht erhebliche Reduktionen bei Tokens, Latenz und Energieverbrauch bei gleichzeitiger Genauigkeitsbeibehaltung

Methodische Details

Aufgabendefinition

Gegeben eine Reasoning-Anfrage q und ein großes Reasoning-Sprachmodell π, produziert der Standard-Generierungsprozess Ausgabe-Tokens o = {o₁, o₂, ..., oₜ}, wobei oₜ ~ π(·|q, o<ₜ). Das Ziel ist die Minimierung der erwarteten Ausgabelänge ET bei Beibehaltung der Reasoning-Genauigkeit:

min E[T] subject to E[L(f(o), y)] ≤ ε

wobei f(o) die endgültige Antwort aus der Ausgabe o extrahiert, y die wahre Antwort ist, L die Verlustfunktion ist und ε der akzeptable Genauigkeitsverschlechterungsschwellwert ist.

Modellarchitektur

Das ARS-Framework enthält drei Kernkomponenten:

1. Multi-Checkpoint-Determinismus-Schätzung

Etabliert mehrere Checkpoints {c₁, c₂, ..., cₖ} während des Generierungsprozesses
Schätzt Modell-Determinismus an jedem Checkpoint cᵢ durch Sondierungsantworten
Verwendet heuristische Schwierigkeitsschätzfunktion:

D(q) = 0,4 · min(1, |q|words/80) + 0,4 · Σcount(k,q)/(3|K|) + 0,2 · min(1, |symbols(q)|/10)

2. Progressive Schwellwertanpassung

Passt Suppressionsschwellwerte dynamisch basierend auf Reasoning-Fortschrittsmuster an
Anpassung basierend auf Determinismus-Trends
Unterstützt drei Modi: FAST, MOD, DeepReflect

3. Dynamischer Suppressionsmechanismus

Adaptive Kontrolle der Suppressionsstärke
Basierend auf Trigger-Wort-Menge T = {"Wait", "But", "Alternatively", ...}
Unterdrückt Reflexionsverhalten bei Erkennung hohen Determinismus

Technische Innovationen

Adaptivität: Im Gegensatz zu statischen Suppressionsmethoden passt sich ARS dynamisch an die Reasoning-Trajektorie jedes Modells an
Multi-Checkpoint-Design: Überwindet Instabilität der Einzelpunkt-Bewertung
Progressive Anpassung: Passt Suppressionsstrategie dynamisch basierend auf Determinismus-Trends an
Trainingsfreie Eigenschaft: Kann direkt auf bestehende Modelle ohne zusätzliches Fine-Tuning angewendet werden

Theoretische Analyse

Theorem 1 (Effizienzgarantie): Für Anfragen mit Reasoning-Komplexität R(q) ≤ Rmax erfüllt die von ARS produzierte Ausgabelänge TARS:

E[TARS] ≤ (1 + εR) · T* + O(√log Rmax)

mit Wahrscheinlichkeit mindestens 1-δ, wobei εR → 0 mit zunehmender Checkpoint-Anzahl.

Experimentelles Setup

Datensätze

GSM8K: Datensatz für mathematische Anwendungsaufgaben der Grundschule
MATH500: Mathematische Wettbewerbsprobleme auf Gymnasial- und Universitätsniveau
Jeder Datensatz bewertet n=200 Probleme

Bewertungsmetriken

Acc↑: Genauigkeit (höher ist besser)
Lat↓: Latenz (Sekunden, niedriger ist besser)
TPC↓: Tokens pro korrekter Antwort (niedriger ist besser)
JPC↓: Joule pro korrekter Antwort (niedriger ist besser)

Vergleichsmethoden

Vanilla: Standard-Generierung
TALE: Token-bewusste Längenbeschränkungs-Reasoning
CGRS: Konfidenz-gesteuertes Reasoning-Suppression

Implementierungsdetails

Modelle: Qwen2.5-Math-1.5B/7B-Instruct, DeepSeek-R1-Distill-Qwen-7B
Hardware: V100-32GB GPU
Maximales Token-Limit: 1200 Tokens pro Antwort

Experimentelle Ergebnisse

Hauptergebnisse

Leistung auf GSM8K-Datensatz:

Qwen-1.5B: Genauigkeit 91,0%, Latenzreduktion 27,3%, Token-Reduktion 22,5%, Energieverbrauchsreduktion 24,5%
Qwen-7B: Genauigkeit 94,5% (Verbesserung um 8%), Latenzreduktion 6,3%, Token-Reduktion 16,7%, Energieverbrauchsreduktion 14,3%
DeepSeek-7B: Genauigkeit 93,0%, Latenzreduktion 46,1%, Token-Reduktion 43,5%, Energieverbrauchsreduktion 46,6%

Leistung auf MATH500-Datensatz:

Auf dem anspruchsvolleren MATH500 erreicht ARS ebenfalls signifikante Effizienzverbesserungen
Token-Reduktion auf DeepSeek-7B-Modell erreicht bis zu 53,0%

Wichtige Erkenntnisse

Variable Effizienzgewinne: ARS zeigt kontextabhängige Leistungsverbesserungen mit maximalen Token-Reduktionen von 53%
Genauigkeitsbeibehaltung: Trotz Effizienzorientierung behält ARS wettbewerbsfähige Genauigkeitsraten über alle Benchmarks hinweg
Architekturabhängige Leistung: DeepSeek-7B zeigt die konsistentesten Verbesserungen, während Qwen-Modelle variablere Leistung aufweisen
Multi-Metrik-Verbesserung: Neben Token-Reduktion werden auch Latenzreduktion von 46,1% und Energieeinsparungen von 57,9% erreicht

Fallstudienanalyse

Das Paper demonstriert die Effektivität von ARS anhand eines geometrischen Sequenzproblems aus MATH500:

Schwierigkeitsbewusste Modusauswahl wählt angemessene Reasoning-Tiefe
Progressive Determinismus-Überwachung erkennt früh stabile Konfidenz
Adaptive Suppression wird aggressiver, wenn sich Konfidenz aufbaut
Trend-basierte Anpassung verhindert unnötige Reflexionsschleifen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

ARS löst erfolgreich Schlüsselbeschränkungen bestehender Methoden durch Integration von adaptiver Determinismus-Überwachung, progressiver Schwellwertanpassung und dynamischer Suppressionsstärkenkontrolle. Experimente zeigen, dass ARS signifikante Verbesserungen der Recheneffizienz erreicht, während Genauigkeit beibehalten oder verbessert wird.

Einschränkungen

Maximale Generierungslängenbeschränkung: Das 1200-Token-Limit könnte die Genauigkeit bei komplexen Problemen beeinträchtigen
Architekturabhängigkeit: Erhebliche Leistungsunterschiede über verschiedene Modellarchitekturen hinweg
Bewertungsumfang: Konzentriert sich hauptsächlich auf mathematische Reasoning-Aufgaben

Zukünftige Richtungen

Erweiterung auf breitere Reasoning-Paradigmen jenseits mathematischer Problemlösung
Erforschung von Checkpoint-bewussten Planungsstrategien
Entwicklung reichhaltigerer Determinismus-Schätzmechanismen für spezifisches Modellverhalten

Tiefgreifende Bewertung

Stärken

Methodische Innovativität: Erstmals das Konzept der adaptiven Reasoning-Suppression vorgeschlagen mit neuartiger technischer Route
Theoretische Grundlage: Bietet theoretische Analyse und Leistungsgarantien
Experimentelle Vollständigkeit: Umfassende Bewertung über mehrere Modelle und Datensätze
Praktischer Wert: Trainingsfreie Eigenschaft ermöglicht einfache Bereitstellung
Signifikante Leistung: Erreicht große Verbesserungen bei Effizienzmetriken

Mängel

Bewertungsbeschränkungen: Hauptsächlich auf mathematische Reasoning-Aufgaben bewertet, Generalisierbarkeit zu überprüfen
Begrenzte Baseline-Vergleiche: Relativ wenige Vergleichsmethoden, fehlende neuere Methoden
Theoretische Analyse: Theoretische Garantiebeweise zu kurz gefasst
Parametersensitivität: Fehlende Sensitivitätsanalyse für Schlüsselhyperparameter
Rechenaufwand: Unzureichende Analyse des Rechenaufwands des Multi-Checkpoint-Mechanismus selbst

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtung für Reasoning-Effizienzoptimierung
Praktischer Wert: Von großer Bedeutung für Großmodell-Bereitstellung
Reproduzierbarkeit: Klare Algorithmusbeschreibung, leicht zu reproduzieren

Anwendungsszenarien

Ressourcenbegrenzte Umgebungen: Mobile Geräte, Edge-Computing und ähnliche Szenarien
Echtzeit-Anwendungen: Reasoning-Aufgaben, die schnelle Reaktion erfordern
Kostensensitive Anwendungen: Geschäftsanwendungen, die Rechenkosten kontrollieren müssen
Mathematische Reasoning-Aufgaben: Primäres aktuell validiertes Anwendungsgebiet

Referenzen

Das Paper zitiert 21 relevante Referenzen, die wichtige Arbeiten in den Bereichen großer Sprachmodell-Reasoning, Chain-of-Thought und mathematischer Problemlösung abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein Paper mit wichtigen Beiträgen zur Effizienzoptimierung großer Reasoning-Modelle. Die ARS-Methode ist elegant gestaltet, die Experimenteergebnisse überzeugend, und sie bietet eine effektive Lösung für das Überdenken-Problem in Reasoning-Modellen. Trotz einiger Einschränkungen machen ihre Innovativität und praktischer Wert sie zu einem wichtigen Fortschritt in diesem Bereich.

ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

Grundlegende Informationen

Zusammenfassung

Forschungshintergrund und Motivation

Problembeschreibung

Bedeutung des Problems

Einschränkungen bestehender Methoden

Forschungsmotivation

Kernbeiträge

Methodische Details

Aufgabendefinition

Modellarchitektur

1. Multi-Checkpoint-Determinismus-Schätzung

2. Progressive Schwellwertanpassung

3. Dynamischer Suppressionsmechanismus

Technische Innovationen

Theoretische Analyse

Experimentelles Setup

Datensätze

Bewertungsmetriken

Vergleichsmethoden

Implementierungsdetails

Experimentelle Ergebnisse

Hauptergebnisse

Wichtige Erkenntnisse

Fallstudienanalyse

Verwandte Arbeiten

Hauptforschungsrichtungen

Vorteile dieses Papers

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Einschränkungen

Zukünftige Richtungen

Tiefgreifende Bewertung

Stärken

Mängel

Auswirkungen

Anwendungsszenarien

Referenzen