2025-11-10T02:49:44.009603

ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

Zheng
Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.
academic

ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

Grundlegende Informationen

  • Paper-ID: 2510.00071
  • Titel: ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
  • Autor: Dongqi Zheng (Independent Researcher)
  • Klassifizierung: cs.AI cs.CL
  • Veröffentlichungsdatum: 10. Oktober 2025 (arXiv preprint)
  • Paper-Link: https://arxiv.org/abs/2510.00071v2

Zusammenfassung

Große Reasoning-Sprachmodelle (LRLMs) zeigen außergewöhnliche Fähigkeiten bei komplexen Reasoning-Aufgaben, leiden jedoch unter erheblichen Rechnereffizienzbeschränkungen aufgrund des Phänomens des "Überdenken". Bestehende Effizienzoptimierungsmethoden für Reasoning stehen vor der Herausforderung, ein Gleichgewicht zwischen Reasoning-Qualität und Kostenreduktion zu finden. Dieses Paper präsentiert Adaptive Reasoning Suppression (ARS), eine neuartige trainingsfreie Methode, die durch adaptive deterministische Überwachung redundante Reasoning-Schritte dynamisch unterdrückt und gleichzeitig die Genauigkeit bewahrt. ARS führt einen Multi-Checkpoint-Determinismus-Schätzmechanismus und progressive Suppressionsschwellwerte ein und erreicht damit bessere Effizienz im Vergleich zu statischen Suppressionsmethoden. In mathematischen Reasoning-Benchmarks über mehrere Modellarchitekturen hinweg erreicht ARS Reduktionen von bis zu 53% bei Tokens, 46,1% bei Latenz und 57,9% bei Energieverbrauch, während gleichzeitig die Genauigkeit beibehalten oder verbessert wird.

Forschungshintergrund und Motivation

Problembeschreibung

Große Reasoning-Modelle (LRMs) wie OpenAIs o1/o3 und DeepSeek-R1 haben durch komplexe Chain-of-Thought (CoT) Reasoning-Mechanismen revolutionäre Fortschritte bei komplexen Aufgaben wie Mathematik, Programmierung und wissenschaftlichem Reasoning erzielt. Diese Modelle weisen jedoch ein ernstes "Überdenken"-Phänomen auf, bei dem das Modell nach Erreichen einer korrekten Zwischenlösung weiterhin redundante Reasoning-Schritte generiert.

Bedeutung des Problems

Das Überdenken-Phänomen führt zu:

  1. Übermäßiger Rechenaufwand: Unnötig lange Reasoning-Zeiten
  2. Ressourcenverschwendung: Erhöhter Token-Verbrauch und Rechenkosten
  3. Ineffizienz: Beeinträchtigung der praktischen Bereitstellung und Anwendung

Einschränkungen bestehender Methoden

Bestehende Lösungen lassen sich in drei Kategorien einteilen:

  1. Prompt-gesteuerte Methoden: Führen das Modell innerhalb vordefinierter Token-Budgets
  2. Trainingsbasierte Methoden: Fine-Tuning von Modellen für prägnantes Reasoning
  3. Dekodierungs-Operationsmethoden: Dynamische Anpassung des Reasoning-Prozesses

Diese Methoden weisen allgemein statische Schwellwerte und mangelnde Adaptivität auf.

Forschungsmotivation

Dieses Paper zielt darauf ab, eine trainingsunabhängige adaptive Methode zu entwickeln, die:

  • Modell-Determinismus dynamisch überwacht
  • Suppressionsstärke progressiv anpasst
  • Effizienz erheblich verbessert, während Reasoning-Qualität bewahrt bleibt

Kernbeiträge

  1. ARS-Framework: Erste auf adaptivem Determinismus basierende Reasoning-Suppressionsmethode mit dynamischer Suppressionsdurchsetzung durch progressive Schwellwertanpassung
  2. Multi-Checkpoint-Mechanismus: Etabliert mehrere Checkpoints für Determinismus-Schätzung und überwindet Einschränkungen der Einzelpunkt-Bewertung
  3. Theoretische Garantien: Bietet theoretische Analyse und Effizienzgarantien für ARS-Leistung
  4. Umfassende Bewertung: Validiert Methodeneffektivität über mehrere Modellarchitekturen und mathematische Reasoning-Benchmarks
  5. Signifikante Leistungsverbesserungen: Erreicht erhebliche Reduktionen bei Tokens, Latenz und Energieverbrauch bei gleichzeitiger Genauigkeitsbeibehaltung

Methodische Details

Aufgabendefinition

Gegeben eine Reasoning-Anfrage q und ein großes Reasoning-Sprachmodell π, produziert der Standard-Generierungsprozess Ausgabe-Tokens o = {o₁, o₂, ..., oₜ}, wobei oₜ ~ π(·|q, o<ₜ). Das Ziel ist die Minimierung der erwarteten Ausgabelänge ET bei Beibehaltung der Reasoning-Genauigkeit:

min E[T] subject to E[L(f(o), y)] ≤ ε

wobei f(o) die endgültige Antwort aus der Ausgabe o extrahiert, y die wahre Antwort ist, L die Verlustfunktion ist und ε der akzeptable Genauigkeitsverschlechterungsschwellwert ist.

Modellarchitektur

Das ARS-Framework enthält drei Kernkomponenten:

1. Multi-Checkpoint-Determinismus-Schätzung

  • Etabliert mehrere Checkpoints {c₁, c₂, ..., cₖ} während des Generierungsprozesses
  • Schätzt Modell-Determinismus an jedem Checkpoint cᵢ durch Sondierungsantworten
  • Verwendet heuristische Schwierigkeitsschätzfunktion:
D(q) = 0,4 · min(1, |q|words/80) + 0,4 · Σcount(k,q)/(3|K|) + 0,2 · min(1, |symbols(q)|/10)

2. Progressive Schwellwertanpassung

  • Passt Suppressionsschwellwerte dynamisch basierend auf Reasoning-Fortschrittsmuster an
  • Anpassung basierend auf Determinismus-Trends
  • Unterstützt drei Modi: FAST, MOD, DeepReflect

3. Dynamischer Suppressionsmechanismus

  • Adaptive Kontrolle der Suppressionsstärke
  • Basierend auf Trigger-Wort-Menge T = {"Wait", "But", "Alternatively", ...}
  • Unterdrückt Reflexionsverhalten bei Erkennung hohen Determinismus

Technische Innovationen

  1. Adaptivität: Im Gegensatz zu statischen Suppressionsmethoden passt sich ARS dynamisch an die Reasoning-Trajektorie jedes Modells an
  2. Multi-Checkpoint-Design: Überwindet Instabilität der Einzelpunkt-Bewertung
  3. Progressive Anpassung: Passt Suppressionsstrategie dynamisch basierend auf Determinismus-Trends an
  4. Trainingsfreie Eigenschaft: Kann direkt auf bestehende Modelle ohne zusätzliches Fine-Tuning angewendet werden

Theoretische Analyse

Theorem 1 (Effizienzgarantie): Für Anfragen mit Reasoning-Komplexität R(q) ≤ Rmax erfüllt die von ARS produzierte Ausgabelänge TARS:

E[TARS] ≤ (1 + εR) · T* + O(√log Rmax)

mit Wahrscheinlichkeit mindestens 1-δ, wobei εR → 0 mit zunehmender Checkpoint-Anzahl.

Experimentelles Setup

Datensätze

  • GSM8K: Datensatz für mathematische Anwendungsaufgaben der Grundschule
  • MATH500: Mathematische Wettbewerbsprobleme auf Gymnasial- und Universitätsniveau
  • Jeder Datensatz bewertet n=200 Probleme

Bewertungsmetriken

  • Acc↑: Genauigkeit (höher ist besser)
  • Lat↓: Latenz (Sekunden, niedriger ist besser)
  • TPC↓: Tokens pro korrekter Antwort (niedriger ist besser)
  • JPC↓: Joule pro korrekter Antwort (niedriger ist besser)

Vergleichsmethoden

  1. Vanilla: Standard-Generierung
  2. TALE: Token-bewusste Längenbeschränkungs-Reasoning
  3. CGRS: Konfidenz-gesteuertes Reasoning-Suppression

Implementierungsdetails

  • Modelle: Qwen2.5-Math-1.5B/7B-Instruct, DeepSeek-R1-Distill-Qwen-7B
  • Hardware: V100-32GB GPU
  • Maximales Token-Limit: 1200 Tokens pro Antwort

Experimentelle Ergebnisse

Hauptergebnisse

Leistung auf GSM8K-Datensatz:

  • Qwen-1.5B: Genauigkeit 91,0%, Latenzreduktion 27,3%, Token-Reduktion 22,5%, Energieverbrauchsreduktion 24,5%
  • Qwen-7B: Genauigkeit 94,5% (Verbesserung um 8%), Latenzreduktion 6,3%, Token-Reduktion 16,7%, Energieverbrauchsreduktion 14,3%
  • DeepSeek-7B: Genauigkeit 93,0%, Latenzreduktion 46,1%, Token-Reduktion 43,5%, Energieverbrauchsreduktion 46,6%

Leistung auf MATH500-Datensatz:

  • Auf dem anspruchsvolleren MATH500 erreicht ARS ebenfalls signifikante Effizienzverbesserungen
  • Token-Reduktion auf DeepSeek-7B-Modell erreicht bis zu 53,0%

Wichtige Erkenntnisse

  1. Variable Effizienzgewinne: ARS zeigt kontextabhängige Leistungsverbesserungen mit maximalen Token-Reduktionen von 53%
  2. Genauigkeitsbeibehaltung: Trotz Effizienzorientierung behält ARS wettbewerbsfähige Genauigkeitsraten über alle Benchmarks hinweg
  3. Architekturabhängige Leistung: DeepSeek-7B zeigt die konsistentesten Verbesserungen, während Qwen-Modelle variablere Leistung aufweisen
  4. Multi-Metrik-Verbesserung: Neben Token-Reduktion werden auch Latenzreduktion von 46,1% und Energieeinsparungen von 57,9% erreicht

Fallstudienanalyse

Das Paper demonstriert die Effektivität von ARS anhand eines geometrischen Sequenzproblems aus MATH500:

  • Schwierigkeitsbewusste Modusauswahl wählt angemessene Reasoning-Tiefe
  • Progressive Determinismus-Überwachung erkennt früh stabile Konfidenz
  • Adaptive Suppression wird aggressiver, wenn sich Konfidenz aufbaut
  • Trend-basierte Anpassung verhindert unnötige Reflexionsschleifen

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Prompt-Engineering-Methoden: Führen Modelle durch Anweisungen innerhalb von Budgets
  2. Modelltrainingsoptimierung: Trainieren Modelle für prägnantes Reasoning
  3. Dekodierungsstrategien: Dynamische Anpassung des Reasoning-Prozesses

Vorteile dieses Papers

  • Trainingsfreies Design ermöglicht sofortige Bereitstellung
  • Adaptive Mechanismen bieten differenziertere Qualitäts-Effizienz-Abwägung
  • Multi-Checkpoint-Mechanismus verbessert Stabilität

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

ARS löst erfolgreich Schlüsselbeschränkungen bestehender Methoden durch Integration von adaptiver Determinismus-Überwachung, progressiver Schwellwertanpassung und dynamischer Suppressionsstärkenkontrolle. Experimente zeigen, dass ARS signifikante Verbesserungen der Recheneffizienz erreicht, während Genauigkeit beibehalten oder verbessert wird.

Einschränkungen

  1. Maximale Generierungslängenbeschränkung: Das 1200-Token-Limit könnte die Genauigkeit bei komplexen Problemen beeinträchtigen
  2. Architekturabhängigkeit: Erhebliche Leistungsunterschiede über verschiedene Modellarchitekturen hinweg
  3. Bewertungsumfang: Konzentriert sich hauptsächlich auf mathematische Reasoning-Aufgaben

Zukünftige Richtungen

  1. Erweiterung auf breitere Reasoning-Paradigmen jenseits mathematischer Problemlösung
  2. Erforschung von Checkpoint-bewussten Planungsstrategien
  3. Entwicklung reichhaltigerer Determinismus-Schätzmechanismen für spezifisches Modellverhalten

Tiefgreifende Bewertung

Stärken

  1. Methodische Innovativität: Erstmals das Konzept der adaptiven Reasoning-Suppression vorgeschlagen mit neuartiger technischer Route
  2. Theoretische Grundlage: Bietet theoretische Analyse und Leistungsgarantien
  3. Experimentelle Vollständigkeit: Umfassende Bewertung über mehrere Modelle und Datensätze
  4. Praktischer Wert: Trainingsfreie Eigenschaft ermöglicht einfache Bereitstellung
  5. Signifikante Leistung: Erreicht große Verbesserungen bei Effizienzmetriken

Mängel

  1. Bewertungsbeschränkungen: Hauptsächlich auf mathematische Reasoning-Aufgaben bewertet, Generalisierbarkeit zu überprüfen
  2. Begrenzte Baseline-Vergleiche: Relativ wenige Vergleichsmethoden, fehlende neuere Methoden
  3. Theoretische Analyse: Theoretische Garantiebeweise zu kurz gefasst
  4. Parametersensitivität: Fehlende Sensitivitätsanalyse für Schlüsselhyperparameter
  5. Rechenaufwand: Unzureichende Analyse des Rechenaufwands des Multi-Checkpoint-Mechanismus selbst

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung für Reasoning-Effizienzoptimierung
  2. Praktischer Wert: Von großer Bedeutung für Großmodell-Bereitstellung
  3. Reproduzierbarkeit: Klare Algorithmusbeschreibung, leicht zu reproduzieren

Anwendungsszenarien

  1. Ressourcenbegrenzte Umgebungen: Mobile Geräte, Edge-Computing und ähnliche Szenarien
  2. Echtzeit-Anwendungen: Reasoning-Aufgaben, die schnelle Reaktion erfordern
  3. Kostensensitive Anwendungen: Geschäftsanwendungen, die Rechenkosten kontrollieren müssen
  4. Mathematische Reasoning-Aufgaben: Primäres aktuell validiertes Anwendungsgebiet

Referenzen

Das Paper zitiert 21 relevante Referenzen, die wichtige Arbeiten in den Bereichen großer Sprachmodell-Reasoning, Chain-of-Thought und mathematischer Problemlösung abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein Paper mit wichtigen Beiträgen zur Effizienzoptimierung großer Reasoning-Modelle. Die ARS-Methode ist elegant gestaltet, die Experimenteergebnisse überzeugend, und sie bietet eine effektive Lösung für das Überdenken-Problem in Reasoning-Modellen. Trotz einiger Einschränkungen machen ihre Innovativität und praktischer Wert sie zu einem wichtigen Fortschritt in diesem Bereich.