2025-11-10T02:49:44.009603

ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

Zheng
Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.
academic

ARS: Soppressione Adattiva del Ragionamento per Modelli Linguistici di Ragionamento Esteso Efficienti

Informazioni Fondamentali

  • ID Articolo: 2510.00071
  • Titolo: ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
  • Autore: Dongqi Zheng (Ricercatore Indipendente)
  • Classificazione: cs.AI cs.CL
  • Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.00071v2

Riassunto

I modelli linguistici di ragionamento esteso (LRLMs) dimostrano capacità eccezionali nei compiti di ragionamento complesso, ma presentano significativi problemi di efficienza computazionale dovuti al fenomeno del "sovrapensiero". I metodi di ragionamento efficienti esistenti affrontano la sfida di bilanciare la qualità del ragionamento con la riduzione dei costi di ragionamento. Questo articolo propone la Soppressione Adattiva del Ragionamento (ARS), un metodo innovativo senza addestramento che sopprime adattivamente i passaggi di ragionamento ridondanti attraverso il monitoraggio deterministico dinamico, mantenendo al contempo l'accuratezza. ARS introduce un meccanismo di stima deterministica multi-checkpoint e soglie di soppressione progressive, ottenendo un'efficienza superiore rispetto ai metodi di soppressione statica. Nei benchmark di ragionamento matematico su architetture di modelli diversi, ARS realizza riduzioni fino al 53%, 46,1% e 57,9% rispettivamente in token, latenza e consumo energetico, mantenendo o migliorando l'accuratezza.

Contesto di Ricerca e Motivazione

Definizione del Problema

I modelli di ragionamento esteso (LRMs) come o1/o3 di OpenAI e DeepSeek-R1 hanno ottenuto progressi rivoluzionari in compiti complessi come matematica, programmazione e ragionamento scientifico attraverso meccanismi sofisticati di ragionamento a catena di pensiero (CoT). Tuttavia, questi modelli soffrono del grave fenomeno del "sovrapensiero", in cui il modello continua a generare passaggi di ragionamento ridondanti anche dopo aver già ottenuto la soluzione intermedia corretta.

Importanza del Problema

Il fenomeno del sovrapensiero causa:

  1. Costi computazionali eccessivi: tempi di ragionamento inutilmente lunghi
  2. Spreco di risorse: aumento del consumo di token e dei costi computazionali
  3. Inefficienza: impatto sulla distribuzione pratica e sull'applicazione

Limitazioni dei Metodi Esistenti

Le soluzioni esistenti si dividono in tre categorie:

  1. Metodi guidati da prompt: guidano il ragionamento del modello entro budget di token predefiniti
  2. Metodi basati su addestramento: ottimizzano il modello tramite fine-tuning per ragionamento conciso
  3. Metodi di operazioni di decodifica: regolano dinamicamente il processo di ragionamento

Questi metodi presentano universalmente problemi di soglie statiche e mancanza di adattabilità.

Motivazione della Ricerca

Questo articolo mira a sviluppare un metodo indipendente dall'addestramento che sia adattivo e in grado di:

  • Monitorare dinamicamente il determinismo del modello
  • Regolare progressivamente l'intensità di soppressione
  • Migliorare significativamente l'efficienza mantenendo la qualità del ragionamento

Contributi Principali

  1. Propone il framework ARS: primo metodo di soppressione del ragionamento guidato da determinismo adattivo, che realizza la soppressione dinamica attraverso l'aggiustamento di soglie progressive
  2. Meccanismo multi-checkpoint: stabilisce più checkpoint per la stima deterministica, superando i limiti della valutazione a punto singolo
  3. Garanzie teoriche: fornisce analisi teorica e garanzie di efficienza delle prestazioni di ARS
  4. Valutazione completa: verifica l'efficacia del metodo su architetture di modelli multipli e benchmark di ragionamento matematico
  5. Miglioramenti significativi delle prestazioni: realizza riduzioni sostanziali in token, latenza e consumo energetico mantenendo l'accuratezza

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un query di ragionamento q e un grande modello linguistico di ragionamento π, il processo di generazione standard produce token di output o = {o₁, o₂, ..., oₜ}, dove oₜ ~ π(·|q, o<ₜ). L'obiettivo è minimizzare la lunghezza di output attesa ET mantenendo l'accuratezza del ragionamento:

min E[T] subject to E[L(f(o), y)] ≤ ε

dove f(o) estrae la risposta finale dall'output o, y è la risposta vera, L è la funzione di perdita, e ε è la soglia di degradazione dell'accuratezza accettabile.

Architettura del Modello

Il framework ARS contiene tre componenti principali:

1. Stima Deterministica Multi-Checkpoint

  • Stabilisce più checkpoint {c₁, c₂, ..., cₖ} durante il processo di generazione
  • Stima il determinismo del modello in ogni checkpoint cᵢ attraverso sondaggio di risposte provvisorie
  • Utilizza la funzione di stima della difficoltà euristica:
D(q) = 0.4 · min(1, |q|words/80) + 0.4 · Σcount(k,q)/(3|K|) + 0.2 · min(1, |symbols(q)|/10)

2. Adattamento Progressivo della Soglia

  • Regola dinamicamente la soglia di soppressione in base al modello di progressione del ragionamento
  • Regolazione adattiva basata sulle tendenze di determinismo
  • Supporta tre modalità: FAST, MOD, DeepReflect

3. Meccanismo di Soppressione Dinamica

  • Controllo adattivo dell'intensità di soppressione
  • Basato su un insieme di parole trigger T = {"Wait", "But", "Alternatively", ...}
  • Sopprime il comportamento riflessivo quando viene rilevato un alto determinismo

Punti di Innovazione Tecnica

  1. Adattabilità: A differenza dei metodi di soppressione statica, ARS si adatta dinamicamente in base alla traiettoria di ragionamento di ogni modello
  2. Progettazione multi-checkpoint: supera l'instabilità della valutazione a punto singolo
  3. Aggiustamento progressivo: regola dinamicamente la strategia di soppressione in base alle tendenze di determinismo
  4. Caratteristica senza addestramento: può essere distribuita direttamente ai modelli esistenti senza ulteriore fine-tuning

Analisi Teorica

Teorema 1 (Garanzia di Efficienza): Per query con complessità di ragionamento R(q) ≤ Rmax, la lunghezza di output prodotta da ARS TARS soddisfa:

E[TARS] ≤ (1 + εR) · T* + O(√log Rmax)

con probabilità almeno 1-δ, dove εR → 0 all'aumentare del numero di checkpoint.

Configurazione Sperimentale

Dataset

  • GSM8K: dataset di problemi di applicazione matematica della scuola primaria
  • MATH500: problemi di competizione matematica di livello scuola superiore e università
  • Valutazione di n=200 problemi per ogni dataset

Metriche di Valutazione

  • Acc↑: Accuratezza (più alto è meglio)
  • Lat↓: Latenza (secondi, più basso è meglio)
  • TPC↓: Token per risposta corretta (più basso è meglio)
  • JPC↓: Joule per risposta corretta (più basso è meglio)

Metodi di Confronto

  1. Vanilla: generazione standard
  2. TALE: ragionamento con vincolo di lunghezza consapevole dei token
  3. CGRS: soppressione del ragionamento guidata dalla confidenza

Dettagli di Implementazione

  • Modelli: Qwen2.5-Math-1.5B/7B-Instruct, DeepSeek-R1-Distill-Qwen-7B
  • Hardware: GPU V100-32GB
  • Limite massimo di token: 1200 token per risposta

Risultati Sperimentali

Risultati Principali

Prestazioni sul Dataset GSM8K:

  • Qwen-1.5B: Accuratezza 91,0%, riduzione latenza 27,3%, riduzione token 22,5%, riduzione consumo energetico 24,5%
  • Qwen-7B: Accuratezza 94,5% (miglioramento 8%), riduzione latenza 6,3%, riduzione token 16,7%, riduzione consumo energetico 14,3%
  • DeepSeek-7B: Accuratezza 93,0%, riduzione latenza 46,1%, riduzione token 43,5%, riduzione consumo energetico 46,6%

Prestazioni sul Dataset MATH500:

  • Su MATH500 più impegnativo, ARS realizza comunque miglioramenti significativi di efficienza
  • Sul modello DeepSeek-7B, la riduzione di token raggiunge il 53,0%

Scoperte Chiave

  1. Guadagni di Efficienza Variabili: ARS dimostra miglioramenti delle prestazioni dipendenti dal contesto, con riduzione massima di token del 53%
  2. Mantenimento dell'Accuratezza: Nonostante l'orientamento verso l'efficienza, ARS mantiene tassi di accuratezza competitivi su tutti i benchmark
  3. Prestazioni Dipendenti dall'Architettura: DeepSeek-7B mostra i miglioramenti più coerenti, mentre i modelli Qwen mostrano prestazioni più variabili
  4. Miglioramento Multi-Metrica: Oltre ai token, realizza riduzione della latenza del 46,1% e risparmio energetico del 57,9%

Analisi di Casi

L'articolo dimostra l'efficacia di ARS attraverso un problema di sequenza geometrica da MATH500:

  • La selezione della modalità consapevole della difficoltà sceglie la profondità di ragionamento appropriata
  • Il monitoraggio deterministico progressivo rileva precocemente la stabilità della confidenza
  • La soppressione adattiva diventa più aggressiva man mano che la confidenza si stabilisce
  • L'aggiustamento basato su tendenze previene cicli di riflessione non necessari

Lavori Correlati

Principali Direzioni di Ricerca

  1. Metodi di ingegneria dei prompt: guidano il modello a ragionare entro budget attraverso istruzioni
  2. Ottimizzazione dell'addestramento del modello: addestrano il modello a generare ragionamento conciso
  3. Strategie di decodifica: regolano dinamicamente il processo di ragionamento

Vantaggi di Questo Articolo

  • La progettazione senza addestramento consente la distribuzione immediata
  • Il meccanismo adattivo fornisce un bilanciamento qualità-efficienza più raffinato
  • Il meccanismo multi-checkpoint migliora la stabilità

Conclusioni e Discussione

Conclusioni Principali

ARS risolve con successo le limitazioni chiave dei metodi esistenti integrando il monitoraggio deterministico adattivo, l'aggiustamento progressivo della soglia e il controllo dell'intensità di soppressione dinamica. Gli esperimenti dimostrano che ARS realizza miglioramenti significativi dell'efficienza computazionale mantenendo o migliorando l'accuratezza.

Limitazioni

  1. Limite di Lunghezza di Generazione Massima: il limite di 1200 token potrebbe influire sull'accuratezza di problemi complessi
  2. Dipendenza dall'Architettura: prestazioni significativamente diverse su architetture di modelli diversi
  3. Portata di Valutazione: principalmente concentrata su compiti di ragionamento matematico

Direzioni Future

  1. Estensione a paradigmi di ragionamento più ampi oltre la risoluzione di problemi matematici
  2. Esplorazione di strategie di pianificazione consapevoli dei checkpoint
  3. Sviluppo di meccanismi di stima deterministica più ricchi per comportamenti specifici del modello

Valutazione Approfondita

Punti di Forza

  1. Innovazione del Metodo: primo a proporre il concetto di soppressione del ragionamento adattivo, con percorso tecnico innovativo
  2. Fondamento Teorico: fornisce analisi teorica e garanzie di prestazioni
  3. Completezza Sperimentale: valutazione completa su modelli multipli e dataset multipli
  4. Valore Pratico: la caratteristica senza addestramento rende facile la distribuzione
  5. Prestazioni Significative: realizza miglioramenti sostanziali nelle metriche di efficienza

Insufficienze

  1. Limitazioni di Valutazione: valutazione principalmente su compiti di ragionamento matematico, la generalizzabilità rimane da verificare
  2. Confronto di Baseline: metodi di confronto relativamente limitati, mancano confronti con metodi più recenti
  3. Analisi Teorica: le prove delle garanzie teoriche sono troppo sommarie
  4. Sensibilità dei Parametri: manca l'analisi di sensibilità dei parametri chiave
  5. Costi Computazionali: l'analisi del costo computazionale del meccanismo multi-checkpoint è insufficiente

Impatto

  1. Contributo Accademico: fornisce una nuova direzione di ricerca per l'ottimizzazione dell'efficienza del ragionamento
  2. Valore Pratico: ha importanza significativa per la distribuzione di modelli di grandi dimensioni
  3. Riproducibilità: la descrizione dell'algoritmo è chiara e facile da riprodurre

Scenari Applicabili

  1. Ambienti con Risorse Limitate: dispositivi mobili, edge computing e altri scenari
  2. Applicazioni in Tempo Reale: compiti di ragionamento che richiedono risposte rapide
  3. Applicazioni Sensibili ai Costi: applicazioni commerciali che necessitano di controllo dei costi computazionali
  4. Compiti di Ragionamento Matematico: principale dominio di applicazione verificato attualmente

Bibliografia

L'articolo cita 21 riferimenti correlati, coprendo importanti lavori nei campi del ragionamento dei modelli linguistici di grandi dimensioni, catena di pensiero, risoluzione di problemi matematici e altri campi correlati, fornendo una base teorica solida per la ricerca.


Valutazione Complessiva: Questo è un articolo con contributi importanti nell'ottimizzazione dell'efficienza dei modelli di ragionamento esteso. Il metodo ARS è ingegnosamente progettato, i risultati sperimentali sono convincenti e fornisce una soluzione efficace al problema del sovrapensiero nei modelli di ragionamento. Nonostante alcune limitazioni, la sua innovazione e il valore pratico lo rendono un progresso importante in questo campo.