2025-11-10T02:49:44.009603

ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models

Zheng

Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.

academic

ARS: Soppressione Adattiva del Ragionamento per Modelli Linguistici di Ragionamento Esteso Efficienti

Informazioni Fondamentali

ID Articolo: 2510.00071
Titolo: ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
Autore: Dongqi Zheng (Ricercatore Indipendente)
Classificazione: cs.AI cs.CL
Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.00071v2

Riassunto

I modelli linguistici di ragionamento esteso (LRLMs) dimostrano capacità eccezionali nei compiti di ragionamento complesso, ma presentano significativi problemi di efficienza computazionale dovuti al fenomeno del "sovrapensiero". I metodi di ragionamento efficienti esistenti affrontano la sfida di bilanciare la qualità del ragionamento con la riduzione dei costi di ragionamento. Questo articolo propone la Soppressione Adattiva del Ragionamento (ARS), un metodo innovativo senza addestramento che sopprime adattivamente i passaggi di ragionamento ridondanti attraverso il monitoraggio deterministico dinamico, mantenendo al contempo l'accuratezza. ARS introduce un meccanismo di stima deterministica multi-checkpoint e soglie di soppressione progressive, ottenendo un'efficienza superiore rispetto ai metodi di soppressione statica. Nei benchmark di ragionamento matematico su architetture di modelli diversi, ARS realizza riduzioni fino al 53%, 46,1% e 57,9% rispettivamente in token, latenza e consumo energetico, mantenendo o migliorando l'accuratezza.

Contesto di Ricerca e Motivazione

Definizione del Problema

I modelli di ragionamento esteso (LRMs) come o1/o3 di OpenAI e DeepSeek-R1 hanno ottenuto progressi rivoluzionari in compiti complessi come matematica, programmazione e ragionamento scientifico attraverso meccanismi sofisticati di ragionamento a catena di pensiero (CoT). Tuttavia, questi modelli soffrono del grave fenomeno del "sovrapensiero", in cui il modello continua a generare passaggi di ragionamento ridondanti anche dopo aver già ottenuto la soluzione intermedia corretta.

Importanza del Problema

Il fenomeno del sovrapensiero causa:

Costi computazionali eccessivi: tempi di ragionamento inutilmente lunghi
Spreco di risorse: aumento del consumo di token e dei costi computazionali
Inefficienza: impatto sulla distribuzione pratica e sull'applicazione

Limitazioni dei Metodi Esistenti

Le soluzioni esistenti si dividono in tre categorie:

Metodi guidati da prompt: guidano il ragionamento del modello entro budget di token predefiniti
Metodi basati su addestramento: ottimizzano il modello tramite fine-tuning per ragionamento conciso
Metodi di operazioni di decodifica: regolano dinamicamente il processo di ragionamento

Questi metodi presentano universalmente problemi di soglie statiche e mancanza di adattabilità.

Motivazione della Ricerca

Questo articolo mira a sviluppare un metodo indipendente dall'addestramento che sia adattivo e in grado di:

Monitorare dinamicamente il determinismo del modello
Regolare progressivamente l'intensità di soppressione
Migliorare significativamente l'efficienza mantenendo la qualità del ragionamento

Contributi Principali

Propone il framework ARS: primo metodo di soppressione del ragionamento guidato da determinismo adattivo, che realizza la soppressione dinamica attraverso l'aggiustamento di soglie progressive
Meccanismo multi-checkpoint: stabilisce più checkpoint per la stima deterministica, superando i limiti della valutazione a punto singolo
Garanzie teoriche: fornisce analisi teorica e garanzie di efficienza delle prestazioni di ARS
Valutazione completa: verifica l'efficacia del metodo su architetture di modelli multipli e benchmark di ragionamento matematico
Miglioramenti significativi delle prestazioni: realizza riduzioni sostanziali in token, latenza e consumo energetico mantenendo l'accuratezza

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un query di ragionamento q e un grande modello linguistico di ragionamento π, il processo di generazione standard produce token di output o = {o₁, o₂, ..., oₜ}, dove oₜ ~ π(·|q, o<ₜ). L'obiettivo è minimizzare la lunghezza di output attesa ET mantenendo l'accuratezza del ragionamento:

min E[T] subject to E[L(f(o), y)] ≤ ε

dove f(o) estrae la risposta finale dall'output o, y è la risposta vera, L è la funzione di perdita, e ε è la soglia di degradazione dell'accuratezza accettabile.

Architettura del Modello

Il framework ARS contiene tre componenti principali:

1. Stima Deterministica Multi-Checkpoint

Stabilisce più checkpoint {c₁, c₂, ..., cₖ} durante il processo di generazione
Stima il determinismo del modello in ogni checkpoint cᵢ attraverso sondaggio di risposte provvisorie
Utilizza la funzione di stima della difficoltà euristica:

D(q) = 0.4 · min(1, |q|words/80) + 0.4 · Σcount(k,q)/(3|K|) + 0.2 · min(1, |symbols(q)|/10)

2. Adattamento Progressivo della Soglia

Regola dinamicamente la soglia di soppressione in base al modello di progressione del ragionamento
Regolazione adattiva basata sulle tendenze di determinismo
Supporta tre modalità: FAST, MOD, DeepReflect

3. Meccanismo di Soppressione Dinamica

Controllo adattivo dell'intensità di soppressione
Basato su un insieme di parole trigger T = {"Wait", "But", "Alternatively", ...}
Sopprime il comportamento riflessivo quando viene rilevato un alto determinismo

Punti di Innovazione Tecnica

Adattabilità: A differenza dei metodi di soppressione statica, ARS si adatta dinamicamente in base alla traiettoria di ragionamento di ogni modello
Progettazione multi-checkpoint: supera l'instabilità della valutazione a punto singolo
Aggiustamento progressivo: regola dinamicamente la strategia di soppressione in base alle tendenze di determinismo
Caratteristica senza addestramento: può essere distribuita direttamente ai modelli esistenti senza ulteriore fine-tuning

Analisi Teorica

Teorema 1 (Garanzia di Efficienza): Per query con complessità di ragionamento R(q) ≤ Rmax, la lunghezza di output prodotta da ARS TARS soddisfa:

E[TARS] ≤ (1 + εR) · T* + O(√log Rmax)

con probabilità almeno 1-δ, dove εR → 0 all'aumentare del numero di checkpoint.

Configurazione Sperimentale

Dataset

GSM8K: dataset di problemi di applicazione matematica della scuola primaria
MATH500: problemi di competizione matematica di livello scuola superiore e università
Valutazione di n=200 problemi per ogni dataset

Metriche di Valutazione

Acc↑: Accuratezza (più alto è meglio)
Lat↓: Latenza (secondi, più basso è meglio)
TPC↓: Token per risposta corretta (più basso è meglio)
JPC↓: Joule per risposta corretta (più basso è meglio)

Metodi di Confronto

Vanilla: generazione standard
TALE: ragionamento con vincolo di lunghezza consapevole dei token
CGRS: soppressione del ragionamento guidata dalla confidenza

Dettagli di Implementazione

Modelli: Qwen2.5-Math-1.5B/7B-Instruct, DeepSeek-R1-Distill-Qwen-7B
Hardware: GPU V100-32GB
Limite massimo di token: 1200 token per risposta

Risultati Sperimentali

Risultati Principali

Prestazioni sul Dataset GSM8K:

Qwen-1.5B: Accuratezza 91,0%, riduzione latenza 27,3%, riduzione token 22,5%, riduzione consumo energetico 24,5%
Qwen-7B: Accuratezza 94,5% (miglioramento 8%), riduzione latenza 6,3%, riduzione token 16,7%, riduzione consumo energetico 14,3%
DeepSeek-7B: Accuratezza 93,0%, riduzione latenza 46,1%, riduzione token 43,5%, riduzione consumo energetico 46,6%

Prestazioni sul Dataset MATH500:

Su MATH500 più impegnativo, ARS realizza comunque miglioramenti significativi di efficienza
Sul modello DeepSeek-7B, la riduzione di token raggiunge il 53,0%

Scoperte Chiave

Guadagni di Efficienza Variabili: ARS dimostra miglioramenti delle prestazioni dipendenti dal contesto, con riduzione massima di token del 53%
Mantenimento dell'Accuratezza: Nonostante l'orientamento verso l'efficienza, ARS mantiene tassi di accuratezza competitivi su tutti i benchmark
Prestazioni Dipendenti dall'Architettura: DeepSeek-7B mostra i miglioramenti più coerenti, mentre i modelli Qwen mostrano prestazioni più variabili
Miglioramento Multi-Metrica: Oltre ai token, realizza riduzione della latenza del 46,1% e risparmio energetico del 57,9%

Analisi di Casi

L'articolo dimostra l'efficacia di ARS attraverso un problema di sequenza geometrica da MATH500:

La selezione della modalità consapevole della difficoltà sceglie la profondità di ragionamento appropriata
Il monitoraggio deterministico progressivo rileva precocemente la stabilità della confidenza
La soppressione adattiva diventa più aggressiva man mano che la confidenza si stabilisce
L'aggiustamento basato su tendenze previene cicli di riflessione non necessari

Lavori Correlati

Principali Direzioni di Ricerca

Metodi di ingegneria dei prompt: guidano il modello a ragionare entro budget attraverso istruzioni
Ottimizzazione dell'addestramento del modello: addestrano il modello a generare ragionamento conciso
Strategie di decodifica: regolano dinamicamente il processo di ragionamento

Vantaggi di Questo Articolo

La progettazione senza addestramento consente la distribuzione immediata
Il meccanismo adattivo fornisce un bilanciamento qualità-efficienza più raffinato
Il meccanismo multi-checkpoint migliora la stabilità

Conclusioni e Discussione

Conclusioni Principali

ARS risolve con successo le limitazioni chiave dei metodi esistenti integrando il monitoraggio deterministico adattivo, l'aggiustamento progressivo della soglia e il controllo dell'intensità di soppressione dinamica. Gli esperimenti dimostrano che ARS realizza miglioramenti significativi dell'efficienza computazionale mantenendo o migliorando l'accuratezza.

Limitazioni

Limite di Lunghezza di Generazione Massima: il limite di 1200 token potrebbe influire sull'accuratezza di problemi complessi
Dipendenza dall'Architettura: prestazioni significativamente diverse su architetture di modelli diversi
Portata di Valutazione: principalmente concentrata su compiti di ragionamento matematico

Direzioni Future

Estensione a paradigmi di ragionamento più ampi oltre la risoluzione di problemi matematici
Esplorazione di strategie di pianificazione consapevoli dei checkpoint
Sviluppo di meccanismi di stima deterministica più ricchi per comportamenti specifici del modello

Valutazione Approfondita

Punti di Forza

Innovazione del Metodo: primo a proporre il concetto di soppressione del ragionamento adattivo, con percorso tecnico innovativo
Fondamento Teorico: fornisce analisi teorica e garanzie di prestazioni
Completezza Sperimentale: valutazione completa su modelli multipli e dataset multipli
Valore Pratico: la caratteristica senza addestramento rende facile la distribuzione
Prestazioni Significative: realizza miglioramenti sostanziali nelle metriche di efficienza

Insufficienze

Limitazioni di Valutazione: valutazione principalmente su compiti di ragionamento matematico, la generalizzabilità rimane da verificare
Confronto di Baseline: metodi di confronto relativamente limitati, mancano confronti con metodi più recenti
Analisi Teorica: le prove delle garanzie teoriche sono troppo sommarie
Sensibilità dei Parametri: manca l'analisi di sensibilità dei parametri chiave
Costi Computazionali: l'analisi del costo computazionale del meccanismo multi-checkpoint è insufficiente

Impatto

Contributo Accademico: fornisce una nuova direzione di ricerca per l'ottimizzazione dell'efficienza del ragionamento
Valore Pratico: ha importanza significativa per la distribuzione di modelli di grandi dimensioni
Riproducibilità: la descrizione dell'algoritmo è chiara e facile da riprodurre

Scenari Applicabili

Ambienti con Risorse Limitate: dispositivi mobili, edge computing e altri scenari
Applicazioni in Tempo Reale: compiti di ragionamento che richiedono risposte rapide
Applicazioni Sensibili ai Costi: applicazioni commerciali che necessitano di controllo dei costi computazionali
Compiti di Ragionamento Matematico: principale dominio di applicazione verificato attualmente

Bibliografia

L'articolo cita 21 riferimenti correlati, coprendo importanti lavori nei campi del ragionamento dei modelli linguistici di grandi dimensioni, catena di pensiero, risoluzione di problemi matematici e altri campi correlati, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo con contributi importanti nell'ottimizzazione dell'efficienza dei modelli di ragionamento esteso. Il metodo ARS è ingegnosamente progettato, i risultati sperimentali sono convincenti e fornisce una soluzione efficace al problema del sovrapensiero nei modelli di ragionamento. Nonostante alcune limitazioni, la sua innovazione e il valore pratico lo rendono un progresso importante in questo campo.