ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
Zheng
Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.
academic
ARS: Soppressione Adattiva del Ragionamento per Modelli Linguistici di Ragionamento Esteso Efficienti
I modelli linguistici di ragionamento esteso (LRLMs) dimostrano capacità eccezionali nei compiti di ragionamento complesso, ma presentano significativi problemi di efficienza computazionale dovuti al fenomeno del "sovrapensiero". I metodi di ragionamento efficienti esistenti affrontano la sfida di bilanciare la qualità del ragionamento con la riduzione dei costi di ragionamento. Questo articolo propone la Soppressione Adattiva del Ragionamento (ARS), un metodo innovativo senza addestramento che sopprime adattivamente i passaggi di ragionamento ridondanti attraverso il monitoraggio deterministico dinamico, mantenendo al contempo l'accuratezza. ARS introduce un meccanismo di stima deterministica multi-checkpoint e soglie di soppressione progressive, ottenendo un'efficienza superiore rispetto ai metodi di soppressione statica. Nei benchmark di ragionamento matematico su architetture di modelli diversi, ARS realizza riduzioni fino al 53%, 46,1% e 57,9% rispettivamente in token, latenza e consumo energetico, mantenendo o migliorando l'accuratezza.
I modelli di ragionamento esteso (LRMs) come o1/o3 di OpenAI e DeepSeek-R1 hanno ottenuto progressi rivoluzionari in compiti complessi come matematica, programmazione e ragionamento scientifico attraverso meccanismi sofisticati di ragionamento a catena di pensiero (CoT). Tuttavia, questi modelli soffrono del grave fenomeno del "sovrapensiero", in cui il modello continua a generare passaggi di ragionamento ridondanti anche dopo aver già ottenuto la soluzione intermedia corretta.
Propone il framework ARS: primo metodo di soppressione del ragionamento guidato da determinismo adattivo, che realizza la soppressione dinamica attraverso l'aggiustamento di soglie progressive
Meccanismo multi-checkpoint: stabilisce più checkpoint per la stima deterministica, superando i limiti della valutazione a punto singolo
Garanzie teoriche: fornisce analisi teorica e garanzie di efficienza delle prestazioni di ARS
Valutazione completa: verifica l'efficacia del metodo su architetture di modelli multipli e benchmark di ragionamento matematico
Miglioramenti significativi delle prestazioni: realizza riduzioni sostanziali in token, latenza e consumo energetico mantenendo l'accuratezza
Dato un query di ragionamento q e un grande modello linguistico di ragionamento π, il processo di generazione standard produce token di output o = {o₁, o₂, ..., oₜ}, dove oₜ ~ π(·|q, o<ₜ). L'obiettivo è minimizzare la lunghezza di output attesa ET mantenendo l'accuratezza del ragionamento:
min E[T] subject to E[L(f(o), y)] ≤ ε
dove f(o) estrae la risposta finale dall'output o, y è la risposta vera, L è la funzione di perdita, e ε è la soglia di degradazione dell'accuratezza accettabile.
ARS risolve con successo le limitazioni chiave dei metodi esistenti integrando il monitoraggio deterministico adattivo, l'aggiustamento progressivo della soglia e il controllo dell'intensità di soppressione dinamica. Gli esperimenti dimostrano che ARS realizza miglioramenti significativi dell'efficienza computazionale mantenendo o migliorando l'accuratezza.
L'articolo cita 21 riferimenti correlati, coprendo importanti lavori nei campi del ragionamento dei modelli linguistici di grandi dimensioni, catena di pensiero, risoluzione di problemi matematici e altri campi correlati, fornendo una base teorica solida per la ricerca.
Valutazione Complessiva: Questo è un articolo con contributi importanti nell'ottimizzazione dell'efficienza dei modelli di ragionamento esteso. Il metodo ARS è ingegnosamente progettato, i risultati sperimentali sono convincenti e fornisce una soluzione efficace al problema del sovrapensiero nei modelli di ragionamento. Nonostante alcune limitazioni, la sua innovazione e il valore pratico lo rendono un progresso importante in questo campo.