ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models
Zheng
Large Reasoning Language Models (LRLMs or LRMs) demonstrate remarkable capabilities in complex reasoning tasks, but suffer from significant computational inefficiencies due to overthinking phenomena. Existing efficient reasoning methods face the challenge of balancing reasoning quality with inference cost reduction. We propose \textbf{Adaptive Reasoning Suppression (ARS)}, a novel training-free approach that dynamically suppresses redundant reasoning steps while preserving accuracy through adaptive certainty monitoring. ARS introduces a multi-checkpoint certainty estimation mechanism with progressive suppression thresholds, achieving superior efficiency compared to static suppression methods. Our extensive evaluation across mathematical reasoning benchmarks using multiple model architectures demonstrates that ARS achieves up to 53%, 46.1%, and 57.9% in token, latency and energy reduction, while maintaining or improving accuracy.
academic
ARS: Supresión Adaptativa de Razonamiento para Modelos de Lenguaje de Razonamiento Extenso Eficientes
Los modelos de lenguaje de razonamiento extenso (LRLMs) demuestran capacidades excepcionales en tareas de razonamiento complejo, pero enfrentan problemas significativos de eficiencia computacional debido al fenómeno de "pensamiento excesivo". Los métodos de razonamiento eficiente existentes enfrentan el desafío de equilibrar la calidad del razonamiento con la reducción de costos de razonamiento. Este artículo propone Supresión Adaptativa de Razonamiento (ARS), un método novedoso sin entrenamiento que suprime dinámicamente pasos de razonamiento redundantes mediante monitoreo determinista adaptativo, manteniendo simultáneamente la precisión. ARS introduce un mecanismo de estimación determinista de múltiples puntos de control y umbrales de supresión progresiva, logrando una eficiencia superior en comparación con métodos de supresión estática. En puntos de referencia de razonamiento matemático en múltiples arquitecturas de modelos, ARS logra reducciones de hasta 53%, 46.1% y 57.9% en tokens, latencia y consumo de energía respectivamente, mientras mantiene o mejora la precisión.
Los modelos de razonamiento extenso (LRMs) como o1/o3 de OpenAI y DeepSeek-R1 han logrado avances revolucionarios en tareas complejas como matemáticas, programación e razonamiento científico mediante mecanismos sofisticados de cadena de pensamiento (CoT). Sin embargo, estos modelos sufren del grave fenómeno de "pensamiento excesivo", donde el modelo continúa generando pasos de razonamiento redundantes incluso después de haber obtenido la solución intermedia correcta.
Propuesta del Marco ARS: primer método de supresión de razonamiento guiado por determinismo adaptativo, logrando supresión dinámica mediante ajuste de umbral progresivo
Mecanismo de Múltiples Puntos de Control: establece múltiples puntos de control para estimación determinista, superando las limitaciones de evaluación de punto único
Garantías Teóricas: proporciona análisis teórico y garantías de eficiencia del desempeño de ARS
Evaluación Integral: verifica la efectividad del método en múltiples arquitecturas de modelos y puntos de referencia de razonamiento matemático
Mejora de Desempeño Significativa: logra reducciones sustanciales en tokens, latencia y consumo de energía mientras mantiene la precisión
Dado una consulta de razonamiento q y un modelo de lenguaje de razonamiento extenso π, el proceso de generación estándar produce tokens de salida o = {o₁, o₂, ..., oₜ}, donde oₜ ~ π(·|q, o<ₜ). El objetivo es minimizar la longitud de salida esperada ET mientras se mantiene la precisión del razonamiento:
min E[T] subject to E[L(f(o), y)] ≤ ε
donde f(o) extrae la respuesta final de la salida o, y es la respuesta verdadera, L es la función de pérdida, y ε es el umbral de degradación de precisión aceptable.
Teorema 1 (Garantía de Eficiencia): Para consultas con complejidad de razonamiento R(q) ≤ Rmax, la longitud de salida TARS producida por ARS satisface:
E[TARS] ≤ (1 + εR) · T* + O(√log Rmax)
con probabilidad al menos 1-δ, donde εR → 0 conforme aumenta el número de puntos de control.
ARS resuelve exitosamente las limitaciones clave de métodos existentes mediante la integración de monitoreo determinista adaptativo, ajuste de umbral progresivo y control de intensidad de supresión dinámica. Los experimentos demuestran que ARS logra mejoras significativas de eficiencia computacional mientras mantiene o mejora la precisión.
El artículo cita 21 referencias relacionadas, cubriendo trabajos importantes en campos como razonamiento de modelos de lenguaje extenso, cadena de pensamiento, resolución de problemas matemáticos, etc., proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo con contribuciones importantes en optimización de eficiencia de modelos de razonamiento extenso. El método ARS está ingeniosamente diseñado, los resultados experimentales son convincentes, y proporciona una solución efectiva para el problema de pensamiento excesivo en modelos de razonamiento. Aunque existen algunas limitaciones, su innovación y valor práctico lo convierten en un progreso importante en este campo.